Analyses of automated machine learning tools for application in marketing

The article investigates the problem of automating the activities of IT experts in machine learning using modern AutoML frameworks (AutoSklearn and TPOT). The aim of the work is to overcome the fundamental contradiction between the high resource intensity of manual creation of predictive pipe lines...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2026
1. Verfasser: Nikonov, O.V.
Format: Artikel
Sprache:Ukrainisch
Veröffentlicht: PROBLEMS IN PROGRAMMING 2026
Schlagworte:
Online Zugang:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/894
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Institution

Problems in programming
_version_ 1863311597724762112
author Nikonov, O.V.
author_facet Nikonov, O.V.
author_sort Nikonov, O.V.
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
collection OJS
datestamp_date 2026-04-23T22:26:13Z
description The article investigates the problem of automating the activities of IT experts in machine learning using modern AutoML frameworks (AutoSklearn and TPOT). The aim of the work is to overcome the fundamental contradiction between the high resource intensity of manual creation of predictive pipe lines and the need to build accurate models in conditions of limited data, when companies have only basic transactional information. The proposed approach formalizes the use of AutoML algorithms to solve the problem of predicting customer churn in retail, replacing manual data processing processes with automated solutions. The approach is implemented by generating a set of subject-oriented features based on the RFM model and validated by historical simulation methods on the transactional dataset "Online Retail". Experimental results demonstrate that AutoML systems are able to work effectively with "raw" data: AutoSklearn provides a stable weighted F1-measure at the level of 0.78 and ROC AUC 0.792 in just 5 minutes of work. The work has practical significance for developing resource efficient predictive systems, minimizing the impact of the human factor, and accelerating the deploy ment of models at enterprises with a basic level of data collection.Problems in programming 2026; 1: 93-101
first_indexed 2026-04-24T01:00:14Z
format Article
fulltext 93 Штучний інтелект © О.В. Ніконов, 2026 ISSN 1727-4907. Проблеми програмування. 2026. №1 УДК 004.052.32, 004.43 https://doi.org/10.15407/pp2026.01.093 О.В. Ніконов АНАЛІЗ ЗАСОБІВ АВТОМАТИЗОВАНОГО МАШИННОГО НАВЧАННЯ ДЛЯ ЗАСТОСУВАННЯ У МАРКЕТИНГУ У статті досліджено проблему автоматизації діяльності ІТ-експертів з машинного навчання за допомогою сучасних фреймворків AutoML (AutoSklearn та TPOT). Метою роботи є подолання фундаментального протиріччя між високою ресурсомісткістю ручного створення предиктив- них конвеєрів та необхідністю будувати точні моделі в умовах обмеженої кількості даних, коли компанії володіють лише базовою транзакційною інформацією. Запропонований підхід форма- лізує використання алгоритмів AutoML для розв'язання задачі прогнозування відтоку клієнтів у роздрібній торгівлі, замінюючи ручні процеси обробки даних автоматизованими рішеннями. Підхід реалізовано шляхом генерації набору предметно-орієнтованих ознак на базі RFM-моделі та валідовано методами історичної симуляції на транзакційному датасеті «Online Retail». Екс- периментальні результати демонструють, що системи AutoML здатні ефективно працювати із «сирими» даними: AutoSklearn забезпечує стабільну зважену F1-міру на рівні 0.78 та ROC AUC 0.792 вже за 5 хвилин роботи. Робота має практичне значення для розробки ресурсоефективних предиктивних систем, мінімізації впливу людського фактора та пришвидшення розгортання моделей на підприємствах із базовим рівнем збору даних. Ключові слова: автоматизоване машинне навчання, предиктивна аналітика, прогнозування від- току клієнтів, роздрібна торгівля, інженерія ознак. O.V. Nikonov ANALYSIS OF AUTOMATED MACHINE LEARNING TOOLS FOR APPLICATION IN MARKETING The article investigates the problem of automating the activities of IT experts in machine learning using modern AutoML frameworks (AutoSklearn and TPOT). The aim of the work is to overcome the fundamental contradiction between the high resource intensity of manual creation of predictive pipe- lines and the need to build accurate models in conditions of limited data, when companies have only basic transactional information. The proposed approach formalizes the use of AutoML algorithms to solve the problem of predicting customer churn in retail, replacing manual data processing processes with automated solutions. The approach is implemented by generating a set of subject-oriented features based on the RFM model and validated by historical simulation methods on the transactional dataset "Online Retail". Experimental results demonstrate that AutoML systems are able to work effectively with "raw" data: AutoSklearn provides a stable weighted F1-measure at the level of 0.78 and ROC AUC 0.792 in just 5 minutes of work. The work has practical significance for developing resource- efficient predictive systems, minimizing the impact of the human factor, and accelerating the deploy- ment of models at enterprises with a basic level of data collection. Keywords: automated machine learning, predictive analytics, customer churn prediction, retail, feature engineering. https://pp.isofts.kiev.ua CC BY 4.0 94 Штучний інтелект Вступ Сучасний конвеєр машинного нав- чання (ML pipeline) є доволі складним бага- тоетапним ІТ-процесом. Традиційне ство- рення предиктивних моделей вимагає гли- бокої експертизи в програмуванні та стати- стиці для відбору ознак, вибору алгоритмів і тонкого налаштування гіперпараметрів [1, 2]. На практиці ІТ-фахівці та інженери з да- них витрачають від 60% до 80% свого робо- чого часу саме на рутинні завдання з підго- товки масивів інформації, що робить розро- бку тривалою та дорогою [3, 4]. Вирішен- ням цієї технологічної проблеми є впрова- дження засобів автоматизованого машин- ного навчання (AutoML). Вони зводять до мінімуму ручне втручання, самостійно тес- туючи методи очищення даних та вибира- ючи оптимальні архітектури моделей (на- приклад, ансамблі дерев рішень чи ней- ронні мережі). Це дозволяє суттєво скоро- тити час розробки та делегувати створення систем експертам без глибоких навичок ко- дування [5, 6, 7]. Завдяки здатності ефективно оброб- ляти гігантські масиви даних та автомати- зувати процеси, ці ІТ-рішення активно впроваджуються у маркетинг для переходу до гіперперсоналізації та підвищення рен- табельності інвестицій [8, 9, 10, 11]. Крити- чним стратегічним викликом у цій сфері є проблема відтоку клієнтів. Залучення но- вих споживачів коштує компаніям у 5-7 ра- зів дорожче, ніж утримання існуючих, а глобальні показники відтоку у висококон- курентних галузях сягають 15-25% щорі- чно [12, 13]. Зниження рівня відтоку лише на 5% здатне підвищити прибутковість біз- несу на 25-125%, тоді як загальні втрати від переходу клієнтів до конкурентів вимірю- ються трильйонами доларів [12]. Попри загальну ефективність AutoML, стандартні універсальні системи часто зосереджуються на базовій обробці табличних даних і не здатні самостійно конструювати складні предметно-орієнто- вані ознаки [1, 3, 14]. З огляду на це, ідеаль- ним і надзвичайно складним середовищем для перевірки таких ІТ-рішень є прогнозу- вання відтоку клієнтів у роздрібній торгівлі [15]. Використання спеціалізованих плат- форм AutoML дозволяє автоматично гене- рувати специфічні маркетингові метрики: показники поведінки RFM (давність, час- тота, сума покупок), індикатори довічної цінності (CLV) та оцінки поведінкової за- лученості [1, 12, 16]. Завдяки здатності ал- горитмів знаходити приховані нелінійні зв'язки, компанії можуть виявляти вразли- вих клієнтів із безпрецедентною точністю, формувати списки ризику для цільових ка- мпаній і ефективно замінювати ручну попе- редню обробку даних надійною автомати- зацією. 1. Аналіз існуючих проблем Хоча дослідження у сфері автомати- зованого машинного навчання (AutoML) та прогнозування відтоку клієнтів демонстру- ють значний науковий прогрес, існує низка суттєвих недоліків та розривів між теорією і практикою, які обмежують їхнє застосу- вання. Однією з проблем є те, що багато до- сліджень не розголошують дані, на яких тренувалися їхні моделі, оскільки вони пе- реважно є приватними, що робить практи- чно неможливим відтворення результатів та їхнє об'єктивне порівняння між різними науковими роботами. Це помітно в [1, 2, 13], про дану проблему також зазначено в [16]. Ті ж набори даних, які знаходяться у відкритому доступі, зазвичай надаються вже у попередньо обробленому або агрего- ваному вигляді. Це створює додаткові пере- шкоди, оскільки не дозволяє дослідникам виводити специфічні та нові ознаки безпо- середньо на основі необробленої інформа- ції [16]. Крім того, такий формат даних ви- кликає обґрунтовані питання до коректно- сті методології тестування, оскільки багато моделей оцінюються за допомогою прос- того випадкового розділення даних (random split), що є некоректним для ринків, які по- стійно змінюються. Замість цього кращою практикою є тестування на даних поза вибі- ркою з урахуванням часу (out-of-sample testing або історична симуляція), яке краще відображає реальні умови прогнозування, але рідше застосовується через попередню агрегацію [15]. 95 Штучний інтелект Іншим вагомим недоліком є галузе- вий дисбаланс у фокусі наукових робіт. Бі- льшість досліджень AutoML у сфері про- гнозування відтоку клієнтів віддає значну перевагу таким індустріям, як фінанси (ба- нкінг) [1, 3, 12], телекомунікації [2, 3, 14] та сектор онлайн-ігор [16]. Водночас набагато менше уваги приділяється сектору роздріб- ної торгівлі (retail), детально розглянутий лише в [15] та поверхнево у [3], де відно- сини з клієнтами часто є неконтрактними, що робить завдання прогнозування відтоку та життєвої цінності клієнта ще складні- шим і може вимагати специфічних підхо- дів. Остання вагома проблема пов'язана із розбіжністю між обсягом даних, які вико- ристовуються в дослідницьких експериме- нтах, та тими, якими реально володіє біз- нес. У наукових роботах тестування моде- лей часто відбувається на дуже багатих та різноманітних категоріях даних, що вклю- чають демографічні показники, детальну інформацію про сесії, графи соціальних зв'язків та історію звернень до служби під- тримки [16]. Проте на практиці багато ком- паній, зокрема, в роздрібній торгівлі, мо- жуть мати лише дуже обмежений набір да- них, який зводиться виключно до базової інформації про транзакції (сума, дата, кіль- кість товарів та ідентифікатор клієнта), від якого і потрібно відштовхуватися при побу- дові прогностичних систем [15]. Це ство- рює значний розрив між теоретичними до- сягненнями багатокритеріальних моделей AutoML та їхньою практичною цінністю для компаній із базовим рівнем збору даних. Зважаючи на вищезазначені прога- лини, виникає гостра необхідність у дослі- дженні, яке б практично оцінило здатність сучасних систем AutoML автоматизувати роботу ML-інженерів в умовах обмежених даних у роздрібній торгівлі. Тому метою даної статті є оцінка ефективності передо- вих фреймворків автоматизованого машин- ного навчання (на прикладі AutoSklearn та TPOT) у вирішенні задачі прогнозування відтоку клієнтів. Для досягнення цієї мети буде виконано наступні кроки: підготовку відкритого транзакційного датасету, гене- рацію предметно-орієнтованих маркетин- гових ознак, тестування моделей AutoML на різних часових лімітах із використанням методу історичної симуляції (out-of-sample testing), а також порівняння результатів ро- боти автоматизованих конвеєрів із ручною попередньою обробкою. 2. Підготовка даних У даному дослідженні використову- ється загальнодоступний транзакційний на- бір даних «Online Retail» (зокрема версія з репозиторію машинного навчання UCI [17]), який охоплює історію покупок клієн- тів британського інтернет-магазину уніка- льних подарунків за дворічний період з 2009 по 2011 рік. Початковий масив даних налічує 1 067 371 рядок та 8 колонок із та- кою базовою інформацією: номер рахунку, унікальний код і назва товару, кількість ку- плених одиниць, дата та час транзакції, ціна товару у фунтах стерлінгів, унікальний іде- нтифікатор (ID) клієнта та країна транзакції. Для підвищення точності моделю- вання масив даних пройшов комплексну попередню обробку. Процес очищення роз- почався з видалення дублікатів та транзак- цій без унікального ідентифікатора клієнта, що уможливило коректну агрегацію індиві- дуальної історії покупок. Згодом було вилу- чено скасовані замовлення (із префіксом «C») та нетипові технічні товари (напри- клад, «ADJUST» чи «BANK CHARGES»), аби запобігти викривленню розрахунків до- ходу й поведінкових метрик. Вибірку геог- рафічно звузили до транзакцій із Великої Британії (понад 90% датасету), оскільки ви- користання вітчизняних даних наразі неак- туальне через суттєву зміну патернів спо- живання внаслідок війни. На фінальному етапі для стабілізації роботи алгоритмів було відсіяно статистичні викиди вище 99- го перцентиля, а всі валідні транзакції згру- повано по днях, що дозволило сформувати чітку структуру щоденної активності кож- ного покупця. Навіть за умови використання засо- бів AutoML, суттєво важливою залиша- ється обробка та агрегація даних перед їх подачею в модель. Автоматизація не замі- нює необхідності у технічних навичках для 96 Штучний інтелект очищення масиву від дублікатів та анома- лій, а також у знаннях предметної області для відсіювання нерелевантних записів чи врахування змін у поведінці. Якісний ре- зультат моделювання безпосередньо зале- жить від експертної підготовки вхідної ви- бірки, яка є фундаментом для будь-якого алгоритму. 3. Визначення відтоку З технічної точки зору прогнозу- вання відтоку клієнтів найчастіше форму- люється як класична задача бінарної класи- фікації, де алгоритм машинного навчання має передбачити один із двох можливих станів: клієнт продовжить взаємодію з ком- панією або ж припинить її [3, 15]. Для коре- ктної побудови та тренування такої прогно- стичної моделі життєвий цикл клієнта шту- чно розділяють на специфічні часові промі- жки. Спочатку визначається вікно спосте- реження (observation window), протягом якого система агрегує історичні дані про транзакції, поведінку та будь-які взаємодії споживача з брендом для формування вхід- них ознак [3, 12, 15]. За цим періодом слідує вікно прогнозування, яке також називають вікном маркування (labeling window або evaluation window). Саме в цьому вікні фік- сується фактичний цільовий статус клієнта, а саме чи відбувся відтік. Часове та логічне розділення цих вікон є важливим для уник- нення витоку даних, коли інформація з май- бутнього могла б випадково потрапити у тренувальний набір і спотворити резуль- тати моделювання. Тривалість вікна марку- вання зазвичай залежить від специфіки кон- кретного бізнесу. Cаме поняття «відтоку клієнтів» є доволі розмитим і суб'єктивним, адже його визначення здатне суттєво відрізнятися за- лежно від типу послуг, галузі або стратегі- чних потреб конкретної компанії [12, 16]. У науковій літературі та комерційній прак- тиці не існує єдиного універсального стан- дарту того, що саме вважати втратою кліє- нта. Наприклад, у банкінгу відтоком вважа- ють зниження транзакцій на 30% або статус «неактивності» [16], тоді як в інших сферах критерієм є відсутність дій протягом 90 днів чи медіанного інтервалу між покуп- ками [15]. Отже, формулювання задачі про- гнозування майже завжди базується на ев- ристичних правилах, які встановлюються експертами галузі або керівництвом для ви- рішення дуже специфічних поточних про- блем бізнесу. Через різноманітність цих визначень та характеристик різних ринків, нормальні показники відтоку суттєво коливаються. Наприклад, щорічно телекомунікаційний сектор втрачає 20–40% абонентів [2], бан- ківський — 15–25% [8], а за іншими даними ці рівні становлять 20,4% та 26,5% відпо- відно [3]. Окремої уваги заслуговує сфера електронної та роздрібної торгівлі, де від- носини між магазином та покупцем перева- жно не мають жодного контрактного хара- ктеру. У такому середовищі споживачі мо- жуть дуже легко змінювати платформи та бренди, тому рівень відтоку тут традиційно є найвищим. Зокрема, дослідження на базі даних онлайн-магазину роздрібної торгівлі фіксують частку відтоку на рівні 32,1% [3]. Спираючись на проаналізовану ін- формацію, для подальшого дослідження було вирішено сфокусуватися лише на ак- тивних клієнтах, які зробили не менше 4 по- купок упродовж усього часового періоду. Розмір оглядового вікна встановлений на рівні 12 місяців у зв’язку з тим, що специ- фіка даного датасету не передбачає дуже частих покупок (середня кількість днів між покупками становить 112 днів, а медіана – 82 дні). Вікно прогнозування визначене на рівні 6 місяців. Це дало можливість отри- мати датасет, у якому 22.4% клієнтів за- знали відтоку, що відповідає очікуванням з огляду на дані попередніх досліджень. 4. Підготовка ознак Побудова власної прогностичної мо- делі відтоку клієнтів спирається на транза- кційні дані для генерації набору поведінко- вих метрик, концептуально подібних до тих, що були розроблені у [15], головною відмінністю між якими виступає розмір оглядового вікна (1 рік замість 2 місяців). Основу набору ознак складають базові змінні: загальна кількість транзакцій, сума- рні витрати клієнта, середній розмір чека за обраний період спостереження (який може 97 Штучний інтелект гнучко налаштовуватися залежно від біз- нес-циклу), а також кількість днів, що ми- нула з моменту останньої покупки. Цей ви- бір є обґрунтованим, оскільки такі метрики фактично є адаптацією класичної моделі RFM (давність, частота, грошова цінність), яка, згідно з численними дослідженнями, слугує галузевим стандартом для моделю- вання та прогнозування поведінки спожи- вачів у багатьох індустріях [16]. Окрім цього, також включено метрику загальної тривалості активності клієнта, що допо- може алгоритмам оцінювати його загальну лояльність. Важливість цього кроку підтве- рджується ефективністю розширених моде- лей LRFM (до яких додається тривалість ві- дносин, Length), які активно застосову- ються в інших наукових працях для суттє- вого покращення розпізнавання стабільних користувачів [16]. Крім статичних показників, важли- вим етапом є генерація розширених динамі- чних ознак, які фіксують відсоткові зміни в купівельній активності. Наслідуючи логіку [15], створено змінні для вимірювання від- носного зростання або падіння кількості покупок та сум витрат порівняно з попере- дніми періодами, адже саме спад активно- сті є найяскравішим раннім індикатором майбутнього відтоку. Прогностична цін- ність таких трендових індикаторів надійно підкріплена й іншими сучасними роботами. Наприклад, спеціалізовані системи автома- тизованого машинного навчання, такі як Marketing-AutoM3L, за замовчуванням ге- нерують подібні оцінки поведінкової залу- ченості, обчислюючи швидкість і відносні тренди активності клієнтів для завчасного виявлення ризиків [3]. Такий же принцип доводить свою дієвість і у дослідженнях фі- нансового сектору, де аналіз спадних чи зростаючих трендів (нахилів) транзакційної активності користувачів дозволяв алгорит- мам значно ефективніше та точніше про- гнозувати відтік, ніж використання лише статичної демографічної інформації [12]. 5. Масштабування й вибір ознак Саме на цьому етапі порівнюється ефективність засобів автоматизованого ма- шинного навчання із ручним підходом. За основу ручного підходу взято дослідження [15], де для боротьби зі зміщеним розподі- лом значень, який часто виникає через екс- тремальні покупки клієнтів, застосовується логарифмічна трансформація. Після цього відбувається масштабування ознак за допо- могою стандартизації Z-score, що приво- дить всі показники до єдиного діапазону. Щоб усунути проблему високої кореляції між згенерованими метриками, використо- вується метод ручного групування: виявля- ються ознаки із високою кореляцією, після чого їхні значення усереднюються, об'єдну- ються в єдиний показник. Це дозволяє зме- ншити розмірність даних і значно спрос- тити роботу прогностичних алгоритмів. На противагу ручному процесу, пе- редові системи автоматизованого машин- ного навчання, такі як AutoSklearn, пропо- нують широкий спектр вбудованих матема- тичних методів для попередньої обробки. AutoSklearn повністю автоматизує масшта- бування, самостійно тестуючи та обираючи найоптимальніший метод серед стандарт- ного, мінімаксного або робастного масшта- бування для конкретного набору даних. Щодо обробки сильно корельованих ознак, AutoSklearn пропонує прямий алгоритміч- ний аналог - метод агломерації ознак [18]. Цей алгоритм автоматично виконує класте- ризацію змінних і об'єднує схожі ознаки, що по суті автоматизує процес ручного усе- реднення корельованих метрик. Крім того, AutoSklearn використовує потужні методи зменшення розмірності, такі як метод голо- вних компонент (PCA) та швидкий аналіз незалежних компонент (Fast ICA), що до- зволяє ефективно усувати надлишковість та шум без жодного ручного втручання ек- сперта [18]. Інша потужна система, TPOT, підхо- дить до масштабування та відбору ознак че- рез призму генетичного програмування, бу- дуючи гнучкі еволюційні конвеєри пере- творень. Для масштабування TPOT автома- тично інтегрує стандартні та робастні нор- малізатори (StandardScaler, RobustScaler) безпосередньо у свої пайплайни, якщо ево- люційний алгоритм підтверджує, що це пі- двищує загальну точність моделі [19]. Од- нак, на відміну від прямого групування та усереднення корельованих ознак, TPOT за- 98 Штучний інтелект стосовує рандомізований метод головних компонент (RandomizedPCA), рекурсивне виключення ознак (RFE) та фільтрацію за порогом дисперсії (Variance Threshold) [19]. Це означає, що замість злиття схожих мет- рик в одну, TPOT комбінує їх у нові нелі- нійні компоненти (головні компоненти) або відкидає ті з них, які еволюційний алгоритм визнає найменш корисними чи надто коре- льованими для кінцевого прогнозу. 6. Перебіг експерименту та його результати У ході дослідження відбувалося тре- нування багатьох моделей машинного нав- чання, для яких було використано різні ме- тоди підготовки ознак та різні засоби AutoML для вибору й оптимізації моделей. Оскільки процес автоматизованого машин- ного навчання ресурсомісткий, для AutoSklearn і TPOT було надано різні про- міжки часу з метою перевірити як часові ра- мки впливають на навчання моделей AutoML. Експеримент полягає у проведенні порівняльного тестування AutoSklearn та TPOT у задачі прогнозування відтоку кліє- нтів. Оскільки процес автоматизованого машинного навчання ресурсомісткий, тре- нування було розподілене за різними часо- вими лімітами (5, 15 та 30 хвилин) і також за трьома підходами до підготовки даних: повністю ручне масштабування та групу- вання ознак, лише ручне масштабування та використання повністю «сирих» маркетин- гових ознак. Під час розробки та тренування мо- делей машинного навчання замість станда- ртного випадкового перемішування даних було застосовано підхід історичної симуля- ції, відомий як out-of-sample historical testing [15]. Цей метод передбачає навчання алгоритму на вибірці історичних даних з минулого та подальше тестування його прогнозів на абсолютно нових даних із май- бутнього періоду. Важливість такого під- ходу полягає в тому, що реальні ринки та поведінка споживачів постійно змінюються у часі. Прогностичні моделі поводяться зо- всім інакше в умовах простого випадкового розділення даних порівняно з реальним прогнозуванням майбутніх подій. Завдяки історичній симуляції поза вибіркою можна отримати максимально реалістичну оцінку того, як саме модель працювала б, якби її запустили в комерційну експлуатацію в ре- альному часі. Для забезпечення додаткової надій- ності та стабільності алгоритмів на етапі навчання також застосовано метод п'ятиб- лочної перехресної перевірки, тобто 5-fold cross-validation, подібно до [1]. Цей підхід розділяє тренувальний масив даних на п'ять рівних частин, де кожна з них по черзі ви- ступає в ролі валідаційного набору, тоді як інші чотири використовуються для нав- чання моделі. Використання перехресної перевірки є важливим, оскільки ефективно допомагає пом'якшити проблему перена- вчання (overfitting) [16]. Оцінюючи модель на різних незалежних підмножинах даних, алгоритм узагальнює знайдені закономір- ності, а не просто заучує специфіку трену- вальної вибірки. Для оцінки прогнозів обрано ком- плекс метрик, що враховують значний кла- совий дисбаланс (22.4% відтоку). Оскільки стандартна точність (accuracy) у таких умо- вах може бути оманливою [16], основна увага приділена ROC AUC. Вона об'єкти- вно оцінює здатність моделі розрізняти класи незалежно від порогу відсічення [15]. Додатково використано weighted F1 [14] — гармонійне середнє між точністю та повно- тою, зважене за кількістю представників кожного класу. Для оцінки бізнес-ефектив- ності застосовано top-decile lift. Цей показ- ник демонструє перевагу моделі над випад- ковим вгадуванням серед 10% найбільш ри- зикових клієнтів, що дозволяє оптимізувати витрати на їхнє утримання [15, 16]. Отримані результати, наведені в таблиці, демонструють різну поведінку двох фреймворків за умов обмеженого часу. AutoSklearn показує високу стабіль- ність і точність прогнозів усіх часових про- міжків (Weighted F1 на рівні 0.75–0.78, ROC AUC 0.783–0.792) незалежно від того, як були підготовлені дані. Така ефектив- ність навіть за встановлених часових обме- жень може бути зумовлена його архітекту- рою: система використовує байєсівську оп- тимізацію на базі випадкових лісів (SMAC), 99 Штучний інтелект яка суттєво пришвидшується завдяки мета- навчанню. Фреймворк аналізує метаознаки поточного набору даних, використовує до- свід попередніх успішних оптимізацій для «теплого старту», а наприкінці автомати- чно поєднує найкращі знайдені моделі в ефективний ансамбль. На противагу цьому, продуктивність TPOT суттєво залежить від наданого йому обчислювального часу. За умови ліміту в 5 хвилин на «сирих» даних його результати є менш показовими (Accuracy лише 0.647, Weighted F1 падає до 0.66), проте зі збіль- шенням часу до 15 та 30 хвилин він різко стабілізує роботу, досягаючи рівня AutoSklearn, іноді й перевершуючи показ- ники з невеликим відривом (Accuracy зрос- тає до 0.800, а Weighted F1 до 0.78). Ця ди- наміка відповідає закладеним у TPOT алго- ритмам генетичного програмування, де си- стема ітеративно будує, мутує та схрещує деревоподібні конвеєри перетворень. Му- тація пайплайнів із подальшою багатоці- льовою Парето-оптимізацією є вкрай ре- сурсомістким процесом, що вимагає знач- ного часу для еволюції моделі та збіжності до оптимального рішення. За обмеженого часу ручне масштабування дещо допомогло TPOT знайти рішення швидше (Accuracy 0.710 на 5 хвилинах), але не розкрило його повного потенціалу. Ще одним показовим висновком з експерименту є вплив ручної попередньої обробки порівняно з автоматизованою. По- дача «сирих» (немасштабованих і незгрупо- ваних) даних може несуттєво погіршити де- які результати (падіння ROC AUC з 0.799 до 0.792), а за достатнього часу тренування дозволила обом фреймворкам досягти най- вищих показників Weighted F1 (0.78) у по- рівнянні з ручною обробкою (0.71–0.75). Це підтверджує тезу про те, що сучасні засоби AutoML здатні на рівні з людиною автома- тизувати процеси нормалізації та боротьби з мультиколінеарністю. AutoSklearn само- стійно тестує різні методи масштабування та використовує алгоритм агломерації оз- нак або аналіз головних компонент (PCA) для усунення надлишковості та шуму. Своєю чергою, TPOT інтегрує нормаліза- тори безпосередньо у свої еволюційні пай- плайни, а замість ручного злиття схожих метрик комбінує їх у нові нелінійні компо- ненти або алгоритмічно відкидає через ре- AutoML tool AutoSklearn TPOT Testing on features scaled and grouped manually Accuracy ROC AUC Weighted F1 Top- Decile Lift Accuracy ROC AUC Weighted F1 Top- Decile Lift 5m 0.785 0.783 0.75 2.390 0.710 0.736 0.73 2.148 15m 0.791 0.794 0.75 2.685 0.786 0.787 0.74 2.497 30m 0.786 0.794 0.74 2.470 0.785 0.799 0.74 2.551 Testing on features scaled manually Accuracy ROC AUC Weighted F1 Top- Decile Lift Accuracy ROC AUC Weighted F1 Top- Decile Lift 5m 0.789 0.790 0.75 2.578 0.711 0.785 0.73 2.470 15m 0.784 0.796 0.72 2.578 0.726 0.789 0.75 2.524 30m 0.779 0.784 0.69 2.685 0.781 0.792 0.71 2.470 Testing on raw features Accuracy ROC AUC Weighted F1 Top- Decile Lift Accuracy ROC AUC Weighted F1 Top- Decile Lift 5m 0.798 0.792 0.78 2.658 0.647 0.745 0.66 2.739 15m 0.787 0.778 0.78 2.658 0.793 0.791 0.78 2.524 30m 0.787 0.769 0.78 2.685 0.800 0.787 0.78 2.497 100 Штучний інтелект курсивне виключення ознак (RFE). Таким чином, ручне логарифмування, стандарти- зація Z-score та логічне усереднення залеж- них змінних виявляються зайвими та пев- ною мірою обмежувальними кроками. У контексті бізнес-аналітики, оці- нювати ці моделі варто через призму профі- льних метрик. Через значний дисбаланс класів базова точність (Accuracy) може бути зміщеною та оманливою. Значно важ- ливішими є стабільні показники ROC AUC та weighted F1, які успішно тримаються на рівні близько 0.78–0.79. Водночас метрика Top-Decile Lift, яка досягає значень 2.390– 2.739, оозначає, що навчені моделі AutoML дозволяють виявляти клієнтів із найвищим ризиком відтоку (у верхніх 10% клієнтської бази) у приблизно два з половиною рази ефективніше, ніж якби маркетологи оби- рали аудиторію навмання, що демонструє суттєву комерційну цінність побудованих конвеєрів. Завдяки цьому бізнес може мак- симально раціонально оптимізувати марке- тинговий бюджет, спрямовуючи пропозиції з утримання виключно на тих споживачів, які цього справді потребують. Результати підтверджують, що для швидкого отримання надійних прогнозів на непідготовлених даних добре підходить AutoSklearn, тоді як TPOT потребує знач- них обчислювальних витрат і часу. Однак важливо розуміти, що високі результати обох систем стали можливими також за- вдяки тому, що до їхнього запуску було проведено якісну інженерію доменних оз- нак: вхідні дані вже містили розраховані маркетингові RFM-метрики, тривалість ак- тивності рахунків та індикатори поведінко- вої залученості клієнтів. Засоби AutoML бе- руть на себе математичну рутину обробки та відбору ознак, але формування правиль- ного маркетингового контексту та ство- рення релевантних змінних все ще лежить в основі успішного вирішення проблеми. Висновки У статті запропоновано та практично оці- нено ефективність впровадження засобів автоматизованого машинного навчання (AutoML) для мінімізації ручного втру- чання технічних спеціалістів у процес по- будови предиктивних моделей на базі обме- жених наборів даних. Проведені експери- менти підтвердили основну гіпотезу дослі- дження, згідно з якою сучасні платформи (AutoSklearn та TPOT) здатні успішно та на рівні з людиною автоматизувати процеси нормалізації, масштабування та боротьби з мультиколінеарністю без втрати якості кін- цевого прогнозу. У межах роботи формалі- зовано задачу прогнозування відтоку клієн- тів у неконтрактному середовищі роздріб- ної торгівлі, де бізнес оперує виключно ба- зовою транзакційною історією. Валідація алгоритмів здійснювалася методами істо- ричної симуляції (out-of-sample testing) та 5-блочної перехресної перевірки з викорис- танням 11 розроблених поведінкових метрик. Експериментальна оцінка продемо- нструвала високу ефективність запропоно- ваного підходу: подача «сирих» (немасшта- бованих і незгрупованих) даних у системи AutoML дозволила досягти найвищих пока- зників Weighted F1 (0.78) порівняно з їх- ньою попередньою ручною обробкою (0.71–0.75). Аналіз часових лімітів виявив, що AutoSklearn здатен генерувати стабільні конвеєри з ROC AUC на рівні 0.792 вже за 5 хвилин обчислень завдяки механізмам метанавчання, тоді як архітектура TPOT потребувала від 15 до 30 хвилин для збіж- ності до аналогічних результатів. Побудо- вані моделі забезпечили показник Top- Decile Lift до 2.739, що дозволяє виявляти ризикових клієнтів у 2,5 раза ефективніше за випадковий вибір. Отримані результати підтверджують доцільність використання фреймворків AutoML для розгортання про- гностичних ІТ-систем в умовах дефіциту розширених даних та нестачі часу техніч- них експертів, водночас визначаючи клю- чову роль якісної генерації доменних ознак перед етапом автоматизації. References 1. S. Dao, T. Dong, S. Chen, Automated Customer Churn Prediction in Banking: A Domain-Aware AutoML Approach (2026). 2. M. Mandić, G. Kraljević, Churn prediction model improvement using automated machine learning with social network parameters, 101 Штучний інтелект Revue d'Intelligence Artificielle 36 (3) (2022) 373–379. doi: 10.18280/ria.360304 3. Y. Tian, W. Shao, Z. Deng, Marketing- AutoM3L: domain-aware automated machine learning for financial customer analytics, Frontiers in Artificial Intelligence 9 (2026) 1726900. doi: 10.3389/frai.2026.1726900 4. M.-A. Zöller, M.F. Huber, Benchmark and Survey of Automated Machine Learning Frameworks, Journal of Artificial Intelligence Research 70 (2019) 409–472. 5. D. Luo, C. Feng, Y. Nong, Y. Shen, AutoM3L: An Automated Multimodal Machine Learning Framework with Large Language Models, in: Proceedings of the 32nd ACM International Conference on Multimedia (2024). 6. P. Trirat, W. Jeong, S.J. Hwang, AutoML- Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML, arXiv preprint arXiv:2410.02958 (2024). 7. X. He, K. Zhao, X. Chu, AutoML: A Survey of the State-of-the-Art, arXiv preprint arXiv:1908.00709 (2019). 8. A. Mari, The Rise of Machine Learning in Marketing: Goal, Process, and Benefit of AI- Driven Marketing (2019). 9. D. Herhausen, S.F. Bernritter, E.W.T. Ngai, A. Kumar, D. Delen, Machine learning in marketing: Recent progress and future research directions, Journal of Business Research 170 (2024) 114254. doi: 10.1016/j.jbusres.2023.114254 10. M.S. Kasem, M. Hamada, I. Taj-Eddin, Customer profiling, segmentation, and sales prediction using AI in direct marketing, Neural Computing and Applications 36 (2024) 4995– 5005. doi: 10.1007/s00521-023-09339-6 11. B. Gao, Y. Wang, H. Xie, Y. Hu, Y. Hu, Artificial Intelligence in Advertising: Advancements, Challenges, and Ethical Considerations in Targeting, Personalization, Content Creation, and Ad Optimization, Sage Open 13 (4) (2023). 12. E. Kaya, X. Dong, Y. Suhara, et al., Behavioral attributes and financial churn prediction, EPJ Data Science 7 (2018) 41. doi: 10.1140/epjds/s13688-018-0165-5 13. M. Mandić, G. Kraljević, Two-Layer Architecture of Telco Churn Auto-ML (2020). 14. M.V.C. Aragão, A.G. Afonso, R.C. Ferraz, et al., A practical evaluation of AutoML tools for binary, multiclass, and multilabel classification, Scientific Reports 15 (2025) 17682. doi: 10.1038/s41598-025-02149-x 15. S. Akhmetbek, Forecasting Customer Future Behavior in Retail Business Using Machine Learning Models, Scientific Journal of Astana IT University (2022). 16. A. Manzoor, M.A. Qureshi, E. Kidney, L. Luca, A Review on Machine Learning Methods for Customer Churn Prediction and Recommendations for Business Practitioners, IEEE Access 12 (2024) 70434–70463. 17. D. Chen, Online Retail II (Version 1) [Data set], UCI Machine Learning Repository (2019). 18. M. Feurer, K. Eggensperger, S. Falkner, M. Lindauer, F. Hutter, Auto-Sklearn 2.0: Hands- free AutoML via Meta-Learning, arXiv preprint arXiv:2007.04074 (2020). 19. P. Ribeiro, et al., TPOT2: A New Graph-Based Implementation of the Tree-Based Pipeline Optimization Tool for Automated Machine Learning, in: S. Winkler et al. (Eds.), Genetic Programming Theory and Practice XX, Springer, Singapore (2024). doi: 10.1007/978- 981-99-8413-8_1 Дата першого надходження до видання: 07.03.2026 Внутрішня рецензія отримана: 14.03.2026 Зовнішня рецензія отримана: 14.03.2026 Дата прийняття статті до друку: 19.03.2026 Дата публікації: 16.04.2026 Про автора: 1Ніконов Олександр Володимирович, аспірант Nikonov Olexandr, Post-graduate student https://orcid.org/0009-0009-4743-4854. Місце роботи автора: 1 Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute” E-mail: nikonov.sanynikonov@gmail.com Сайт: https://ist.kpi.ua
id pp_isofts_kiev_ua-article-894
institution Problems in programming
keywords_txt_mv keywords
language Ukrainian
last_indexed 2026-04-24T01:00:14Z
publishDate 2026
publisher PROBLEMS IN PROGRAMMING
record_format ojs
resource_txt_mv ppisoftskievua/0a/6ec64e81b0dc100889c8bda89751de0a.pdf
spelling pp_isofts_kiev_ua-article-8942026-04-23T22:26:13Z Analyses of automated machine learning tools for application in marketing Аналіз засобів автоматизованого машинного навчання для застосування у маркетингу Nikonov, O.V. automated machine learning; predictive analytics; customer churn prediction; retail; feature engineering UDC 004.052.32, 004.43 автоматизоване машинне навчання; предиктивна аналітика; прогнозування від току клієнтів; роздрібна торгівля; інженерія ознак УДК 004.052.32, 004.43 The article investigates the problem of automating the activities of IT experts in machine learning using modern AutoML frameworks (AutoSklearn and TPOT). The aim of the work is to overcome the fundamental contradiction between the high resource intensity of manual creation of predictive pipe lines and the need to build accurate models in conditions of limited data, when companies have only basic transactional information. The proposed approach formalizes the use of AutoML algorithms to solve the problem of predicting customer churn in retail, replacing manual data processing processes with automated solutions. The approach is implemented by generating a set of subject-oriented features based on the RFM model and validated by historical simulation methods on the transactional dataset "Online Retail". Experimental results demonstrate that AutoML systems are able to work effectively with "raw" data: AutoSklearn provides a stable weighted F1-measure at the level of 0.78 and ROC AUC 0.792 in just 5 minutes of work. The work has practical significance for developing resource efficient predictive systems, minimizing the impact of the human factor, and accelerating the deploy ment of models at enterprises with a basic level of data collection.Problems in programming 2026; 1: 93-101 У статті досліджено проблему автоматизації діяльності ІТ-експертів з машинного навчання за допомогою сучасних фреймворків AutoML (AutoSklearn та TPOT). Метою роботи є подолання фундаментального протиріччя між високою ресурсомісткістю ручного створення предиктив них конвеєрів та необхідністю будувати точні моделі в умовах обмеженої кількості даних, коли компанії володіють лише базовою транзакційною інформацією. Запропонований підхід форма лізує використання алгоритмів AutoML для розв'язання задачі прогнозування відтоку клієнтів у роздрібній торгівлі, замінюючи ручні процеси обробки даних автоматизованими рішеннями. Підхід реалізовано шляхом генерації набору предметно-орієнтованих ознак на базі RFM-моделі та валідовано методами історичної симуляції на транзакційному датасеті «Online Retail». Екс периментальні результати демонструють, що системи AutoML здатні ефективно працювати із «сирими» даними: AutoSklearn забезпечує стабільну зважену F1-міру на рівні 0.78 та ROC AUC 0.792 вже за 5 хвилин роботи. Робота має практичне значення для розробки ресурсоефективних предиктивних систем, мінімізації впливу людського фактора та пришвидшення розгортання моделей на підприємствах із базовим рівнем збору даних.Problems in programming 2026; 1: 93-101 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2026-04-23 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/894 PROBLEMS IN PROGRAMMING; No 1 (2026); 93-101 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2026); 93-101 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2026); 93-101 1727-4907 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/894/947 Copyright (c) 2026 PROBLEMS IN PROGRAMMING
spellingShingle automated machine learning
predictive analytics
customer churn prediction
retail
feature engineering
UDC 004.052.32
004.43
Nikonov, O.V.
Analyses of automated machine learning tools for application in marketing
title Analyses of automated machine learning tools for application in marketing
title_alt Аналіз засобів автоматизованого машинного навчання для застосування у маркетингу
title_full Analyses of automated machine learning tools for application in marketing
title_fullStr Analyses of automated machine learning tools for application in marketing
title_full_unstemmed Analyses of automated machine learning tools for application in marketing
title_short Analyses of automated machine learning tools for application in marketing
title_sort analyses of automated machine learning tools for application in marketing
topic automated machine learning
predictive analytics
customer churn prediction
retail
feature engineering
UDC 004.052.32
004.43
topic_facet automated machine learning
predictive analytics
customer churn prediction
retail
feature engineering
UDC 004.052.32
004.43
автоматизоване машинне навчання
предиктивна аналітика
прогнозування від току клієнтів
роздрібна торгівля
інженерія ознак
УДК 004.052.32
004.43
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/894
work_keys_str_mv AT nikonovov analysesofautomatedmachinelearningtoolsforapplicationinmarketing
AT nikonovov analízzasobívavtomatizovanogomašinnogonavčannâdlâzastosuvannâumarketingu