Analyses of automated machine learning tools for application in marketing
The article investigates the problem of automating the activities of IT experts in machine learning using modern AutoML frameworks (AutoSklearn and TPOT). The aim of the work is to overcome the fundamental contradiction between the high resource intensity of manual creation of predictive pipe lines...
Збережено в:
| Дата: | 2026 |
|---|---|
| Автор: | |
| Формат: | Стаття |
| Мова: | Українська |
| Опубліковано: |
PROBLEMS IN PROGRAMMING
2026
|
| Теми: | |
| Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/894 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Problems in programming |
| Завантажити файл: | |
Репозитарії
Problems in programming| _version_ | 1863311597724762112 |
|---|---|
| author | Nikonov, O.V. |
| author_facet | Nikonov, O.V. |
| author_sort | Nikonov, O.V. |
| baseUrl_str | https://pp.isofts.kiev.ua/index.php/ojs1/oai |
| collection | OJS |
| datestamp_date | 2026-04-23T22:26:13Z |
| description | The article investigates the problem of automating the activities of IT experts in machine learning using modern AutoML frameworks (AutoSklearn and TPOT). The aim of the work is to overcome the fundamental contradiction between the high resource intensity of manual creation of predictive pipe lines and the need to build accurate models in conditions of limited data, when companies have only basic transactional information. The proposed approach formalizes the use of AutoML algorithms to solve the problem of predicting customer churn in retail, replacing manual data processing processes with automated solutions. The approach is implemented by generating a set of subject-oriented features based on the RFM model and validated by historical simulation methods on the transactional dataset "Online Retail". Experimental results demonstrate that AutoML systems are able to work effectively with "raw" data: AutoSklearn provides a stable weighted F1-measure at the level of 0.78 and ROC AUC 0.792 in just 5 minutes of work. The work has practical significance for developing resource efficient predictive systems, minimizing the impact of the human factor, and accelerating the deploy ment of models at enterprises with a basic level of data collection.Problems in programming 2026; 1: 93-101 |
| first_indexed | 2026-04-24T01:00:14Z |
| format | Article |
| fulltext |
93
Штучний інтелект
© О.В. Ніконов, 2026
ISSN 1727-4907. Проблеми програмування. 2026. №1
УДК 004.052.32, 004.43 https://doi.org/10.15407/pp2026.01.093
О.В. Ніконов
АНАЛІЗ ЗАСОБІВ
АВТОМАТИЗОВАНОГО МАШИННОГО НАВЧАННЯ
ДЛЯ ЗАСТОСУВАННЯ У МАРКЕТИНГУ
У статті досліджено проблему автоматизації діяльності ІТ-експертів з машинного навчання за
допомогою сучасних фреймворків AutoML (AutoSklearn та TPOT). Метою роботи є подолання
фундаментального протиріччя між високою ресурсомісткістю ручного створення предиктив-
них конвеєрів та необхідністю будувати точні моделі в умовах обмеженої кількості даних, коли
компанії володіють лише базовою транзакційною інформацією. Запропонований підхід форма-
лізує використання алгоритмів AutoML для розв'язання задачі прогнозування відтоку клієнтів
у роздрібній торгівлі, замінюючи ручні процеси обробки даних автоматизованими рішеннями.
Підхід реалізовано шляхом генерації набору предметно-орієнтованих ознак на базі RFM-моделі
та валідовано методами історичної симуляції на транзакційному датасеті «Online Retail». Екс-
периментальні результати демонструють, що системи AutoML здатні ефективно працювати із
«сирими» даними: AutoSklearn забезпечує стабільну зважену F1-міру на рівні 0.78 та ROC AUC
0.792 вже за 5 хвилин роботи. Робота має практичне значення для розробки ресурсоефективних
предиктивних систем, мінімізації впливу людського фактора та пришвидшення розгортання
моделей на підприємствах із базовим рівнем збору даних.
Ключові слова: автоматизоване машинне навчання, предиктивна аналітика, прогнозування від-
току клієнтів, роздрібна торгівля, інженерія ознак.
O.V. Nikonov
ANALYSIS OF AUTOMATED
MACHINE LEARNING TOOLS FOR APPLICATION
IN MARKETING
The article investigates the problem of automating the activities of IT experts in machine learning
using modern AutoML frameworks (AutoSklearn and TPOT). The aim of the work is to overcome the
fundamental contradiction between the high resource intensity of manual creation of predictive pipe-
lines and the need to build accurate models in conditions of limited data, when companies have only
basic transactional information. The proposed approach formalizes the use of AutoML algorithms to
solve the problem of predicting customer churn in retail, replacing manual data processing processes
with automated solutions. The approach is implemented by generating a set of subject-oriented features
based on the RFM model and validated by historical simulation methods on the transactional dataset
"Online Retail". Experimental results demonstrate that AutoML systems are able to work effectively
with "raw" data: AutoSklearn provides a stable weighted F1-measure at the level of 0.78 and ROC
AUC 0.792 in just 5 minutes of work. The work has practical significance for developing resource-
efficient predictive systems, minimizing the impact of the human factor, and accelerating the deploy-
ment of models at enterprises with a basic level of data collection.
Keywords: automated machine learning, predictive analytics, customer churn prediction, retail, feature
engineering.
https://pp.isofts.kiev.ua
CC BY 4.0
94
Штучний інтелект
Вступ
Сучасний конвеєр машинного нав-
чання (ML pipeline) є доволі складним бага-
тоетапним ІТ-процесом. Традиційне ство-
рення предиктивних моделей вимагає гли-
бокої експертизи в програмуванні та стати-
стиці для відбору ознак, вибору алгоритмів
і тонкого налаштування гіперпараметрів [1,
2]. На практиці ІТ-фахівці та інженери з да-
них витрачають від 60% до 80% свого робо-
чого часу саме на рутинні завдання з підго-
товки масивів інформації, що робить розро-
бку тривалою та дорогою [3, 4]. Вирішен-
ням цієї технологічної проблеми є впрова-
дження засобів автоматизованого машин-
ного навчання (AutoML). Вони зводять до
мінімуму ручне втручання, самостійно тес-
туючи методи очищення даних та вибира-
ючи оптимальні архітектури моделей (на-
приклад, ансамблі дерев рішень чи ней-
ронні мережі). Це дозволяє суттєво скоро-
тити час розробки та делегувати створення
систем експертам без глибоких навичок ко-
дування [5, 6, 7].
Завдяки здатності ефективно оброб-
ляти гігантські масиви даних та автомати-
зувати процеси, ці ІТ-рішення активно
впроваджуються у маркетинг для переходу
до гіперперсоналізації та підвищення рен-
табельності інвестицій [8, 9, 10, 11]. Крити-
чним стратегічним викликом у цій сфері є
проблема відтоку клієнтів. Залучення но-
вих споживачів коштує компаніям у 5-7 ра-
зів дорожче, ніж утримання існуючих, а
глобальні показники відтоку у висококон-
курентних галузях сягають 15-25% щорі-
чно [12, 13]. Зниження рівня відтоку лише
на 5% здатне підвищити прибутковість біз-
несу на 25-125%, тоді як загальні втрати від
переходу клієнтів до конкурентів вимірю-
ються трильйонами доларів [12].
Попри загальну ефективність
AutoML, стандартні універсальні системи
часто зосереджуються на базовій обробці
табличних даних і не здатні самостійно
конструювати складні предметно-орієнто-
вані ознаки [1, 3, 14]. З огляду на це, ідеаль-
ним і надзвичайно складним середовищем
для перевірки таких ІТ-рішень є прогнозу-
вання відтоку клієнтів у роздрібній торгівлі
[15]. Використання спеціалізованих плат-
форм AutoML дозволяє автоматично гене-
рувати специфічні маркетингові метрики:
показники поведінки RFM (давність, час-
тота, сума покупок), індикатори довічної
цінності (CLV) та оцінки поведінкової за-
лученості [1, 12, 16]. Завдяки здатності ал-
горитмів знаходити приховані нелінійні
зв'язки, компанії можуть виявляти вразли-
вих клієнтів із безпрецедентною точністю,
формувати списки ризику для цільових ка-
мпаній і ефективно замінювати ручну попе-
редню обробку даних надійною автомати-
зацією.
1. Аналіз існуючих проблем
Хоча дослідження у сфері автомати-
зованого машинного навчання (AutoML) та
прогнозування відтоку клієнтів демонстру-
ють значний науковий прогрес, існує низка
суттєвих недоліків та розривів між теорією
і практикою, які обмежують їхнє застосу-
вання. Однією з проблем є те, що багато до-
сліджень не розголошують дані, на яких
тренувалися їхні моделі, оскільки вони пе-
реважно є приватними, що робить практи-
чно неможливим відтворення результатів
та їхнє об'єктивне порівняння між різними
науковими роботами. Це помітно в [1, 2,
13], про дану проблему також зазначено в
[16].
Ті ж набори даних, які знаходяться у
відкритому доступі, зазвичай надаються
вже у попередньо обробленому або агрего-
ваному вигляді. Це створює додаткові пере-
шкоди, оскільки не дозволяє дослідникам
виводити специфічні та нові ознаки безпо-
середньо на основі необробленої інформа-
ції [16]. Крім того, такий формат даних ви-
кликає обґрунтовані питання до коректно-
сті методології тестування, оскільки багато
моделей оцінюються за допомогою прос-
того випадкового розділення даних (random
split), що є некоректним для ринків, які по-
стійно змінюються. Замість цього кращою
практикою є тестування на даних поза вибі-
ркою з урахуванням часу (out-of-sample
testing або історична симуляція), яке краще
відображає реальні умови прогнозування,
але рідше застосовується через попередню
агрегацію [15].
95
Штучний інтелект
Іншим вагомим недоліком є галузе-
вий дисбаланс у фокусі наукових робіт. Бі-
льшість досліджень AutoML у сфері про-
гнозування відтоку клієнтів віддає значну
перевагу таким індустріям, як фінанси (ба-
нкінг) [1, 3, 12], телекомунікації [2, 3, 14] та
сектор онлайн-ігор [16]. Водночас набагато
менше уваги приділяється сектору роздріб-
ної торгівлі (retail), детально розглянутий
лише в [15] та поверхнево у [3], де відно-
сини з клієнтами часто є неконтрактними,
що робить завдання прогнозування відтоку
та життєвої цінності клієнта ще складні-
шим і може вимагати специфічних підхо-
дів.
Остання вагома проблема пов'язана
із розбіжністю між обсягом даних, які вико-
ристовуються в дослідницьких експериме-
нтах, та тими, якими реально володіє біз-
нес. У наукових роботах тестування моде-
лей часто відбувається на дуже багатих та
різноманітних категоріях даних, що вклю-
чають демографічні показники, детальну
інформацію про сесії, графи соціальних
зв'язків та історію звернень до служби під-
тримки [16]. Проте на практиці багато ком-
паній, зокрема, в роздрібній торгівлі, мо-
жуть мати лише дуже обмежений набір да-
них, який зводиться виключно до базової
інформації про транзакції (сума, дата, кіль-
кість товарів та ідентифікатор клієнта), від
якого і потрібно відштовхуватися при побу-
дові прогностичних систем [15]. Це ство-
рює значний розрив між теоретичними до-
сягненнями багатокритеріальних моделей
AutoML та їхньою практичною цінністю
для компаній із базовим рівнем збору
даних.
Зважаючи на вищезазначені прога-
лини, виникає гостра необхідність у дослі-
дженні, яке б практично оцінило здатність
сучасних систем AutoML автоматизувати
роботу ML-інженерів в умовах обмежених
даних у роздрібній торгівлі. Тому метою
даної статті є оцінка ефективності передо-
вих фреймворків автоматизованого машин-
ного навчання (на прикладі AutoSklearn та
TPOT) у вирішенні задачі прогнозування
відтоку клієнтів. Для досягнення цієї мети
буде виконано наступні кроки: підготовку
відкритого транзакційного датасету, гене-
рацію предметно-орієнтованих маркетин-
гових ознак, тестування моделей AutoML
на різних часових лімітах із використанням
методу історичної симуляції (out-of-sample
testing), а також порівняння результатів ро-
боти автоматизованих конвеєрів із ручною
попередньою обробкою.
2. Підготовка даних
У даному дослідженні використову-
ється загальнодоступний транзакційний на-
бір даних «Online Retail» (зокрема версія з
репозиторію машинного навчання UCI
[17]), який охоплює історію покупок клієн-
тів британського інтернет-магазину уніка-
льних подарунків за дворічний період з
2009 по 2011 рік. Початковий масив даних
налічує 1 067 371 рядок та 8 колонок із та-
кою базовою інформацією: номер рахунку,
унікальний код і назва товару, кількість ку-
плених одиниць, дата та час транзакції, ціна
товару у фунтах стерлінгів, унікальний іде-
нтифікатор (ID) клієнта та країна
транзакції.
Для підвищення точності моделю-
вання масив даних пройшов комплексну
попередню обробку. Процес очищення роз-
почався з видалення дублікатів та транзак-
цій без унікального ідентифікатора клієнта,
що уможливило коректну агрегацію індиві-
дуальної історії покупок. Згодом було вилу-
чено скасовані замовлення (із префіксом
«C») та нетипові технічні товари (напри-
клад, «ADJUST» чи «BANK CHARGES»),
аби запобігти викривленню розрахунків до-
ходу й поведінкових метрик. Вибірку геог-
рафічно звузили до транзакцій із Великої
Британії (понад 90% датасету), оскільки ви-
користання вітчизняних даних наразі неак-
туальне через суттєву зміну патернів спо-
живання внаслідок війни. На фінальному
етапі для стабілізації роботи алгоритмів
було відсіяно статистичні викиди вище 99-
го перцентиля, а всі валідні транзакції згру-
повано по днях, що дозволило сформувати
чітку структуру щоденної активності кож-
ного покупця.
Навіть за умови використання засо-
бів AutoML, суттєво важливою залиша-
ється обробка та агрегація даних перед їх
подачею в модель. Автоматизація не замі-
нює необхідності у технічних навичках для
96
Штучний інтелект
очищення масиву від дублікатів та анома-
лій, а також у знаннях предметної області
для відсіювання нерелевантних записів чи
врахування змін у поведінці. Якісний ре-
зультат моделювання безпосередньо зале-
жить від експертної підготовки вхідної ви-
бірки, яка є фундаментом для будь-якого
алгоритму.
3. Визначення відтоку
З технічної точки зору прогнозу-
вання відтоку клієнтів найчастіше форму-
люється як класична задача бінарної класи-
фікації, де алгоритм машинного навчання
має передбачити один із двох можливих
станів: клієнт продовжить взаємодію з ком-
панією або ж припинить її [3, 15]. Для коре-
ктної побудови та тренування такої прогно-
стичної моделі життєвий цикл клієнта шту-
чно розділяють на специфічні часові промі-
жки. Спочатку визначається вікно спосте-
реження (observation window), протягом
якого система агрегує історичні дані про
транзакції, поведінку та будь-які взаємодії
споживача з брендом для формування вхід-
них ознак [3, 12, 15]. За цим періодом слідує
вікно прогнозування, яке також називають
вікном маркування (labeling window або
evaluation window). Саме в цьому вікні фік-
сується фактичний цільовий статус клієнта,
а саме чи відбувся відтік. Часове та логічне
розділення цих вікон є важливим для уник-
нення витоку даних, коли інформація з май-
бутнього могла б випадково потрапити у
тренувальний набір і спотворити резуль-
тати моделювання. Тривалість вікна марку-
вання зазвичай залежить від специфіки кон-
кретного бізнесу.
Cаме поняття «відтоку клієнтів» є
доволі розмитим і суб'єктивним, адже його
визначення здатне суттєво відрізнятися за-
лежно від типу послуг, галузі або стратегі-
чних потреб конкретної компанії [12, 16]. У
науковій літературі та комерційній прак-
тиці не існує єдиного універсального стан-
дарту того, що саме вважати втратою кліє-
нта. Наприклад, у банкінгу відтоком вважа-
ють зниження транзакцій на 30% або статус
«неактивності» [16], тоді як в інших сферах
критерієм є відсутність дій протягом 90
днів чи медіанного інтервалу між покуп-
ками [15]. Отже, формулювання задачі про-
гнозування майже завжди базується на ев-
ристичних правилах, які встановлюються
експертами галузі або керівництвом для ви-
рішення дуже специфічних поточних про-
блем бізнесу.
Через різноманітність цих визначень
та характеристик різних ринків, нормальні
показники відтоку суттєво коливаються.
Наприклад, щорічно телекомунікаційний
сектор втрачає 20–40% абонентів [2], бан-
ківський — 15–25% [8], а за іншими даними
ці рівні становлять 20,4% та 26,5% відпо-
відно [3]. Окремої уваги заслуговує сфера
електронної та роздрібної торгівлі, де від-
носини між магазином та покупцем перева-
жно не мають жодного контрактного хара-
ктеру. У такому середовищі споживачі мо-
жуть дуже легко змінювати платформи та
бренди, тому рівень відтоку тут традиційно
є найвищим. Зокрема, дослідження на базі
даних онлайн-магазину роздрібної торгівлі
фіксують частку відтоку на рівні 32,1% [3].
Спираючись на проаналізовану ін-
формацію, для подальшого дослідження
було вирішено сфокусуватися лише на ак-
тивних клієнтах, які зробили не менше 4 по-
купок упродовж усього часового періоду.
Розмір оглядового вікна встановлений на
рівні 12 місяців у зв’язку з тим, що специ-
фіка даного датасету не передбачає дуже
частих покупок (середня кількість днів між
покупками становить 112 днів, а медіана –
82 дні). Вікно прогнозування визначене на
рівні 6 місяців. Це дало можливість отри-
мати датасет, у якому 22.4% клієнтів за-
знали відтоку, що відповідає очікуванням з
огляду на дані попередніх досліджень.
4. Підготовка ознак
Побудова власної прогностичної мо-
делі відтоку клієнтів спирається на транза-
кційні дані для генерації набору поведінко-
вих метрик, концептуально подібних до
тих, що були розроблені у [15], головною
відмінністю між якими виступає розмір
оглядового вікна (1 рік замість 2 місяців).
Основу набору ознак складають базові
змінні: загальна кількість транзакцій, сума-
рні витрати клієнта, середній розмір чека за
обраний період спостереження (який може
97
Штучний інтелект
гнучко налаштовуватися залежно від біз-
нес-циклу), а також кількість днів, що ми-
нула з моменту останньої покупки. Цей ви-
бір є обґрунтованим, оскільки такі метрики
фактично є адаптацією класичної моделі
RFM (давність, частота, грошова цінність),
яка, згідно з численними дослідженнями,
слугує галузевим стандартом для моделю-
вання та прогнозування поведінки спожи-
вачів у багатьох індустріях [16]. Окрім
цього, також включено метрику загальної
тривалості активності клієнта, що допо-
може алгоритмам оцінювати його загальну
лояльність. Важливість цього кроку підтве-
рджується ефективністю розширених моде-
лей LRFM (до яких додається тривалість ві-
дносин, Length), які активно застосову-
ються в інших наукових працях для суттє-
вого покращення розпізнавання стабільних
користувачів [16].
Крім статичних показників, важли-
вим етапом є генерація розширених динамі-
чних ознак, які фіксують відсоткові зміни в
купівельній активності. Наслідуючи логіку
[15], створено змінні для вимірювання від-
носного зростання або падіння кількості
покупок та сум витрат порівняно з попере-
дніми періодами, адже саме спад активно-
сті є найяскравішим раннім індикатором
майбутнього відтоку. Прогностична цін-
ність таких трендових індикаторів надійно
підкріплена й іншими сучасними роботами.
Наприклад, спеціалізовані системи автома-
тизованого машинного навчання, такі як
Marketing-AutoM3L, за замовчуванням ге-
нерують подібні оцінки поведінкової залу-
ченості, обчислюючи швидкість і відносні
тренди активності клієнтів для завчасного
виявлення ризиків [3]. Такий же принцип
доводить свою дієвість і у дослідженнях фі-
нансового сектору, де аналіз спадних чи
зростаючих трендів (нахилів) транзакційної
активності користувачів дозволяв алгорит-
мам значно ефективніше та точніше про-
гнозувати відтік, ніж використання лише
статичної демографічної інформації [12].
5. Масштабування й вибір ознак
Саме на цьому етапі порівнюється
ефективність засобів автоматизованого ма-
шинного навчання із ручним підходом. За
основу ручного підходу взято дослідження
[15], де для боротьби зі зміщеним розподі-
лом значень, який часто виникає через екс-
тремальні покупки клієнтів, застосовується
логарифмічна трансформація. Після цього
відбувається масштабування ознак за допо-
могою стандартизації Z-score, що приво-
дить всі показники до єдиного діапазону.
Щоб усунути проблему високої кореляції
між згенерованими метриками, використо-
вується метод ручного групування: виявля-
ються ознаки із високою кореляцією, після
чого їхні значення усереднюються, об'єдну-
ються в єдиний показник. Це дозволяє зме-
ншити розмірність даних і значно спрос-
тити роботу прогностичних алгоритмів.
На противагу ручному процесу, пе-
редові системи автоматизованого машин-
ного навчання, такі як AutoSklearn, пропо-
нують широкий спектр вбудованих матема-
тичних методів для попередньої обробки.
AutoSklearn повністю автоматизує масшта-
бування, самостійно тестуючи та обираючи
найоптимальніший метод серед стандарт-
ного, мінімаксного або робастного масшта-
бування для конкретного набору даних.
Щодо обробки сильно корельованих ознак,
AutoSklearn пропонує прямий алгоритміч-
ний аналог - метод агломерації ознак [18].
Цей алгоритм автоматично виконує класте-
ризацію змінних і об'єднує схожі ознаки,
що по суті автоматизує процес ручного усе-
реднення корельованих метрик. Крім того,
AutoSklearn використовує потужні методи
зменшення розмірності, такі як метод голо-
вних компонент (PCA) та швидкий аналіз
незалежних компонент (Fast ICA), що до-
зволяє ефективно усувати надлишковість
та шум без жодного ручного втручання ек-
сперта [18].
Інша потужна система, TPOT, підхо-
дить до масштабування та відбору ознак че-
рез призму генетичного програмування, бу-
дуючи гнучкі еволюційні конвеєри пере-
творень. Для масштабування TPOT автома-
тично інтегрує стандартні та робастні нор-
малізатори (StandardScaler, RobustScaler)
безпосередньо у свої пайплайни, якщо ево-
люційний алгоритм підтверджує, що це пі-
двищує загальну точність моделі [19]. Од-
нак, на відміну від прямого групування та
усереднення корельованих ознак, TPOT за-
98
Штучний інтелект
стосовує рандомізований метод головних
компонент (RandomizedPCA), рекурсивне
виключення ознак (RFE) та фільтрацію за
порогом дисперсії (Variance Threshold) [19].
Це означає, що замість злиття схожих мет-
рик в одну, TPOT комбінує їх у нові нелі-
нійні компоненти (головні компоненти) або
відкидає ті з них, які еволюційний алгоритм
визнає найменш корисними чи надто коре-
льованими для кінцевого прогнозу.
6. Перебіг експерименту та його
результати
У ході дослідження відбувалося тре-
нування багатьох моделей машинного нав-
чання, для яких було використано різні ме-
тоди підготовки ознак та різні засоби
AutoML для вибору й оптимізації моделей.
Оскільки процес автоматизованого машин-
ного навчання ресурсомісткий, для
AutoSklearn і TPOT було надано різні про-
міжки часу з метою перевірити як часові ра-
мки впливають на навчання моделей
AutoML.
Експеримент полягає у проведенні
порівняльного тестування AutoSklearn та
TPOT у задачі прогнозування відтоку кліє-
нтів. Оскільки процес автоматизованого
машинного навчання ресурсомісткий, тре-
нування було розподілене за різними часо-
вими лімітами (5, 15 та 30 хвилин) і також
за трьома підходами до підготовки даних:
повністю ручне масштабування та групу-
вання ознак, лише ручне масштабування та
використання повністю «сирих» маркетин-
гових ознак.
Під час розробки та тренування мо-
делей машинного навчання замість станда-
ртного випадкового перемішування даних
було застосовано підхід історичної симуля-
ції, відомий як out-of-sample historical
testing [15]. Цей метод передбачає навчання
алгоритму на вибірці історичних даних з
минулого та подальше тестування його
прогнозів на абсолютно нових даних із май-
бутнього періоду. Важливість такого під-
ходу полягає в тому, що реальні ринки та
поведінка споживачів постійно змінюються
у часі. Прогностичні моделі поводяться зо-
всім інакше в умовах простого випадкового
розділення даних порівняно з реальним
прогнозуванням майбутніх подій. Завдяки
історичній симуляції поза вибіркою можна
отримати максимально реалістичну оцінку
того, як саме модель працювала б, якби її
запустили в комерційну експлуатацію в ре-
альному часі.
Для забезпечення додаткової надій-
ності та стабільності алгоритмів на етапі
навчання також застосовано метод п'ятиб-
лочної перехресної перевірки, тобто 5-fold
cross-validation, подібно до [1]. Цей підхід
розділяє тренувальний масив даних на п'ять
рівних частин, де кожна з них по черзі ви-
ступає в ролі валідаційного набору, тоді як
інші чотири використовуються для нав-
чання моделі. Використання перехресної
перевірки є важливим, оскільки ефективно
допомагає пом'якшити проблему перена-
вчання (overfitting) [16]. Оцінюючи модель
на різних незалежних підмножинах даних,
алгоритм узагальнює знайдені закономір-
ності, а не просто заучує специфіку трену-
вальної вибірки.
Для оцінки прогнозів обрано ком-
плекс метрик, що враховують значний кла-
совий дисбаланс (22.4% відтоку). Оскільки
стандартна точність (accuracy) у таких умо-
вах може бути оманливою [16], основна
увага приділена ROC AUC. Вона об'єкти-
вно оцінює здатність моделі розрізняти
класи незалежно від порогу відсічення [15].
Додатково використано weighted F1 [14] —
гармонійне середнє між точністю та повно-
тою, зважене за кількістю представників
кожного класу. Для оцінки бізнес-ефектив-
ності застосовано top-decile lift. Цей показ-
ник демонструє перевагу моделі над випад-
ковим вгадуванням серед 10% найбільш ри-
зикових клієнтів, що дозволяє оптимізувати
витрати на їхнє утримання [15, 16].
Отримані результати, наведені в
таблиці, демонструють різну поведінку
двох фреймворків за умов обмеженого
часу. AutoSklearn показує високу стабіль-
ність і точність прогнозів усіх часових про-
міжків (Weighted F1 на рівні 0.75–0.78,
ROC AUC 0.783–0.792) незалежно від того,
як були підготовлені дані. Така ефектив-
ність навіть за встановлених часових обме-
жень може бути зумовлена його архітекту-
рою: система використовує байєсівську оп-
тимізацію на базі випадкових лісів (SMAC),
99
Штучний інтелект
яка суттєво пришвидшується завдяки мета-
навчанню. Фреймворк аналізує метаознаки
поточного набору даних, використовує до-
свід попередніх успішних оптимізацій для
«теплого старту», а наприкінці автомати-
чно поєднує найкращі знайдені моделі в
ефективний ансамбль.
На противагу цьому, продуктивність
TPOT суттєво залежить від наданого йому
обчислювального часу. За умови ліміту в 5
хвилин на «сирих» даних його результати є
менш показовими (Accuracy лише 0.647,
Weighted F1 падає до 0.66), проте зі збіль-
шенням часу до 15 та 30 хвилин він різко
стабілізує роботу, досягаючи рівня
AutoSklearn, іноді й перевершуючи показ-
ники з невеликим відривом (Accuracy зрос-
тає до 0.800, а Weighted F1 до 0.78). Ця ди-
наміка відповідає закладеним у TPOT алго-
ритмам генетичного програмування, де си-
стема ітеративно будує, мутує та схрещує
деревоподібні конвеєри перетворень. Му-
тація пайплайнів із подальшою багатоці-
льовою Парето-оптимізацією є вкрай ре-
сурсомістким процесом, що вимагає знач-
ного часу для еволюції моделі та збіжності
до оптимального рішення. За обмеженого
часу ручне масштабування дещо допомогло
TPOT знайти рішення швидше (Accuracy
0.710 на 5 хвилинах), але не розкрило його
повного потенціалу.
Ще одним показовим висновком з
експерименту є вплив ручної попередньої
обробки порівняно з автоматизованою. По-
дача «сирих» (немасштабованих і незгрупо-
ваних) даних може несуттєво погіршити де-
які результати (падіння ROC AUC з 0.799
до 0.792), а за достатнього часу тренування
дозволила обом фреймворкам досягти най-
вищих показників Weighted F1 (0.78) у по-
рівнянні з ручною обробкою (0.71–0.75). Це
підтверджує тезу про те, що сучасні засоби
AutoML здатні на рівні з людиною автома-
тизувати процеси нормалізації та боротьби
з мультиколінеарністю. AutoSklearn само-
стійно тестує різні методи масштабування
та використовує алгоритм агломерації оз-
нак або аналіз головних компонент (PCA)
для усунення надлишковості та шуму.
Своєю чергою, TPOT інтегрує нормаліза-
тори безпосередньо у свої еволюційні пай-
плайни, а замість ручного злиття схожих
метрик комбінує їх у нові нелінійні компо-
ненти або алгоритмічно відкидає через ре-
AutoML tool AutoSklearn TPOT
Testing on features
scaled and grouped
manually
Accuracy ROC
AUC
Weighted
F1
Top-
Decile
Lift
Accuracy ROC
AUC
Weighted
F1
Top-
Decile
Lift
5m 0.785 0.783 0.75 2.390 0.710 0.736 0.73 2.148
15m 0.791 0.794 0.75 2.685 0.786 0.787 0.74 2.497
30m 0.786 0.794 0.74 2.470 0.785 0.799 0.74 2.551
Testing on features
scaled manually
Accuracy ROC
AUC
Weighted
F1
Top-
Decile
Lift
Accuracy ROC
AUC
Weighted
F1
Top-
Decile
Lift
5m 0.789 0.790 0.75 2.578 0.711 0.785 0.73 2.470
15m 0.784 0.796 0.72 2.578 0.726 0.789 0.75 2.524
30m 0.779 0.784 0.69 2.685 0.781 0.792 0.71 2.470
Testing on raw
features
Accuracy ROC
AUC
Weighted
F1
Top-
Decile
Lift
Accuracy ROC
AUC
Weighted
F1
Top-
Decile
Lift
5m 0.798 0.792 0.78 2.658 0.647 0.745 0.66 2.739
15m 0.787 0.778 0.78 2.658 0.793 0.791 0.78 2.524
30m 0.787 0.769 0.78 2.685 0.800 0.787 0.78 2.497
100
Штучний інтелект
курсивне виключення ознак (RFE). Таким
чином, ручне логарифмування, стандарти-
зація Z-score та логічне усереднення залеж-
них змінних виявляються зайвими та пев-
ною мірою обмежувальними кроками.
У контексті бізнес-аналітики, оці-
нювати ці моделі варто через призму профі-
льних метрик. Через значний дисбаланс
класів базова точність (Accuracy) може
бути зміщеною та оманливою. Значно важ-
ливішими є стабільні показники ROC AUC
та weighted F1, які успішно тримаються на
рівні близько 0.78–0.79. Водночас метрика
Top-Decile Lift, яка досягає значень 2.390–
2.739, оозначає, що навчені моделі AutoML
дозволяють виявляти клієнтів із найвищим
ризиком відтоку (у верхніх 10% клієнтської
бази) у приблизно два з половиною рази
ефективніше, ніж якби маркетологи оби-
рали аудиторію навмання, що демонструє
суттєву комерційну цінність побудованих
конвеєрів. Завдяки цьому бізнес може мак-
симально раціонально оптимізувати марке-
тинговий бюджет, спрямовуючи пропозиції
з утримання виключно на тих споживачів,
які цього справді потребують.
Результати підтверджують, що для
швидкого отримання надійних прогнозів на
непідготовлених даних добре підходить
AutoSklearn, тоді як TPOT потребує знач-
них обчислювальних витрат і часу. Однак
важливо розуміти, що високі результати
обох систем стали можливими також за-
вдяки тому, що до їхнього запуску було
проведено якісну інженерію доменних оз-
нак: вхідні дані вже містили розраховані
маркетингові RFM-метрики, тривалість ак-
тивності рахунків та індикатори поведінко-
вої залученості клієнтів. Засоби AutoML бе-
руть на себе математичну рутину обробки
та відбору ознак, але формування правиль-
ного маркетингового контексту та ство-
рення релевантних змінних все ще лежить в
основі успішного вирішення проблеми.
Висновки
У статті запропоновано та практично оці-
нено ефективність впровадження засобів
автоматизованого машинного навчання
(AutoML) для мінімізації ручного втру-
чання технічних спеціалістів у процес по-
будови предиктивних моделей на базі обме-
жених наборів даних. Проведені експери-
менти підтвердили основну гіпотезу дослі-
дження, згідно з якою сучасні платформи
(AutoSklearn та TPOT) здатні успішно та на
рівні з людиною автоматизувати процеси
нормалізації, масштабування та боротьби з
мультиколінеарністю без втрати якості кін-
цевого прогнозу. У межах роботи формалі-
зовано задачу прогнозування відтоку клієн-
тів у неконтрактному середовищі роздріб-
ної торгівлі, де бізнес оперує виключно ба-
зовою транзакційною історією. Валідація
алгоритмів здійснювалася методами істо-
ричної симуляції (out-of-sample testing) та
5-блочної перехресної перевірки з викорис-
танням 11 розроблених поведінкових
метрик.
Експериментальна оцінка продемо-
нструвала високу ефективність запропоно-
ваного підходу: подача «сирих» (немасшта-
бованих і незгрупованих) даних у системи
AutoML дозволила досягти найвищих пока-
зників Weighted F1 (0.78) порівняно з їх-
ньою попередньою ручною обробкою
(0.71–0.75). Аналіз часових лімітів виявив,
що AutoSklearn здатен генерувати стабільні
конвеєри з ROC AUC на рівні 0.792 вже за
5 хвилин обчислень завдяки механізмам
метанавчання, тоді як архітектура TPOT
потребувала від 15 до 30 хвилин для збіж-
ності до аналогічних результатів. Побудо-
вані моделі забезпечили показник Top-
Decile Lift до 2.739, що дозволяє виявляти
ризикових клієнтів у 2,5 раза ефективніше
за випадковий вибір. Отримані результати
підтверджують доцільність використання
фреймворків AutoML для розгортання про-
гностичних ІТ-систем в умовах дефіциту
розширених даних та нестачі часу техніч-
них експертів, водночас визначаючи клю-
чову роль якісної генерації доменних ознак
перед етапом автоматизації.
References
1. S. Dao, T. Dong, S. Chen, Automated
Customer Churn Prediction in Banking: A
Domain-Aware AutoML Approach (2026).
2. M. Mandić, G. Kraljević, Churn prediction
model improvement using automated machine
learning with social network parameters,
101
Штучний інтелект
Revue d'Intelligence Artificielle 36 (3) (2022)
373–379. doi: 10.18280/ria.360304
3. Y. Tian, W. Shao, Z. Deng, Marketing-
AutoM3L: domain-aware automated machine
learning for financial customer analytics,
Frontiers in Artificial Intelligence 9 (2026)
1726900. doi: 10.3389/frai.2026.1726900
4. M.-A. Zöller, M.F. Huber, Benchmark and
Survey of Automated Machine Learning
Frameworks, Journal of Artificial Intelligence
Research 70 (2019) 409–472.
5. D. Luo, C. Feng, Y. Nong, Y. Shen, AutoM3L:
An Automated Multimodal Machine Learning
Framework with Large Language Models, in:
Proceedings of the 32nd ACM International
Conference on Multimedia (2024).
6. P. Trirat, W. Jeong, S.J. Hwang, AutoML-
Agent: A Multi-Agent LLM Framework for
Full-Pipeline AutoML, arXiv preprint
arXiv:2410.02958 (2024).
7. X. He, K. Zhao, X. Chu, AutoML: A Survey of
the State-of-the-Art, arXiv preprint
arXiv:1908.00709 (2019).
8. A. Mari, The Rise of Machine Learning in
Marketing: Goal, Process, and Benefit of AI-
Driven Marketing (2019).
9. D. Herhausen, S.F. Bernritter, E.W.T. Ngai, A.
Kumar, D. Delen, Machine learning in
marketing: Recent progress and future research
directions, Journal of Business Research 170
(2024) 114254. doi:
10.1016/j.jbusres.2023.114254
10. M.S. Kasem, M. Hamada, I. Taj-Eddin,
Customer profiling, segmentation, and sales
prediction using AI in direct marketing, Neural
Computing and Applications 36 (2024) 4995–
5005. doi: 10.1007/s00521-023-09339-6
11. B. Gao, Y. Wang, H. Xie, Y. Hu, Y. Hu,
Artificial Intelligence in Advertising:
Advancements, Challenges, and Ethical
Considerations in Targeting, Personalization,
Content Creation, and Ad Optimization, Sage
Open 13 (4) (2023).
12. E. Kaya, X. Dong, Y. Suhara, et al., Behavioral
attributes and financial churn prediction, EPJ
Data Science 7 (2018) 41. doi:
10.1140/epjds/s13688-018-0165-5
13. M. Mandić, G. Kraljević, Two-Layer
Architecture of Telco Churn Auto-ML (2020).
14. M.V.C. Aragão, A.G. Afonso, R.C. Ferraz, et
al., A practical evaluation of AutoML tools for
binary, multiclass, and multilabel
classification, Scientific Reports 15 (2025)
17682. doi: 10.1038/s41598-025-02149-x
15. S. Akhmetbek, Forecasting Customer Future
Behavior in Retail Business Using Machine
Learning Models, Scientific Journal of Astana
IT University (2022).
16. A. Manzoor, M.A. Qureshi, E. Kidney, L.
Luca, A Review on Machine Learning
Methods for Customer Churn Prediction and
Recommendations for Business Practitioners,
IEEE Access 12 (2024) 70434–70463.
17. D. Chen, Online Retail II (Version 1) [Data
set], UCI Machine Learning Repository
(2019).
18. M. Feurer, K. Eggensperger, S. Falkner, M.
Lindauer, F. Hutter, Auto-Sklearn 2.0: Hands-
free AutoML via Meta-Learning, arXiv
preprint arXiv:2007.04074 (2020).
19. P. Ribeiro, et al., TPOT2: A New Graph-Based
Implementation of the Tree-Based Pipeline
Optimization Tool for Automated Machine
Learning, in: S. Winkler et al. (Eds.), Genetic
Programming Theory and Practice XX,
Springer, Singapore (2024). doi: 10.1007/978-
981-99-8413-8_1
Дата першого надходження до видання:
07.03.2026
Внутрішня рецензія отримана: 14.03.2026
Зовнішня рецензія отримана: 14.03.2026
Дата прийняття статті до друку: 19.03.2026
Дата публікації: 16.04.2026
Про автора:
1Ніконов Олександр Володимирович,
аспірант
Nikonov Olexandr,
Post-graduate student
https://orcid.org/0009-0009-4743-4854.
Місце роботи автора:
1 Національний технічний університет
України «Київський політехнічний
інститут імені Ігоря Сікорського»
National Technical University of Ukraine
“Igor Sikorsky Kyiv Polytechnic Institute”
E-mail: nikonov.sanynikonov@gmail.com
Сайт: https://ist.kpi.ua
|
| id | pp_isofts_kiev_ua-article-894 |
| institution | Problems in programming |
| keywords_txt_mv | keywords |
| language | Ukrainian |
| last_indexed | 2026-04-24T01:00:14Z |
| publishDate | 2026 |
| publisher | PROBLEMS IN PROGRAMMING |
| record_format | ojs |
| resource_txt_mv | ppisoftskievua/0a/6ec64e81b0dc100889c8bda89751de0a.pdf |
| spelling | pp_isofts_kiev_ua-article-8942026-04-23T22:26:13Z Analyses of automated machine learning tools for application in marketing Аналіз засобів автоматизованого машинного навчання для застосування у маркетингу Nikonov, O.V. automated machine learning; predictive analytics; customer churn prediction; retail; feature engineering UDC 004.052.32, 004.43 автоматизоване машинне навчання; предиктивна аналітика; прогнозування від току клієнтів; роздрібна торгівля; інженерія ознак УДК 004.052.32, 004.43 The article investigates the problem of automating the activities of IT experts in machine learning using modern AutoML frameworks (AutoSklearn and TPOT). The aim of the work is to overcome the fundamental contradiction between the high resource intensity of manual creation of predictive pipe lines and the need to build accurate models in conditions of limited data, when companies have only basic transactional information. The proposed approach formalizes the use of AutoML algorithms to solve the problem of predicting customer churn in retail, replacing manual data processing processes with automated solutions. The approach is implemented by generating a set of subject-oriented features based on the RFM model and validated by historical simulation methods on the transactional dataset "Online Retail". Experimental results demonstrate that AutoML systems are able to work effectively with "raw" data: AutoSklearn provides a stable weighted F1-measure at the level of 0.78 and ROC AUC 0.792 in just 5 minutes of work. The work has practical significance for developing resource efficient predictive systems, minimizing the impact of the human factor, and accelerating the deploy ment of models at enterprises with a basic level of data collection.Problems in programming 2026; 1: 93-101 У статті досліджено проблему автоматизації діяльності ІТ-експертів з машинного навчання за допомогою сучасних фреймворків AutoML (AutoSklearn та TPOT). Метою роботи є подолання фундаментального протиріччя між високою ресурсомісткістю ручного створення предиктив них конвеєрів та необхідністю будувати точні моделі в умовах обмеженої кількості даних, коли компанії володіють лише базовою транзакційною інформацією. Запропонований підхід форма лізує використання алгоритмів AutoML для розв'язання задачі прогнозування відтоку клієнтів у роздрібній торгівлі, замінюючи ручні процеси обробки даних автоматизованими рішеннями. Підхід реалізовано шляхом генерації набору предметно-орієнтованих ознак на базі RFM-моделі та валідовано методами історичної симуляції на транзакційному датасеті «Online Retail». Екс периментальні результати демонструють, що системи AutoML здатні ефективно працювати із «сирими» даними: AutoSklearn забезпечує стабільну зважену F1-міру на рівні 0.78 та ROC AUC 0.792 вже за 5 хвилин роботи. Робота має практичне значення для розробки ресурсоефективних предиктивних систем, мінімізації впливу людського фактора та пришвидшення розгортання моделей на підприємствах із базовим рівнем збору даних.Problems in programming 2026; 1: 93-101 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2026-04-23 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/894 PROBLEMS IN PROGRAMMING; No 1 (2026); 93-101 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2026); 93-101 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2026); 93-101 1727-4907 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/894/947 Copyright (c) 2026 PROBLEMS IN PROGRAMMING |
| spellingShingle | automated machine learning predictive analytics customer churn prediction retail feature engineering UDC 004.052.32 004.43 Nikonov, O.V. Analyses of automated machine learning tools for application in marketing |
| title | Analyses of automated machine learning tools for application in marketing |
| title_alt | Аналіз засобів автоматизованого машинного навчання для застосування у маркетингу |
| title_full | Analyses of automated machine learning tools for application in marketing |
| title_fullStr | Analyses of automated machine learning tools for application in marketing |
| title_full_unstemmed | Analyses of automated machine learning tools for application in marketing |
| title_short | Analyses of automated machine learning tools for application in marketing |
| title_sort | analyses of automated machine learning tools for application in marketing |
| topic | automated machine learning predictive analytics customer churn prediction retail feature engineering UDC 004.052.32 004.43 |
| topic_facet | automated machine learning predictive analytics customer churn prediction retail feature engineering UDC 004.052.32 004.43 автоматизоване машинне навчання предиктивна аналітика прогнозування від току клієнтів роздрібна торгівля інженерія ознак УДК 004.052.32 004.43 |
| url | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/894 |
| work_keys_str_mv | AT nikonovov analysesofautomatedmachinelearningtoolsforapplicationinmarketing AT nikonovov analízzasobívavtomatizovanogomašinnogonavčannâdlâzastosuvannâumarketingu |