Using machine learning methods to improve the efficiency of the cosmetological services administration process

The article is devoted to solving the problem of improving the quality of cosmetic service provision during the rapid scaling of an applied system. This process is accompanied by the creation of a large number of new roles and types of services, a significant expansion of the client base and communi...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2026
Hauptverfasser: Zakharova, O.V., Spektorovska, L.O.
Format: Artikel
Sprache:Ukrainisch
Veröffentlicht: PROBLEMS IN PROGRAMMING 2026
Schlagworte:
Online Zugang:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/893
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Institution

Problems in programming
_version_ 1863311599875391488
author Zakharova, O.V.
Spektorovska, L.O.
author_facet Zakharova, O.V.
Spektorovska, L.O.
author_sort Zakharova, O.V.
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
collection OJS
datestamp_date 2026-04-23T22:26:13Z
description The article is devoted to solving the problem of improving the quality of cosmetic service provision during the rapid scaling of an applied system. This process is accompanied by the creation of a large number of new roles and types of services, a significant expansion of the client base and communication network. Accordingly, it also increases significantly the volume of information that requires processing. The aim of the study is to develop approaches that would increase the efficiency of administering cosmetic services through the automation of incoming message processing and their multi-criteria categorization. The criteria identified for categorization are: message type, priority, the specialist, and the type of service. The paper also includes a review of existing approaches, taking into account the formulation of the applied task. This allows to conclude: to achieve the stated objective it is advisable to use a combination of text data preprocessing, feature extraction methods, and classical machine learning models.Problems in programming 2026; 1: 82-92
first_indexed 2026-04-24T01:00:16Z
format Article
fulltext 82 Штучний інтелект © О.В. Захарова, Л.О. Спекторовська, 2026 ISSN 1727-4907. Проблеми програмування. 2026. №1 УДК 004.94 https://doi.org/10.15407/pp2026.01.082 О.В. Захарова, Л.О. Спекторовська ВИКОРИСТАННЯ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ПІДВИЩЕННЯ ЕФЕКТИВНОСТІ ПРОЦЕСУ АДМІНІСТРУВАННЯ КОСМЕТОЛОГІЧНИХ ПОСЛУГ Робота присвячена вирішенню проблеми покращення якості надання косметологічних послуг у випадку стрімкого масштабування прикладної системи. Це супроводжується створенням великої кількості нових ролей та видів послуг, суттєвим розширенням клієнтської бази й комунікаційної мережі та, відповідно, значним збільшенням обсягів інформації, що потребує обробки. Метою дослідження є вироблення під- ходів, що дозволили б підвищити ефективність адміністрування косметологічних послуг шляхом авто- матизації обробки вхідних повідомлень та їхньої багатокритеріальної категоризації. Як критерії для ка- тегоризації виділені: тип повідомлення, пріоритет, фах спеціаліста, що з ним пов’язаний, вид послуги. В роботі також виконано огляд існуючих підходів з урахуванням постановки прикладної задачі, що до- зволив дійти висновку про доцільність використання комбінації попередньої обробки текстових даних, методів витягнення ознак із класичними моделями машинного навчання для досягнення поставленої мети. Ключові слова: машинне навчання, класифікація текстів, маршрутизація заявок, системи на основі пра- вил, гібрідні системи, трансформери, категоризація повідомлень, прогнозування, навчальні дані O.Zakharova, L. Spektorovska USING MACHINE LEARNING METHODS TO IMPROVE THE EFFICIENCY OF THE COSMETOLOGICAL SERVICES ADMINISTRATION PROCESS The article is devoted to solving the problem of improving the quality of cosmetic service provision during the rapid scaling of an applied system. This process is accompanied by the creation of a large number of new roles and types of services, a significant expansion of the client base and communication network. Accordingly, it also increases significantly the volume of information that requires processing. The aim of the study is to develop approaches that would increase the efficiency of administering cosmetic services through the automation of incoming message processing and their multi-criteria categorization. The criteria identified for categorization are: message type, priority, the specialist, and the type of service. The paper also includes a review of existing approaches, taking into account the formulation of the applied task. This allows to conclude: to achieve the stated objective it is advisable to use a combination of text data preprocessing, feature extraction methods, and classical machine learning models. Keywords: machine learning, text classification, rule-based systems, gibrid systems, transformers, message cat- egorization, routing of requests, prediction, training data Вступ Вимоги та забезпечення ефектив- ності будь-якої системи у сфері надання по- слуг насамперед обумовлюються розміром цієї системи. І сфера косметологічних пос- луг не є винятком. Якщо це косметологіч- ний кабінет з мінімальною кількістю ролей, що забезпечують виконання базових функ- цій, то автоматизованого робочого місця зі стандартними можливостями обліку клієн- тів, ведення їх запису, контролю розкладу завдань та надання пояснювальної (описо- вої) інформації з доступом до веб є цілком достатнім. Зокрема, мінімальна кількість ролей в системі не передбачає реалізації складної автоматичної маршрутизації за- вдань. Але в процесі масштабування різко зростає на лише набір ролей та функцій си- стеми, а й обсяг бази клієнтів і мережа ко- мунікацій, включаючи джерела надхо- дження інформації. Велику кількість різно- типних клієнтських заявок на отримання послуг потрібно «на льоту» класифікувати і розподіляти між ролями системи. Заявки можуть надходити до адміністраторів клі- https://pp.isofts.kiev.ua CC BY 4.0 83 Штучний інтелект ніки з різних джерел: телефоном, з чату сайту клініки, електронною поштою тощо. Фактично це текстові повідомлення довіль- ної форми, природною мовою різних фор- матів. Це критично збільшує навантаження на адміністраторів косметологічної клініки, суттєво збільшує трудомісткість процесу адміністрування. Ручна обробка великої кі- лькості різноманітних заявок породжує ри- зики помилкового розподілу задач та нега- тивно впливає на ефективність роботи клі- ніки в цілому. Тому задача автоматизації обліку та класифікації заявок на косметоло- гічні послуги набуває актуальності під час масштабування системи надання послуг. А її вирішення потребує залучення сучасних технологій для виявлення семантик в при- родномовних контентах та подальшої дина- мічної семантичної класифікації текстових повідомлень, що надходять з різних джерел у різних форматах. Постановка задачі Задача полягає у динамічному зборі та обробці текстових повідомлень, що над- ходять з різних джерел. Джерелами вхідних повідомлень можуть бути: листи електрон- ної пошти, зафіксовані письмово операто- ром call -центру/адміністратором в елект- ронному журналі звернення по телефону, повідомлення з месенжерів Viber або WhatsApp, повідомлення з чату сайту клі- ніки. Результатом має бути визначення ка- тегорії повідомлення за різними критеріями (рис.1), а саме: Рис. 1. Постановка задачі ̶ Тип повідомлення (запис на пер- винну консультацію, запис на косметологі- чну процедуру, відгук/скарга, технічне пи- тання, адміністративне питання, пи- тання/уточнення, запит на покупку косме- тологічних препаратів, спам тощо). ̶ Пріоритет (термінова зая- вка/звичайна). ̶ Фах спеціаліста, якому спрямо- вана, можливо пряме призначення за прі- звищем спеціаліста. ̶ Вид послуг (дерматологія, ін’єкційна косметологія, масаж, трихологія тощо). Ведення журналу повідомлень має забезпечувати його динамічне поповнення Обробка і кла- сифікація тек- стових конте- нтів Соціальні мережі Електронна по- шта Журнал повідо- млень Ча т Оператор/ адміністра- тор т т т т Заявки за типами Заявки за видами послуг Заявки за фахом Заявки за пріоритетами 84 Штучний інтелект новими даними з різних джерел вхідної ін- формації, оновлення у разі зміни характе- ристик і стану заявок та видалення застарі- лих. Як базові характеристики повідом- лення можна виділити: номер (id); дата на- дходження; вид джерела надходження (чат, оператор, viber, whatsapp, дані про автора (електронна пошта, телефон, viber, whatsapp тощо), Instagram, messenger, елек- тронна пошта); контент; дата останнього оновлення; статус заявки (нова, класіфіко- вана, закрита, виконана); категорія заявки; вид послуг, якого вона стосується; фах і прізвище спеціаліста, якому спрямована; пріоритет. Основна мета реалізації функції се- мантичного аналізу тексту в цій задачі по- лягає в класифікації текстових повідомлень на фіксовану кількість наперед визначених категорій, де одне повідомлення (в загаль- ному випадку) може потрапити до кількох категорій, до однієї категорії, або не потра- пити до жодної. Тобто результатом обробки і класи- фікації текстових контентів має бути визна- чення характеристик класифікації (тип зая- вки; вид послуг, яких стосується; фах і прі- звище спеціаліста, якому призначена; пріо- ритет заявки) на основі аналізу виявлених у контенті семантичних елементів. Загальна схема процесу представлена на рис.2. Рис. 2. Загальна схема процесу обробки повідомлень Огляд існуючих підходів Головне завдання, що потребує вирі- шення в сформульованій вище задачі, це ав- томатична класифікація текстів. Слід зазна- чити, що автоматична класифікація тексту є однією з базових задач обробки природної мови. Умовно можно виділити три групи систем автоматичної класифікації текстів [1]: системи на основі правил, системи на основі машинного навчання та гібрідні сис- теми. Системи на основі правил. Сис- теми на основі правил [2] є одним з найпро- стіших підходів до класифікації. Для кате- горизації тексту вони використовують набір мовних правил, розроблених зазда- легідь вручну. Кожне правило складається з шаблону та визначення категорії, що відповідає цьому шаблону. Тобто вони наказують системі класифікувати текст у певну категорію на основі його змісту, ви- користовуючи в шаблоні семантично реле- вантні текстові елементи. Слід зазначити, Повідомлення зі статусом New Повідомлення зі статусом Classified Зчитування текс- тової інформації з вхідних джерел Журнал пові- домлень Аналіз і класифі- кація текстових повідомленьРеєстрація повідо- млень зі статусом New Текстові по- відомлення Виконання заявок Видалення заста- рілих повідомлень статус Текстові по- відомлення характерис- тики класифіка- ції характеристики кла- сифікації, статус Оновлення жур- налу повідомлень Заявки за категоріями 85 Штучний інтелект що за одним шаблоном в загальному випадку текстовий елемент може потрап- ляти до більш ніж однієї категорії. Наприклад, можна визначити пра- вило, що, якщо текст повідомлення містить слова «підліток» та «акне», то повідом- лення належить до категорії видів послуг Підліткова дерматологія, а до категорії типів повідомлень Спам віднести тексти, що включають одне з наступних слів: «ак- ція», «знижка», «розпродаж», «виграти», «не пропустіть» тощо. Повідомлення з назвою косметологічного препарату може бути віднесено як до категорії Запит на по- купку косметологічного препарату, так і до «Питання/уточнення» чи «Відгук/скарга». Найпоширенішими формами правил, що використовуються в системах класифікації текстів, є регулярні правила (шаблони), правила на ключові слова, дерева рішень, словники тощо. Досить відомими є такі реалізації си- стем на основі правил, як спам-фільтри [3], системи класифікації заявок (Helpdesk / Service desk routing), системи класифікації новин за словниками, системи виявлення тональностей за правилами (Vader [4], словники SentiWordNet [5]), платформи Rasa rules [6] та Dialogflow rules [7] – кла- сифікація намірів у чат-ботах, які викори- стовують як правила на ключові слова, так і шаблони й прості деревоподібні правила тощо. Перевагою систем на основі правил є їхня простота і зрозумілість, до недоліків можна віднести їхню трудомісткість (вима- гають багато часу для ручного створення правил, ретельного вивчення предметної області й тестування) та складність у мас- штабуванні (додавання нових правил може змінити результати вже існуючих). Також системи на основі правил є складними в об- слуговуванні та масштабуванні. Системи на основі машинного на- вчання. Задача класифікації є однією з кла- сичних задач машинного навчання (ML). Для автоматичної класифікації текстової інформації системи на основі ML викорис- товують різноманітні алгоритми та моделі. Вони зазвичай навчаються на зразках роз- мічених текстів (навчальна вибірка). Це до- зволяє під час навчання зрозуміти певні за- кономірності у вхідних текстах і в подаль- шому правильно класифікувати нові зразки. Серед найбільш використовуваних класичних моделей машинного навчання для класифікації текстів варто виділити на- ступні. Multinomial Naive Bayes (MNB) [8] алгоритм належить до родини наївних Бає- сівських моделей. Це клас моделей, засно- ваний на теоремі Баєса та припущенні умо- вної незалежності ознак від заданої мітки класу. Незалежність ознак передбачає, що у встановленні належності елемента певної категорії, яка визначається множиною оз- нак, кожна ознака елемента розглядається незалежно від інших. Такий підхід є ефек- тивним для вирішення задач, де дискримі- нативні слова домінують у приналежності до класу. Мультиномінальна модель, як правило, використовується саме для класи- фікації текстів, де для кожної цільової кате- горії y, що визначається n ознаками, розпо- діл визначається параметризованим векто- ром 𝜃𝜃𝑦𝑦 = (𝜃𝜃𝑦𝑦1, … , 𝜃𝜃𝑦𝑦𝑛𝑛), де 𝜃𝜃𝑦𝑦𝑖𝑖 – ймовірність ознаки i в екземплярі класу y, що обчислю- ється підрахунком відносної частоти появи ознаки i в класі y в тренувальному наборі даних. Слід зазначити, що припущення про незалежність ознак не завжди є вірним, і в таких випадках метод може бути не достат- ньо ефективним. Але, попри це, наївна бає- сівська модель часто забезпечує доволі кон- курентоспроможну продуктивність у зада- чах класифікації коротких текстів. Linear SVM (Support Vector Machine) [9] - лінійний класифікатор, що базується на принципі мінімізації структурного ри- зику [10] з теорії обчислювального нав- чання. Ідея полягає у знаходженні гіпотези h, для якої можна гарантувати найменшу іс- тинну похибку. Істинна похибка гіпотези h - це ймовірність того, що h дасть помилку на не- побаченому та випадково вибраному тестовому прикладі. Верхня межа може бути використана для зв'язку істинної похи- бки гіпотези h з похибкою цієї гіпотези на 86 Штучний інтелект навчальному наборі даних та складністю простору гіпотез, що містить h, H (що вимі- ряна розмірністю Vapnik–Chervonenkis (VC) [11]). SVM знаходить таку гіпотезу h, яка мінімізує (наближено) цю межу істин- ної похибки шляхом ефективного та ре- зультативного контролю VC-розмірності простору H. Якщо набір тренувальних даних представити як множину точок (𝑥𝑥𝑖𝑖, 𝑦𝑦𝑗𝑗), 𝑖𝑖 = 1, 𝑛𝑛̅̅ ̅̅̅, 𝑗𝑗 = 1, 𝑝𝑝̅̅ ̅̅̅, де 𝑥𝑥𝑖𝑖 – текстовий елемент, що підлягає класифікації, а 𝑦𝑦𝑗𝑗 – визначає нале- жність 𝑥𝑥𝑖𝑖 до певного класу j, і може прий- мати одне з двох значень: 1 – належить, -1 – не належить. То мета SVM полягає у роз- діленні всієї множини точок 𝑥𝑥𝑖𝑖, для яких 𝑦𝑦𝑗𝑗 = 1, від тих точок, для яких 𝑦𝑦𝑗𝑗 = −1, гіперп- лощиною (межу) з максимальним «зазо- ром» і забезпечити мінімальну похибку класифікації. Результативна оцінка визна- чається до цієї межі. SVM є дуже універсальними навча- льними системами, які у своїй базовій фо- рмі вивчають лінійну порогову функцію. Але у разі певного вдосконалення (простим «підключенням» відповідної функції ядра), можуть бути використані й для навчання поліноміальних класифікаторів, мереж ра- діальних базових функцій (RBF) та триша- рових сигмоподібних нейронних мереж. Logistic Regression [12] ще один ме- тод лінійної класифікації, що моделює ймо- вірність належності текст до категорії на основі ознак типу Bag-of-Words або TF- IDF. Загалом лінійна класифікація стала од- ним із найперспективніших методів нав- чання для великих розріджених даних із ве- личезною кількістю екземплярів і ознак. Логістична регресія, як і SVM, оперує да- ними як множиною точок (𝑥𝑥𝑖𝑖, 𝑦𝑦𝑗𝑗), 𝑖𝑖 = 1, 𝑛𝑛̅̅ ̅̅̅, 𝑗𝑗 = 1, 𝑝𝑝̅̅ ̅̅̅, де 𝑥𝑥𝑖𝑖 – текстовий елемент, що підлягає класифікації, а 𝑦𝑦𝑗𝑗 – визначає нале- жність 𝑥𝑥𝑖𝑖 до певного класу j, і може прий- мати одне з двох значень: 1 – належить, -1 – не належить. Обидва методи вирішують ту саму задачу оптимізації, але використо- вують різні функції втрат. На відміну від SVM, результатом методу логістичної ре- гресії є ймовірність того, що 𝑥𝑥𝑖𝑖 належить класу j. Серед нейронних моделей (глибо- кого навчання) для класифікації текстів най- більш використовуваними на сьогодні є: TextCNN [13], як і більшість моделей глибокого навчання, що працюють з приро- дним текстом, розглядає текст як послідов- ність векторних представлень слів (word embeddings). Ідея полягає в тому, що слова проєктуються з розрідженого кодування 1- з-N (де N – розмір словника) на векторний простір нижчої розмірності через прихова- ний шар. Ці вектори слів по суті є витяж- кою ознак, що кодують семантичні ознаки слів у їхніх вимірах. У таких щільних пред- ставленнях семантично близькі слова та- кож є близькими (за евклідовою або коси- нусною відстанню) й у векторному прос- торі нижчої розмірності. CNN (згорткові нейронні мережі) ви- користовують шари зі згортковими фільт- рами, які застосовуються до локальних оз- нак. Згорткові фільтри ковзають по послі- довності векторів слів та “виявляють” лока- льні шаблони: характерні n-грамні шаб- лони, ключові фрази, шаблони емоційної лексики, типові для певної категорії слова. Модель TextCNN є досить ефектив- ною і швидкою в навчанні й успішно пра- цює на коротких текстах (запити, відгуки, спам тощо), але, слід зазначити, що якість отриманого результату напряму залежить від якості векторного представлення слів. RNN/LSTM/GRU. Рекурентні ней- ронні мережі (RNN) [14] – клас нейроме- реж, що був спеціально розроблений для роботи з такими послідовностями даних (sequence data) як текст. На відміну від кла- сичних моделей, RNN обробляють текст покроково (слово за словом) і мають прихо- ваний стан, що дозволяє переносити інфор- мацію з попередніх кроків. Фактично наступний крок (прихований стан на кроці t) є нелінійною функцією, що враховує век- торні представлення слів на даному кроці, попередній крок (прихований стан на кроці t-1) і деякі параметри моделі. LSTM є модифікацією RNN, що була створена для вирішення проблеми довгих залежностей, яка існує в RNN. 87 Штучний інтелект LSTM вводить комірки пам’яті (memory cell) та гейти (gates), які контролюють: що саме треба запам’ятати, що забути, а що пе- редати далі в наступний стан. GRU є спро- щеним варіантом LSTM, який має менше параметрів і швидше навчається. Також слід виділити групу транс- формерних моделей, які зараз є найпопу- лярнішими і активно використовуються в системах обробки природньої мови (NLP). Вони є також класом нейромережевих архі- тектур, але, на відміну від вище розгляну- тих, базуються не на рекурентних зв’язках, а на механізмі самоуваги, що є їхньою клю- човою інновацією. Механізм самоуваги до- зволяє моделі фіксувати контекстуальні зв'язки між усіма токенами в послідовності. Механізм самоуваги дозволяє мо- делі визначати, на які слова в реченні по- трібно звернути увагу, щоб краще інтерпре- тувати поточне слово. Ця властивість особ- ливо важлива для розуміння неоднознач- них фраз, довгострокових залежностей та полісемії. Трансформерна модель була вперше запропонована 2017 року і швидко стала ос- новою більшості сучасних моделей NLP, включаючи BERT та RoBERTa, що є найви- користовуванішими серед моделей цієї групи. BERT (Bidirectional Encoder Representations from Transformers) [15] – найбільш поширена модель для класифіка- ції текстів, що спочатку навчається на вели- ких мовних корпусах з використанням са- моконтрольованих цілей, а потім налашто- вується для виконання конкретних завдань, зокрема, класифікації тексту. Точне налаш- тування зазвичай вимагає додавання класи- фікаційної структури (наприклад, онтоло- гії) після трансформаторного кодера та на- вчання моделі на позначених прикладах. BERT усуває обмеження односпря- мованості, коли мовна модель попередньо навчається зліва направо, використовуючи «моделі маскованої мови» (MLM) як мету попереднього навчання. Ідея полягає в тому, що модель маскованої мови випадко- вим чином маскує деякі токени з вхідних даних, а метою є прогнозування оригіналь- ного ідентифікатора словника замаскова- ного слова лише на основі його контексту. MLM дозволяє представленню об'єднати лівий та правий контексти, що дозволяє по- передньо навчити глибокий двонаправле- ний трансформатор. На додаток до моделі маскованої мови використовується також завдання «передбачення наступного ре- чення», що разом з MLM (спільно) попере- дньо навчає представлення текстових пар. Порівняно з методами на основі час- тотних векторів, класифікатори на основі BERT мають змогу краще узагальнювати синоніми та різні формулювання одного й того ж запиту, забезпечуючи високу якість отриманого результату. Модель RoBERTa [16] є покраще- ним варіантом навчання моделі BERT. Вне- сені до BERT модифікації включають: до- вше навчання моделі, з більшими пакетами, на більшій кількості даних; видалення цілі прогнозування наступного речення; нав- чання на довших послідовностях; та дина- мічну зміну шаблону маскування, що засто- совується до навчальних даних. Окрім цього, RoBERTa збирає но- вий набір даних (CC-NEWS) досить вели- кого розміру порівняно з іншими приватно використовуваними наборами даних, що дозволяє краще контролювати вплив роз- міру навчального набору на результат. Дане покращення моделі показало, що ви- користання більшої кількості даних на етапі попереднього навчання моделі значно покращує продуктивність вирішення задачі. XLM-R (XLM-RoBERTa) [17] – це ба- гатомовна трансформерна модель типу en- coder-only, побудована на архітектурі RoB- ERTa і дозволяє отримувати контекстні представлення тексту більш, ніж 100 мо- вами. Модель є розвитком одразу трьох ідей, а саме: підходу до двоспрямованого кодування контексту BERT, ідеї оптимізо- ваного навчання, що реалізована в RoB- ERTa, та технології «cross-lingual language modeling» (XLM). XLM-R навчається за раніше згада- ною схемою MLM. Її головною відмінністю є використання дуже великого багатомов- 88 Штучний інтелект ного корпусу для попереднього навчання моделі. Це визначає головний напрямок її застосування – вирішення багатомовних за- дач, де XLM-R показує високу якість ре- зультату. Прикладами таких задач може бути: багатомовна класифікація тексту, аналіз тональності для різних мов, обробка тексту з міжмовними переходами (примі- ром, попереднє навчання моделі англійсь- кою мовою, а працює українською). Слід зазначити, що моделі BERT, RoBERTa та XLM-R досягають найвищої точності, коли межі класів залежать від се- мантичного контексту, а не від ключових слів. Їхніми основними недоліками є досить високі, особливо порівняно з класичними ML моделями, обчислювальні вимоги та довший час навчання й логічного висновку. Відомі на сьогодні Великі Мовні Мо- делі (LLM) поки залишаються досить доро- гим рішенням для класифікації текстів із доволі непередбачуваним результатом, хоча в цілому, непогано працюють для складних категорій і мультимовних вхідних текстів. Гібрідні підходи. Гібрідні методи класифікації текстів [1] поєднують два або більше різні типи методів, моделей/пред- ставлень або наборів ознак, для досягнення кращої якості, швидкості або продуктивно- сті. Наприклад, це може бути комбінація в одній моделі частотного методу побудови вектора лексичних ознак TF-IDF, що дозво- ляє ефективно виявляти ключові слова в те- ксті, а також - нейромережевих технік em- beddings [13], які гарно розуміють контекст та виявляють синонімію в тексті. Інший приклад - поєднання системи на основі пра- вил і машинного навчання. Тоді частина класів формується за допомогою правил, а решта - методами машинного навчання. Іс- нують також інші варіанти побудови гібрід- них моделей, що пропонують комбінацію різноманітних методів в одній моделі. Та- ким чином гібрідні моделі є потужним ін- струментом класифікації, який може бути оптимізований та налаштований до вимог конкретної задачі чи прикладної системи, дозволяючи досягти високих показників то- чності та ефективності і не лише для вирі- шення завдань класифікації. Однак, з ін- шого боку, наслідком поєднання різних ме- тодів може бути суттєве підвищення склад- ності розробки, підтримки та масштабу- вання самої системи. Складність гібрідних систем досі залишається їхнім недоліком, який не можна недооцінювати. Опис процесу категорізації повідомлень З огляду на поставлену задачу, перш за все, задачу категорізації заявок на пос- луги, найбільш прийнятним видається ком- бінація методу витягнення властивостей з одним із класичних методів машинного на- вчання (навчання з вчителем або кероване машинне навчання), як, наприклад, згадані вище Naive Bayes, Logistic Regression або Linear SVM. Це швидкі та прості в розгор- танні надійні базові моделі, які досягають високої продуктивності, якщо класи добре розділені словником термінів, що розгляда- ються як ключові слова. Доцільність вико- ристання саме класичних моделей для вирі- шення поставленої задачі підтверджується фактом їхнього застосування у багатьох ре- альних промислових задачах, зокрема, для маршрутизації заявок клієнтів для служби підтримки. Методи керованого машинного нав- чання вивчають співставлення вхідного не- обробленого тексту з мітками (що відомі також як цільові змінні). Тобто алгоритм контрольованої класифікації навчається на певному наборі вхідних необроблених тек- стів для прогнозування категорії. Серед методів витягнення ознак із тексту (feature extractor) найпоширенішими є TF-IDF та Bag of Words (відомий також як CountVectorizer). Головною метою цих ме- тодів є перетворення текстових даних (ряд- ків) на вектор числових ознак, що може бути поданий на вхід моделі машинного на- вчання. Зазвичай це і є першим кроком у поетапному вирішенні задачі класифікації засобами класичного ML. Обидва названі методі є простими способами представлення текстових даних як числових ознак на основі частотного аналізу тексту. Модель Bag of Words (BoW) [2], часто перекладається як «мішок слів», 89 Штучний інтелект передбачає створення словника відомих слів у корпусі, а потім створення вектора для кожного документа, який містить під- рахунок частоти появи кожного слова. TF-IDF [18] є ще одним способом представлення тексту як числових ознак. Модель TF-IDF відрізняється від BoW тим, що враховує частоту слів у документі, а та- кож обернену частоту документа. Тобто, TF-IDF має вищу ймовірність знаходження ключових слів, ніж BoW. Розглянемо даний метод трохи детальніше. TF (Term Frequency) – це частота слова в тексті, тоді як IDF (Inverse Docu- ment Frequency) навпаки визначає, наскі- льки рідко дане слово зустрічається у коле- кції текстових повідомлень. Здебільшого TF визначається як кількість входжень тер- міна t у текстове повідомлення d - TF(t,d), або ця оцінка може бути нормалізованою і враховувати загальну кількість слів у пові- домленні: TF(t, d) = 𝑡𝑡𝑡𝑡(𝑡𝑡, 𝑑𝑑) |𝑑𝑑| Інверсна оцінка («рідкість» терміна у колекції всіх поданих на аналіз текстових повідомлень) обчислюється відповідно: IDF(𝑡𝑡, 𝑑𝑑) = 𝑙𝑙𝑙𝑙𝑙𝑙 ( 𝑁𝑁 𝑑𝑑𝑑𝑑(𝑡𝑡)), де 𝑁𝑁 – кількість повідомлень у коле- кції, 𝑑𝑑𝑡𝑡(𝑡𝑡) – кількість повідомлень, що міс- тять слово 𝑡𝑡. Тоді результуюча оцінка обчислю- ється як добуток оцінок, наведених вище: TFIDF(𝑡𝑡, 𝑑𝑑) = 𝑇𝑇𝑇𝑇(𝑡𝑡, 𝑑𝑑) ∗ 𝐼𝐼𝐼𝐼𝑇𝑇(𝑡𝑡) Фактично найвищу вагу отримують слова, що часто зустрічаються в конкрет- ному повідомленні, але не дуже часто в ре- шті повідомлень. Тобто вони є характер- ними саме для цієї заявки і тому мають бі- льший вплив. Як і будь-яка інша задача керованого машинного навчання, задача класифікації тексту включає два етапи: навчання та про- гнозування. Перший етап полягає у нав- чанні моделі на певному тренувальному на- борі релевантних розмічених текстових да- них. Після цього навчена модель може бути використана для прогнозування міток (ка- тегорій) для нових та невидимих даних. Також слід зазначити, що значну роль у підвищенні ефективності обробки текстів природної мови відіграє попередня Тексти вхідних повідомлень Категорії (мітки) Екстрактор ознак (TF-IDF) Ознаки Модель машинного на- вчання (Naive Bayes, Logistic Regression або Linear SVM) Н ав ча нн я Попередня обробка те- кстів ОзнакиЕкстрактор ознак (TF-IDF) Прогноз кате- горіїКласифікатор П ро гн оз ув ан ня Тексти вхідних повідомлень Попередня обробка те- кстів Рис. 3. Категорізація повідомлень на основі ML підходу 90 Штучний інтелект підготовка текстових даних для аналізу. Те- кстові дані неструктуровані, часто містять багато шуму. Це можуть бути орфографічні помилки, граматичні помилки, нестандар- тне форматування тощо. Попередня підго- товка дозволяє очистити цей шум та полег- шити подальший аналіз/обробку тексту. Набір кроків попередньої обробки тексту може відрізнятися, але зазвичай він вклю- чає такі завдання, як: токенізація, вида- лення стоп-слів, стеммінг та лематизація. Ці кроки допомагають зменшити розмір те- кстових даних, підвищити точність завдань обробки природної мови, зокрема, класифі- кації тексту. Загальна схема вирішення задачі ка- тегорізації повідомлень наведена на рис.3. Висновки Метою даного дослідження є підви- щення ефективності надання косметологіч- них послуг за рахунок автоматичної класи- фікації та маршрутизації заявок на послуги, а також повідомлень клієнтів. Аналіз най- більш використовуваних на сьогодні підхо- дів до класифікації текстів, з урахуванням саме вимог поставленої задачі, дозволив дійти висновку про доцільність застосу- вання для досягнення поставленої мети саме моделей класичного машинного нав- чання з попередньою обробкою текстів та їх представленням у вигляді числових век- торів TF-IDF. Напрямками подальших досліджень є: ̶ деталізація процесу класифікації з вибором конкретної ML моделі; ̶ формування словника термінів та вибір засобів його формалізації для ефе- ктивного визначення результуючих катего- рій. Література 1. Дубовик А. В., Волинець Є. А. Автоматична класифікація текстів. Наукові записки НаУКМА. Комп’ютерні науки. Том 8 (2025). С. 102-107. DOI: 10.18523/2617- 3808.2025.8.102-107. – https://nrpcomp.ukma.edu.ua/article/view/344 850/332233 2. Moez All. Understanding Text Classification in Python. 2022. – https://www.data- camp.com/tutorial/text-classification-python 3. SpamAssassin configuration file. https://spamassas- sin.apache.org/full/3.4.x/doc/Mail_SpamAssa ssin_Conf.html 4. Hutto, C. J., & Gilbert, E. VADER: A Parsimonious Rule-based Model for Sentiment Analysis of Social Media Text. Proceedings of ICWSM. 2014. – https://ojs.aaai.org/in- dex.php/ICWSM/article/view/14550/14399 5. Esuli, A., & Sebastiani, F. SentiWordNet: A Publicly Available Lexical Resource for Opinion Mining. Proceedings of LREC 2006. – http://www.lrec-conf.org/proceed- ings/lrec2006/pdf/384_pdf.pdf 6. Rasa Open Source Documentation. 2025 – https://legacy-docs- oss.rasa.com/docs/rasa/rules/ 7. GoogleCloud Guide. – https://docs.cloud.google.com/dialogflow/es/d ocs/intents-overview 8. Shuo Xu, Yan Li, Zheng Wang. Bayesian Multinomial Naïve Bayes Classifier to Text Classification. Institute of Scientific and Technical Information of China. № 15. 2015. – https://www.researchgate.net/publica- tion/317173563_Bayesian_Multinomial_Na- ive_Bayes_Classifier_to_Text_Classifica- tion/link/59fa7e88aca272026f6f98e4/down- load?_tp=eyJjb250ZXh0Ijp7Im- ZpcnN0UGFnZSI6InB1YmxpY2F0aW9uIiwi cGFnZSI6InB1YmxpY2F0aW9uIn19 9. C. Cortes and V. Vapnik. Support-vector networks. Machine Learning. November 1995. – P. 273–297 10. Thorsten Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Support Vector Learning. Conference paper. 2005. – P. 137- 142. https://www.cs.cornell.edu/people/tj/pub- lications/joachims_98a.pdf 11. J. Kivinen, M. Warmuth, and P. Auer. The perceptron algorithm vs. winnow: Linear vs. logarithmic mistake bounds when few input variables are relevant. In Conference on Computational Learning Theory, 1995. 12. Fan, R.-E., Chang, K.-W., Hsieh, C.-J., Wang, X.-R., & Lin, C.-J. LIBLINEAR: A Library for Large Linear Classification. 2008. – https://www.csie.ntu.edu.tw/~cjlin/pa- pers/liblinear.pdf 13. Kim, Y. Convolutional Neural Networks for Sentence Classification. 2014. – https://arxiv.org/pdf/1408.5882 91 Штучний інтелект 14. Hochreiter, S., & Schmidhuber, J. Long Short- Term Memory. Neural Computation. 1997. – https://www.bioinf.jku.at/publica- tions/older/2604.pdf 15. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. – https://arxiv.org/pdf/1810.04805 16. Liu, Y., et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach. 2019. – https://arxiv.org/pdf/1907.11692 17. Conneau, A., et al. Unsupervised Cross-lingual Representation Learning at Scale. 2020. – https://arxiv.org/pdf/1911.02116 18. Salton, G., & Buckley, C. Term-weighting approaches in automatic text retrieval. 1988. – https://dl.acm.org/doi/pdf/10.1145/53990.540 06 References 1. Dubrovik A. V., Volynec J. A. Automatic text classification. Proceedings of NaUKMA. Com- puter Science. Volume 8 (2025). P. 102-107. DOI: 10.18523/2617-3808.2025.8.102-107. – https://nrpcomp.ukma.edu.ua/article/view/3448 50/332233 2. Moez All. Understanding Text Classification in Python. 2022. – https://www.data- camp.com/tutorial/text-classification-python 3. SpamAssassin configuration file. https://spamassas- sin.apache.org/full/3.4.x/doc/Mail_SpamAssa ssin_Conf.html 4. Hutto, C. J., & Gilbert, E. VADER: A Parsimonious Rule-based Model for Sentiment Analysis of Social Media Text. Proceedings of ICWSM. 2014. – https://ojs.aaai.org/in- dex.php/ICWSM/article/view/14550/14399 5. Esuli, A., & Sebastiani, F. SentiWordNet: A Publicly Available Lexical Resource for Opinion Mining. Proceedings of LREC 2006. – http://www.lrec-conf.org/proceed- ings/lrec2006/pdf/384_pdf.pdf 6. Rasa Open Source Documentation. 2025 – https://legacy-docs- oss.rasa.com/docs/rasa/rules/ 7. GoogleCloud Guide. – https://docs.cloud.google.com/dialogflow/es/d ocs/intents-overview 8. Shuo Xu, Yan Li, Zheng Wang. Bayesian Multinomial Naïve Bayes Classifier to Text Classification. Institute of Scientific and Technical Information of China. № 15. 2015. – https://www.researchgate.net/publica- tion/317173563_Bayesian_Multinomial_Na- ive_Bayes_Classifier_to_Text_Classifica- tion/link/59fa7e88aca272026f6f98e4/down- load?_tp=eyJjb250ZXh0Ijp7Im- ZpcnN0UGFnZSI6InB1YmxpY2F0aW9uIiwi cGFnZSI6InB1YmxpY2F0aW9uIn19 9. C. Cortes and V. Vapnik. Support-vector networks. Machine Learning. November 1995. – P. 273–297 10. Thorsten Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Support Vector Learning. Conference paper. 2005. – P. 137- 142. https://www.cs.cornell.edu/people/tj/pub- lications/joachims_98a.pdf 11. J. Kivinen, M. Warmuth, and P. Auer. The perceptron algorithm vs. winnow: Linear vs. logarithmic mistake bounds when few input variables are relevant. In Conference on Computational Learning Theory, 1995. 12. Fan, R.-E., Chang, K.-W., Hsieh, C.-J., Wang, X.-R., & Lin, C.-J. LIBLINEAR: A Library for Large Linear Classification. 2008. – https://www.csie.ntu.edu.tw/~cjlin/pa- pers/liblinear.pdf 13. Kim, Y. Convolutional Neural Networks for Sentence Classification. 2014. – https://arxiv.org/pdf/1408.5882 14. Hochreiter, S., & Schmidhuber, J. Long Short- Term Memory. Neural Computation. 1997. – https://www.bioinf.jku.at/publica- tions/older/2604.pdf 15. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. – https://arxiv.org/pdf/1810.04805 16. Liu, Y., et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach. 2019. – https://arxiv.org/pdf/1907.11692 17. Conneau, A., et al. Unsupervised Cross-lingual Representation Learning at Scale. 2020. – https://arxiv.org/pdf/1911.02116 18. Salton, G., & Buckley, C. Term-weighting approaches in automatic text retrieval. (1988). https://dl.acm.org/doi/pdf/10.1145/53990.540 06 Дата першого надходження до видання: 24.02.2026 Внутрішня рецензія отримана: 03.03.2026 Зовнішня рецензія отримана: 05.03.2026 Дата прийняття статті до друку: 19.03.2026 Дата публікації: 16.04.2026 92 Штучний інтелект Про авторів: 1Захарова Ольга Вікторівна, кандидат технічних наук, старший науковий співробітник 1 Zakharova Olga, Ph.D (technical sciences), senior scientist http://orcid.org/0000-0002-9579-2973. 2 Спекторовська Лада Олександрівна, Студент бакалаврата 2 Spektorovska Lada, Bachelor student http://orcid.org/0009-0007-7173-0149 Місце роботи авторів: 1 Інститут програмних систем НАН України, проспект Академіка Глушкова, 40 1 Institute of Software Systems. National Academy of Sciences of Ukraine Тел.: +380(68)5947560 E-mail: ozakharova68@gmail. 2 Національний технічний університет «Київський політехнічний інститут імені Сікорського» 2 National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute” Тел.: +380(68)3051221 E-mail: spektorovskalada@gmail.com.
id pp_isofts_kiev_ua-article-893
institution Problems in programming
keywords_txt_mv keywords
language Ukrainian
last_indexed 2026-04-24T01:00:16Z
publishDate 2026
publisher PROBLEMS IN PROGRAMMING
record_format ojs
resource_txt_mv ppisoftskievua/7e/ae935beecf50998400990549579b447e.pdf
spelling pp_isofts_kiev_ua-article-8932026-04-23T22:26:13Z Using machine learning methods to improve the efficiency of the cosmetological services administration process Використання методів машинного навчання для підвищення ефективності процесу адміністрування косметологічних послуг Zakharova, O.V. Spektorovska, L.O. machine learning; text classification; rule-based systems; gibrid systems; transformers; message cat egorization; routing of requests; prediction; training data UDC 004.94 машинне навчання; класифікація текстів; маршрутизація заявок; системи на основі правил; гібрідні системи; трансформери; категоризація повідомлень; прогнозування; навчальні дані УДК 004.94 The article is devoted to solving the problem of improving the quality of cosmetic service provision during the rapid scaling of an applied system. This process is accompanied by the creation of a large number of new roles and types of services, a significant expansion of the client base and communication network. Accordingly, it also increases significantly the volume of information that requires processing. The aim of the study is to develop approaches that would increase the efficiency of administering cosmetic services through the automation of incoming message processing and their multi-criteria categorization. The criteria identified for categorization are: message type, priority, the specialist, and the type of service. The paper also includes a review of existing approaches, taking into account the formulation of the applied task. This allows to conclude: to achieve the stated objective it is advisable to use a combination of text data preprocessing, feature extraction methods, and classical machine learning models.Problems in programming 2026; 1: 82-92 Робота присвячена вирішенню проблеми покращення якості надання косметологічних послуг у випадку стрімкого масштабування прикладної системи. Це супроводжується створенням великої кількості нових ролей та видів послуг, суттєвим розширенням клієнтської бази й комунікаційної мережі та, відповідно, значним збільшенням обсягів інформації, що потребує обробки. Метою дослідження є вироблення під ходів, що дозволили б підвищити ефективність адміністрування косметологічних послуг шляхом авто матизації обробки вхідних повідомлень та їхньої багатокритеріальної категоризації. Як критерії для ка тегоризації виділені: тип повідомлення, пріоритет, фах спеціаліста, що з ним пов’язаний, вид послуги. В роботі також виконано огляд існуючих підходів з урахуванням постановки прикладної задачі, що до зволив дійти висновку про доцільність використання комбінації попередньої обробки текстових даних, методів витягнення ознак із класичними моделями машинного навчання для досягнення поставленої мети.Problems in programming 2026; 1: 82-92  PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2026-04-23 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/893 PROBLEMS IN PROGRAMMING; No 1 (2026); 82-92 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2026); 82-92 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2026); 82-92 1727-4907 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/893/946 Copyright (c) 2026 PROBLEMS IN PROGRAMMING
spellingShingle machine learning
text classification
rule-based systems
gibrid systems
transformers
message cat egorization
routing of requests
prediction
training data
UDC 004.94
Zakharova, O.V.
Spektorovska, L.O.
Using machine learning methods to improve the efficiency of the cosmetological services administration process
title Using machine learning methods to improve the efficiency of the cosmetological services administration process
title_alt Використання методів машинного навчання для підвищення ефективності процесу адміністрування косметологічних послуг
title_full Using machine learning methods to improve the efficiency of the cosmetological services administration process
title_fullStr Using machine learning methods to improve the efficiency of the cosmetological services administration process
title_full_unstemmed Using machine learning methods to improve the efficiency of the cosmetological services administration process
title_short Using machine learning methods to improve the efficiency of the cosmetological services administration process
title_sort using machine learning methods to improve the efficiency of the cosmetological services administration process
topic machine learning
text classification
rule-based systems
gibrid systems
transformers
message cat egorization
routing of requests
prediction
training data
UDC 004.94
topic_facet machine learning
text classification
rule-based systems
gibrid systems
transformers
message cat egorization
routing of requests
prediction
training data
UDC 004.94
машинне навчання
класифікація текстів
маршрутизація заявок
системи на основі правил
гібрідні системи
трансформери
категоризація повідомлень
прогнозування
навчальні дані
УДК 004.94
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/893
work_keys_str_mv AT zakharovaov usingmachinelearningmethodstoimprovetheefficiencyofthecosmetologicalservicesadministrationprocess
AT spektorovskalo usingmachinelearningmethodstoimprovetheefficiencyofthecosmetologicalservicesadministrationprocess
AT zakharovaov vikoristannâmetodívmašinnogonavčannâdlâpídviŝennâefektivnostíprocesuadmínístruvannâkosmetologíčnihposlug
AT spektorovskalo vikoristannâmetodívmašinnogonavčannâdlâpídviŝennâefektivnostíprocesuadmínístruvannâkosmetologíčnihposlug