Квазідинамічне моделювання аналізу віртуальних текстів

Ринок методів аналізу текстів відображає багатоплановість задач аналізу в різноманітних сферах діяльності людини. Огляд таких методів наводиться в спеціальних довідниках, що містять скорочений опис їх призначення, вимоги до технічних характеристик, відомості про додаткові сервісні можливості,...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Культура народов Причерноморья
Дата:2012
Автори: Бєгун, А.В., Білошинський, О.В.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Кримський науковий центр НАН України і МОН України 2012
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/107855
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Квазідинамічне моделювання аналізу віртуальних текстів / А.В. Бєгун, О.В. Білошицький // Культура народов Причерноморья. — 2012. — № 238. — С. 13-17. — Бібліогр.: 5 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-107855
record_format dspace
spelling Бєгун, А.В.
Білошинський, О.В.
2016-10-26T19:38:52Z
2016-10-26T19:38:52Z
2012
Квазідинамічне моделювання аналізу віртуальних текстів / А.В. Бєгун, О.В. Білошицький // Культура народов Причерноморья. — 2012. — № 238. — С. 13-17. — Бібліогр.: 5 назв. — укр.
1562-0808
https://nasplib.isofts.kiev.ua/handle/123456789/107855
004.91+004.946
Ринок методів аналізу текстів відображає багатоплановість задач аналізу в різноманітних сферах діяльності людини. Огляд таких методів наводиться в спеціальних довідниках, що містять скорочений опис їх призначення, вимоги до технічних характеристик, відомості про додаткові сервісні можливості, ціни та інше. Разом з тим необхідно відмітити, що значна частина такої інформації швидко старіє. Це зв’язано з умовами жорсткої конкуренції, де відбувається процес консолідації і на якому пропонується найкращий продукт. Одним із сучасних підходів до аналізу текстів являється використання методу кластеризації текстів – kmeans.
uk
Кримський науковий центр НАН України і МОН України
Культура народов Причерноморья
Проблемы материальной культуры – ЭКОНОМИЧЕСКИЕ НАУКИ
Квазідинамічне моделювання аналізу віртуальних текстів
Квазидинамическое моделирование анализа виртуальных текстов
Quasi-dynamic simulation analysis of virtual texts
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Квазідинамічне моделювання аналізу віртуальних текстів
spellingShingle Квазідинамічне моделювання аналізу віртуальних текстів
Бєгун, А.В.
Білошинський, О.В.
Проблемы материальной культуры – ЭКОНОМИЧЕСКИЕ НАУКИ
title_short Квазідинамічне моделювання аналізу віртуальних текстів
title_full Квазідинамічне моделювання аналізу віртуальних текстів
title_fullStr Квазідинамічне моделювання аналізу віртуальних текстів
title_full_unstemmed Квазідинамічне моделювання аналізу віртуальних текстів
title_sort квазідинамічне моделювання аналізу віртуальних текстів
author Бєгун, А.В.
Білошинський, О.В.
author_facet Бєгун, А.В.
Білошинський, О.В.
topic Проблемы материальной культуры – ЭКОНОМИЧЕСКИЕ НАУКИ
topic_facet Проблемы материальной культуры – ЭКОНОМИЧЕСКИЕ НАУКИ
publishDate 2012
language Ukrainian
container_title Культура народов Причерноморья
publisher Кримський науковий центр НАН України і МОН України
format Article
title_alt Квазидинамическое моделирование анализа виртуальных текстов
Quasi-dynamic simulation analysis of virtual texts
description Ринок методів аналізу текстів відображає багатоплановість задач аналізу в різноманітних сферах діяльності людини. Огляд таких методів наводиться в спеціальних довідниках, що містять скорочений опис їх призначення, вимоги до технічних характеристик, відомості про додаткові сервісні можливості, ціни та інше. Разом з тим необхідно відмітити, що значна частина такої інформації швидко старіє. Це зв’язано з умовами жорсткої конкуренції, де відбувається процес консолідації і на якому пропонується найкращий продукт. Одним із сучасних підходів до аналізу текстів являється використання методу кластеризації текстів – kmeans.
issn 1562-0808
url https://nasplib.isofts.kiev.ua/handle/123456789/107855
citation_txt Квазідинамічне моделювання аналізу віртуальних текстів / А.В. Бєгун, О.В. Білошицький // Культура народов Причерноморья. — 2012. — № 238. — С. 13-17. — Бібліогр.: 5 назв. — укр.
work_keys_str_mv AT bêgunav kvazídinamíčnemodelûvannâanalízuvírtualʹnihtekstív
AT bílošinsʹkiiov kvazídinamíčnemodelûvannâanalízuvírtualʹnihtekstív
AT bêgunav kvazidinamičeskoemodelirovanieanalizavirtualʹnyhtekstov
AT bílošinsʹkiiov kvazidinamičeskoemodelirovanieanalizavirtualʹnyhtekstov
AT bêgunav quasidynamicsimulationanalysisofvirtualtexts
AT bílošinsʹkiiov quasidynamicsimulationanalysisofvirtualtexts
first_indexed 2025-11-25T15:34:43Z
last_indexed 2025-11-25T15:34:43Z
_version_ 1850516927738281984
fulltext Проблемы материальной культуры – ЭКОНОМИЧЕСКИЕ НАУКИ 13 Бєгун А.В., Білошицький О.В. УДК 004.91+004.946 КВАЗІДИНАМІЧНЕ МОДЕЛЮВАННЯ АНАЛІЗУ ВІРТУАЛЬНИХ ТЕКСТІВ Вступ. Ринок методів аналізу текстів відображає багатоплановість задач аналізу в різноманітних сферах діяльності людини. Огляд таких методів наводиться в спеціальних довідниках, що містять скорочений опис їх призначення, вимоги до технічних характеристик, відомості про додаткові сервісні можливості, ціни та інше. Разом з тим необхідно відмітити, що значна частина такої інформації швидко старіє. Це зв’язано з умовами жорсткої конкуренції, де відбувається процес консолідації і на якому пропонується найкращий продукт. Одним із сучасних підходів до аналізу текстів являється використання методу кластеризації текстів – kmeans. Основні результати. На відміну від ієрархічної кластеризації [5], в моделі kmeans задається кількість кластерів, які ми хочемо отримати. Формування такої моделі полягає в наступному: 1) вибирається в n-вимірному векторному просторі випадковим чином кількість початкових центрів k (середніх, means); 2) створюється k кластерів шляхом асоціації кожного спостереження з найближчим середнім. Такі кластери представляють собою діаграму Вороного, що сгенерована середніми значеннями[1]; 3) центроїди (центри тяжіння) кожного з k кластерів становляться новими середніми; 4) кроки 2) і 3) повторюються до тих пір, поки не буде досягнуто повного сходження, тобто, поки остаточні кластери не будуть створені (умова повного сходження досягається тоді, коли сума квадратів відстаней між елементами спостережень та центроїдом на наступній ітерації не зменшується). Встановлено, що одним з найбільш важливих кроків при кластеризації за допомогою даної моделі є вибір кількості центрів (кластерів). А тому виникає потреба в оцінюванні похибки для різноманітної кількості кластерів як суми квадратів відхилень (рис. 1). Як бачимо з результатів оцінювання похибки – текст без стемінгу має меншу похибку для різних варіантів кластерів. Тобто, в першому наближенні кластеризація нестемінгованого тексту дає кращі результати поки кількість кластерів не досягне 236 (кількість спостережень). Це дійсно так, оскільки нестемінгований текст матиме меншу похибку, проте рівень якості таких кластерів буде набагато меншим ніж рівень кластеризації стемінгованого тексту. http://www.nbuv.gov.ua/portal/soc_gum/kgm_econ/2011_100/393-400.pdf http://zakon2.rada.gov.ua/laws/show/3370-15 http://zakon2.rada.gov.ua/laws/show/ http://zakon2.rada.gov.ua/laws/show/805-2001-%D0%BF http://www.ukrstat.gov.ua/norm_doc/2011/345/345_2011.htm http://zakon1.rada.gov.ua/ http://zakon1.rada.gov.ua/ Бєгун А.В., Білошицький О.В. КВАЗІДИНАМІЧНЕ МОДЕЛЮВАННЯ АНАЛІЗУ ВІРТУАЛЬНИХ ТЕКСТІВ 14   0lim 0   sns W SS NN Рис. 1. Оцінювання похибки певної кількості кластерів. Тут - WSS (within groups sum of squares) – сума квадратів відхилень кластеру; - Nns – кількість кластерів для тексту без стемінгу; - Ns – кількість кластерів для тексту після стемінгу. Так, виходячи з попередніх результатів, виконаємо кластеризацію для 20 кластерів. Вхідними параметрами моделі будуть наступні: >dtm.clust<-kmeans(x=dtm.k, centers=20, iter.max=40, nstart=10, algorithm="Hartigan-Wong"), де - x=dtm.k – терм-матриця DocumentTermMatrix, що нормалізована методом TF-IDF з 349 термінами, відфільтрована від термінів з низькою частотою входжень з коефіцієнтом спарингу 0.9 1 ; - centers – кількість початкових центрів (кластерів); - iter.max – максимальна кількість ітерацій, що виконуються до повного зходження. На останній ітерації визначаються кінцеві кластери; - nstart – кількість стартів моделі, тобто, кількість проходжень усіх ітерацій моделі. В кінцевому підсумку будуть обрані кластери, які мають найменшу сумарну похибку в межах певного старту; - algorithm – визначає алгоритм моделі kmeans. Алгоритм Хартігана-Вонга є найбільш поширеним при виконанні кластеризації kmeans. Дійсно, неможливо виконати кластеризацію із занадто малою кількістю термінів (наприклад, 75 термінів при коефіцієнті спарингу 0.8), оскільки 75 термінів для 237 документів є досить малою кількістю для кластеризації. З іншого боку, неможливо виконати якісний кластерний аналіз при досить великій кількості спарсових термінів (наприклад, 4105 термінів з коефіцієнтом спарсингу 0.998), оскільки через велику кількість спарсових термінів загальна похибка буде занадто високою і сенс кластеризації буде втрачено [2]. А тому необхідно завжди ретельно оцінювати і знаходити компроміс між кількістю термінів, кількістю спарсових термінів і кількістю спостережень (об’єктів). В результаті проведеної кластеризації отримано кластери наступних розмірів: >dtm.clust$size [1] 41 21 4 1 1 5 1 7 12 5 98 2 3 7 10 1 4 2 1 11 Відповідні похибки для отриманих кластерів становлять: >dtm.clust$withinss [1] 0.75166171 0.37998302 0.08702162 0.00000000 0.00000000 0.10884947 0.00000000 0.21350480 0.22052166 [10] 0.07426058 1.35245927 0.03003547 0.05145358 0.12662083 0.25722734 0.00000000 0.08037547 0.02691182 [19] 0.00000000 0.22561816 Як бачимо, кластери одиничного розміру мають нульову похибку, і не є цікавими для подальшого аналізу. В той же час, отримані кластери з великим значенням похибки як раз ілюструють проблему аналізу в умовах обмеженості спостережень. В умовах даного дослідження найбільш репрезентативними є ті кластери, що мають відносно невелике значення похибки (виділені напівжирним). Візуалізація кластерів. Для графічної ілюстрації кластерів необхідно виконати трансформацію кластерів з n-мірного простору (де n=349 – кількість елементів вектору) в двомірний. Для цього виконаємо розрахунок відстаней 1 Відфільтрувані терміни, що мають нульове значення входжень в 90% документів корпусу. Проблемы материальной культуры – ЭКОНОМИЧЕСКИЕ НАУКИ 15 Евклідовим методом (середньоквадратичні відхилення). В результаті трансформації отримаємо діаграму візуалізації кластерів (рис.2). Рис. 2. Візуалізація кластерів. Таким чином, виконано кластеризацію терм-матриці з 349 термінів методом kmeans. Дана кластеризація виконана на основі розрахунку центроідів (середніх), при цьому центроіді не належать множині елементів ( dc ). Як було показано раніше, для оцінки похибки розраховуються середньоквадратичні відхилення, де похибка зменшується пропорційно збільшенню кількості кластерів. Після проведення стемінгу, терм- матриця DTM має більше значення похибки та більшу якість кластерів. Таким чином, модель kmeans є досить ефективною при кластеризації в умовах коли кількість елементів вектору (349 термінів) більша за загальну кількість спостережень (237). Кластеризація методом kmedoids. Аналогічно до попереднього методу kmeans, виконаємо кластеризацію тієї ж самої терм-матриці методом kmedoids. Основна відмінність в даному випадку полягатиме в тому, що початкові центри будуть обрані із множини об’єктів (кількість спостережень – 237) [3]. Як і в попередньому випадку, кожний елемент множини об’єктів представлений у вигляді вектора і складається із 349 елементів. Виконаємо аналіз доцільної кількості кластерів для певного часу (рис. 3). Рис. 3. Аналіз кількості кластерів методом kmedoids. Як бачимо, найкраще значення кількості кластерів (при найменшій сумарній похибці) становить 2 кластери. Цей факт досить суттєво відрізняє існуючумодель від попередньої, і говорить про її чуттєвість до початково обраних центрів. При цьому якість кластеризації погіршується при збільшенні кількості кластерів до 60, і далі від 75 до 237. Бєгун А.В., Білошицький О.В. КВАЗІДИНАМІЧНЕ МОДЕЛЮВАННЯ АНАЛІЗУ ВІРТУАЛЬНИХ ТЕКСТІВ 16 З метою репрезентативності аналізу оберемо кількість кластерів 20, що має більшу сумарну похибку, проте в умовах обмеженості спостережень це є вимушеною необхідністю. В результаті отримано наступні кластери Тут - Size – розмір кластеру (кількість термінів в кластері); - Max_diss, av_diss – відповідно максимальна та середня відстань між елементами кластеру та модоїдом кластера (центром); - Diameter – максимальна відстань між двома елементами кластеру; - Separation – мінімальна відстань між елементом кластеру та елементом іншого кластеру. Отже, отримано 4 кластери. Виконаємо їх візуальну інтерпретацію шляхом трансформації кластерів з n- мірного простору (рис. 4) (де n=237 – кількість елементів вектору об’єкта) аналогічно до попередніх результатів. Маємо Рис. 4. Трансформація кластерів з n-мірного простору. Таким чином, кластеризація за допомогою моделі kmedoids ґрунтується на розрахунку центроідів (медоід). Кількість оцінених при цьому кластерів є очікуваною, оскільки початкові центри кластерів було обрано із множини елементів (спостережень),  dm . Похибка кластеризації при цьому збільшується пропорційно збільшенню кількості кластерів (на відміну від kmeans). Дана модель є досить схожою до попередньої з точки зору якості результатів, і є досить ефективною при аналізі в умовах обмеженості спостережень (тобто, в умовах, коли кількість термінів терм-матриці є більшою за кількість елементів матриці (спостережень)). Після розпізнавання кластерів отримаємо наступні результати: Проблемы материальной культуры – ЭКОНОМИЧЕСКИЕ НАУКИ 17 Загальна кількість розпізнаних постів – 91 із 236 (~40%). Висновки. За результатами проведеного дослідження можна стверджувати, що для проведення якісної кластеризації текстів необхідно, щоб кількість елементів вектору даних була значно меншою за кількість спостережень (245). Відповідно до отриманих векторів, деякі кластери можуть містити «неподібні» пости (див. середньоквадратичні відхилення). При цьому варто виконати кластеризацію методом kmeans для кращих результатів в умовах, коли необхідно аналізувати великі неподібні тексти із малою кількістю спостережень. В іншому випадку kmedoids зазвичай дає кращі результати (рис. 5). Таким чином, для отримання більш якісних результатів необхідно акцентувати дослідження на більш подібних текстах (наприклад, виконати їх первісну категоризацію за темами, часовим інтервалом тощо). В якості подальшого розвитку даного дослідження досить важливо також проводити семантичний аналіз текстів [4], який дасть змогу не лише кластеризувати тексти, але і визначити характер того чи іншого кластера (тексту), наприклад, негативний/позитивний/нейтральний текст тощо. Метод kmeans: діаграма Вороного Рис. 5. Ілюстрація кластерів (heatmap) для kmeans. Джерела та література: 1. Voronoi diagram : [Електронний ресурс]. – Режим доступу : http://en.wikipedia.org/wiki/Voronoi_diagram 2. TextMining with R : [Електронний ресурс]. – Режим доступу : http://www.slideshare.net/whitish/textmining-with-r 3. Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications / G. Miner, J. Elder, T. Hill, R. Nisbet, D. Delen, A. Fast. – Elsevier Academic Press, 2012. 4. Indurkhya N. Handbook of Natural Language Processing / N. Indurkhya, F. Damerau. – 2nd Edition. – Boca Raton, FL : CRC Press, 2010. 5. Бєгун А. В. Ієрархічна кластерізація текстів в умовах обмеженості спостережень / А. В. Бєгун, О. В. Білошицький // Культура народов Причорноморья. – 2012. – № 233. – С. 15-19.