Дослідження і прогнозування успішності стартапів платформи kickstarter

The main purpose of the study, carried out in the work, was to identify and predict the success of new start-up projects. The task of predicting the success of one or another startup was solved, various methods of data analysis, such as methods of extreme gradient boosting and k-nearest neighbors, w...

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2019
Автори:	Kuznietsova, Nataliia V., Grushko, Yaroslav V.
Формат:	Стаття
Мова:	Українська
Опубліковано:	The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2019
Теми:	прогнозування метод ектремального градієнтного бустингу метод k-найближчих сусідів моделі виживання стартапи успішність проектів платформа kickstarter
Онлайн доступ:	https://journal.iasa.kpi.ua/article/view/183721
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	System research and information technologies
Завантажити файл:

Репозитарії

System research and information technologies

_version_	1867334399641518080
author	Kuznietsova, Nataliia V. Grushko, Yaroslav V.
author_facet	Kuznietsova, Nataliia V. Grushko, Yaroslav V.
author_institution_txt_mv	[ { "author": "Nataliia V. Kuznietsova", "institution": "Навчально-науковий комплекс \"Інститут прикладного системного аналізу\" Національного технічного університету України \"Київський політехнічний інститут імені Ігоря Сікорського\", Київ" }, { "author": "Yaroslav V. Grushko", "institution": "Навчально-науковий комплекс \"Інститут прикладного системного аналізу\" Національного технічного університету України \"Київський політехнічний інститут імені Ігоря Сікорського\", Київ" } ]
author_sort	Kuznietsova, Nataliia V.
baseUrl_str	http://journal.iasa.kpi.ua/oai
collection	OJS
datestamp_date	2019-12-13T15:15:18Z
description	The main purpose of the study, carried out in the work, was to identify and predict the success of new start-up projects. The task of predicting the success of one or another startup was solved, various methods of data analysis, such as methods of extreme gradient boosting and k-nearest neighbors, were used. They allowed to predict with high precision the success of the project, and the method of extreme gradient boosting was the most effective. The use of survival models allowed us to estimate the average time spent working on a successful startup, as well as identify those key industries for which startups become effective, predicting for each of them the required time to turn a progressive idea into a successful business. The most successful categories of start-up projects were also identified, and the time required to achieve the success (survival) of projects as a whole and for specific project categories was predicted. For this purpose, survival models were constructed on the basis of Cox proportional risks and Kaplan-Meyer models.
doi_str_mv	10.20535/SRIT.2308-8893.2019.3.02
first_indexed	2025-07-17T10:26:28Z
format	Article
fulltext	 Н.В. Кузнєцова, Я.В. Грушко, 2019 18 ISSN 1681–6048 System Research & Information Technologies, 2019, № 3 УДК 303.732.4 DOI: 10.20535/SRIT.2308-8893.2019.3.02 ДОСЛІДЖЕННЯ І ПРОГНОЗУВАННЯ УСПІШНОСТІ СТАРТАПІВ ПЛАТФОРМИ KICKSTARTER Н.В. КУЗНЄЦОВА, Я.В. ГРУШКО Анотація. Основна мета дослідження, проведеного у роботі, — виявлення та прогнозування успішності нових проектів-стартапів. Розв’язано задачу прогно- зування факту успішності того чи іншого стартапу, застосовано різні методи інтелектуального аналізу даних, такі як методи екстремального градієнтного бустингу та k -найближчих сусідів, що дало змогу з високою точністю перед- бачити успішність проекту, а найефективнішим виявився метод екстремально- го градієнтного бустингу. Використання моделей виживання дозволило оціни- ти середній час роботи над успішним стартапом і визначити ключові галузі, для яких стартапи стають ефективними; спрогнозовано для кожного з них не- обхідний час роботи для втілення прогресивної ідеї в успішний бізнес. Вияв- лено найбільш успішні категорії проектів-стартапів та спрогнозовано час, не- обхідний як у цілому для досягнення успішності (виживання) проектів, так і для окремих категорій проектів. Для цього побудовано моделі виживання на основі пропорційних ризиків Кокса та моделі Каплан–Майєра. Ключові слова: прогнозування, метод ектремального градієнтного бустингу, метод k-найближчих сусідів, моделі виживання, стартапи, успішність проектів, платформа kickstarter. ВСТУП Сучасний світ є настільки відкритим і динамічним, що будь-яка ідея, від- криття, технологія можуть бути реалізовані та впроваджені дуже швидко. Це зумовлює не лише швидкий розвиток і передавання нових тенденцій між різними галузями, людьми, народами, континентами, а і зміну навколиш- нього буття, світогляду та уподобань людей, зацікавленість їх у нових про- дуктах та послугах, появу нових потреб та розвиток нових звичок і захоп- лення новими трендами, напрямами, які до цього навіть не мали жодної перспективи для розвитку. Саме відкритість світу і можливість використан- ня інтернет-технологій спричиняють такий розвиток та появу платформ і майданчиків для презентації та обміну ідеями, спеціальні фонди, підтриман- ня і залучення всесвітньо відомих компаній і корпорацій, інвесторів, крауд- фандингу тощо. Виникнення і поширення однієї технології може не лише досягти великого успіху за короткий час, але і «згаснути», тобто втратити ключові позиції на ринку або основних прихильників. Найпоширеніший і найбільш відомий термін для визначення прогресив- них ідей та думок наразі є стартап. Стартапами часто називають невеликі бізнес-компанії, ядром яких є якась така «особлива» ідея, що гіпотетично зможе перетворити бізнес у великий мільярдний (у доларах США) бізнес. Реалізація стартапів стала дуже поширеним рухом; його розвивають студен- ти, молодь, прогресивні люди, захоплені і натхненні певною чудовою ідеєю, Дослідження і прогнозування успішності стартапів платформи kickstarter Системні дослідження та інформаційні технології, 2019, № 3 19 які не мають достатнього фінансування для негайного впровадження її у широке виробництво, але зацікавлені її реалізувати як власну, а не під брендом певної відомої компанії. Компанії, основним зерном яких була «особлива» ідея, створювалися і існували понад 100 років. Є навіть статистика, виконана аналітиками з оці- нювання і прогнозування стартапів, яка вказує, що насправді ймовірність поразки стартапу дуже велика. У 2017 р. американський діловий журнал Fortune [1] оцінив такі проекти стартапів і навів вражаючі факти: 90% стар- тапів в кінцевому підсумку зазнають невдачі. Тобто основна частина таких «ідейних» бізнесів не реалізується, або не знаходить достатньої кількості споживачів, підтримання, фінансування. Це вже не перші такі дослідження ділового журналу. Ця тема є актуальною і досі, а у своєму дослідженні Fortune відзначає [2], що основними причинами невдачі стартапів у 2014 р. були: відсутність потреби продукту у користувачів; нестача коштів у засно- вників; недостатня згуртованість команди розробників та генераторів ідей; порушення певних законів, наприклад, порушення прав конфіденційності користувачів тощо. ПОСТАНОВКА ЗАДАЧІ Головною ідеєю роботи стали дослідження та прогнозування популярних і найбільш «успішних» проектів-ідей, реалізованих у вигляді стартапів та за- реєстрованих на платформі kickstarter. Мета дослідження — виявлення ос- новних тенденцій, притаманних успішним стартап-проектам, оцінювання та прогнозування періоду їх успішності та необхідні витрати на їх розвиток; на підставі виконаного аналізу успішних проектів визначення ключових галу- зей та напрям ідей, які можуть бути перспективними для розвитку і впрова- дження у великий бізнес. Для такого аналізу обрано реальний набір даних і визначено методи інтелектуального аналізу даних (ІАД), такі як методи кла- сифікації, градієнтного бустингу із застосуванням дерев та методи аналізу виживання для прогнозування часу успішності стартапів. Спрогнозувати, чи буде проект успішним, і якщо так, то який період часу потрібен для фінан- сування і в якій галузі. МЕТОДИ ТА ІНСТРУМЕНТИ ІАД, ВИКОРИСТАНІ У РОБОТІ Особливості поставленого завдання зумовлюють необхідність вирішення одразу декількох завдань різними методами ІАД, тому важливим є обрання коректного інструментарію і математичного апарату. Для визначення успіш- ності проекту для обраного набору даних має бути розв’язана задача класи- фікації, тобто віднесення проекту до успішних або провальних. Для задачі класифікації пропонується використати найбільш відомий і достатньо ефек- тивний метод k-найближчих сусідів та метод екстремального градієнтного бустингу. Для визначення оптимального часу, необхідного для реалізації стартапу, тобто для орієнтування розробників на необхідний час роботи і інвестування проекту, щоб не зупинитися «за крок до реалізації мрії», вирі- шується задача прогнозування часу з використанням моделей виживання. Н.В. Кузнєцова, Я.В. Грушко ISSN 1681–6048 System Research & Information Technologies, 2019, № 3 20 Метод k-найближчих сусідів (k-NN) У розпізнаванні образів метод k-найближчих сусідів (k-nearest neighbor method) є непараметричним методом, що використовується для класифікації та регресії [3]. В обох випадках вхід складається з k найбільш близьких прикладів навчання у просторі ознак. Вихід залежить від того, чи викорис- товується k-NN для класифікації або регресії:  У класифікації k-NN вихід є класом, до якого належить вхідний об’єкт. При цьому об'єкт призначається класу, найбільш поширеному серед його найближчих сусідів ( k — ціле додатне число, зазвичай невелике). Як- що 1k , то об'єкт просто присвоюється класу того самого найближчого сусіда.  У k-NN регресії вихід є значенням властивості для об'єкта. Це зна- чення є середнім значенням для k найближчих сусідів. Тобто в основу методу покладено використання відстані (зазвичай евк- лідової метрики) між вхідним об’єктом та вже промаркованими (навченими) сусідами (об’єктами). Приклад класифікації методом k-NN зображено на рис. 1. Вхідний об’єкт (точку) слід класифікувати або до першого класу квадратів, або до другого класу трикутників. Якщо 3k (суцільне коло лінії), то він присво- юється другому класу, оскільки у внутрішньому колі є 2 трикутники і ли- ше 1 квадрат. Якщо 5k (коло пунктирної лінії), то він призначається пер- шому класу (3 квадрати проти 2 трикутників всередині зовнішнього кола). Цікаво, що алгоритм k-NN є одним з найпростіших алгоритмів машин- ного навчання і при цьому він є одним з найефективніших (відповідне порівняння, наведено в документації [4] популярної бібліотеки sklearn для мови програмування python). Метод екстремального градієнтного бустингу (XGBoost) Метод екстремального бустингу XGBoost (eXtreme Gradient Boosting) [5] реалізований у вигляді бібліотеки з відкритим вихідним кодом, доступний на найбільш поширених і широко вживаних мовах програмування, таких як C ++, Java, Python [6], R і Julia. Особливістю методу є те, що він забезпечує паралельний бустинг дерев (також відомий як GBDT, GBM) і дозволяє розпаралелювати, а тим самим пришвидшувати розв’язання задачі порівняно з відомим методом градієнт- Рис. 1. Приклад класифікації k-NN Дослідження і прогнозування успішності стартапів платформи kickstarter Системні дослідження та інформаційні технології, 2019, № 3 21 ного бустингу, а сам метод ще називають градієнтним бустингом із застосу- ванням дерев. Градієнтний бустинг використовують у регресійних і класифікаційних задачах як техніку, суть якої полягає в тому, щоб збудувати з ансамблю слабких моделей прогнозування (зазвичай моделей дерев рішень) одну, але точну та ефективну модель. Алгоритм реалізації методу градієнтного бустингу можна подати у та- кому вигляді [7, 8]. Задано: навчальну вибірку n iii yx 1)},{(  , функцію витрат ))(,( xFyL , кількість ітерацій (кількість слабких моделей) — M . 1. Ініціалізуємо модель константою ( )(0 xF ):    n i i Y yLxF 1 0 ),(minarg)( . 2. Від 1m до M :  обчислюємо псевдозалишки (pseudo-residuals): )()( 1 )( ))(,( xFxFi ii im m xF xFyL r           ;  навчаємо чергову слабку модель (наприклад, дерево) )(xhi отрима- ними псевдозалишками, тобто навчаємо такою вибіркою: n iimi rx 1)},{(  ;  обчислюємо множник m , розв’язуючи однорозмірну оптимізаційну задачу:     n i imimi Y m xhxFyL 1 1 ))()(,(minarg ;  оновлюємо модель: )()()( 1 xhxFxF mmmm   . 3. Виводимо )(xFm . Бібліотекою XGBoost почала користуватися велика кількість розробни- ків, що сприяло популярності методу серед спільноти Kaggle (платформа, де змагаються вчені з науки про дані). Метод дозволяє отримати одні з най- кращих результатів прогнозів, а тому цей метод обрано в цій роботі для про- гнозування успішності проектів стартапів [10]. Для аналізування та прогнозування необхідного часу роботи для успіш- ного запуску стартапу використаємо різні моделі з теорії виживання. Моделі виживання У загальному вигляді функція виживання подається у вигляді [11] )()( tTPtS  , де 1)(0  tS . Предметом дослідження є визначення ймовірності виживання та прова- лу (або смерті) проекту, що відбувається в момент часу t з урахуванням то- го, що подія смерті не відбувалася до часу t . Математично це подано таким чином [11, 12]: Н.В. Кузнєцова, Я.В. Грушко ISSN 1681–6048 System Research & Information Technologies, 2019, № 3 22 )\|(lim 0 tTtTtP   . Ця подія відбувається у безмежно малий проміжок часу (від t до tt  ), тож отримуємо формулу, що є функцією ризику:     )\|( lim)( 0 tTtTtP th . Це ідентично такому виразу: )( )( )( tS dt tdS th  . У наведених позначеннях та припущеннях можна виконати формаліза- цію реальної практичної задачі оцінювання ризиків. Відома модель Д. Кокса [13], запропонована в 1972 р., заснована на припущенні, що функцію ризику можна факторизувати, тобто подати у ви- гляді добутку двох функцій: ),,...,()()( 10 ikii xxthth  де )(0 th — базова функція інтенсивності, що включає фактор часу, але не включає коваріанти, а ),...( 1 iki xx — лінійна функція досліджуваних ознак, яка не включає фактор часу. Досить часто модель записують у такому вигляді [12, 13]: }...{ 0 11)()( ikki xx i ethth  ; ikkioi xxthth  ...)(ln)(ln 11 , де k ,...,1 — невідомі параметри, а ix є вхідними змінними (тобто стовп- чиками) у вибірці. Модель пропорційних ризиків Кокса у вигляді функції умовного вижи- вання )\|( xtS передбачає оцінку сукупної умовної функції ризику )\|( xtL з використанням максимальної правдоподібності. ПІДГОТОВКА ТА ОБРОБЛЕННЯ ВХІДНИХ ДАНИХ ДО МОДЕЛЮВАННЯ Вхідними даними для моделювання обрано набір даних [10] за стартапами, зареєстрованих на платформі кікстартер [14]. Набір містить 13 змінних (стовпчиків): ID: ID кожного клієнта; name: назва стартапу; category: детальний опис категорії, у якій функціонує стартап (напри- клад, їжа, документальна література); main_category: загальна категорія діяльності стартапу, ширша ніж про- сто категорія (наприклад, східна кухня, література); currency: валюта проекту; launched: дата та час початку роботи над стартапом; deadline: останній термін (дата та час) закінчення роботи над стартапом. Оскільки час початку роботи над проектом (launched) у всіх стартапів різний (у когось 2014 р., у когось 2017 р.), то задля кращої репрезентатив- Дослідження і прогнозування успішності стартапів платформи kickstarter Системні дослідження та інформаційні технології, 2019, № 3 23 ності даних будемо створювати агрегований показник, тобто сформуємо нову змінну «термін роботи» як різницю між кінцем і початком роботи над проектом: time_spent = deadline – launched , а саме: goal: сума грошей, яку має на меті зібрати стартап; pledged: сума грошей, яку вже вкладено в стартап; state: результат стартапу (0 — провалений, 1 — успішний); backers: кількість людей в команді; country: країна, у якій зареєстровано стартап; usd_pledged: сума доларів США, яку вже вкладено в стартап. Вхідними даними обрано для початку 3743 записів із загальних 378600, які містять 9 стовпчиків. Усі дані переведено в числа для розв’язання задачі класифікації (табл. 1). Т а б л и ц я 1 . Перші рядки з набору даних Category Main_ category Сurrency Goal Pledged State Backers Country Usd_ pledged 108 12 5 7 0 0 0 9 0 93 6 13 3908 24883 0 670 22 2015 93 6 13 5325 22364 0 2014 22 39948 Проаналізуємо вхідну вибірку з 3743 унікальних стартапів:  середнє значення суми грошей, що вже вкладено в стартап (usd_pledged), — 43911 дол. Стандартне відхилення велике (34961 дол.), максимальне значення 109021 дол.;  середня кількість людей у команді стартапу: 1585;  середній час, витрачений на роботу команди над стартапом: 38 днів; максимальний час: 1284 дні; мінімальний — 2 год (так, є і такі проекти!);  оскільки значення 0 для state означає «стартап провалився», а зна- чення 1 означає «стартап успішний», середнє значення 0,375 означає, що лише 37,5% стартапів з усієї вибірки були успішними;  пропущених даних у вибірці немає. Матрицю кореляції між вхідними змінними зображено на рис. 2. 0 1 2 3 4 5 6 7 8 Correlation matrix (before PCA) 0 1 2 3 4 5 6 7 8 Рис. 2. Матриця кореляції між вхідними змінними Н.В. Кузнєцова, Я.В. Грушко ISSN 1681–6048 System Research & Information Technologies, 2019, № 3 24 Оскільки існує сильна кореляція (чим світліші квадратики, тим більша кореляція) між деякими вхідними значеннями, тому застосуємо метод головних компонент (Principle Component Analysis (PCA)) для зменшення кореляції та кількості вхідних змінних. Матрицю кореляції вхідних змінних після застосування PCA зображено на рис. 3. Після застосування методу суттєві сплески кореляції між вхідними зна- ченнями згладились, а кількість змінних зменшилась із 10 до 4, але при цьо- му, як було перевірено далі, точність значно знизилась (показник становив ROC_AUC=0,85, а став 0,66), але швидкість оброблення збільшилась. Тож було прийнято рішення не використовувати PCA у подальшій роботі. Вхідну вибірку розділено у співвідношенні 70% для навчальної та 30% для тестової. Для перевірки наближеності тестової вибірки до прогнозованої використовується індекс Жаккара, що є стандартним критерієм у мові про- грамування python. Коефіцієнт подібності Жаккара обчислюється за формулою cba c K j   , де a — кількість видів на першому пробному майданчику; b — кількість видів на другому пробному майданчику; c — кількість видів, спільних для першого та другого майданчиків. РОЗВ’ЯЗАННЯ ЗАДАЧІ КЛАСИФІКАЦІЇ Для прогнозування факту успішності стартапу застосовано метод KNeigboursClassifier (k-NN), результати роботи якого подано у вигляді мат- риці помилок (Confusion Matrix) на рис. 4. Для оцінювання точності прогнозування використовувався показник площі під кривою ROC, який для даного методу визначився на рівні 0,74. Поріг, обраний для оцінювання і побудови матриці помилок, становив 0,6, тобто якщо ймовірність успіху більша за 0,6, то стартап вважається ус- пішним. 0 1 2 3 Correlation matrix (after PCA) 0 1 2 3 Рис. 3. Матриця кореляції між вхідними змінними після застосування PCA Дослідження і прогнозування успішності стартапів платформи kickstarter Системні дослідження та інформаційні технології, 2019, № 3 25 Можна бачити, що в методі k-NN відношення помилок неправильної класифікації позитивних випадків до неправильно виявлених негативних становить FP(False Positive)/FN(False Negative) 3,1 . Це означає, що класи- фікатор прогнозуватиме помилково успіх частіше, ніж помилково провал стартапу, а тому така модель є некоректною для розгляданої задачі. Виконано також велику кількість експериментів з різними порогами і емпірично виявлено, що оптимальний поріг для прогнозування ймовірності успіху стартапу становить 0,7. Матрицю помилок для k-NN і порога 0,7 зображено на рис. 5. Площа під кривою ROC зменшилась до 0,65, але це вимушений крок, оскільки довелося накласти додаткові жорсткіші вимоги, щоб наблизити модель до реальних умов. За методом екстремального градієнтного бустингу XGBoost визначено модель, для якої індекс Жаккара виявився вищим, ніж у попереднього кла- 1,2e+02 1,6e+02 3e+02 5,5e+02 F ai l S uc ce ss 480 400 320 240 160 A ct ua l Success 1 Predicted Fail Confusion Matrix Рис. 4. Confusion Matrix для методу k-NN з порогом 0,6 2,6e+02 43 1,6e+0 6,6e+02 F ai l S uc ce ss 600 450 300 150 A ct ua l Success 1 Predicted Fail Confusion Matrix Рис. 5. Confusion Matrix для методу k-NN з порогом 0,7 Н.В. Кузнєцова, Я.В. Грушко ISSN 1681–6048 System Research & Information Technologies, 2019, № 3 26 сифікатора, і дорівнює 0,85, що свідчить про більшу коректність моделі XGBoost. Показник ROC_AUC на тестовій вибірці становив 0,92, що вищий, ніж у класифікатора k-NN, а сам індекс свідчить про високу предикативну здат- ність такої моделі. Для моделі XGBoost установлено кількість ітерацій на рівні 70, а кіль- кість епох, за якими неможливе покращення, EARLY_STOP 70 , при цьо- му ROC_AUC на тестовій вибірці становив 0,85. Емпірично підібрано кращі параметри: кількість ітерацій збільшено до 1000, а EARLY_STOP зменшено до 50. За таких параметрів на тестовій вибірці ROC_AUC 92,0 . Для методу екстремального градієнтного бустингу також експеримен- тально підібрано поріг для покращення репрезентативності моделі прогнозу успіху стартапів і оптимальне значення порога виявилось 0,6, проте точність моделі за індексом ROC_AUC дещо знизилась до 0,83, але є вищою порів- няно з попереднім методом. Відношення FP(False Positive)/FN(False Negative) для XGBoost становить 0,6, що є більшим порівняно з методом k-NN зі значенням 0,16 (рис. 6). Порівняння обох методів наведено у табл. 2. Т а б л и ц я 2 . Порівняльна таблиця результатів методів за різними крите- ріями ефективності та порогом Index Method Jaccard Index ROC_AUC ROC_AUC_ optimum FP/FN Поріг KNeigbours 0,75 0,74 0,65 0,16 0,7 XGBoost 0,85 0,92 0,83 0,6 0,6 Отже, класифікатор XGBoost виявився кращим за основними критеріями і його доцільно застосовувати для прогнозування факту успішності проекту. 99 64 3,2e+02 6,4e+02 F ai l S uc ce ss 600 500 400 300 200 100 A ct ua l Success 1 Predicted Fail Confusion Matrix Рис. 6. Матриця помилок для методу екстремального градієнтного бустингу з порогом 0,6 Дослідження і прогнозування успішності стартапів платформи kickstarter Системні дослідження та інформаційні технології, 2019, № 3 27 ПРОГНОЗУВАННЯ ЧАСУ УСПІШНОСТІ СТАРТАПУ МОДЕЛЯМИ ВИЖИВАННЯ Для вхідного набору даних необхідно спрогнозувати час успішності старта- пу, для цього ключовими змінними будуть час time_spent (який відповідає часу в моделі Кокса) та state (має значення {0;1}, 1 — якщо відбулась подія успішного стартапу і 0 — якщо провал). Для побудови моделі Кокса використано python-бібліотеку lifelines. Ре- зультати оцінювання значень вхідних змінних та коефіцієнтів для моделі виживання Кокса наведено у табл. 3. Т а б л и ц я 3 . Значення вхідних змінних для моделі Кокса Coefficient Variable coef ex p(coef) se(coef) z P -log2(p) lower 0.95 upper 0.95 category 0 1 0 0,72 0,47 1,09 0 0 main_category -0,02 0,98 0,01 -3,36 <0,005 10,3 -0,04 -0,01 currency 0,1 1,1 0,05 1,94 0,05 4,26 0 0,2 goal 0 1 0 -3,06 <0,005 8,82 0 0 pledged 0 1 0 2,17 0,03 5,06 0 0 backers 0 1 0 11,61 <0,005 101,04 0 0 country -0,05 0,96 0,03 -1,51 0,13 2,92 -0,11 0,01 usd_pledged 0 1 0 3,5 <0,005 11,09 0 0 Для перевірки предикативної здатності та валідації моделі виживання використовується показник Concordance Index, а прийнятними вважаються моделі, що мають значення індексу від 0,55 до 0,75. Для моделі Concordance Index = 0,63 відношення правдоподібності — 306,07, а — 56,201)(2log p , тому модель Кокса може використовуватись для подальшого аналізу. Значення коефіцієнтів у побудованій моделі Кокса подано у вигляді рис. 7. Currency Beckers Category i_pledget Pledget goal _Category Country –0,10 –0,05 0.00 0,05 0,10 0,15 0,20 log (HR) (95% CI) Рис. 7. Значення коефіцієнтів у побудованій моделі Кокса Н.В. Кузнєцова, Я.В. Грушко ISSN 1681–6048 System Research & Information Technologies, 2019, № 3 28 Далі побудовано модель Каплана–Майєра, графік функції виживання якої зображено на рис. 8. Порівняння функцій виживання моделей Каплан-Майєра та базового рівня виживання Кокса проілюстровано на рис. 9. Бачимо, що криві збігаються, хоча з часом дещо розходяться, що є ко- ректним, оскільки чим більше базова лінія в моделі Кокса відрізняється від моделі Каплан–Майєра, тим краще, адже тим більший корисний внесок роб- лять вхідні змінні, що містяться під експонентою у відповідній формулі мо- делі Кокса. Оскільки необхідно було виявити стартапи, які найімовірніше стають успішними, то виконувалася стратифікація моделі Кокса за основними кате- горіями (рис. 10). Отже, найбільш вдалими є стартапи, реалізовані у таких категоріях, як Crafts, Journalism, Dance, Fashion, Comics, а ймовірності виживання для них становлять відповідно від 0,65 до 0,5. Слід відзначити, що після 60 днів стартапи із цих категорій перестають «вмирати», тобто можемо зробити висновок, що час успішності для стартапів категорії становить понад 60 днів. Рис. 9. Порівняння моделей виживання 1,0 0,8 0,6 0,4 0,2 1000000 3000000 5000000 7000000 Timeline Рис. 8. Графік виживання моделі Каплана–Майєра в часі (у секундах) 1,0 0,8 0,6 0,4 0,2 1000000 3000000 5000000 7000000 Timeline Дослідження і прогнозування успішності стартапів платформи kickstarter Системні дослідження та інформаційні технології, 2019, № 3 29 МОДЕЛЮВАННЯ ЧАСУ УСПІШНОСТІ СТАРТАПІВ ЗА КАТЕГОРІЯМИ Для визначення часу, необхідного для розроблення і запуску стартапу, який досягне успіху, було вирішено виконати подальше моделювання. Оскільки вхідна вибірка на платформі велика — 378 000 різних стартапів, то було об- рано перші 7486 унікальних стартапів, які розбито в рівних частинах по 3743 — на навчальну та тестову вибірки. Для аналізу і побудови моделі Кокса використано навчальну вибірку 3743 стартапи і спрогнозовано час життя стартапів за когортами (категорія- ми/ напрямами стартапів) для другого набору для перевірної вибірки. Для кожної категорії стартапів спрогнозовано час життя для тестового набору (рис. 11); реальні значення функції виживання для тестового набору подано у вигляді рис. 12. Отже, результати прогнозування часу для різних категорій стартапів за допомогою функцій виживання показали, що найтриваліший час життя ма- ють такі категорії стартапів з тестового набору, як технології, фільми і відео, фотографія, мода та публікації. Імовірність виживання для цих категорій є не нижчою, ніж 0,4 протягом усього часу спостереження. Крім цього, після 60 днів стартапи таких категорій перестають «вмирати», тобто починають окупатися і переходити в успішний бізнес, що дає дохід розробникам. Ана- логічні результати спостерігались і на навчальному наборі, проте для дещо інших категорій (технології, фільми та відео, фотографії, мода та публіка- ції). Моделлю Кокса спрогнозовано, що всі категорії стартапів проходять відмітку 40 днів, найуспішнішими стартапами, що проходять відмітку 60 днів, є такі категорії: Journalism, Technology, Crafts, Fashion, Photography. Рис. 10. Стратифікована за стовпчиками main_category модель Кокса Timeline (days) Н.В. Кузнєцова, Я.В. Грушко ISSN 1681–6048 System Research & Information Technologies, 2019, № 3 30 Порівнявши з реальними даними, маємо, що прогноз більш-менш точний, оскільки 3 з 5 збігаються з реальними значеннями (Technology, Fashion, Photography), а ще 2 з 5 збігаються з попереднім набором даних (Journalism, Fashion). Отже, одними з найуспішніших категорій для стартапів за прове- деним дослідженням можна вважати Fashion, Technology, Journalism, Photography. Цікавим є те, що виділився серед них Fashion, потрапивши до всіх вибірок успішних категорій (і до навчальної, і до тестової, і до реальної). Рис. 11. Прогноз часу життя за категоріями для тестового набору A rt C om ic s G ra ft s D an ce D es ig n F as hi on F il m & V id e o F oo d G am e yo ur na lls m M us ic P ho to gr a- ph y P ub lis hi ng T ec hn ol og y T he at er 70 60 50 40 30 20 10 0 T im el in e (d ay s) Prediction 1,0 0,8 0,6 0,4 0,2 Real model Рис. 12. Реальні значення функції виживання для тестового набору даних за категоріями Дослідження і прогнозування успішності стартапів платформи kickstarter Системні дослідження та інформаційні технології, 2019, № 3 31 ВИСНОВКИ Динаміка зміни технологій і уподобань клієнтів викликає появу великої кі- лькості нових стартапів. Успіх тієї чи іншої бізнес-ідеї істотно залежатиме від удало підібраного моменту, відсутності подібних конкурентних пропо- зицій, часу її реалізації у вигляді стартапу та навіть галузі, у якій її буде за- пропоновано. Проведене у роботі дослідження сучасних успішних та про- вальних проектів дає змогу зорієнтуватись, для якої галузі натепер є актуальними нові стартапи. За допомогою сучасних методів інтелектуально- го аналізу даних визначено кращі методи для оцінювання і прогнозування успішності стартапів. Застосовані методи екстремального бустингу та k-найближчих сусідів дозволили з високою точністю передбачити успіш- ність проекту, а моделі виживання — оцінити середній час роботи над успі- шним стартапом і визначити саме ті ключові галузі, для яких стартапи ста- ють ефективними, спрогнозувавши для кожного з них необхідний час роботи для втілення прогресивної ідеї в успішний бізнес. Проведене дослі- дження буде корисним для молодих винахідників, які хочуть втілити власну ідею у життя і планують започаткувати власний бізнес, а також для інвесто- рів, які прагнуть підтримувати нові проекти і хотіли б швидкого повернення та примноження вкладених коштів, а отже, зацікавлені у пошуку потенцій- них проектів, які не матимуть конкурентів. У КПІ імені Ігоря Сікорського також наявна відома широкому загалу платформа для розвитку стартапів і потенційних інвесторів [15], яка є схо- динкою для залучення початкового фінансування на розроблення власних ідей. Для виявлення галузей, що потребують змін та втілення нових ідей, напрацювання рекомендацій новачками, які тільки хочуть організовувати власний бізнес для реалізації своєї прогресивної ідеї, також може бути корис- ним таке дослідження вже реалізованих стартапів і аналізу їх доцільності й ефективності за різними напрямами та сферами. ЛІТЕРАТУРА 1. Conventional Wisdom Says 90% of Startups Fail. Data Says Otherwise // Fortune. — Updated June 2017. — Available at: http://fortune.com/2017/06/27/startup- advice-data-failure/ 2. Why startups fail, according to their founders // Fortune. — Updated Septem- ber 2014. — Available at: http://fortune.com/2014/09/25/why-startups-fail- according-to-their-founders/ 3. Altman N.S. An introduction to kernel and nearest-neighbor nonparametric regres- sion / N.S. Altman // The American Statistician. — 1992. — P. 175–185. 4. Classifier comparison // Scikit-learn. — Updated 2018. — Available at: https://scikit-learn.org/stable/auto_examples/classification/plot_classifier_ comparison.html 5. XGBoost (eXtreme Gradient Boosting) // Distributed (Deep) Machine Learning Community. — Updated 2016. — Available at: https://github.com/dmlc/xgboost. 6. Хgboost 0.82 // Python Package Index (PyPI). — Updated 2019. — Available at: https://pypi.org/project/xgboost/. Н.В. Кузнєцова, Я.В. Грушко ISSN 1681–6048 System Research & Information Technologies, 2019, № 3 32 7. Friedman J.H. Greedy Function Approximation: A Gradient Boosting Machine / J.H. Friedman // Reitz Lecture. — 1999. 8. Hastie T. 10. Boosting and Additive Trees / T. Hastie, R. Tibshirani, J.H. Friedman // The Elements of Statistical Learning. — 2009. — N 2. — P. 337–384. 9. XGBoost (eXtreme Gradient Boosting) // Distributed (Deep) Machine Learning Community. — Updated 2016. — Available at: https://github.com/dmlc/xgboost/ tree/master/demo#machine-learning-challenge-winning-solutions. 10. Kickstarter projects // Kaggle. — Updated 2018. — Available at: https://www. kag- gle.com/kemical/kickstarter-projects/version/3#ks-projects-201801.csv 11. Kuznietsova N.V. Information Technologies for Clients’ Database Analysis and Be- haviour Forecasting / N.V. Kuznietsova // Selected Papers of the XVII Interna- tional Scientific and Practical Conference on Information Technologies and Security (ITS 2017). — 2017. — P. 56–62. — Available at: http://ceur- ws.org/Vol-2067. 12. Allison P.D. Survival Analysis Using SAS / P.D. Allison // Cary. — 2010. — 324 p. 13. Cox D.R. Regression Models and Life-Tables / D.R. Cox // Journal of the Royal Sta- tistical Society, Series B. — 1972. — Vol. 34, N 2. — P. 187–220. 14. Kickstarter // PBC. — Updated 2019. — Available at: https://www.kickstarter.com/. 15. Sikorsky Challenge. — Updated 2019. — Available at: https://www. sikorskychal- lenge.com/. Надійшла 08.07.2019
id	journaliasakpiua-article-183721
institution	System research and information technologies
keywords_txt_mv	keywords
language	Ukrainian
last_indexed	2025-07-17T10:26:28Z
publishDate	2019
publisher	The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
record_format	ojs
resource_txt_mv	journaliasakpiua/c4/79126174549954b180da9e60ccff57c4.pdf
spelling	journaliasakpiua-article-1837212019-12-13T15:15:18Z Research and prediction of the startups’ success on kickstarter platform Исследование и прогнозирование успешности стартапов платформы kickstarter Дослідження і прогнозування успішності стартапів платформи kickstarter Kuznietsova, Nataliia V. Grushko, Yaroslav V. прогнозування метод ектремального градієнтного бустингу метод k-найближчих сусідів моделі виживання стартапи успішність проектів платформа kickstarter прогнозирование метод экстремального градиентного бустинга метод k-ближайших соседей модели выживания стартапы успешность проектов платформа kickstarter Forecasting Extreme Gradient Boosting Method K-nearest Neighbor Method Survival Models Startups Project Success Kickstarter Platform The main purpose of the study, carried out in the work, was to identify and predict the success of new start-up projects. The task of predicting the success of one or another startup was solved, various methods of data analysis, such as methods of extreme gradient boosting and k-nearest neighbors, were used. They allowed to predict with high precision the success of the project, and the method of extreme gradient boosting was the most effective. The use of survival models allowed us to estimate the average time spent working on a successful startup, as well as identify those key industries for which startups become effective, predicting for each of them the required time to turn a progressive idea into a successful business. The most successful categories of start-up projects were also identified, and the time required to achieve the success (survival) of projects as a whole and for specific project categories was predicted. For this purpose, survival models were constructed on the basis of Cox proportional risks and Kaplan-Meyer models. Основная цель исследования, проведенного в работе, — выявление и прогнозирование успешности новых проектов-стартапов. Решена задача прогнозирования факта успешности того или иного стартапа, применены различные методы интеллектуального анализа данных, такие как методы экстремального градиентного бустинга и k-ближайших соседей, которые позволили с высокой точностью предсказать успешность проекта, а самым эффективным оказался метод экстремального градиентного бустинга. Применение моделей выживания позволило оценить среднее время работы над успешным стартапом и определить ключевые отрасли, для которых стартапы становятся эффективными; спрогнозировав для каждого из них необходимое время работы для воплощения прогрессивной идеи в успешный бизнес. Определены наиболее успешные категории проектов-стартапов и спрогнозировано время, необходимое как в целом для достижения успешности (выживания) проектов, так и для отдельных категорий проектов. Для этого построены модели выживания на основе пропорциональных рисков Кокса и модели Каплан–Майера. Основна мета дослідження, проведеного у роботі, — виявлення та прогнозування успішності нових проектів-стартапів. Розв’язано задачу прогнозування факту успішності того чи іншого стартапу, застосовано різні методи інтелектуального аналізу даних, такі як методи екстремального градієнтного бустингу та -найближчих сусідів, що дало змогу з високою точністю передбачити успішність проекту, а найефективнішим виявився метод екстремального градієнтного бустингу. Використання моделей виживання дозволило оцінити середній час роботи над успішним стартапом і визначити ключові галузі, для яких стартапи стають ефективними; спрогнозовано для кожного з них необхідний час роботи для втілення прогресивної ідеї в успішний бізнес. Виявлено найбільш успішні категорії проектів-стартапів та спрогнозовано час, необхідний як у цілому для досягнення успішності (виживання) проектів, так і для окремих категорій проектів. Для цього побудовано моделі виживання на основі пропорційних ризиків Кокса та моделі Каплан–Майєра. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2019-10-07 Article Article application/pdf https://journal.iasa.kpi.ua/article/view/183721 10.20535/SRIT.2308-8893.2019.3.02 System research and information technologies; No. 3 (2019); 18-32 Системные исследования и информационные технологии; № 3 (2019); 18-32 Системні дослідження та інформаційні технології; № 3 (2019); 18-32 2308-8893 1681-6048 uk https://journal.iasa.kpi.ua/article/view/183721/183557 Copyright (c) 2021 System research and information technologies
spellingShingle	прогнозування метод ектремального градієнтного бустингу метод k-найближчих сусідів моделі виживання стартапи успішність проектів платформа kickstarter Kuznietsova, Nataliia V. Grushko, Yaroslav V. Дослідження і прогнозування успішності стартапів платформи kickstarter
title	Дослідження і прогнозування успішності стартапів платформи kickstarter
title_alt	Research and prediction of the startups’ success on kickstarter platform Исследование и прогнозирование успешности стартапов платформы kickstarter
title_full	Дослідження і прогнозування успішності стартапів платформи kickstarter
title_fullStr	Дослідження і прогнозування успішності стартапів платформи kickstarter
title_full_unstemmed	Дослідження і прогнозування успішності стартапів платформи kickstarter
title_short	Дослідження і прогнозування успішності стартапів платформи kickstarter
title_sort	дослідження і прогнозування успішності стартапів платформи kickstarter
topic	прогнозування метод ектремального градієнтного бустингу метод k-найближчих сусідів моделі виживання стартапи успішність проектів платформа kickstarter
topic_facet	прогнозування метод ектремального градієнтного бустингу метод k-найближчих сусідів моделі виживання стартапи успішність проектів платформа kickstarter прогнозирование метод экстремального градиентного бустинга метод k-ближайших соседей модели выживания стартапы успешность проектов платформа kickstarter Forecasting Extreme Gradient Boosting Method K-nearest Neighbor Method Survival Models Startups Project Success Kickstarter Platform
url	https://journal.iasa.kpi.ua/article/view/183721
work_keys_str_mv	AT kuznietsovanataliiav researchandpredictionofthestartupssuccessonkickstarterplatform AT grushkoyaroslavv researchandpredictionofthestartupssuccessonkickstarterplatform AT kuznietsovanataliiav issledovanieiprognozirovanieuspešnostistartapovplatformykickstarter AT grushkoyaroslavv issledovanieiprognozirovanieuspešnostistartapovplatformykickstarter AT kuznietsovanataliiav doslídžennâíprognozuvannâuspíšnostístartapívplatformikickstarter AT grushkoyaroslavv doslídžennâíprognozuvannâuspíšnostístartapívplatformikickstarter

Дослідження і прогнозування успішності стартапів платформи kickstarter

Репозитарії

Схожі ресурси