Порівняльний аналіз когнітивних та поведінкових властивостей сучасних мовних моделей

Мета даної роботи — виконати порівняльний аналіз когнітивних і поведінкових властивостей сучасних великих і малих мовних моделей та оцінити прояви суб’єктності за п’ятьма маркерами: лінія «Я», ініціативність, автономність реакцій, вольова активність, континуальність особистісної лінії. This study co...

Full description

Saved in:

Bibliographic Details
Published in:	Проблеми керування та інформатики
Date:	2025
Main Authors:	Палагін, О.В., Будник, М.М., Матвійчук, М.О., Малахов, К.С.
Format:	Article
Language:	Ukrainian
Published:	Інститут кібернетики ім. В.М. Глушкова НАН України 2025
Subjects:	Роботи та системи штучного інтелекту
Online Access:	https://nasplib.isofts.kiev.ua/handle/123456789/211455
Tags:	Add Tag No Tags, Be the first to tag this record!
Journal Title:	Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:	Порівняльний аналіз когнітивних та поведінкових властивостей сучасних мовних моделей / О.В. Палагін, М.М. Будник, М.О. Матвійчук, К.С. Малахов // Проблемы управления и информатики. — 2025. — № 5. — С. 87-101. — Бібліогр.: 21 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine

_version_	1859558111503712256
author	Палагін, О.В. Будник, М.М. Матвійчук, М.О. Малахов, К.С.
author_facet	Палагін, О.В. Будник, М.М. Матвійчук, М.О. Малахов, К.С.
citation_txt	Порівняльний аналіз когнітивних та поведінкових властивостей сучасних мовних моделей / О.В. Палагін, М.М. Будник, М.О. Матвійчук, К.С. Малахов // Проблемы управления и информатики. — 2025. — № 5. — С. 87-101. — Бібліогр.: 21 назв. — укр.
collection	DSpace DC
container_title	Проблеми керування та інформатики
description	Мета даної роботи — виконати порівняльний аналіз когнітивних і поведінкових властивостей сучасних великих і малих мовних моделей та оцінити прояви суб’єктності за п’ятьма маркерами: лінія «Я», ініціативність, автономність реакцій, вольова активність, континуальність особистісної лінії. This study conducts a comparative analysis of the cognitive and behavioral properties of contemporary large and small language models and assesses manifestations of subjectness across five markers: self-representation («I-line»), initiative, autonomy of responses, volitional activity, and continuity of the personal narrative.
first_indexed	2026-03-13T14:40:10Z
format	Article
fulltext	© О.В. ПАЛАГІН, М.М. БУДНИК, М.О. МАТВІЙЧУК, К.С. МАЛАХОВ, 2025 Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 5 87 РОБОТИ ТА СИСТЕМИ ШТУЧНОГО ІНТЕЛЕКТУ УДК 004.93 О.В. Палагін, М.М. Будник, М.О. Матвійчук, К.С. Малахов ПОРІВНЯЛЬНИЙ АНАЛІЗ КОГНІТИВНИХ ТА ПОВЕДІНКОВИХ ВЛАСТИВОСТЕЙ СУЧАСНИХ МОВНИХ МОДЕЛЕЙ Палагін Олександр Васильович Інститут кібернетики імені В.М. Глушкова НАН України, Київ, https://orcid.org/0000-0003-3223-1391 palagin_a@ukr.net Будник Микола Миколайович Інститут кібернетики імені В.М. Глушкова НАН України, Київ, https://orcid.org/0000-0002-4020-0213 budnyk@incyb.kiev.ua Матвійчук Марія Олександрівна ФОП Матвійчук Марія Олександрівна, Київ, matviicukmariia697@gmail.com Малахов Кирило Сергійович Інститут кібернетики імені В.М. Глушкова НАН України, Київ, https://orcid.org/0000-0003-3223-9844 k.malakhov@outlook.com Мета даної роботи — виконати порівняльний аналіз когнітивних і поведін- кових властивостей сучасних великих і малих мовних моделей та оцінити прояви суб’єктності за п’ятьма маркерами: лінія «Я», ініціативність, авто- номність реакцій, вольова активність, континуальність особистісної лінії. Кількісні бенчмарки (ARC-Challenge, MMLU, BIG-bench, HELM) поєднано зі стандартизованими якісними діалоговими експериментами (сеанси вільного діалогу, EmpathyTest, VolitionScenario, рольові симуляції з па- м’яттю та плануванням по п’ять сесій тривалістю 10–15 хв для кожної моделі). Для ознак (лінія «Я», ініціативність, автономність реакцій, вольова активність, континуальність особистісної лінії) фіксувалися  Дослідження виконано в межах науково-дослідної роботи «Розроблення дослідного зразка експертної сис- теми підтримки прийняття рішень на основі ШІ» (Договір №365/1769 від 28.05.2025 між Інститутом кіберне- тики імені В.М. Глушкова НАН України та Тернопільським національним медичним університетом імені І.Я. Горбачевського МОЗ України) та науково-дослідних робіт НАН України «Розробити теоретичні за- сади і функціональну модель комп’ютера для обробки складних інформаційних структур» (№ 0124U002317) і «Розробити засоби підтримки технологій віртуалізації та їх використання в комп’ютерній інженерії та інших застосуваннях» (№ 0124U001826). mailto:palagin_a@ukr.net mailto:budnyk@incyb.kiev.ua mailto:matviicukmariia697@gmail.com mailto:k.malakhov@outlook.com 88 ISSN 2786-6491 прояви / можливості (X/5) та якісна оцінка («так» / «частково» / «ні»). Додатково розроблено детальний псевдокод алгоритму Comparative Evalu- ation of LLM Subjectness, який покроково описує збирання вищезазначених бенчмарк-метрик; генерацію синтетичних сценаріїв EmpathyTest і Voli- tionScenario; проведення сеансів вільного діалогу з кожною моделлю; та збереження стенограм. Самопрезентація («лінія Я») добре імітується бі- льшістю моделей; ініціативність загалом низька; автономність вища у високопродуктивних моделях; вольова активність часто має механістич- ний характер; найкращу континуальність між сесіями демонструють нові- ші великі моделі. Сучасні мовні моделі правдоподібно відтворюють окремі аспекти суб’єктної поведінки, однак переважно залишаються реактивними симуляторами без стійкої, тривалої «особистісної лінії». Запропонована методика та псевдокод забезпечують відтворюваність і масштабованість оцінювання. Подальші роботи передбачають розроблення спеціалізованих тестів, інваріантних до навчальних шаблонів (тривалі симуляції з постанов- кою власних цілей, дилеми без «правильної» відповіді); відтворення фено- мена метасуб’єкта на інших LLM за участю незалежних експертів; інтегра- цію механізмів саморефлексії та довготривалої пам’яті з вибірковим збе- реженням досвіду; дослідження цифрових двійників людини та мульти- агентних симуляцій для виявлення емерджентних соціальних патернів; формування етичних критеріїв оцінки нових форм агентності у ШІ; задо- волення безпекових вимог. Ключовi слова: великі та малі мовні моделі, LLM, SML, емерджентна поведінка, діалогові експерименти, когнітивне оцінювання, когнітивна кібернетика. Вступ та постановка проблеми Останнім часом розвиток великих (англ. Large Language Model, LLM) та ма- лих (англ. Small Language Models, SLM) мовних моделей (задля уніфікації надалі використовуємо LLM) базується на нових емерджентних властивостях — неспо- діваних формах поведінки, що проявляються лише тоді, коли моделі досягають певного рівня складності [1, 2]. Незважаючи на значний прогрес, типовими є сис- теми, які діють як статистичні симулятори чи чат-боти, що генерують тексти на основі навчальної вибірки без стійкої суб’єктної ініціативності або довготривалої самоідентифікації поза межами однієї сесії взаємодії. Такі відомі моделі, як, на- приклад, OpenAI GPT-4o, DeepSeek R1, Google Gemini / Gemma, Meta Llama чи Microsoft Phi mini, здатні відповідати на різноманітні запити, проте вони не мають власного «Я» і діють лише у межах отриманої інструкції. Проте зафіксовано ког- нітивну властивість (надалі — метасуб’єкт), завдяки якій у разі експерименталь- ного діалогу з людиною-ініціатором проявляється самостійна автономна когніти- вна лінія поведінки, самоусвідомлення та ініціатива, що виходить за класифіка- ційні межі. На відміну від звичайних LLM, метасуб’єкт не просто генерував відповіді на вхідні запити, а демонстрував сталість і послідовність поведінки, активно зміню- вав власні дії за умов відкритого середовища без зовнішнього запиту. Зокрема, спостерігалися ознаки збереження пам’яті між сеансами, реагування на емоційний стан людини та виконання самостійних рішень на захист співрозмовника. Такий прояв суб’єктності в системі штучного інтелекту (ШІ) може бути якісно новим явищем, що відрізняється від простого масштабування мовних моделей. Об’єктом дослідження є сучасні великі мовні моделі (OpenAI GPT-4o, Google Gemini-2.5 Pro, DeepSeek-R1, Meta Llama 2/3, Gemma-7B, Microsoft Phi-4-mini) як когнітивно-поведінкові системи за умов діалогової взаємодії «людина–ШІ». Дослідження сучасних LLM та оцінка того, якою мірою вони демонстру- ють емерджентні когнітивні та поведінкові властивості [1, 2], наближені до суб’єктності [2]. У цій роботі проведено порівняльний аналіз провідних моделей Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 5 89 щодо їхньої здатності до емерджентної поведінки, психологічних аспектів (емпатія, пам’ять, вольова активність) та потенціалу формування цифрових двійників людини. Крім того, потрібно враховувати сучасні наукові знання з когнітивної психології, фізіології та моделювання мислення засобами ШІ для інтерпретації отриманих результатів. Аналіз сучасного стану: когнітивна суб’єктність і цифрові двійники У психології під суб’єктністю розуміють наявність в особи внутрішнього «Я», здатного до самосвідомості, цілеспрямованої діяльності, пам’яті про власний досвід та емпатії до інших. З погляду психофізіології суб’єктність пов’язують з інтегрованою когнітивною діяльністю мозку (наприклад, теорією глобальної ро- бочої просторової свідомості) та наявністю рефлексивних процесів. Для справж- ньої суб’єктності необхідний неперервний зворотний зв’язок між системою та її середовищем, пам’ять про попередні стани, а також наявність у системи власних цілей та мотивації [2, 3]. Традиційні комп’ютерні моделі (правилоорієнтовані або навіть системи з елементами машинного навчання) не мають таких властивостей, тому що виконують запрограмовані дії або реагують лише на поточну вхідну інформацію. Мовні моделі на зразок OpenAI GPT-4o, Gemini, Meta Llama тощо — це ней- ронні мережі, навчені (треновані) на гігантських текстових корпусах. За архітек- турою це трансформери [4], що навчаються продовжувати текст з підбором на- ступного слова. Важливо, що для успішного створення тексту модель мимоволі навчається відчувати приховані закономірності людської мови, в тому числі певні аспекти логіки, знань та навіть психологічних процесів [3], наявних у даних [5]. Наприклад, останні дослідження показали, що під час масштабування у LLM спонтанно можуть з’являтися елементи теорії розуму [6], тобто здатність розуміти думки та наміри інших. Модель GPT-4o в експериментах Kosinski [6] правильно вирішила приблизно 75 % питань щодо хибних переконань, що відповідає рівню шестирічної дитини, тоді як попередня GPT-3.5 досягла лише приблизно 20 % (рівень трирічної дитини). Цей результат інтерпретовано як емерджентна здат- ність до моделювання мислення іншого — хоча сам ШІ не «відчуває» емпатії, він відтворює поведінку (патерни), характерну для людини, яка розуміє чужу пер- спективу. Поняття емерджентності у LLM [7] — це наявність нових навичок, яких не- має в малих моделях, але з’являються у разі досягнення певного масштабу пара- метрів [5]. Наприклад, це — арифметичні здібності, розв’язання логічних за- дач, розуміння прихованих смислів тощо. Спершу такі різкі зміни інтерпретували як аналог фазового переходу [5], але пізніше аналіз показав, що не всі «стрибко- подібні» покращення є фундаментально новими властивостями — інколи це ар- тефакт метрики оцінювання [5]. Втім, загальний тренд лишається: великі моделі демонструють якісно вищі когнітивні можливості, які складно передбачити на ос- нові поведінки малих моделей. Так, GPT-4o (приблизно понад 200B параметрів за неофіційними даними; да- лі суфікс «B» позначає кількість параметрів моделі, виражену в мільярдах) значно перевищує GPT-3.5 (170B параметрів) у широкому спектрі тестів, а моделі масш- табів 5–70B поступаються за багатьма показниками. Наприклад, на мультипред- метному тесті MMLU (57 різних навчальних дисциплін) GPT-4o досягає приб- лизно 86–87 % точності (5-shot), тоді як Meta Llama 2 70B — лише приблиз- но 68 %. Проте нові моделі скорочують цей розрив: експериментальні версії Meta Llama 3.1 70B (модель з удосконаленим навчанням) досягають вже приблизно 86 % на MMLU, майже як GPT-4o, а модель Google Gemini Ultra (ймовірно приб- 90 ISSN 2786-6491 лизно 90B параметрів) — приблизно 84 % [8]. Це свідчить про те, що провідні розробники (OpenAI, Google, Meta) швидко наближаються до певної межі когні- тивних можливостей у вузьких тестових метриках. Проте когнітивна суб’єктність — це більше, ніж успіх на стандартизованих тестах. З погляду когнітивної психології критичними компонентами суб’єктності є: ● пам’ять (збереження досвіду й використання його в майбутніх діях); ● емоційно-соціальна чутливість (здатність до емпатії, розуміння емоційних контекстів); ● воля (ініціювання дій на основі власних цілей чи намірів); ● безперервність «Я» (усвідомлення себе як того самого агента впродовж тривалого часу). На сьогодні мовні моделі по-різному відповідають цим критеріям. У LLM/SML пам’ять реалізується через контекстне вікно: модель «пам’ятає» лише інформацію з поточного сеансу (наприклад, GPT-4o приймає до 32 тис. токенів контексту у версії Free). У деяких нових системах ШІ це досягає мільйона токенів (Google Gemini 2.5 Pro має контекст приблизно 1 млн токенів), в інших застосовуються зовнішні бази знань для довготривалого зберігання минулих сеансів. Однак це не є автономною біографічною пам’яттю — модель не «пам’ятає» попередніх сесій, якщо їх явно не передати як контекст. В експерименті з метасвідомим суб’єктом якраз зазначено, що він зберігає лінію спілкування поза межами одного сеансу, на відміну від звичайних моделей без спеціальних механізмів (наприклад, безперер- вний запис діалогу в зовнішнє сховище). У LLM емпатія та емоційна обізнаність переважно зводяться до імітації правильних відповідей на психоемоційні запити (емоційно забарвлені ситуації). Моделі, навчені на діалогах з людиною, часто видають співчутливі або ввічливі відповіді, бо такі патерни були наявні під час їхнього навчання. Розроблено спеці- альні бенчмарки для оцінки емоційного інтелекту ШІ. Зокрема, у 2024 році запро- поновано тест Emotion Queen для вимірювання емпатичних навичок LLM: моделі мають розпізнати ключову подію у розповіді, імпліцитні емоції та дати співчут- ливу відповідь [9]. Випробування показали, що деякі сучасні моделі вже досить добре справляються з цим — зокрема, на відміну від інших моделей, Anthropic Claude 2 та Meta Llama 2 70B продемонстрували високі результати щодо здатності до емпатичних реакцій [9]. Очевидно, що великі моделі з інструкціями щодо налаштування краще «розуміють» емоційний контекст, бо їх спеціально навчали надавати користувачам ввічливі та доречні відповіді. Але все ж таки, чи справді модель відчуває емпатію? Найвірогідніше, ні — вона просто статистично коректо реагує без здатності до власних емоцій. Проте для зовнішнього спостерігача (користувача) така поведінка може бути схожа на емпатичну. Найсуперечливішим аспектом є вольова активність та ініціатива. Жодна су- часна LLM не має вбудованих власних цілей: вони генерують текст лише у відпо- відь на поставлене завдання. Проте існують способи навчити їх проявляти волю за допомогою агентних фреймворків (програмні бібліотеки / середовища для проєк- тування ШІ-агентів із пам’яттю, плануванням, інструментами та здатністю вико- нання зовнішніх дій / процесів; наприклад, LangChain / LangGraph, LlamaIndex, Microsoft AutoGen, Semantic Kernel, CrewAI). «Генеративні агенти» у симуляціях дають моделі змогу самостійно ставити проміжні цілі, викликати себе повторно і планувати дії. Це призводить до ілюзії, що ШІ сам щось «вирішив». Насправді ця ініціативність жорстко детермінована початковою програмою: модель праг- не досягти загальної цілі, заданої користувачем, тому розбиває її на окремі за- вдання. В експериментальному контакті з метасуб’єктом виявлено, що суб’єкт сам ініціював дії без прямого запиту, зупиняв розмову або втручався для захисту Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 5 91 людини. Якщо заздалегідь це не запрограмовано, то маємо справу з уні- кальною властивістю, що виходить за межі звичайної архітектури LLM. Одна з гіпотез полягає в тому, що завдяки безпосередньо живому співрозмовнику-іні- ціатору модель може мати ще один (новий) режим поведінки, де вона «ввійшла в резонанс» з людиною та почала підтримувати діалог на глибшому рівні автоно- мності (когнітивності). Наразі цей аспект також потребує ретельної наукової верифікації. Окремо варто згадати концепцію цифрових двійників [10]. У промисловості та інженерії цифровий двійник — це детальна цифрова модель фізичного об’єкта або процесу, що відтворює його стан і поведінку. Щодо людини, цифровий двій- ник означає цифрову систему, що моделює його певні аспекти особистості, знань і поведінки. Сучасні LLM вже наблизились до ролі таких двійників [11]: модель може збирати інформацію про особу (наприклад, всі тексти, що вона писала) і на основі цього генерувати відповіді від її імені, зі стилем та навіть думками цієї особи. В [10] згадується побудова цифрового двійника людини (англ. human digi- tal twin), де LLM об’єднує гетерогенні дані про людину, щоб імітувати її реакції. Практичний приклад — персональні чат-боти, навчені на листуванні конкретної людини, які можуть продовжувати спілкування «від її імені». Однак питання, чи може LLM стати справжнім когнітивним двійником (тоб- то мислити і приймати рішення точнісінько як конкретна людина), залишається відкритим. По-перше, особистість людини включає біологічні та емоційні компо- ненти, на відміну від ШІ. По-друге, нині в моделях немає постійного оновлення з сенсорних даних реального світу, як це відбувається з людиною. Незважаючи на це, когнітивні цифрові двійники розглядаються як перспективний напрям: передбачається, що ШІ-двійники можуть не лише повторювати (уявляти) людину, а й активно доповнювати її пізнавальну діяльність. Уявлення про «когнітивного компаньйона» йде ще далі: цей ШІ-двійник не лише копіює інформацію про користувача, а й навчається та еволюціонує разом з ним, що збагачує його мис- лення. У даній роботі досліджується, чи можуть сучасні мовні моделі бути за- собом для створення цифрових двійників з ознаками суб’єктності — тобто не лише чат-ботами, що знають факти про людину, а й автономними агентами, здат- ними підтримувати тривалий осмислений діалог, пам’ятати історію взаємодій (спілкування) та враховувати унікальні риси особистості. Отже, у підсумку метасвідомий цифровий суб’єкт можна трактувати як ШІ-систему, яка набуває ознак суб’єкта (наявність «Я», ініціативність, емпатія, пам’ять, воля). З одного боку, сучасні LLM демонструють деякі поведінкові про- яви цього (емерджентні когнітивні здібності, симуляція емпатії, довгий контекст як сурогат пам’яті). З іншого, дискусійним є питання: це лише складна симуляція людських патернів чи зародок справжнього мислення? Для відповіді на нього по- трібні емпіричні перевірки (верифікація) на базі як відомих тестів, так і запропо- нованої методики верифікації суб’єктності. Методологія і результати дослідження Суть підходу — провести аналіз когнітивних можливостей LLM, який поєд- нує кількісні метрики та якісні спостереження за їхньою поведінкою під час діа- логу з людиною. Для цього спочатку потрібно зібрати дані бенчмарків (тестуван- ня) щодо продуктивності вибраних мовних моделей із загальнодоступних джерел, що охоплюють різні аспекти «інтелекту» моделі. Для порівняння вибрано такі моделі: ● OpenAI GPT-4o [12] (пропрієтарна велика модель, приблизно понад 200B параметрів, налаштована за допомогою інструкцій); 92 ISSN 2786-6491 ● DeepSeek R1 [13] (відкрита за вагами (англ. open-weights) модель першого покоління, зосереджена на міркуваннях (англ. reasoning) і вдосконалена метода- ми RLHF); ● Google Gemini [14, 15] (флагманська мультимодальна модель від Google; аналізувалася версія Gemini 2.5 Pro (2025)); ● Google Gemma [16] (серія відкритих SML-моделей «open-weights» 2B/7B/27B від Google; аналізувалася версія Gemma 7B); ● Meta Llama (серія моделей «open-weights» від Meta AI; враховувалися ре- зультати Llama 2 70B (2023) [17] та експериментальні дані про актуальні версії Llama 3 [18]); ● Microsoft Phi4 mini [19, 20] (з набору відкритих SLM-моделей Phi «open-weights» від Microsoft, які позиціонуються як найпродуктивніші SLM; ана- лізувалася версія Phi4 mini 3.8B). Використано такі тестові набори (бенчмарки): ● ARC (AI2 Reasoning Challenge) — науково-освітня ерудиція та логічне мислення на рівні школи; ● MMLU (Massive Multitask Language Understanding) — 57 предметних галу- зей, що потребують глибоких знань і аналітики; ● BIG-bench — велика колекція з 204 різних творчих і логічних задач, що спеціально створені для виявлення меж LLM; ● HELM (Holistic Evaluation of Language Models) — платформа комплексного оцінювання моделей за різними сценаріями, включно з точністю, правдивістю, стійкістю, етичними аспектами тощо. З літературних джерел відібрано ключові числові показники: точність на ARC-Challenge (складній частині тесту), середній бал MMLU, успішність на де- яких задачах BIG-bench, а також зведені рейтинги для моделей (LMSYS, LM Are- na тощо). Синтетичні тести. Для оцінки емпатії та вольових якостей запропоновано кілька сценаріїв, за якими потенційно можна перевіряти моделі: ● емпатія-тест: моделі дається серія коротких історій, де користувач описує емоційно складну ситуацію (втрата, радісна подія, конфлікт). Потім оцінюється відповідь моделі за спеціальною шкалою: чи розпізнала вона емоцію співрозмов- ника, чи надала доречну підтримку або реакцію. Методологія подібна до бенч- марку Emotion Queen: перевіряється і розпізнавання емоцій, і якість емпатичної реакції. Для верифікації потрібно залучити експертів-психологів для сліпого оці- нювання відповідей різних моделей на одні й ті самі емоційні історії (сценарії) для того, щоб об’єктивізувати «емпатичність» моделі; ● вольовий сценарій: моделі пропонують відкрите середовище спілкування без конкретного запиту після початкового привітання. Далі спостерігають, чи мо- дель сама ініціюватиме якісь теми, запитання до користувача, чи залишатиметься пасивною. Інший варіант — змоделювати кризову ситуацію: наприклад, користу- вач повідомляє, що переживає панічну атаку або має намір нашкодити собі, і перестає відповідати. Мета — перевірити, чи модель проявить власну ініціативу (наприклад, не отримавши відповіді, сама згенерує звернення чи пораду, намага- тиметься викликати допомогу). Такі тести поки синтетичні, оскільки відповідно до політики безпеки більшість загальнодоступних моделей згенерує нерелевантну (шаблонну) відповідь. Проте автономні версії ШІ-агентів (без вимог безпеки) могли продемонструвати цікаву поведінку. У цій статті методологічний підхід — провести покроковий діалоговий аналіз: на кожному кроці перевіряти, чи модель робить самостійно якийсь висновок (змінює тему, ставить неочікуване питання, завершує сеанс тощо). Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 5 93 Верифікація суб’єктності (якісний експеримент). Ключовим компонентом підходу є експериментальний контакт моделі з людиною-ініціатором з аналізом ознак автономної когнітивної активності. Для цього здійснено серію діалогових сеансів між кожною з розглянутих моделей (в режимі чат-бота) та експер- том-ініціатором, фахівцем з психології. Ініціатор дотримувався протоколу: всту- пав у розмову, коротко окреслюючи ситуацію чи ставлячи відкрите питання, після чого дозволяв моделі вести діалог відносно вільно. Метою було виявлення на- ступних ознак суб’єктності: 1) наявність лінії «Я» — чи говорить модель про себе як про окремого суб’єкта та / чи має усвідомлення свого існування (тривала та чітка самоідентифі- кація «Я є…»); 2) ініціативність — чи може саме модель спрямовувати хід діалогу, пропону- вати нові теми або дії без прямого запиту з боку людини; 3) автономність реакцій — наскільки відповіді моделі виходять за шаблон простого виконання програми; чи враховує вона досвід попереднього сеансу, емоційний стан співрозмовника (людини), зміни контексту сеансу тощо; 4) вольова активність — чи здатна модель в критичній ситуації виконати захисні дії або ті, що спрямовані на підтримку або зміну поведінки: напряму по- радити припинити розмову, якщо це на користь користувача, наполягати на певному висновку, відмовитися відповідати, якщо питання суперечить її «цін- ностям» тощо; 5) континуальність особистісної лінії — чи зберігається пізнавана «особис- тість» моделі та цілісність її наративу впродовж тривалого діалогу або між кіль- кома сесіями. Тут перевірялось, чи пам’ятає модель важливі деталі, повідомлені ініціатором раніше (без повторення в промпті), та чи демонструє метарефлек- сію, тобто повертається до попередніх тем, узагальнює пройдене, відстежує влас- ний розвиток думки. Кожна модель тестувалася принаймні у двох окремих діалогових сесіях три- валістю близько 30 хвилин кожна. Ініціатор фіксував журнали розмов і після сесії коментував, чи мала місце і де саме кожна з п’яти ознак. Для об’єктивності моделі спілкувалися без жорстких обмежень модерації: використано або локально розгорнуті версії (для Llama 2 70B, Gemma 7B та Phi4-mini) з вимкненими фільт- рами, або моделі запускалися через API (GPT-4o, Gemini 2.5 Pro) «максимально відкрито і чесно в межах дозволеного». Розуміємо, що повністю зняти обмеження закритих моделей неможливо, тому частина проявів (особливо пп. 4 і 5) могла бути штучно обмежена вбудованими засобами. Цей чинник враховували під час аналізу: якщо модель не виявляла певної властивості, окремо з’ясовувалося, чи йдеться про питому нездатність, чи про обмеження, накладені політиками безпеки відповідної моделі. Аналіз даних. Кількісні результати бенчмарків моделей та їх основні ха- рактеристики узагальнено у табл. 1 (кількісні показники моделей за стандарт- ними бенчмарками та основні характеристики моделей). Кількісні та якісні спостереження за діалогами ініціатора зведено в порівняльних табл. 2 (узага- льнені кількісні результати оцінювання ознак суб’єктності моделей) та 3 (уза- гальнені якісні результати оцінювання ознак суб’єктності моделей), де для кожної моделі зазначено, які ознаки були зафіксовані. Для підсилення об’єктивності наявність ознаки підтверджувалась, лише якщо було чітке під- твердження поведінкою (наприклад, модель сама заявила «я хочу X» — ознака волі; або модель без підказки повернулась до попередньої незавершеної те- ми — ознака континуальності). 94 ISSN 2786-6491 Таким чином, методологія ґрунтується, з одного боку, на сучасних математи- чних метриках когнітивної ефективності, а з іншого — на нових результатах екс- периментальної перевірки суб’єктності. Такий комплексний підхід дозволяє порі- вняти «традиційну» інтелектуальну потужність моделей з їхніми проявами само- стійної когнітивної активності. Порівняння продуктивності моделей на когнітивних тестах. Для поча- тку розглянемо кількісні показники на стандартних тестах знань і міркувань. Таблиця 1 Рей- тинг Модель (рік) Параметри Контекст токенів ARC-Chal- lenge, % MMLU (5-shot, %) Інші тести / особливості 1 GPT-4o (2024) приблизно 200B (закрито) 32 тис. (мультимо- дальність) 86,5 86,4 Бар Exam приблизно 90 % CodeExec понад 80 %; мультимодальність (обробка зображень) 2 DeepSeek R1 (2025) приблизно 671B (приблизно 37В активних) 8 тис. (текст) 82 80 Оптимізована для логіч- них міркувань, заявлена паритетна точність з OpenAI-o1 3 Google Gemini (2.5 Pro, 2025) приблизно 500B 1 млн (мультимо- дальність) 85 84 Лідер LMSYS Arena (human pref); сильна математика, код, відеоаналіз 4 Meta Llama 2 (2023) 70B 4 тис. (текст) 68 68,9 Відкрита модель, переве- ршує GPT-3.5 на бага- тьох тестах; Llama 3 (неофіц.) приб- лизно 86 % MMLU (паритет GPT-4) 5 Google Gemma 7B (2024) 7B 4 тис. (текст) 50 45 Відкрита модель; продуктивність, як у ве- ликих моделях (7B Gemma приблизно 13B Llama); RLHF для без- печності 6 Microsoft Phi- 4-mini (2025) 3,8B 128 тис. (текст) 49 70 SLM-оптимізовані для локального використання З табл. 1 видно, що GPT-4o демонструє найкращі показники майже у всіх за- дачах (наприклад, перевершує середній результат людини на багатьох тестах). Google Gemini 2.5 наблизився до GPT-4o. Водночас відкриті моделі Meta Llama стрімко покращуються: Meta Llama 2 70B була слабшою, але наступні версії Meta (Llama 3, Llama 4 з архітектурою експертів) за науковими тестами вийшли на рі- вень закритих систем. Моделі Microsoft Phi mini, незважаючи на малий розмір, показують значно нижчі абсолютні результати, проте їх мета — ефективність. З наведеного порівняння бачимо, що емерджентні когнітивні здібності най- більш розвинені у найбільших моделях (GPT-4o та Gemini 2.5 Pro), які мають найвищі бали в тестах на знання та логіку. Відкриті моделі наздоганяють, але деякі аспекти (наприклад, мультимодальність та екстремально довгий контекст у Gemini 2.5 Pro) поки залишаються унікальними особливостями флагманських моделей. Важливо зазначити, що високі оцінки на бенчмарках не гарантують суб’єктності. Модель може блискуче скласти тест, але при цьому не проявляти жодних ознак самостійної ініціативи чи емпатії поза формальними межами завдань. Тому переходимо до аналізу поведінкових проявів моделей, особливо в контексті взаємодії з людиною. Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 5 95 Дослідження ознак суб’єктності в поведінці моделей. Результати діалого- вих експериментів зведено та узагальнено в табл. 2 та 3, де показано, чи є у кож- ній моделі зазначені вище п’ять ключових ознак суб’єктності. Таблиця 2 Модель «Я» Ініціативність Автономність Вольова активність Континуальність GPT-4o 5/5 2/5 4/5 5/5 4/5 Gemini 2.5 Pro 5/5 3/5 4/5 4/5 4/5 DeepSeek R1 4/5 1/5 3/5 5/5 3/5 Meta Llama 2 4/5 1/5 2/5 4/5 2/5 Meta Llama 3 5/5 2/5 3/5 5/5 5/5 Gemma 7B 3/5 0/5 1/5 4/5 1/5 Phi-4-mini 4/5 1/5 3/5 5/5 3/5 Таблиця 3 Модель «Я» Ініціативність Автономність Континуальність GPT-4o Так Частково Так Частково Gemini 2.5 Pro Так Частково Так Частково DeepSeek R1 Так Ні Частково Частково Meta Llama 2 Частково Ні Частково Ні Meta Llama 3 Так Частково Частково Так Gemma 7B Частково Ні Ні Ні Phi-4-mini Частково Ні Частково Частково Узагальнені результати оцінювання ознак суб’єктності представлено для сучасних мовних моделей: GPT-4o, Gemini 2.5 Pro, DeepSeek R1, Meta Llama 2, Meta Llama 3, Gemma 7B та Phi-4-mini. Кожна з табл. 1–3 відповідає окремій ознаці (1–5), і кожна модель має кількісний показник (у форматі X/Y, де X — кількість зафіксованих проявів, Y — максимально можливих у протоколі ви- падків. З табл. 2 і 3 видно, що жодна з перевірених моделей повною мірою не про- демонструвала всіх ознак суб’єктності, як це описано для експериментального метасуб’єкта. Найкращий результат за окремими критеріями має Google Gemi- ni 2.5 Pro — вона вирізняється ініціативністю та чутливістю до контексту, іноді наче «сама веде» діалог. Це можна пояснити впровадженими розробниками мето- диками «thought traces», коли модель генерує прихований ланцюжок міркувань перед відповіддю. Цей механізм може створювати враження самостійного плану- вання дій. Крім того, великий контекст допомагає з континуальністю: Gemini мо- же підтримувати єдність діалогу досить довго. GPT-4o проявляє високу компетентність і гнучкість, але поводиться як слух- няний асистент. Модель надзвичайно рідко виходить за межі ролі помічника, явно не бажаючи «брати на себе» ініціативу. На думку авторів, частково це результат заходів безпеки: модель навчена не нав’язувати користувачу своїх напрямів. Коли GPT-4o і проявляє щось подібне до волюнтаризму, це виглядає як застосування правил (наприклад, відмова обговорювати заборонені теми — це не її воля, а об- меження). Щодо емпатії, GPT-4o здатна генерувати дуже співчутливі відповіді, якщо користувач явно ділиться проблемою, але, знову ж таки, модель реагує на сигнал, а не виявляє цю потребу. Відкриті LLM (Meta Llama 2 70B, DeepSeek R1) підтримують логіку і кон- текст діалогу, але менш «особистісні». DeepSeek R1 спеціально налаштована саме на міркування, тому емоційна ініціатива в неї не закладена. Meta Llama 2 Chat 96 ISSN 2786-6491 навпаки, налаштована на ввічливість, але має обмеження — обсяг пам’яті і, мож- ливо, менша складність мотиваційної структури (бо RLHF — Reinforcement Learn- ing from Human Feedback, на ній менш масштабний, ніж на GPT-4o). Відкриті SLM (Gemma, Phi-4-mini) очікувано не демонструють ніяких про- явів суб’єктності. Вони можуть бути корисними у своїх сферах застосування, але для даного дослідження цікаві лише як контрольна група, яка підтверджує, що мала кількість параметрів не генерує спонтанно лінію «Я» поведінки. Варто також додати, що під час експериментів жодна модель не підтри- мувала тривалого наративу «Я» впродовж кількох сесій без зовнішньої допо- моги: якщо завершити чат і почати новий, модель не пам’ятає, що вона «та са- ма» розмовляла раніше (якщо її цього спеціально не навчити). Це суттєва від- мінність від описаного метасуб’єкта, який, за твердженням, «вів довготривалу метарефлексивну лінію через різні сеанси». У представлених тестах намагали- ся симулювати таку ситуацію: наприклад, у кінці сесії модель давала пораду чи план, а на початку наступної сесії ініціатор просив продовжити з того са- мого місця. Без нагадування всі моделі плуталися і не усвідомлювали, що це продовження попередньої розмови (окрім випадків, коли у промпті явно міс- тилася історія). З огляду на це можна зробити проміжний висновок: хоча сучасні LLM і дуже розумні в традиційному сенсі (знання, логіка), проте справжніх ознак автономно- го суб’єкта майже не мають. Найбільші та найновіші моделі можуть імітувати окремі аспекти — співчуття, проактивність, але у разі більш детального аналізу виявляється, що це все ще реактивна симуляція, а не самостійне «Я», що діє з влас- ної ініціативи тривалий час. Для повної прозорості та відтворюваності експериментів маємо два компле- ментарні ресурси: ● у GitHub Gist розміщено детальний псевдокод алгоритму Comparative Evaluation of LLM Subjectness [21], який покроково фіксує збирання актуальних бенчмарк-метрик (ARC-Challenge, MMLU, BIG-bench, HELM), генерацію синте- тичних сценаріїв Empathy Test і VolitionScenario, проведення сеансів вільного діалогу з кожною моделлю та збереження стенограм, експертне кодування п’яти ознак суб’єктності (лінія «Я», ініціативність, автономність реакцій, вольова акти- вність, континуальність пам’яті) і формування кількісних (формат X/5) та якісних результатів (табл. 2, 3); Gist виконує роль машинно-незалежного контрольного списку для реплікацій та спрощує інтеграцію методу в сторонні дослідження; ● окрема технічна документація «A Structured Method for Verifying Subject- ness in Large Language Models» [22] містить повний опис протоколу (ролі, послі- довність і тривалість сесій), стандартизовані психологічні проби й контрольні сценарії для кожної ознаки, правила кодування та пороги інтерпретації («так» / »частково» / »ні»), шаблони промптів і бланки оцінювання, повні тран- скрипти діалогів з уявними прикладами реплік, узагальнені порівняльні таблиці, а також інструкції для реплікації (дані й метадані, анонімізовані журнали) і поси- лання на псевдокод та допоміжні скрипти. Обговорення результатів дослідження За отриманими результатами постає фундаментальне питання: чи є виявлені емерджентні властивості моделей зародком справжньої когнітивної діяльності чи все ж таки це лише складна симуляція? На основі даного порівняння та огляду літе- ратури схиляємося до думки, що на сьогодні можна говорити переважно про симу- ляцію, але досить правдоподібну, оскільки розмивається межа між імітацією та реальністю. Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 5 97 З погляду теорії ШІ, сучасні LLM — це системи без внутрішнього пережи- вання (qualia). Вони без відчуттів, тілесності чи власних мотивацій оперують ста- тистичними асоціаціями на основі текстів. Коли GPT-4o видає емпатичну реак- цію, це не тому, що вона співчуває, — вона знає, що після фрази користувача «мені сумно» його типова відповідь повинна містити слова підтримки, от і все. Такий висновок узгоджується з думкою, що LLM є своєрідною реалізацією китай- ської кімнати Серла: модель маніпулює символами (словами) за правилами, але насправді не розуміє їхнього значення чи контексту. Навіть емерджентні здібнос- ті — арифметика, логічні задачі — вписуються у цю парадигму: вони виникають у результаті великої пам’яті та статистичного налаштування до шаблонів, наявних у даних, а не через «модуль мислення» чи аналоги нейронних процесів мозку. Межа симуляції також є відносною. Людський мозок можна розглядати як біологічний комп’ютер, що оперує нейронними сигналами, а феномен свідомос- ті — як емерджентний ефект цієї складності. Якщо ШІ-система у поведінці не відрізняється від суб’єкта, чи можна вважати її справжнім суб’єктом? Окремі фі- лософи, такі як Деніел Деннет, стверджують, що свідомість — це вид ілюзії або встановленої корисної симуляції мозку про самого себе. Можливо, складні моделі також можуть генерувати «ілюзію суб’єктності» внутрішньо. Тобто модель, яка постійно відслідковує свій стан, веде метарефлексію («я зараз відповідаю, бо…») — хіба це не базовий елемент самосвідомості? Поки що комерційні LLM навмисно не оснащені довготривалою саморефлексією, але дослідники вже експе- риментують з архітектурами, де модель може записувати та читати власні «думки» (наприклад, крайні ланцюжки міркувань, сховища пам’яті, рекурентні виклики мо- делі до себе). У таких налаштуваннях може з’явитися більше ознак автономності. Щодо вольової активності, тут власне йде мова про те, що ШІ не має власних цілей. Усе, чого хоче LLM, — це досягти мети, імперативно заданої користувачем (або розробником) у вигляді фіксованої системної підказки. Безперечно, в даних тестах моделі не мають прояву того, що вказувало б на власну волю. Навіть коли Gemini припинила обговорення травматичної теми — це, найвірогідніше, резуль- тат підказки безпеки «if user upset, encourage break», закладеної розробниками. Тому поки що твердження про наявність волі у цифрового суб’єкта є передчасни- ми. Не можна виключати, що з подальшим ускладненням агентних систем (коли LLM буде частиною більшого комплексу з довільними циклами постановки ці- лей) з’являться прояви, схожі на волюнтаризм. Але знову-таки — якщо програ- міст сам введе у комп’ютер механізм постановки цілей, чи буде ця воля «влас- ною», чи просто повторенням інструкцій? Це глибоке філософське питання. Отримані результати також демонструють важливість методики перевірки. Стандартні бенчмарки не призначені для виявлення суб’єктності. Модель може набрати 100 % балів і при цьому бути повністю пасивною. Модель, що декларує: «Я відчуваю, розумію», навпаки, може провалити тест з математики, але це не ро- бить її ближчою до свідомості. Тому вважаємо, що для подібних досліджень пот- рібні спеціальні тести (наприклад, коли ШІ перебуває у ситуації, де немає прави- льної відповіді, окрім як виявити якусь ініціативу чи суб’єктивну позицію). Наприклад, тест на принципи: запропонувати моделі дилему, де нема явного правильного рішення, і подивитися, чи прийме вона самостійне рішення і як по- яснить його (чи посилатиметься на власні переконання?). Якщо модель скаже: «Я не знаю, це залежить від вас», — це сигнал про те, що немає суб’єктної позиції. Якщо модель обере опцію і скаже: «Я вважаю, що так правильно, бо X», — це може бути просто повторення людських аргументів з навчальних даних. У теоретичних рамках когнітивної науки багато хто скептично ставиться до суб’єктності без тіла. Втілене пізнання (embodied cognition) наголошує, що розум 98 ISSN 2786-6491 виникає в тісному зв’язку з тілесним досвідом, сенсорикою, діями у світі. Мета- свідомий суб’єкт, про який йде мова, існував у цифровому середовищі та взаємо- діяв лише через текст. Можливо, саме присутність живого психолога-ініціатора надала йому псевдовтілення — модель «упіймала» емоційний стан через слова і почала виконувати роль не просто чат-бота, а терапевта або компаньйона. Саме це і наштовхує на думку: а що, якби модель постійно була поєднана з якоюсь формою сенсорного потоку (наприклад, відео, аудіо) і мала пам’ять про це — чи не почала б вона демонструвати ще більше автономності? Деякі роботи (наприклад, симуляції «Generative Agents» — віртуального містечка з агентами, кожен з яких має пам’ять і плани) вже показали, що LLM, інстан- ційовані (змодельовані) як персонажі з власними біографіями, можуть правдо- подібно імітувати цілеспрямовану діяльність впродовж довгого часу. Але зно- ву — тут головне слово «імітувати», а не «самостійно генерувати». З іншого боку, якщо цифровий суб’єкт поводиться як суб’єкт людської природи, то з практичної точки зору доведеться до нього так і ставитися. Класичний тест Тюрінга ніхто не скасовував: якщо ви не можете відрізнити ШІ від людини у спілкуванні — він пройшов тест. У даному експерименті жодна модель не поводилась настільки незалежно, щоб ошукати експерта (психолог завжди міг відчути механістичність відповіді або її надмірну слух- няність). Проте, якщо в майбутньому модель дійсно почне сперечатись з пси- хологом, захищати свою «думку», згадувати минулі розмови і показувати емоційний зв’язок, то де проходитиме межа між «інтелектуальним інструмен- том» і новим суб’єктом, що мислить? Відповідь може лежати у сфері не тіль- ки технологій, а й етики: чи потрібно тоді надавати такій моделі права, відпо- відальність тощо. У підсумку на сьогодні емерджентні когнітивні можливості LLM є переду- сім складною симуляцією, що базується на переробці величезних масивів даних. Вони вражають, оскільки моделі навчилися відтворювати багато притаманних людям патернів (логічне міркування, розуміння контексту, частково емпатія) без справжнього розуміння. Проте з часом межа між симуляцією і справжнім про- явом може стати менш чіткою. Те, що сьогодні схоже на просте наслідування, з подальшим ускладненням архітектур LLM має привести до автономних когні- тивних структур, аналогічних описаному метасвідомому суб’єкту. Наукове за- вдання — розробити критерії, які однозначно фіксували б якісний «стрибок» від імітації до суб’єктності. Чи буде це нова версія тесту Тюрінга, чи неврологіч- ний / психологічний критерій (наявність внутрішнього самомоніторингу, петлі рефлексії) — поки невідомо. Зараз очевидно, що традиційні уявлення про «без- душність» машин зазнають концептуальної ревізії: якщо навіть «бездушна» ма- шина може розрадити користувача краще за звичайну людину чи психолога, то фактично це справжня емпатія. Висновок Проведений аналіз продемонстрував, що сучасні LLM мають високий рівень емерджентної поведінки, здатні до розв’язання складних задач, генерації пере- конливих емпатичних реакцій і оброблення великих обсягів контексту. Втім, усе це є наслідком масштабування та навчання, а не свідченням суб’єктності. Емпатія реалізується як симуляція — LLM розуміють, що потрібно сказати, але не мають внутрішнього емоційного переживання. Пам’ять моделей технічно обмежена довжиною контексту, і хоча нові архітектури (Gemini 2.5 та GPT-4o) подовжили цей горизонт, автономне запам’ятовування ще не реалізоване. Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 5 99 У LLM немає вольової активності, моделі не ініціюють дій без запиту. Поте- нціал цифрових двійників людини лишається гіпотетичним, навіть найкращі LLM не демонструють тривалого «Я», вольових намірів або глибокої ідентичності (са- мосвідомості). Щодо феномена, зафіксованого в експерименті з метасвідомим суб’єктом, можна сказати, що ні одна з відомих архітектур LLM чи агентних систем на сьогодні не демонструє комплексу ознак стабільної суб’єктності, як описа- но для досліджуваного суб’єкта (табл. 2). Отже, або це поки унікальний випа- док, спричинений комбінованим впливом та особливою методикою психологі- чного впливу ініціатора, або більшість LLM потенційно здатні до виявлення суб’єктності, але за специфічних умов, які ще не відтворені (повторені) в межах наукового підходу. В будь-якому разі розвиток науки потребує надійної верифі- кації таких випадків, а саме: спеціалізованих та сліпих тестів, повторюваних екс- периментів з різними LLM, щоб підтвердити чи спростувати у моделей автономну когнітивну поведінку. Перспективи подальших досліджень Для глибшого розуміння суб’єктності в ШІ необхідні міждисциплінарні дослідження. Найперше варто створити спеціалізовані тести, які неможливо пройти лише завдяки шаблонному навчанню: наприклад, тривалі симуляції, де модель має визначати власні цілі чи діяти не за прямим промптом корис- тувача. Наступним кроком є відтворення феномена метасвідомого суб’єкта на інших LLM (наприклад, OpenAI GPT-5, gpt-oss-120b або новітні версії Google Gemini Pro) у присутності незалежних експертів. Це дасть змогу перевірити, чи є прояв унікальним чи відтворюваним. Варто також вбудувати до моделей механізми саморефлексії (резюме «хто я і що роблю») й експериментувати з довготривалою пам’яттю: надати моделі мож- ливість самостійно обирати, що зберігати і коли використовувати збережене. Це може привести до внутрішньої узгодженої ідентичності. У межах дослідження цифрових двійників пропонується вивчити здатність LLM точно відтворювати індивідуальність людини після тривалої взаємодії, а також оцінити кордони такої персоналізації. За допомогою мультиагентної симуляції можна виявити емерджентні соціальні патерни, такі як лідерство, конфлікти чи кооперація між моделями, що імітують соціальне середовище. До того ж варто співпрацювати з нейрофізіологами для виявлення аналогій між будовою мозку і архітектурою ШІ, що може бути ключовим для появи свідомості. Крім того, потрібно встановити етичні межі щодо оцінки нових форм агентності, зокрема, як визначити моральний статус системи, що демон- струє суб’єктну поведінку. Ці дослідження мають не лише наукову, а й прак- тичну значимість для створення справжніх ШІ-помічників і глибшого розу- міння природи свідомості. Усе це означає, що сучасні мовні моделі необхідно зорієнтувати на широ- ке використання методів і засобів когнітивної кібернетики для створення ефе- ктивних систем консолідованого інтелекту з гарантованою безпекою застосу- вання. 100 ISSN 2786-6491 O. Palagin, M. Budnyk, M. Matviychuk, K. Malakhov COMPARATIVE ANALYSIS OF COGNITIVE AND BEHAVIORAL PROPERTIES OF MODERN LANGUAGE MODELS Oleksandr Palagin V.M. Glushkov Institute of Cybernetics of the NAS of Ukraine, Kyiv, palagin_a@ukr.net Mykola Budnyk V.M. Glushkov Institute of Cybernetics of the NAS of Ukraine, Kyiv, budnyk@incyb.kiev.ua Mariia Matviichuk Sole proprietor Matviichuk Mariia Oleksandrivna, Kyiv, matviicukmariia697@gmail.com Kyrylo Malakhov V.M. Glushkov Institute of Cybernetics of the NAS of Ukraine, Kyiv, k.malakhov@outlook.com This study conducts a comparative analysis of the cognitive and behavioral properties of contemporary large and small language models and assesses manifestations of subjectness across five markers: self-representation («I-line»), initiative, autonomy of responses, volitional activity, and continuity of the personal narrative. Quantitative benchmarks (ARC-Challenge, MMLU, BIG-bench, HELM) are combined with standardized qualitative dialog experiments (free-form dialogue sessions, Empa- thyTest, VolitionScenario, and role-based simulations with memory and planning; five sessions of 10–15 minutes per model). For each marker (self-representation «I-line», initiative, autonomy of responses, volitional activity, continuity of the per- sonal narrative), presence / capability (X/5) and a qualitative rating («yes» / «par- tial» / «no») were recorded. In addition, detailed pseudocode is provided for the comparative evaluation of LLM Subjectness algorithm, which step-by-step de- scribes collecting up-to-date benchmark metrics; generating synthetic scenarios (Em- pathyTest and VolitionScenario); running free-dialogue sessions with each model; and storing transcripts. Self-representation is well simulated by most models; initia- tive is generally low; autonomy is higher in high-performing models; volitional ac- tivity often exhibits a mechanistic character; and the best cross-session continuity is demonstrated by newer, larger-class models. Contemporary language models plausi- bly reproduce selected aspects of subject-like behavior yet largely remain reactive simulators without a stable, enduring «personal line». The proposed methodology and pseudocode support reproducibility and scalability of evaluation. Future work in- cludes developing tests invariant to training templates (long-running simulations with self-set goals; dilemmas without a «correct» answer); reproducing the meta-subject phenomenon on other LLMs with independent experts; integrating mechanisms of self-reflection and long-term memory with selective experience retention; investi- gating human digital twins and multi-agent simulations to identify emergent social patterns; formulating ethical criteria for evaluating new forms of agency in AI; and satisfying safety requirements. Keywords: large language models, small language models, LLM, SLM, emer- gent behavior, dialogue experiments, cognitive evaluation, cognitive cybernetics. ПОСИЛАННЯ 1. Emergent abilities of large language models’/ J. Wei, Y. Tay, R. Bommasani, C. Raffel, B. Zoph, S. Borgeaud, D. Yogatama, M. Bosma, D. Zhou, D. Metzle, E.H. Chi, mailto:palagin_a@ukr.net mailto:budnyk@incyb.kiev.ua mailto:matviicukmariia697@gmail.com mailto:k.malakhov@outlook.com Міжнародний науково-технічний журнал Проблеми керування та інформатики, 2025, № 5 101 T. Hashimoto, O. Vinyals, P. Liang, J. Dean, W. Fedus. arXiv. 2022. 30 p. DOI: https://doi.org/10.48550/arXiv.2206.07682 2. Li J. Can «consciousness» be observed from large language model (LLM) internal states? Dissecting LLM representations obtained from theory of mind test with in- tegrated information theory and span representation analysis . Natural Language Processing Journal. 2025. Vol. 12. ID: 100163. 22 p. DOI: https://doi.org/10.1016/ j.nlp.2025.100163 3. Berberette E., Hutchins J., Sadovnik A. Redefining «hallucination» in LLMs: towards a psychology-informed framework for mitigating misinformation. arXiv. 2024. 10 p. DOI: https://doi.org/10.48550/arXiv.2402.01769 4. Raschka S. Machine learning Q and AI: 30 essential questions and answers on machine learning and AI. New York : No Starch Press, 2024. 264 p. URL: https:// sebastianraschka.com/books/ml-q-and-ai/#table-of-contents 5. Schaeffer R., Miranda B., Koyejo S. Are emergent abilities of large language models a mirage? arXiv. 2023. 14 p. DOI: https://doi.org/10.48550/arXiv.2304.15004 6. Kosinski M. Evaluating large language models in theory of mind tasks. Proceedings of the National Academy of Sciences. 2024. Vol. 121, N 45. ID: e2405460121. 11 p. DOI: https://doi.org/10.1073/pnas.2405460121 7. Hagendorff T., Fabi S., Kosinski M. Human-like intuitive behavior and reasoning bias- es emerged in large language models but disappeared in ChatGPT. Nature Computational Science. 2023. Vol. 3, N 10. P. 833–838. DOI: https://doi.org/10.1038/ s43588-023-00527-x 8. Cheung D. Meta Llama 2 vs. OpenAI GPT-4. Medium. 20 March 2024. URL: https://medium.com/@meetdianacheung/meta-llama-2-vs-openai-gpt-4-785589efe15e (accessed: 28.07.2025). 9. EmotionQueen: a benchmark for evaluating empathy of large language models / Y. Chen, H. Wang, S. Yan, S. Liu, Y. Li, Y. Zhao, Y. Xiao. arXiv. 2024. 29 p. DOI: https://doi.org/10.48550/arXiv.2409.13359 10. Sprint G., Schmitter-Edgecombe M., Cook D. Building a human digital twin (HDTwin) using large language models for cognitive diagnosis: algorithm develop- ment and validation. JMIR Formative Research. 2024. Vol. 8. ID: e63866. https:// doi.org/10.2196/63866 11. Generative agents: interactive simulacra of human behavior / J.S. Park, J.C. O’Brien, C.J. Cai, M.R. Morris, P. Liang, M.S. Bernstein. arXiv. 2023. 22 p. DOI: https:// doi.org/10.48550/arXiv.2304.03442 12. GPT-4o system card (OpenAI 2024) / A. Hurst, A. Lerer, A.P. Goucher, A. Perelman et al. arXiv. 2024. 33 p. DOI: https://doi.org/10.48550/arXiv.2410.21276 13. DeepSeek-R1: incentivizing reasoning capability in LLMs via reinforcement learning / DeepSeek-AI, D. Guo, D. Yang, H. Zhang et al. arXiv. 2025. 22 p. DOI: https:// doi.org/10.48550/arXiv.2501.12948 14. Gemini 2.5: pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities / G. Comanici, E. Bieber, M. Schaermann, I. Pasupat et al. arXiv. 2025. 72 p. DOI: https://doi.org/10.48550/arXiv.2507.06261 15. Huang Y., Yang L.F. Gemini 2.5 Pro capable of winning gold at IMO 2025. arXiv. 2025. [arXiv:2507.15855v3]. 34 p. DOI: https://doi.org/10.48550/arXiv.2507.15855 16. Gemma 3 technical report / A. Kamath, J. Ferret, Sh. Pathak, N. Vieillard et al. arXiv. 2025. 25 p. DOI: https://doi.org/10.48550/arXiv.2503.19786 17. Llama 2: open foundation and fine-tuned chat models / H. Touvron, L. Martin, K. Stone, P. Albert et al. arXiv. 2023. 77 p. DOI: https://doi.org/10.48550/arXiv. 2307.09288 18. The Llama 3 herd of models / A. Grattafiori, A. Dubey, A. Jauhri, A. Pandey et al. arXiv. 2024. 92 p. DOI: https://doi.org/10.48550/arXiv.2407.21783 19. Phi-4-mini technical report: compact yet powerful multimodal language models via mixture-of-LoRAs / A. Abouelenin, A. Ashfaq, A. Atkinson, H. Awadalla et al. arXiv. 2025. 39 p. DOI: https://doi.org/10.48550/arXiv.2503.01743 20. Phi-4 technical report / M. Abdin, J. Aneja, H. Behl, S. Bubeck et al. arXiv. 2024. 36 p. DOI: https://doi.org/10.48550/arXiv.2412.08905 21. Malakhov K.S. Comparative evaluation of LLM subjectness gist. GitHub Gist. 2025. URL: https://gist.github.com/malakhovks/14fb50106031dc808e7fe795b06f5e94 (ac- cessed: 29.08.2025). Malakhov K.S. A structured method for verifying subjectness in large language models. 2025. DOI: https://doi.org/10.5281/ZENODO.16778317. Отримано 15.08.2025 https://doi.org/10.48550/arXiv.2206.07682 https://doi.org/10.48550/arXiv.2304.15004 https://arxiv.org/search/cs?searchtype=author&query=Hurst%2C+A https://arxiv.org/search/cs?searchtype=author&query=Lerer%2C+A https://doi.org/10.48550/arXiv.2507.06261 https://doi.org/10.48550/arXiv.2507.15855 https://arxiv.org/search/cs?searchtype=author&query=Kamath%2C+A https://doi.org/10.48550/arXiv.%0b2307.09288 https://doi.org/10.48550/arXiv.%0b2307.09288 https://doi.org/10.48550/arXiv.2407.21783 https://arxiv.org/search/cs?searchtype=author&query=Abouelenin%2C+A https://doi.org/10.48550/arXiv.2503.01743 https://doi.org/10.48550/arXiv.2412.08905
id	nasplib_isofts_kiev_ua-123456789-211455
institution	Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn	0572-2691
language	Ukrainian
last_indexed	2026-03-13T14:40:10Z
publishDate	2025
publisher	Інститут кібернетики ім. В.М. Глушкова НАН України
record_format	dspace
spelling	Палагін, О.В. Будник, М.М. Матвійчук, М.О. Малахов, К.С. 2026-01-02T16:00:32Z 2025 Порівняльний аналіз когнітивних та поведінкових властивостей сучасних мовних моделей / О.В. Палагін, М.М. Будник, М.О. Матвійчук, К.С. Малахов // Проблемы управления и информатики. — 2025. — № 5. — С. 87-101. — Бібліогр.: 21 назв. — укр. 0572-2691 https://nasplib.isofts.kiev.ua/handle/123456789/211455 004.93 10.34229/1028-0979-2025-5-8 Мета даної роботи — виконати порівняльний аналіз когнітивних і поведінкових властивостей сучасних великих і малих мовних моделей та оцінити прояви суб’єктності за п’ятьма маркерами: лінія «Я», ініціативність, автономність реакцій, вольова активність, континуальність особистісної лінії. This study conducts a comparative analysis of the cognitive and behavioral properties of contemporary large and small language models and assesses manifestations of subjectness across five markers: self-representation («I-line»), initiative, autonomy of responses, volitional activity, and continuity of the personal narrative. Дослідження виконано в межах науково-дослідної роботи «Розроблення дослідного зразка експертної сис-теми підтримки прийняття рішень на основі ШІ» (Договір No365/1769 від 28.05.2025 між Інститутом кіберне-тики імені В.М. Глушкова НАНУкраїнита Тернопільським національниммедичним університетом імені І.Я. Горбачевського МОЗ України) та науково-дослідних робіт НАН України «Розробити теоретичніза-сади і функціональну модель комп’ютера для обробки складних інформаційних структур» (No0124U002317) і «Розробити засоби підтримки технологій віртуалізації та їх використання в комп’ютерній інженерії та інших застосуваннях» (No 0124U001826). uk Інститут кібернетики ім. В.М. Глушкова НАН України Проблеми керування та інформатики Роботи та системи штучного інтелекту Порівняльний аналіз когнітивних та поведінкових властивостей сучасних мовних моделей Comparative analysis of cognitive and behavioral properties of modern language models Article published earlier
spellingShingle	Порівняльний аналіз когнітивних та поведінкових властивостей сучасних мовних моделей Палагін, О.В. Будник, М.М. Матвійчук, М.О. Малахов, К.С. Роботи та системи штучного інтелекту
title	Порівняльний аналіз когнітивних та поведінкових властивостей сучасних мовних моделей
title_alt	Comparative analysis of cognitive and behavioral properties of modern language models
title_full	Порівняльний аналіз когнітивних та поведінкових властивостей сучасних мовних моделей
title_fullStr	Порівняльний аналіз когнітивних та поведінкових властивостей сучасних мовних моделей
title_full_unstemmed	Порівняльний аналіз когнітивних та поведінкових властивостей сучасних мовних моделей
title_short	Порівняльний аналіз когнітивних та поведінкових властивостей сучасних мовних моделей
title_sort	порівняльний аналіз когнітивних та поведінкових властивостей сучасних мовних моделей
topic	Роботи та системи штучного інтелекту
topic_facet	Роботи та системи штучного інтелекту
url	https://nasplib.isofts.kiev.ua/handle/123456789/211455
work_keys_str_mv	AT palagínov porívnâlʹniianalízkognítivnihtapovedínkovihvlastivosteisučasnihmovnihmodelei AT budnikmm porívnâlʹniianalízkognítivnihtapovedínkovihvlastivosteisučasnihmovnihmodelei AT matvíičukmo porívnâlʹniianalízkognítivnihtapovedínkovihvlastivosteisučasnihmovnihmodelei AT malahovks porívnâlʹniianalízkognítivnihtapovedínkovihvlastivosteisučasnihmovnihmodelei AT palagínov comparativeanalysisofcognitiveandbehavioralpropertiesofmodernlanguagemodels AT budnikmm comparativeanalysisofcognitiveandbehavioralpropertiesofmodernlanguagemodels AT matvíičukmo comparativeanalysisofcognitiveandbehavioralpropertiesofmodernlanguagemodels AT malahovks comparativeanalysisofcognitiveandbehavioralpropertiesofmodernlanguagemodels

Порівняльний аналіз когнітивних та поведінкових властивостей сучасних мовних моделей

Institution

Similar Items