The problem of IC50 prediction for ligand-protein pairs using Transformer architecture under limited resources

The article discusses approaches to optimizing the training of models for predicting the half-maximal inhibitory concentration (IC50) of ligand-protein pairs under limited computational resources. A method of smart bucketing of data by protein length with a dynamic selection of the number of groups...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2026
Hauptverfasser: Krysenko, Pavlo, Bektimirov, Alim
Format: Artikel
Sprache:Ukrainisch
Veröffentlicht: Kyiv National University of Construction and Architecture 2026
Schlagworte:
Online Zugang:https://es-journal.in.ua/article/view/365080
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Environmental safety and natural resources
Завантажити файл: Pdf

Institution

Environmental safety and natural resources
_version_ 1868385094395232256
author Krysenko, Pavlo
Bektimirov, Alim
author_facet Krysenko, Pavlo
Bektimirov, Alim
author_institution_txt_mv [ { "author": "Pavlo Krysenko", "institution": "Доктор філософії, молодший науковий співробітник, Інститут телекомунікацій і глобального інформаційного простору НАН України, Київ" }, { "author": "Alim Bektimirov", "institution": "Провідний інженер, Інститут телекомунікацій і глобального інформаційного простору НАН України, Київ" } ]
author_sort Krysenko, Pavlo
baseUrl_str http://es-journal.in.ua/oai
collection OJS
datestamp_date 2026-06-18T11:17:53Z
description The article discusses approaches to optimizing the training of models for predicting the half-maximal inhibitory concentration (IC50) of ligand-protein pairs under limited computational resources. A method of smart bucketing of data by protein length with a dynamic selection of the number of groups to improve randomization is proposed. To solve the problem of the quadratic complexity of the Transformer architecture, a convolution layer was used to compress the input data. Based on 4 conducted experiments, the relationship between the degree of sequence compression and the obtained root mean square error (RMSE) for lgIC50 was analyzed.
doi_str_mv 10.32347/2411-4049.2026.2.287-292
first_indexed 2026-06-19T01:01:17Z
format Article
fulltext ~ 287 ~ ISSN: 2411-4049. Екологічна безпека та природокористування, вип. 2 (58), 2026 УДК 004.8 Pavlo Krysenko, Doctor of Philosophy, Research Assistant ORCID ID: https://orcid.org/0000-0002-5612-9474 e-mail: p.krysenko@gmail.com Alim Bektimirov, lead engineer ORCHID ID: https://orcid.org/0009-0007-8572-7952 e-mail: alim.bektimirov@gmail.com Institute of Telecommunications and Global Information Space of the National Academy of Sciences of Ukraine, Kyiv, Ukraine THE PROBLEM OF IC50 PREDICTION FOR LIGAND-PROTEIN PAIRS USING TRANSFORMER ARCHITECTURE UNDER LIMITED RESOURCES Annotation. The article discusses approaches to optimizing the training of models for predicting the half-maximal inhibitory concentration (IC50) of ligand-protein pairs under limited computational resources. A method of smart bucketing of data by protein length with a dynamic selection of the number of groups to improve randomization is proposed. To solve the problem of the quadratic complexity of the Transformer architecture, a convolution layer was used to compress the input data. Based on 4 conducted experiments, the relationship between the degree of sequence compression and the obtained root mean square error (RMSE) for lgIC50 was analyzed. Key words: deep learning, ligand, protein, bioinformatics, convolutional neural networks, data compression. П. Крисенко, А. Бектімиров Інститут телекомунікацій і глобального інформаційного простору НАН України, м. Київ, Україна ПРОБЛЕМАТИКА ПРОГНОЗУВАННЯ ПОКАЗНИКА IC50 ДЛЯ ПАР ЛІГАНД-БІЛОК ЗА ДОПОМОГОЮ АРХІТЕКТУРИ TRANSFORMER В УМОВАХ ОБМЕЖЕНИХ РЕСУРСІВ Анотація. У статті розглядаються підходи до оптимізації навчання моделей для прогнозування напівмаксимальної інгібіторної концентрації (IC50) пар ліганд-білок в умовах обмежених обчислювальних ресурсів. Запропоновано метод розумного групування (bucketing) даних за довжиною білка з динамічним підбором кількості груп для покращення рандомізації. Для вирішення проблеми квадратичної складності архітектури Transformer використано шар згортки для компресії вхідних даних. На основі 4 проведених експериментів проаналізовано співвідношення між ступенем стиснення послідовності та отриманим коренем з середньоквадратичної похибки (RMSE) для lgIC50. Ключові слова: глибоке навчання, ліганд, білок, біоінформатика, згорткова нейронна мережа, компресія даних. https://doi.org/10.32347/2411-4049.2026.2.287-292 © П. Крисенко, А. Бектімиров, 2026 ~ 288 ~ ISSN: 2411-4049. Екологічна безпека та природокористування, вип. 2 (58), 2026 Вступ Прогнозування спорідненості зв'язування між лігандом та білком-мішенню є ключовим етапом у сучасному комп'ютерному дизайні ліків [1]. Однією з найважливіших кількісних метрик цієї взаємодії є напівмаксимальна інгібіторна концентрація (IC50) [2]. З розвитком методів глибокого навчання, зокрема архітектур на основі механізмів уваги, точність прогнозування значно зросла. Проте використання класичного Transformer стикається з серйозною перешкодою – квадратичною обчислювальною складністю відносно довжини вхідної послідовності. Білкові ланцюги можуть бути надзвичайно довгими, що призводить до експоненційного зростання споживання пам'яті та унеможливлює ефективне навчання моделей в умовах обмежених апаратних ресурсів. Метою цієї роботи є дослідження методів оптимізації пайплайну навчання для зменшення обчислювального навантаження без значної втрати точності прогнозування. Результати дослідження Для подолання жорстких обмежень обчислювальних ресурсів під час дослідження було розроблено та імплементовано комплекс оптимізаційних підходів: на рівні попередньої обробки даних та на рівні самої архітектури нейронної мережі. При формуванні пакетів даних для навчання моделей на послідовностях різної довжини традиційно використовується додавання нульових токенів (padding) до довжини найдовшого елемента в батчі. У випадку білків це призводить до того, що відеокарта витрачає левову частку обчислень на обробку «порожніх» токенів. Прямолінійне сортування [4] всього датасету за довжиною частково вирішує цю проблему, але порушує базове правило стохастичного градієнтного спуску щодо випадковості вибірки, що веде до перенавчання моделі. Рис. 1. Схематичний вигляд алгоритму smart bucketing ~ 289 ~ ISSN: 2411-4049. Екологічна безпека та природокористування, вип. 2 (58), 2026 У даній роботі був застосований алгоритм розумного групування (smart bucketing). Він динамічно аналізує розподіл довжин білків у навчальній вибірці та самостійно розбиває дані на оптимальну кількість груп таким чином, щоб усередині кожного кошика довжини послідовностей були максимально близькими. При формуванні батчу алгоритм випадковим чином обирає кошик, а потім дістає звідти необхідну кількість семплів. Це радикально економить пам'ять, зберігаючи необхідний рівень рандомізації між ітераціями. Основою запропонованої моделі є адаптована архітектура типу Енкодер- Декодер (Encoder-Decoder) [3], яка найкраще підходить для задач парної взаємодії, якою і є зв'язування ліганду з білком-мішенню, що зображена на рис. 2. Замість базової конкатенації ознак обох молекул, архітектура обробляє їх паралельно з подальшим структурним злиттям. Рис. 2. Схематичне зображення архітектури Енкодер білка (Protein Encoder): саме на цьому етапі класичний механізм самоуваги (Self-Attention) стикається з проблемою квадратичної складності. Щоб Transformer не «страждав» від надмірної довжини вхідних даних, перед блоками уваги було інтегровано модуль компресії, який імплементований за допомогою одновимірної згортки (1D Convolution), який зображений на рис. 3. Цей шар діє як локальний екстрактор ознак, виявляючи біологічні мотиви (наприклад, альфа-спіралі) та здійснюючи просторову компресію вхідних послідовностей (ембедингів). Завдяки згортці з визначеним кроком (stride), фізична довжина послідовності зменшується кратно, що експоненційно знижує навантаження на наступні шари Transformer Encoder, які формують глибоке контекстне розуміння структури білка. Ключовим етапом прогнозування IC50 є моделювання фізико-хімічної взаємодії між двома молекулами. Для цього використовується декодер з механізмом перехресної уваги (Cross-Attention) [6]. У цій конфігурації стиснуті ~ 290 ~ ISSN: 2411-4049. Екологічна безпека та природокористування, вип. 2 (58), 2026 та контекстуалізовані репрезентації білка виступають як ключі та значення (Keys, Values), а репрезентації ліганду — як запити (Queries). Рис. 3. Модулі A) small conv compression та B) medium conv compression Це дозволяє моделі динамічно «фокусувати» увагу на тих ділянках білка (наприклад, активних центрах або сайтах зв'язування), які мають найбільшу афінність до конкретних функціональних груп ліганду. Після блоку Cross-Attention отримані вектори ознак агрегуються і подаються на багатошаровий персептрон (MLP), який безпосередньо регресує значення логарифму напівмаксимальної інгібіторної концентрації (lgIC50). Для оновлення ваг моделі було обрано алгоритм оптимізації AdamW [7]. На відміну від стандартного Adam, AdamW відокремлює зменшення ваг (weight decay) від кроку оптимізації. У поєднанні з архітектурою Transformer це критично важливо, оскільки забезпечує значно кращу генералізаційну здатність моделі та запобігає її швидкому перенавчанню на складних патернах ліганд-білкових взаємодій. Для перевірки гіпотез було проведено серію з 4 експериментів. На рис. 4 зображено значення лосс функції для тренувальної та тестувальної вибірок для кожного з екпериментів в залежності від епохи. Головною змінною виступало співвідношення компресії вхідної послідовності (зміна параметру stride (S) у згортковому шарі білкового енкодера). Оцінювався вплив цього коефіцієнта на фінальну метрику RMSE для lgIC50. Рис. 4. Графік лосс функцій для 4 експериментів на тренувальній та тестувальній вибірках ~ 291 ~ ISSN: 2411-4049. Екологічна безпека та природокористування, вип. 2 (58), 2026 Після отримання найкращої моделі для кожного з експериментів було підраховано корінь з середньоквадратичної похибки для тестувальної вибірки. Результати показані в таблиці. 1. Tаблиця 1. Результати моделей на тестувальній вибірці Модель RMSE Stride = 1, Kernel size = 3 0.5914 Stride = 4, Kernel size = 9 0.5951 Stride = 8, Kernel size = 17 0.5952 Stride = 10, Kernel size = 21 0.6010 Висновки Проведена серія з 4 експериментів переконливо доводить, що квадратична обчислювальна складність архітектур на базі механізмів уваги не є нездоланною перешкодою для їх використання в задачах біоінформатики за умов суворо обмежених апаратних ресурсів. Аналіз отриманих результатів дозволяє зробити декілька ключових висновків щодо запропонованого оптимізаційного пайплайну. Інтеграція шару 1D-згортки в Енкодер білка виконала подвійну функцію. З одного боку, вона забезпечила критично необхідну просторову компресію послідовності, кратно зменшивши споживання відеопам'яті. З іншого боку, згортка спрацювала як ефективний індуктивний зсув. Вона агрегувала локальні амінокислотні мотиви (елементи вторинної структури білка) у більш інформативні токени ще до того, як Transformer почав розраховувати глобальні залежності. В ході експериментів було визначено оптимальний поріг стиснення (баланс між розміром ядра та кроком згортки), після якого метрика MSE для lgIC50 починає різко деградувати, що свідчить про межу незворотної втрати структурної інформації. Практична цінність роботи полягає у суттєвому зниженні бар'єра входження для проведення досліджень у галузі in silico скринінгу. Запропонована архітектура з компресією вхідного простору не лише дозволяє розгортати високоточні моделі на апаратному забезпеченні споживчого класу, але й створює фундамент для подальшої оптимізації подібних моделей під інференс на пристроях із жорсткими обмеженнями за кількістю параметрів та пам'яттю (edge computing). Подальші дослідження можуть бути спрямовані на застосування розроблених методів компресії до тривимірних (3D) просторових графів молекул. СПИСОК ЛІТЕРАТУРИ \ REFERENCES [1] Zoziuk, M., Krysenko, P., Dovgiy, S., Makarov, V., Yakimenko, Y., & Koroliouk, D. (2026, April 10). Transformer with BPE tokenization for analysis of interactions of chemical substances and proteins. Computational Methods and Mathematical Modeling in Cyberphysics and Engineering Applications 2, pp. 289–299. doi:10.1002/9781394454518.ch9 [2] Öztürk, H., Özgür, A., & Ozkirimli, E. (2018). DeepDTA: deep drug-target binding affinity prediction. Bioinformatics (Oxford, England), 34(17), i821–i829. doi:10.1093/bioinformatics/bty593 ~ 292 ~ ISSN: 2411-4049. Екологічна безпека та природокористування, вип. 2 (58), 2026 [3] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30. [4] Tay, Y., Dehghani, M., Bahri, D., & Metzler, D. (2022). Efficient Transformers: A Survey. ACM Comput. Surv., 55(6). doi:10.1145/3530811 [6] Huang, K., Fu, T., Glass, L. M., Zitnik, M., Xiao, C., & Sun, J. (2021). DeepPurpose: a deep learning library for drug-target interaction prediction. Bioinformatics (Oxford, England), 36(22–23), 5545–5547. doi:10.1093/bioinformatics/btaa1005 [7] Loshchilov, I., & Hutter, F. (2017). Decoupled weight decay regularization. doi:10.48550/arXiv.1711.05101 Стаття надійшла до редакції 10.02.2026, надійшла після рецензування 23.03.2026, прийнята 16.04.2026 The article was received 10.02.2026, received after revision 23.03.2026, accepted 16.04.2026 Крисенко Павло доктор філософії, молодший науковий співробітник, Інститут телекомунікацій і глобального інформаційного простору НАН України Адреса робоча: 03186, м. Київ, Чоколівський бульвар, 13 ORCHID ID: https://orcid.org/0000-0002-5612-9474 e-mail: p.krysenko@gmail.com Бектімиров Алім провідний інженер, Інститут телекомунікацій і глобального інформаційного простору НАН України Адреса робоча: 03186, м. Київ, Чоколівський бульвар, 13 ORCHID ID: https://orcid.org/0009-0007-8572-7952 e-mail: alim.bektimirov@gmail.com mailto:p.krysenko@gmail.com
id es-journalinua-article-365080
institution Environmental safety and natural resources
keywords_txt_mv keywords
language Ukrainian
last_indexed 2026-06-19T01:01:17Z
publishDate 2026
publisher Kyiv National University of Construction and Architecture
record_format ojs
resource_txt_mv es-journalinua/a4/3bb03e2c125d645d005f3974f9e2c4a4.pdf
spelling es-journalinua-article-3650802026-06-18T11:17:53Z The problem of IC50 prediction for ligand-protein pairs using Transformer architecture under limited resources Проблематика прогнозування показника IC50 для пар ліганд-білок за допомогою архітектури Transformer в умовах обмежених ресурсів Krysenko, Pavlo Bektimirov, Alim глибоке навчання ліганд білок біоінформатика згорткова нейронна мережа компресія даних deep learning ligand protein bioinformatics convolutional neural networks data compression The article discusses approaches to optimizing the training of models for predicting the half-maximal inhibitory concentration (IC50) of ligand-protein pairs under limited computational resources. A method of smart bucketing of data by protein length with a dynamic selection of the number of groups to improve randomization is proposed. To solve the problem of the quadratic complexity of the Transformer architecture, a convolution layer was used to compress the input data. Based on 4 conducted experiments, the relationship between the degree of sequence compression and the obtained root mean square error (RMSE) for lgIC50 was analyzed. У статті розглядаються підходи до оптимізації навчання моделей для прогнозування напівмаксимальної інгібіторної концентрації (IC50) пар ліганд-білок в умовах обмежених обчислювальних ресурсів. Запропоновано метод розумного групування (bucketing) даних за довжиною білка з динамічним підбором кількості груп для покращення рандомізації. Для вирішення проблеми квадратичної складності архітектури Transformer використано шар згортки для компресії вхідних даних. На основі 4 проведених експериментів проаналізовано співвідношення між ступенем стиснення послідовності та отриманим коренем з середньоквадратичної похибки (RMSE) для lgIC50. Kyiv National University of Construction and Architecture 2026-06-18 Article Article application/pdf https://es-journal.in.ua/article/view/365080 10.32347/2411-4049.2026.2.287-292 Environmental safety and natural resources; Vol. 58 No. 2 (2026): Environmental safety and natural resources; 287-292 Екологічна безпека та природокористування; Том 58 № 2 (2026): Екологічна безпека та природокористування; 287-292 2616-2121 2411-4049 10.32347/2411-4049.2026.2 uk https://es-journal.in.ua/article/view/365080/350581 Copyright (c) 2026 П. Крисенко, А. Бектімиров http://creativecommons.org/licenses/by/4.0
spellingShingle deep learning
ligand
protein
bioinformatics
convolutional neural networks
data compression
Krysenko, Pavlo
Bektimirov, Alim
The problem of IC50 prediction for ligand-protein pairs using Transformer architecture under limited resources
title The problem of IC50 prediction for ligand-protein pairs using Transformer architecture under limited resources
title_alt Проблематика прогнозування показника IC50 для пар ліганд-білок за допомогою архітектури Transformer в умовах обмежених ресурсів
title_full The problem of IC50 prediction for ligand-protein pairs using Transformer architecture under limited resources
title_fullStr The problem of IC50 prediction for ligand-protein pairs using Transformer architecture under limited resources
title_full_unstemmed The problem of IC50 prediction for ligand-protein pairs using Transformer architecture under limited resources
title_short The problem of IC50 prediction for ligand-protein pairs using Transformer architecture under limited resources
title_sort problem of ic50 prediction for ligand-protein pairs using transformer architecture under limited resources
topic deep learning
ligand
protein
bioinformatics
convolutional neural networks
data compression
topic_facet глибоке навчання
ліганд
білок
біоінформатика
згорткова нейронна мережа
компресія даних
deep learning
ligand
protein
bioinformatics
convolutional neural networks
data compression
url https://es-journal.in.ua/article/view/365080
work_keys_str_mv AT krysenkopavlo theproblemofic50predictionforligandproteinpairsusingtransformerarchitectureunderlimitedresources
AT bektimirovalim theproblemofic50predictionforligandproteinpairsusingtransformerarchitectureunderlimitedresources
AT krysenkopavlo problematikaprognozuvannâpokaznikaic50dlâparlígandbílokzadopomogoûarhítekturitransformervumovahobmeženihresursív
AT bektimirovalim problematikaprognozuvannâpokaznikaic50dlâparlígandbílokzadopomogoûarhítekturitransformervumovahobmeženihresursív
AT krysenkopavlo problemofic50predictionforligandproteinpairsusingtransformerarchitectureunderlimitedresources
AT bektimirovalim problemofic50predictionforligandproteinpairsusingtransformerarchitectureunderlimitedresources