Managing scientific workflows in grid systems
Prombles in programming 2013; 3: 69-78
Gespeichert in:
| Datum: | 2025 |
|---|---|
| Hauptverfasser: | , , |
| Format: | Artikel |
| Sprache: | Ukrainian |
| Veröffentlicht: |
PROBLEMS IN PROGRAMMING
2025
|
| Schlagworte: | |
| Online Zugang: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/754 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Problems in programming |
| Завантажити файл: | |
Institution
Problems in programming| id |
pp_isofts_kiev_ua-article-754 |
|---|---|
| record_format |
ojs |
| resource_txt_mv |
ppisoftskievua/ac/b4feaa817eebdd2d91c2005cb959d2ac.pdf |
| spelling |
pp_isofts_kiev_ua-article-7542025-06-21T15:30:49Z Managing scientific workflows in grid systems Керування потоками наукових робіт в грід-системах Tverdokhlib, E.M. Perkonos, P.I. Loy, A.I. UDC 004.4 УДК 004.4 Prombles in programming 2013; 3: 69-78 Зроблено короткий огляд проблематики використання систем керування потоками наукових робіт для підтримки наукових досліджень. Приводиться аналіз схожості і відмінностей опису Scientific WorkFlow і Business WorkFlow в інформаційних системах. Аналіз проводиться з урахуванням тих змін, що відбулись за останні роки у зв’язку зі збільшенням можливостей, масштабу та глибини при проведенні наукових досліджень. Акцентовано увагу на системі Кеплер (Kepler), специфічній системі керування науковими процесами, що нині активно розвивається разом із численними науковими проектами керування даними. В роботі відмічені деякі ключові особливості системи Кеплер і її основи – системи Птолемей II (Ptolemey II).Prombles in programming 2013; 3: 69-78 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2025-06-21 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/754 PROBLEMS IN PROGRAMMING; No 3 (2013); 69-78 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 3 (2013); 69-78 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 3 (2013); 69-78 1727-4907 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/754/806 Copyright (c) 2025 PROBLEMS IN PROGRAMMING |
| institution |
Problems in programming |
| baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
| datestamp_date |
2025-06-21T15:30:49Z |
| collection |
OJS |
| language |
Ukrainian |
| topic |
UDC 004.4 |
| spellingShingle |
UDC 004.4 Tverdokhlib, E.M. Perkonos, P.I. Loy, A.I. Managing scientific workflows in grid systems |
| topic_facet |
UDC 004.4 УДК 004.4 |
| format |
Article |
| author |
Tverdokhlib, E.M. Perkonos, P.I. Loy, A.I. |
| author_facet |
Tverdokhlib, E.M. Perkonos, P.I. Loy, A.I. |
| author_sort |
Tverdokhlib, E.M. |
| title |
Managing scientific workflows in grid systems |
| title_short |
Managing scientific workflows in grid systems |
| title_full |
Managing scientific workflows in grid systems |
| title_fullStr |
Managing scientific workflows in grid systems |
| title_full_unstemmed |
Managing scientific workflows in grid systems |
| title_sort |
managing scientific workflows in grid systems |
| title_alt |
Керування потоками наукових робіт в грід-системах |
| description |
Prombles in programming 2013; 3: 69-78 |
| publisher |
PROBLEMS IN PROGRAMMING |
| publishDate |
2025 |
| url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/754 |
| work_keys_str_mv |
AT tverdokhlibem managingscientificworkflowsingridsystems AT perkonospi managingscientificworkflowsingridsystems AT loyai managingscientificworkflowsingridsystems AT tverdokhlibem keruvannâpotokaminaukovihrobítvgrídsistemah AT perkonospi keruvannâpotokaminaukovihrobítvgrídsistemah AT loyai keruvannâpotokaminaukovihrobítvgrídsistemah |
| first_indexed |
2025-07-17T09:53:45Z |
| last_indexed |
2025-07-17T09:53:45Z |
| _version_ |
1850409884695134208 |
| fulltext |
Експертні та інтелектуальні інформаційні системи
© Є.М. Твердохліб, П.І. Перконос, А.І. Лой, 2013
ISSN 1727-4907. Проблеми програмування. 2013. № 3 69
УДК 004.4
Є.М. Твердохліб, П.І. Перконос, А.І. Лой
КЕРУВАННЯ ПОТОКАМИ НАУКОВИХ РОБІТ
В ГРІД-СИСТЕМАХ
Зроблено короткий огляд проблематики використання систем керування потоками наукових робіт для
підтримки наукових досліджень. Приводиться аналіз схожості і відмінностей опису Scientific WorkFlow
і Business WorkFlow в інформаційних системах. Аналіз проводиться з урахуванням тих змін, що відбу-
лись за останні роки у зв’язку зі збільшенням можливостей, масштабу та глибини при проведенні нау-
кових досліджень. Акцентовано увагу на системі Кеплер (Kepler), специфічній системі керування нау-
ковими процесами, що нині активно розвивається разом із численними науковими проектами керуван-
ня даними. В роботі відмічені деякі ключові особливості системи Кеплер і її основи – системи Птоле-
мей II (Ptolemey II).
Вступ
Розвиток і вдосконалення техноло-
гій, методів і засобів інформаційної підт-
римки наукових досліджень є одним з
найбільш перспективних напрямів інтен-
сифікації наукового процесу і підвищення
його ефективності. Тенденції розвитку ін-
формаційних систем у цій області направ-
лені до створення інтегрованих проблем-
но-орієнтованих середовищ, призначених
для підтримки всього циклу досліджень у
вибраній прикладній області: постановка
задачі → вибір методів і алгоритмів її ви-
рішення → здобуття структурованих но-
вих знань і представлення їх для загально-
го використання.
Сучасний науковий процес, що роз-
глядається із структурних позицій, харак-
теризується наступними чинниками:
тривалість процесу, що досягає декі-
лькох років при вирішенні масштабних
задач;
великі наукові колективи, що беруть
участь у дослідженнях і розробках, зокре-
ма, міжнародні і такі, що знаходяться на
віддаленій відстані;
величезна кількість інформації у лі-
тературі по вибраному завданню;
використання складних комп'ютери-
зованих приладів і інших технічних засо-
бів для проведення наукових експеримен-
тів;
широке застосування сучасних засо-
бів обчислювальної техніки, програмного
забезпечення, Інтернету та Грід-інфра-
структур для отримання інформації і її об-
робки.
Тому на передній план в інформа-
тизації наукових досліджень виходить
проблема автоматизації керування самим
науковим процесом (Scientific WorkFlow),
яка має стати ядром інтегрованої е-Інфра-
структури наукових досліджень, орієнто-
ваних на вирішення наукових проблем [1].
Парадигма WorkFlow не нова, ево-
люція інформаційних систем у бізнесі вже
досить тривалий час проводиться в цьому
напрямі. Відомі й широко застосовуються
системи рівня управління підприємством
(ERP), побудовані на основі парадигми
Business WorkFlow, при якій в інформа-
ційній системі паралельно з протіканням у
реальності (а іноді – випереджаючи) вико-
нуються відповідні бізнес-процеси, а сама
система є засобом їх контролю і управлін-
ня.
Рівень використання Scientific
WorkFlow в наукових інформаційних сис-
темах істотно відстає. Водночас аналіз рі-
шень, втілений в бізнесових системах, дає
потужний імпульс для розвитку інформа-
ційних систем підтримки наукових дослі-
джень.
Для подальшого прогресу ця нова,
керована інформацією та даними наука,
отримує великі інвестиції для розвитку те-
лекомунікацій та технічних засобів інфра-
структури відомої як «Грід-
інфраструктура». Однак учені кінець кін-
цем зацікавлені в інструментах, які приво-
Експертні та інтелектуальні інформаційні системи
70
дять потужність розподілених баз даних і
інших обчислювальних та розподілених в
мережі ресурсів до робочого столу, і до-
зволяють їм зручно сполучати і керувати
їх власними науковими технологічними
процесами. Маються на увазі процеси ро-
боти в мережі, які зазвичай використову-
ють «канали аналізу даних», або порівню-
ють спостережувані і прогнозовані дані.
Також може використовуватись широкий
діапазон компонентів, наприклад, для за-
питів до баз даних, для перетворення да-
них і вилучення інформації з даних, для
виконання моделювання на високопродук-
тивних комп'ютерах, і т. п.
В ідеалі, учений має мати змогу:
підключити майже будь-який науко-
вий ресурс даних і обчислювальне обслу-
говування в науковому технологічному
процесі;
детально вивчити і виразно представи-
ти собі дані «на льоту» (безпосередньо в
процесі обчислень);
змінювати параметри у будь-який час
за потребою, та після цього повторно пере-
запускати виконання тільки необхідних
кроків;
отримувати достатньо даних на завер-
шальних етапах процесу;
отримувати метадані про самі кроки
перебігу наукового технологічного проце-
су;
отримувати дані не тільки результатів
експерименту, а й допоміжні, що поясню-
ють результати і роблять їх відновлюва-
ними для інших учених.
Тому система управління наукови-
ми потоками робіт стає науковим пробле-
мно-орієнтованим оточенням, налагодже-
ним до все більш і більш поширюваної і
орієнтованої на обслуговування інфра-
структури Грід.
Проте, перед тим, як це грандіозне
бачення зможе стати дійсністю, доводить-
ся звертати увагу на багато істотних фак-
торів. Наприклад, поточне програмне за-
безпечення Грід все ще дуже складне, щоб
його використовувати для пересічного
вченого, і швидка зміна версій та стандар-
ти, що постійно розвиваються, вимагають,
щоб ці деталі були прихованими від кори-
стувача системи управління науковими
потоками робіт. Здається, мережеві послу-
ги забезпечують просту основу для вільно-
го зв'язування та розподілення системи,
але основні мережеві службові стандарти
як наприклад WSDL тільки забезпечують
прості рішення для простих проблем, при
більш серйозних проблемах, як, напри-
клад, оркестрування мережевими служба-
ми, передача посередниками (від одного
сервісу безпосередньо до іншого, обходячи
передачу до ядра керування потоками), і
транзакційна семантика потоків, заснова-
них на сервісах, лишають тему розвитку та
майбутнього стандартів мережевих серві-
сів актуальною.
У даній роботі проведено поперед-
ній аналіз проблематики використання си-
стем керування потоками наукових робіт
для підтримки наукових досліджень. Ана-
ліз проводиться з урахуванням тих змін,
що відбулись за останні роки у зв’язку зі
збільшенням можливостей, масштабу та
глибини при проведенні наукових дослі-
джень. Приводиться аналіз схожості та ві-
дмінностей опису Scientific WorkFlow і
Business WorkFlow в інформаційних сис-
темах.
Крім цього представлено специфіч-
ні особливості системи Кеплер та її основи
– системи Птолемей II. Головна перевага
системи лежить у парадигмі моделювання
і проектування під назвою «актор-орієнто-
ване моделювання», що, виявляється, дуже
важливо, щоб мати справу з результатами
складної архітектури проектів наукових
процесів.
1. Наукові процеси
Згідно визначенню, приведеному в
глосарії WFMC (Workflow Management
Coalition), Business WorkFlow – це автома-
тизація (повністю або частково) бізнес-
процесу, при якій документи, інформація
або завдання передаються для виконання
необхідних дій від одного учасника до ін-
шого відповідно до набору процедурних
правил; набір інструментальних засобів
для аналізу, реорганізації і автоматизації
інформаційно-насичених завдань і функ-
цій.
Істотними, на наш погляд, у цьому
визначенні є наступні моменти:
Експертні та інтелектуальні інформаційні системи
71
1) автоматизоване виконання певного
процесу у вибраній прикладній області,
при якому окремі етапи й операції процесу
виконуються автоматично інформаційною
системою, а деякі – людиною (користува-
чем системи);
2) інформаційна система, заснована
на парадигмі WorkFlow, є засобом:
керування процесом, що автоматизу-
ється,
регламентації виконання процесу,
контролю ходу виконання процесу;
3) взаємодія користувачів при вико-
нанні процесу проводиться, в першу чергу,
за допомогою інформаційної системи, в
якій крок за кроком відображаються ре-
зультати етапів виконуваного процесу.
Парадигма WorkFlow, на наш пог-
ляд, істотним чином змінює місце інфор-
маційної системи – вона стає інформацій-
ним ядром виконання процесів, що керує,
у прикладній області. У інформаційній си-
стемі створюється так званий «інформа-
ційний конвеєр», утворення якого зіставно
з появою конвеєра в промисловості [2, 3].
У інформаційних системах підтри-
мки наукових досліджень визначення Sci-
entific WorkFlow досить схоже, наприклад:
засоби автоматизації і контролю процесів
у наукових проблемно-орієнтованих сере-
довищах [4], або схеми аналітичних кро-
ків, які включають, наприклад, доступ до
бази даних, формування запитів, аналіз да-
них і інше, а також інтенсивні обчислюва-
льні роботи на кластерних комп'ютерах
[5].
Можна сказати, що Scientific Work-
Flow є ланкою для керування в інтегрова-
ному проблемно-орієнтованому середови-
щі автоматизованого наукового дослі-
дження, основним же її призначенням є:
забезпечення регламенту виконання
дослідження;
взаємодія різних учасників дослі-
дження в процесі вирішення завдання;
взаємодія науковців з обладнанням,
на якому виконуються дослідження і екс-
перименти;
підбір компонентів програмних за-
собів, що дозволяють автоматизувати
окремі кроки дослідження і забезпечення
взаємодії з ними;
фіксація поточних результатів дос-
лідження на кожному його кроці і резуль-
татів дослідження в цілому.
Очевидно, що в реальності Scientific
WorkFlow є спектром інформаційних мо-
делей процесів наукової діяльності, що ро-
зрізняються за галузями науки, задачах,
що вирішуються і класах досліджень, що
проводяться.
Спостерігається зростаючий інтерес
до інформатизації наукових процесів, що
можна побачити з переліку подій, напри-
клад, the Scientific Data Management Work-
shop [6], the e-Science Workflow Services
Workshop [7], the e-Science Grid Environ-
ments Workshop [8], the Virtual Observatory
Service Composition Workshop [9], the e-
Science LINK-Up Workshop on Workflow
Interoperability and Semantic Extensions
[10], і наостанок Global Grid Forum [11],
тільки, щоб не переховувати більше. Нау-
кові процеси також грають важливу роль у
ряді великих дослідницьких проектів, що
продовжуються, мають справу з науковим
керуванням даними, у тому числі NSF/ITR
(GriPhyN, GEON, LEAD, SCEC, SEEK, ...),
NIH (BIRN), DOE (Sci- DAC/SDM, GTL), і
подібні зусилля, засновані UK e-Science
initiative (myGrid, DiscoveryNet, та інші).
Наприклад, проект SEEK розвиває Analysis
and Modeling System (AMS), яка дозволяє
екологам проектувати і виконувати науко-
ві технологічні процеси [12]. AMS компо-
нент технологічного процесу використовує
Semantic Mediation System (SMS), щоб по-
легшити проект технологічного процесу і
перегляд даних через семантичне друку-
вання [13]. Тому SEEK – хороший приклад
керованого суспільством проекту в потребі
такої системи, яка дозволяє користувачам
«без швів» звертатися до джерел даних і
послуг, і залучати їх в технологічних про-
цесах, що повторно використовуються.
Дійсно SEEK – один з головних проектів,
що сприяв ініціативі Кеплера і систем ке-
рування науковими процесами, який обго-
ворюються далі.
Наукові процеси часто експонують
специфічні “штрихи”, наприклад, вони
можуть використовувати великі масиви
даних, інтенсивні обчислення, проводити
велику кількість аналізу даних, виконувати
багато візуалізації і т. п. Процеси, що зга-
Експертні та інтелектуальні інформаційні системи
72
дуються далі, наприклад, експонують різні
особливості: орієнтація на сервіси та ана-
ліз даних, які призначені для взаємодії з
користувачем та реінжиніринг, високопро-
дуктивні обчислення. В залежності від
призначення, для окремих груп користува-
чів може бути потреба приховати або на-
впаки зробити наголос на специфічних ас-
пектах і технічних можливостях наукових
процесів. Наприклад, “інженер Грід”, мо-
жливо, був би зацікавлений у таких низь-
корівневих аспектах процесу, як, напри-
клад, передача даних і керування завдан-
ням з віддаленого терміналу. Мати компо-
ненти (або актори) технологічного проце-
су, які діють на цьому рівні, буде вигідно
“інженеру Грід”.
З іншого боку, система керування
науковим процесом повинна сховати ці ж
аспекти від вчених-аналітиків (скажімо,
еколога, що вивчає багатство різновидів та
їх продуктивність). Система Кеплер наці-
лена на підтримку великої кількості різних
видів процесів, від низькорівневих “кана-
лів” процесу, що цікавлять “інженерів
Грід”, до аналітичних процесів відкриття
знання для вчених, і рівня концептуально-
го дизайну процесів, які, можливо, стали б
здійсненими тільки в результаті подаль-
ших кроків налаштування [14].
2. Scientific WorkFlow – потоки
даних чи потоки робіт
Характеристики і вимоги наукових
процесів частково перекликаються з біз-
нес-процесами. Дійсно, термін «наукові
процеси», здається, вказує на дуже близьке
відношення з останнім, і тільки детальніше
порівняння виявляє перелік істотних від-
знак. Історично, бізнес-процеси мають ко-
ріння, що ведуть до систем автоматизації
офісу 70-их і 80-их років, та придбали іне-
рцію в 90-их під різними іменами, у тому
числі «моделювання бізнес-процесів» і
«розробка бізнес-процесів»; дивіться, на-
приклад, [15–17].
Сьогодні ми бачимо деякий вплив
стандартів бізнес-процесів у сфері Веб-
послуг, особливо стандарти для хореогра-
фії Веб-послуг. Наприклад, Мова Вико-
нання Бізнес-Процесів для Веб-Послуг
(BPEL4WS) [18], поглинання двох більш
ранніх стандартів, IBM WSFL і Microsoft
XLANG привернули деяку увагу.
Аналізуючи основні принципи про-
ектування і підходи моделювання бізнес-
процесів, фокусування на шаблонах пото-
ків керування подіями стає очевидним, то-
ді як керування потоками даних залиша-
ється в тіні.
Системи керування науковими про-
цесами, з іншого боку, прагнуть мати мо-
делі виконання, які значно більше орієнто-
вані на потоки даних. Це вірно, наприклад,
для академічних систем, у тому числі Кеп-
лер, Taverna [19], і Triana [20], і для комер-
ційних систем, як, наприклад, Inforsense’s
DiscoveryNet або Scitegic’s Pipeline-Pilot.
Різницю між орієнтацією на потоки
даних і потоки робіт можна також спосте-
рігати в їх формальному описі. Наприклад,
візуалізація бізнес-процесів часто нагадує
календарні графіки процесу, діаграми змі-
ни станів, або UML діаграми діяльності,
всі з яких роблять наголос на керування
подіями по зрівнянню з потоками даних.
Формальний аналіз технологічних проце-
сів зазвичай залучає вивчення їх зразків
керування потоками [21], і часто прово-
диться, використовуючи мережі Петрі.
Довгий час в інформаційних систе-
мах підтримки наукових досліджень акце-
нти розставлялися таким чином, що бізнес-
процеси (Business WorkFlow) орієнтовані в
основному на керування складними пото-
ками робіт, а в наукових процесах (Scien-
tific WorkFlow) набагато більшу увагу слід
було приділяти потокам даних [22]. Проте,
із зростанням гетерогенності середовища,
складності і різноманітності програмного
забезпечення, що залучається до наукового
процесу, пріоритети змінилися.
По-перше, людські ресурси є обо-
в'язковою частиною системи моделювання
наукових процесів, і взаємодіють з нею
набагато тісніше, ніж в бізнес-процесах.
Вчені можуть вносити корективи практич-
но у будь-який момент і в будь-який стан
процесу (змінюючи параметри, додаючи
додаткові параметри, змінюючи оточення
виконання процесу). Таке втручання особ-
ливе часто зустрічається на початкових
етапах роботи обчислювальних процесів.
По-друге, на сьогодні обчислюва-
льне середовище необхідно розглядати як
Експертні та інтелектуальні інформаційні системи
73
гетерогенне. Обчислювальне середовище в
загальному випадку містить в собі засоби
різної складності, організовані в систему.
Спеціалізовані вимірювальні системи, су-
перкомп'ютери і робочі станції можуть бу-
ти об'єднані в Грід-мережі. Керування та-
ким середовищем є важливим, але непрос-
тим завданням, оскільки гетерогенність
гарантує додаткову складність завданням
підтримки і керування обчислювальними
процесами.
По-третє, із-за підвищеної складно-
сті програмного забезпечення, що викори-
стовується, вірогідність виникнення поми-
лок і виняткових ситуацій підвищується,
що вимагає додаткової обробки таких си-
туацій. Для забезпечення цілісності і коре-
ктності даних, що використовується в про-
цесі, у разі виникнення виняткових ситуа-
цій необхідно провести так звану «семан-
тичну відміну» змін, які були виконані в
ході тих або інших операцій процесу. Така
необхідність зв'язана з тим, що дуже часто
звичайна відміна транзакцій в сховищах
даних просто неможлива із-за великої три-
валості часу виконання деяких стадій об-
числювального процесу або великого об'є-
му змінних даних. Таким чином, необхідно
вводити функціонал фіксації станів проце-
су, відмінний від таких функцій сховищ
даних, як транзакція сесії (transaction) і то-
чка збереження (savepoint). Крім того, не-
обхідний функціонал, що забезпечує від-
міну змін процесу до зафіксованих раніше
станів процесу.
На підставі приведених фактів мо-
жна стверджувати, що моделювання пото-
ків робіт (керування) у системах інформа-
тизації наукових процесів по-перше, має
не меншу важливість і складність, ніж у
бізнес-процесах, по-друге, повинна грати,
як мінімум, роль керування в складних
моделях наукових процесів.
Основним завданням системи керу-
вання потоками наукових робіт (Scientific
WorkFlow System) є забезпечення необхід-
ної послідовності дій, які пов'язані з ета-
пами діяльності наукового персоналу і
етапами взаємодії з ресурсами процесу.
Процес характеризується набором параме-
трів: значенням споживаного ресурсу, ча-
сом життя та іншими. Саме поняття «про-
цес» визначається з погляду завдань, що
треба виконати, зокрема: роботи з прила-
дами, складними технологічними систе-
мами, документами і персоналом.
3. Реалізація Scientific workflow у
системі Kepler
Kepler – це програмний інструмент,
який застосовується для аналізу та моде-
лювання наукових даних. Kepler спрощує
зусилля, необхідні для створення моделей,
що виконуються за допомогою візуального
представлення цих процесів. Ці представ-
лення, або «наукові робочі процеси», відо-
бражують потік даних між дискретними
компонентами аналізу та моделювання
(рис. 1).
Рис. 1. Простий науковий робочий процес, розроблений у Kepler
Експертні та інтелектуальні інформаційні системи
74
Kepler дозволяє ученим створювати
свої власні готові до виконання наукові
технологічні процеси досить простим пе-
ретягуванням компонент до діаграми про-
цесу й сполучати компоненти для побудо-
ви конкретного потоку даних, таким чи-
ном, створюючи візуальну модель аналі-
тичної частини своїх досліджень. Kepler
представляє загальний процес візуально,
таким чином, що легко зрозуміти, які дані
перетікають від одного компонента до ін-
шого. Отриманий процес може бути збе-
режений у текстовому форматі, відправле-
ний по електронній пошті колегам, та/або
опублікований для обміну з колегами по
всьому світу.
Користувачі Kepler навіть з невели-
ким досвідом в інформатиці можуть ство-
рювати процеси зі стандартних компонент,
або змінювати існуючі процеси для задо-
волення своїх потреб. Навіть досвідчені
користувачі знайдуть, що Kepler має бага-
то переваг, особливо коли мова йде про
подання комплексних програм та аналізу у
формі зрозумілій і зручній для обміну.
Kepler включає розподілені обчис-
лювальні технології, які дозволяють вче-
ним обмінюватися своїми даними і проце-
сами з іншими вченими та використовува-
ти процеси обробки даних та аналітичні
процеси з іншими людьми по всьому світу.
Kepler також забезпечує доступ до ком-
плексу інформаційних сховищ, обчислю-
вальних ресурсів, і бібліотек процесів, що
постійно розширюється й географічно роз-
поділений (наприклад, екологічні дані з
польових станцій, зразки даних з музейних
колекцій, дані про Землю й т. п.).
Kepler заснований на системі візуа-
льного моделювання Ptolemy II [23] з відк-
ритим вихідним кодом, створює єдине ро-
боче середовище для вчених. На сьогодні
це зручна програма, яка дозволяє вченим
створювати свої власні наукові робочі
процеси без необхідності інтегрувати кіль-
ка різних програмних застосувань або за-
ручатися допомогою програмістів.
Багато готових до використання
компонент включено в стандартну постав-
ку Kepler, у тому числі загальні математи-
чні, статистичні компоненти і компоненти
обробки сигналів та введення даних, обро-
бки та відображення. Статистичний аналіз
на основі системи R або MATLAB, оброб-
ка зображень або ГІС-функціональність
доступна через прямі посилання на ці зов-
нішні пакети. Ви також можете створити
новий компонент або «обгорнути» існуючі
компоненти з інших програм (наприклад,
програм на мові C) для використання в ра-
мках Kepler.
Kepler є крос-платформним програ-
мним забезпеченням з відкритими почат-
ковими кодами, яке може працювати на
Windows, Macintosh або Linux-платформі.
Компоненти Kepler: Наукові робо-
чі процеси складаються з компонент, що
налаштовуються (директори, актори і па-
раметри), а також зв’язків і портів, які за-
безпечують взаємодію між компонентами
(рис. 2).
Директор і актори: Kepler викори-
стовує метафору директор/актор для візуа-
льного представлення різних компонентів
процесу. Директор контролює (або ж ке-
рує) виконання процесу так само, як режи-
сер стежить за знімальною групою. Актори
приймають на виконання інструкції з боку
директора. Іншими словами, актори визна-
чають, що буде відбуватись у процесі,
водночас як директор указує, коли це буде
відбуватись.
Кожен процес повинен мати дирек-
тора, який контролює виконання процесу з
використанням певної моделі обчислень.
Кожну модель обчислень у Kepler пред-
ставляє свій директор. Наприклад, процес
виконання може бути синхронним з обро-
бкою одного компонента в один момент
часу, в заздалегідь розрахованій послідов-
ності (SDF директор). Крім того, компоне-
нти процесу можуть виконуватися парале-
льно, з одним або більшою кількістю ком-
понентів, що працюють одночасно (що
може бути у випадку з PN-директором).
Невеликий набір найчастіше використову-
ваних директорів поставляється з інсталя-
цією Kepler, але ще більше їх є в базовому
програмному забезпеченні Ptolemy II, яке
можна отримати за необхідності.
Kepler надає великий набір акто-
рів для створення і редагування наукових
робочих процесів. Актори можуть бути
Експертні та інтелектуальні інформаційні системи
75
Рис. 2. Головне вікно Kepler з виділеними деякими з основних компонентів процесу.
Вікно в правому нижньому кутку – це вікно, створене робочим процесом, щоб вивести ре-
зультат у графічному вигляді
додані в Kepler для ексклюзивного вико-
ристання та/або можуть бути зроблені дос-
тупними для інших.
Порти. Кожен актор у процесі може
містити один або кілька портів, що вико-
ристовуються для споживання або ство-
рення інформації і спілкування з іншими
учасниками процесу. Актори пов'язуються
в процес за допомогою своїх портів.
Зв’язок, що представляє собою потік даних
між одним портом актора та іншим, нази-
вається каналом.
Процеси можуть також використо-
вувати зовнішні порти і параметри портів.
Зв’язки дозволяють користувачам
«розгалужувати» потік даних. Розгалуже-
ні дані можуть бути передані до декількох
місць у процесі. Наприклад, учений, мож-
ливо, побажає направити вихід актора
процесу до іншого актора процесу для по-
дальшої обробки, а також до актора відо-
браження, щоб відобразити дані в цій
конкретній точці. Розміщуючи зв'язок на
каналі виведення даних, користувач може
Експертні та інтелектуальні інформаційні системи
76
направити інформацію одночасно в обид-
ва місця.
Параметри – це значення, закріп-
лені за процесом, окремими директорами
або акторами. Параметри можуть бути на-
лаштовані. Наприклад, актор Integrator (ін-
тегратор) має параметр під назвою
InitialState (початковий стан), який має
встановити перше значення функції інтег-
рування. Параметри акторів імітаційної
моделі можуть бути налаштовані на конт-
роль деяких аспектів моделювання (напри-
клад, початкові значення моделі). Параме-
три директора керують кількістю ітерацій
процесу й відповідними критеріями для
кожної ітерації.
Інтерфейс користувача Kepler.
Наукові робочі процеси будуються і реда-
гуються в інтерфейсі користувача Kepler,
який пропонує легку навігацію і інтерфейс
«перетягування». Основні розділи вікна
застосування Kepler (рис. 2) складаються з
наступного:
рядок меню – забезпечує доступ до
всіх функцій Kepler;
панель інструментів – забезпечує
доступ до функцій Kepler, що найбільш
часто використовуються;
область компонент і доступу до да-
них – складається із закладки Компоненти,
а також із закладки Дані. Обидві закладки
містять функцію пошуку та відображують
бібліотеку доступних компонентів або ре-
зультати пошуку;
діаграма процесу (workflow canvas)
– надає робочий простір для відображення
та створення процесів;
область навігації – відображає пов-
ний процес.
Основні операції в Kepler. До них
відносяться:
відкриття існуючих наукових робо-
чих процесів;
запуск існуючого наукового робо-
чого процесу;
редагування існуючого наукового
робочого процесу;
пошук доступних даних;
пошук доступних компонент обро-
бки даних;
створення наукового робочого про-
цесу.
Більш детальна інформація про опе-
рації з прикладами їх виконання, а також
деякі методики для редагування, проекту-
вання і створення власних наукових про-
цесів міститься у звіті Інституту програм-
них систем НАН України за темою «Роз-
робка загальносистемних проектних рі-
шень з питань побудови технологій та си-
стем підтримки науково-дослідної діяль-
ності».
Висновки
Розглянуті у даній статті проблеми
стосуються важливих особливостей опису
потоків наукових робіт, що по-перше, від-
різняють ці потоки від потоків робіт біз-
нес-процесів, по-друге, за своєю актуаль-
ністю з часом зрівнялись с потребами по-
токів бізнес-процесів, та потребують по-
вторного формулювання, дослідження та
порівняння.
При подальшому розгляді існуючих
систем керування потоками наукових ро-
біт для їх практичного використання у пі-
дтримці наукових досліджень розглянуті
питання надають змогу висунути функці-
ональні вимоги до таких систем та вико-
нати зважений вибір системи для впрова-
дження.
Очевидно, що рівень відкритості сис-
теми, можливість вибору функціоналу, та
навіть можливість модифікації механізмів
підтримки потоків робіт буде важливим
аргументом при виборі такої системи для
практичного використання. У такому ви-
падку, наприклад, по-перше, з’являється
можливість перевірки зроблених припу-
щень або розроблених методів на практиці
на базі тієї ж самої системи, що викорис-
товується для інформаційної підтримки;
по-друге, полегшується процес аналізу і
усунення виявлених проблем.
Ми також провели огляд проблем ке-
рування науковими процесами, мотивова-
них реальними прикладами. Спектр того,
до чого може звернутися науковий процес
широкий і включає наукові технологічні
процеси відкриття, технологічні процеси,
які автоматизують ручні процедури або
спеціалізовані інструменти реінженірінгу і
Експертні та інтелектуальні інформаційні системи
77
інтенсивної обробки даних, а також інтен-
сивні обчислювальні процеси. Наукова пі-
дтримка процесу потрібна практично для
всіх інформаційно-орієнтованих наукових
дисциплін, у тому числі біоінформатики,
хіміоінформатики, екоінформатики, геоін-
форматики, фізики, і т.п.
Система Кеплер забезпечує підтрим-
ку процесів, що базуються на Веб-пос-
лугах і Грід. Початковий код Кеплера ві-
льно доступний [24].
Унікальна особливість Кеплера успа-
дкована від основної системи Птолемей II:
актор-орієнтований підхід моделювання.
Цей підхід полегшує моделювання і прое-
ктування складних систем і тому забезпе-
чує також багатообіцяючий напрям для
невідкладних проблем, як, наприклад,
компонування і оркестровка Веб-послуг.
Шлях поліморфізму даних і динамічний
поліморфізм підтримує актор-орієнто-
ваний підхід, який “концентрує” взаємо-
дію компонент в окремому об'єкті дирек-
тора, може також висвітлити інші зусилля,
необхідні для створення компонентної ар-
хітектуру, що легко повторно використо-
вувати, як наприклад ССА [25].
1. Твердохліб Є.М., Перконос П.І. Побудова
інтегрованої е-інфраструктури підтримки
наукових досліджень в грід-середовищі //
Проблеми програмування (матеріали
конф. УкрПрог-2012). – 2012. – № 2–3. –
С. 143–149
2. Твердохліб Є.М. Інформаційна система в
управлінні підприємством. Міжнародна
науково-практична конференція «Розробка
систем програмного забезпечення (software
system engineering): Виклик часу та роль у
інформаційному суспільстві», Тезиси до-
кладів, Київ, 2005.
3. Твердохліб Є.М., Перконос П.І. Автомати-
зация управления: информационный кон-
вейер в действии. КПД (Компьютерное
проектирование и технический документо-
оборот), Киев, 08.2009.
4. On Scientific Workflow. Dr. Jinjun Chen,
Swinburne University of Technology, Aus-
tralia; Prof. dr. ir. W.M.P. van der Aalst,
Eindhoven University of Technology, The
Netherlands.
5. Grid, Scientific and Business Workflow Man-
agement Systems. Dr. Jinjun Chen, CITR –
Centre for Information Technology Research
Swinburne University of Technology, Aus-
tralia, August 2007.
6. Scientific Data Management Framework
Workshop, Argonne National Labs, August
2003.
http://sdm.lbl.gov/~arie/sdm/SDM.Framewor
k.wshp.htm.
7. e-Science Workflow Services Workshop, e-
Science Institute, Edinburgh, Scotland, De-
cember 2003.
http://www.nesc.ac.uk/esi/events/303/index.ht
ml.
8. e-Science Grid Environments Workshop, e-
Science Institute, Edinburgh, Scotland, May
2004. http://www.nesc.ac.uk/esi/events/.
9. GRIST Workshop on Service Composition for
Data Exploration in the Virtual Observatory,
California Institute of Technology, July 2004.
http://grist.caltech.edu/sc4devo/.
10. LINK-Up Workshop on Scientific Workflows,
San Diego Supercomputer Center, October
2004. http://kbis.sdsc.edu/events/link-up-11-
04/.
11. Workflow in Grid Systems Workshop,
GGF10, Berlin, Germany, March 2004.
http://www.extreme.indiana.edu/groc/Worflo
w-call.html.
12. Michener W.K., Beach J.H., Jones M.B.,
Ludäscher B., Pennington D.D., Pereira R.S.,
Rajasekar A. and Schildhauer M. A
Knowledge Environment for the Biodiversity
and Ecological Sciences // Journal of Intelli-
gent Information Systems, 2004.
13. Bowers S. and Ludäscher B. An Ontology
Driven Framework for Data Transformation
in Scientific Workflows. In International
Workshop on Data Integration in the Life Sci-
ences (DILS), LNCS 2994, Leipzig, Germa-
ny, March 2004.
14. Bowers S. and Ludäscher B. Actor-Oriented
Design of Scientific Workflows. submitted for
publication, 2005.
15. Alonso G. and Mohan C. Workflow Manage-
ment Systems: The Next Generation of Dis-
tributed Processing Tools // In S. Jajodia and
L. Kerschberg, editors, Advanced Transaction
Models and Architectures. 1997.
16. W. van der Aalst and K. van Hee. Workflow
Management: Models, Methods, and Systems
(Cooperative Information Systems) // MIT
Press, 2002.
17. M. zur Muehlen. Workflow-based Process
Controlling. Logos Verlag, Berlin, 2004.
http://sdm.lbl.gov/~arie/sdm/SDM.Framework.wshp.htm
http://sdm.lbl.gov/~arie/sdm/SDM.Framework.wshp.htm
http://www.nesc.ac.uk/esi/events/303/index.html
http://www.nesc.ac.uk/esi/events/303/index.html
http://www.nesc.ac.uk/esi/events/
http://grist.caltech.edu/sc4devo/
http://kbis.sdsc.edu/events/link-up-11-04/
http://kbis.sdsc.edu/events/link-up-11-04/
http://www.extreme.indiana.edu/groc/Worflow-call.html
http://www.extreme.indiana.edu/groc/Worflow-call.html
Експертні та інтелектуальні інформаційні системи
78
18. Curbera F., Goland Y., Klein J., Leyman F.,
Roller D., Thatte S. and Weerawarana S.
Business Process Execution Language for
Web Services (BPEL4WS), Version 1.0,
2002.
http://www.ibm.com/developerworks/library/
ws-bpel/.
19. The Taverna Project. http://taverna.sf.net/.
20. The Triana Project.
http://www.trianacode.org/.
21. Kiepuszewski B. Expressiveness and Suitabil-
ity of Languages for Control Flow Modelling
in Workflows // PhD thesis, Queensland Uni-
versity of Technology, 2002.
22. Нестеренко А.К., Сысоев Т.М., Бездушный
А.Н., Бездушный А.А., Ярощук И.О. «Инте-
грация научных информационных систем
при помощи механизма рабочих процес-
сов».
23. Ptolemy II project and system. Department of
EECS, UC Berkeley, 2004.
http://ptolemy.eecs.berkeley.edu/ptolemyII/.
24. Kepler: A System for Scientific Workflows.
http://kepler-project.org.
25. Armstrong R., Gannon D., Geist A., Keahey
K., Kohn S., McInnes L., Parker S. and Smo-
linski B. Toward a Common Component Ar-
chitecture for High-Performance Scientific
Computing // In 8th IEEE Intl. Symposium on
High Performance Distributed Computation,
August 1999.
Одержано 03.01.2013
Про авторів:
Твердохліб Євген Миколайович,
кандидат технічних наук,
старший науковий співробітник відділу,
Перконос Петро Іванович,
старший науковий співробітник відділу,
Лой Анатолій Іванович,
Провідний консультант
Департаменту бізнес-аналізу
ТОВ «БМС Консалтінг».
Місце роботи авторів:
Інститут програмних систем
НАН України
03680, Київ,
Проспект Академіка Глушкова, 40,
Тел. +38(044) 526 6408,
E-mail: Eugine@nas.gov.ua ,
Perkonos@nas.gov.ua
http://www.ibm.com/developerworks/library/ws-bpel/
http://www.ibm.com/developerworks/library/ws-bpel/
http://taverna.sf.net/
http://www.trianacode.org/
http://ptolemy.eecs.berkeley.edu/ptolemyII/
http://kepler-project.org/
mailto:Eugine@nas.gov.ua
mailto:Perkonos@nas.gov.ua
|