Оброблення наукових даних в умовах інформаційного "буму"

Modern science (е-science) is based on treatment of potentially enormous volumes of information. Tendencies and prospects of information technologies development in the conditions of information "boom", which embrace the question of providing data quality and compatibility, metadat...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2012
Автори: Zgurovsky, M. Z., Petrenko, A. I.
Формат: Стаття
Мова:Українська
Опубліковано: The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2012
Онлайн доступ:https://journal.iasa.kpi.ua/article/view/71923
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:System research and information technologies
Завантажити файл: Pdf

Репозитарії

System research and information technologies
_version_ 1867334268276965376
author Zgurovsky, M. Z.
Petrenko, A. I.
author_facet Zgurovsky, M. Z.
Petrenko, A. I.
author_institution_txt_mv [ { "author": "M. Z. Zgurovsky", "institution": "ректор Національного технічного університету України \"КПІ\", директор Навчально-наукового комплексу \"Інститут прикладного системного аналізу\" НТУУ \"КПІ\" МОН та НАН України, Київ" }, { "author": "A. I. Petrenko", "institution": null } ]
author_sort Zgurovsky, M. Z.
baseUrl_str http://journal.iasa.kpi.ua/oai
collection OJS
datestamp_date 2018-03-30T15:05:06Z
description Modern science (е-science) is based on treatment of potentially enormous volumes of information. Tendencies and prospects of information technologies development in the conditions of information "boom", which embrace the question of providing data quality and compatibility, metadata and data semantics usage, long-term data maintenance, intellectual processing of data (Data Mining), data search in existent sources taking into account the heterogeneity of these resources, data influence on choice of the platform and its service-oriented architecture, Grid and Cloud Integration Opportunities and also European initiatives on this subjects, are considered.
first_indexed 2025-07-17T10:20:19Z
format Article
fulltext © М.З. Згуровський, А.І. Петренко, 2012 Системні дослідження та інформаційні технології, 2012, № 2 7 TIДC ПРОГРЕСИВНІ ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ, ВИСОКОПРОДУКТИВНІ КОМП’ЮТЕРНІ СИСТЕМИ УДК 004.04, 004.62 ОБРОБЛЕННЯ НАУКОВИХ ДАНИХ В УМОВАХ ІНФОРМАЦІЙНОГО «БУМУ» М.З. ЗГУРОВСЬКИЙ, А.І. ПЕТРЕНКО Сучасна наука (е-наука) базується на обробленні потенційно величезних обся- гів інформації. Розглянуто тенденції та перспективи розвитку е-науки в умовах інформаційного «буму», які охоплюють питання забезпечення якості та су- місності даних, використання метаданих і семантики даних, довгострокового їх збереження, інтелектуального оброблення та пошуку даних в існуючих дже- релах, впливу даних на вибір платформи й її сервісно-орієнтованої архітекту- ри, перспективи об’єднання Грід і хмарних обчислень, а також європейські ініціативи з цієї тематики. ВСТУП На початку ХХІ ст. постало питання: «Як багато інформації є у світі?» і було запропоновано декілька методик для оцінювання обсягу інформації [1]. Із 2000 р. та 2003 р. група дослідників у Берклі, оцінюючи кількість створеної інформації, дійшла висновку, що «більшістю від загального обсягу нової інформації є голосовий телефонний трафік зі своїм унікальним контентом (97 %)». У 2007–2008 рр. IDC (International Data Corporation — Міжнародна корпорація даних) підрахувала, що в 2007 р. «обсяг усього можливого для використання простору жорстких дисків, касет, CD, DVD і пам’яті (енерго- залежної та енергонезалежної) склав 264 екзабайтів (1 екзабайт 1810= байт), а в 2010 р. — майже 2 зетабайта (1 зетабайт 2110= байт)». У 2008 р. дослідження зосередились на інформації, що споживається людьми при взаємодії з медіа пристроями, при цьому комп’ютерні ігри та фільми скла- дають 99,2 % від цієї інформації. Упровадження широкосмугового Інтер- нету призвело до безперервного прискорення телекомунікаційного зв’язку (середньорічний темп зростання в 6 % для 1986–1993 рр., 23 % для 1993–2000 рр. і 60 % за 2000–2010 рр.). Людина хоче отримувати інформа- цію скрізь — на роботі, вдома, в авто, під час прогулянки тощо. Бачення компанії IBM на зростання обсягів інформації у світі, яке вра- ховує можливості Інтернет і жорстких дисків, відображено на рис. 1. До оцінки зростання технологічного потенціалу оброблення інформації можна застосувати закон Мура, згідно з яким потужність комп’ютерів для оброблення інформації подвоюється приблизно в два рази кожні 14 місяців М.З. Згуровський, А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2012, № 2 8 протягом останніх десятиліть, у той час як для суперкомп’ютерів потуж- ність подвоюється кожні 18 місяців. Зараз людство може зберігати кілька оптимально стиснутих зетабайтів даних на різних пристроях (рис. 2) і вико- нувати 7*1019 операцій за секунду на обчислювальних пристроях різного типу (рис. 3). Щорічно їхній обсяг зростає на 58 %, двонаправлена передача даних на 28 %, кількість збереженої інформації на 23 % [1]. Рис. 1. Експоненційне зростання інформації у світі за даними IBM 2 % 6 % 8 % Жорсткі дискі серверів і майнфраймів 11% Магнітні стрічки Карта пам’яті 8 % 21% 42% DVD та Blu-Ray Рис. 2. Розподіл частки збереження даних різними засобами у світі Рис. 3. Розподіл частки обчислення інформації різними засобами у світі Сервери та мейнфрейми 6 % 3 % 0 , 3 % 66% 2 5 %Відеоігрові консолі Мобільні телефони/PDA Суперкомп’ютери Персональні комп’ютери Оброблення наукових даних в умовах інформаційного «буму» Системні дослідження та інформаційні технології, 2012, № 2 9 Варто зазначити, що ще з 2007 р. технологічні можливості людства виявилися недостатніми для збереження всієї інформації, яка генерується. Тому постає важливе питання відбору і тривалого збереження тієї частини інформації, яка забезпечує функціонування суспільства та визначає його ідентичність та перспективи подальшого розвитку. І таку ситуацію не може змінити поява таких велетенських сховищ, як Spectra T-Finity обсягом 3,6 екзабайтів даних. Нас цікать, перш за все, стан і перспективи використання наукових да- них, тому що вони визначать прогрес у розвитку земної цивілізації (табл. 1). Т а б л и ц я 1 . Різні категорії наукових даних Категорії даних Фізика/хімія Гео-/астро-науки Біологічні науки Дані, які можуть бути виміряні повторно Більшість даних Геологічні структури, зафіксовані зірки Більшість даних Дані, які можуть бути виміряні лише один раз Більшість даних Спалахи сонця, виверження вулканів, нові зірки Рідкісні зразки скам’янілості Незалежні від розташування Більшість даних Тектоніка мінералів Більшість даних Залежні для розташування Більшість даних Скелі, метеорологічні дані, астрономічні дані, скам’янілості Рідкісні зразки скам’янілості Первинні отримані під час спостере- ження або експе- риментальні дані Кристалографічні дані, оптичні спектри Сейсмографічні, погодні дані та їх записи Фізіологічні дані (наприклад, кров’яний тиск), біохімічні дані (наприклад, компози- ція тканин і органів) Комбінації пер- винних даних за допомогою теоре- тичної моделі Фундаментальні константи кристалічних структур Розподіл температури на поверхні сонця Генетичні коди, модель м’язів і судин Дані, які отримано теоретичним обчисленням Властивості молекул Сонячні затемнення Передбачення поведінки залежно від генотипу Визначені (детер- містичні) дані Більшість макро- скопічних даних Елементи планетарних орбіт Розташування гена в хромосомах Стохастичні дані Дані полімерів, чутливі до їх структури Склад ґрунтів і кам’яних структур, частота сонячних спалахів за одиничний інтервал Більшість даних Кількісні дані Більшість даних Метеорологічні та сейсмічні дані Фізіологічні та біохімічні дані Напівкількісні дані Масштаб твердо- сті матеріалів Масштаб сили вітру Фізіологічні та біологічні дані Якісні дані Формули хімічних структур, власти- вості нуклідів Класифікація кам’яних структур, класифікації зоряних спектрів Таксономічна класифі- кація організмів, послі- довності амінокислот Дані, які подані числами Значення пара- метрів і констант Метеорологічні дані Фізіологічні та біохімічні дані Дані, які подані графами або моделями Фазові діаграми, стереоскопічні молекулярні діаграми, моделі молекул Геологічні карти, погодні карти, карти неба на спе- цифічній радіочастоті (наприклад 21 см) Електроенцефалограми, електрокардіограми Символічні дані Математичні мо- делі та формули Математичні моделі Математичні моделі М.З. Згуровський, А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2012, № 2 10 Наукові інструменти та комп’ютерне імітаційне моделювання породжу- ють величезні обсяги даних, для аналізу й організації яких потрібні нові наукові методи. Щороку обсяги наукових даних майже подвоюються, зараз йдеться про обробку петабайтних наборів даних (1 петабайт=1015 байт). За оцінками вчених у наступні п’ять років буде вироблено наукових даних більше, ніж за всю історію людства [2]. Оскільки нові наукові інструменти володіють винятковою точністю, так само швидко поліпшується якість да- них. Для аналізу цих даних з метою знаходження «тонких» ефектів, які не були враховані в попередніх дослідженнях, потрібні алгоритми, які одно- часно можуть працювати з величезними наборами даних і виявляти при цьому дуже «тонкі» ефекти, які залишилися невиявленими за попередніми вимірюваннями. Обсяги інформації, що створюється, величезні і вони впли- вають не тільки на розвиток природознавчих, але й гуманітарних та соціаль- них наук, а також на науки про життя та здоров’я. Це лавиноподібне зростання обсягів даних, або інформаційний «бум» призводить до нових підходів їх оброблення, коли дослідники вживають методи та засоби, керовані даними. Великі обсяги даних сприяють можли- вості нових наукових відкриттів, але при цьому створюють труднощі, пов’язані зі збереженням, пошуком і доступом до даних з їх аналізом. Переконливим прикладом джерела петабайтних наборів даних є Вели- кий Андронний Коллайдер, який працює в CERN (European Particle Phys- ics Laboratory — Європейський центр фізики високих енергій) і який вироб- лятиме приблизно 10 петабайтів необроблених даних у галузі фізики високих енергій за рік і додатково створюватиме 100 петабайт оброблених даних за рік, що записані на дисках для наступного аналізу. Потрібна ве- личезна обчислювальна потужність для оброблення такої кількості даних, які за допомогою Грід-інфраструктури WLCG (Worldwide LHC Computing Grid — світовий обчислювальний Грід Великого Андронного Коллайдеру) [3] розподіляються до комп’ютерних центрів у 34 різних країнах на шести континентах. Крім того, керівництво CERN запрошує волонтерів, які згодні надати свої персональні комп’ютери для того, щоб допомагати обро- бляти дані коллайдера. За інформацією Геннадія Зінов’єва (завідувача відді- лом фізики високої щільності енергії Інституту теоретичної фізики ім.Боголюбова НАН України, представника України в CERN) ця ініціатива отримала широку підтримку у світі і з’явилися навіть цілі сім’ї, готові об- робляти інформацію. Іншим прикладом подібного джерела даних може слугувати новітній телескоп з міжнародного проекту SDSS (Sloan Digital Sky Survey — Слоу- нівський цифровий огляд неба), за допомогою якого досліджується спектр зірок на хвилях за межами видимого спектра, і за допомогою якого очіку- ється отримання вже в перший рік його експлуатації 1,28 петабайтів інфор- мації, що більше, ніж дав будь-який інший телескоп за всю історію. Кіль- кість даних, доступних астрономам, постійно зростає зі зростанням кількості спостережень, які зроблені наземними чи космічними телескопами у всьому електромагнітному спектрі. Петабайтні набори даних притаманні проекту GEOSS (Global Earth Observation System of Systems — система систем гло- бального обстеження Землі), який базується на використанні супутникових даних для багатьох галузей господарства: прогнозування погоди та можли- Оброблення наукових даних в умовах інформаційного «буму» Системні дослідження та інформаційні технології, 2012, № 2 11 вих врожаїв, спостереження змін клімату й екологічного стану, розповсю- дження стихійних лих (поводів, пожарів, засухи) та багато ін. [4]. А також проекту EISCAT (European Incoherent Scatter Scientific Association — Євро- пейська наукова Асоціація некогерентного опромінювання), який за допо- могою 100000 елементів радарних антен, розташованих у Норвегії, Фінлян- дії та Швеції, здійснює радарне дослідження від верхньої стратосфери до магнітосфери і далі з мікросекундною щільністю. Ця система генерує декіль- ка терабайтів даних за день, її теперішня архітектура архівації і розподілен- ня даних не дозволяє впоратися з таким обсягом даних, тому проектом пе- редбачається використання нових технологій в розповсюдженні даних у відкритому доступі [5]. Перелік подібних проектів можна було б значно розширити. Слід відмітити вагому роль міжнародної організації CODATA (Committee on Data for Science and Technology — Комітет з даних для науки і техніки) й її ініціатив ADMIRE (Advanced Data Methods and Information technologies for Research and Education — передові методи даних та інфор- маційні технології для досліджень і освіти), SD3 (The Scientific Data across the Digital Divide — наукові дані через цифровий вододіл) та GICSI (Global Information Commons for Science Initiative — глобальні інформаційні спіль- ності для наукових ініціатив) з організації збору, розміщення та викорис- тання даних, що відносяться до різних предметних галузей [6]. Завдання на сьогодні полягає в забезпеченні можливості зберігання постійно зростаючих обсягів даних і їх доступності для спільного викорис- тання, у наданні вченим ефективних засобів оброблення даних. ЯКІСТЬ І СУМІСНІСТЬ «Сирі» дані, які отримані від інструментів або в результаті моделювання, надалі оброблятимуться. За термінологією NASA, «сирі» дані рівня 0 виві- ряються та виправляються до наборів даних рівня 1, які комбінуються з ін- шими даними, породжуючи набори даних рівня 2. При цьому велика части- на аналітичної роботи проводиться саме з наборами даних рівня 2, а в разі виявлення аномалій виконується «спуск» до даних рівня 1. Величезну кіль- кість даних доведеться заздалегідь обробляти для зменшення їх обсягу пе- ред подальшим аналізом, але кожна стадія попереднього оброблення змен- шує цю гнучкість. Більшість дослідників витрачають багато часу на створення даних і значно менше часу на їх підготовку до розповсюдження (curating). Коли розглядається стаття для публікації, дані, що лежать в основі її висновків, рідко додаються та перевіряються. Проте це ключове положення для побу- дови вірогідної бази знань, що використовується і може бути доступна для майбутнього дослідження. Якість наукових даних визначається: • властивою їм науковою суттю; • форматом, в якому запам’ятовуються дані; • документацією щодо наукових даних, або метаданих (даних про дату створення, джерело походження, ім’я власника даних) і контекстуальною інформацією. М.З. Згуровський, А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2012, № 2 12 У той час, як дослідники, можливо, підтримують ідею формалізації оцінки якості даних, виникає сумнів про те, чи це працюватиме на практиці. Перепони, що виникають, включають труднощі пошуку рецензентів, які мають достатню кваліфікацію, щоб зрозуміти й оцінити дані, і які згодні по- працювати, а також брак часу і грошей, потрібних для здійснення формаль- ного процесу рецензування даних. Хоча відкритий доступ до даних стає більш визнаним, він ще не є дійсністю для всіх наукових галузей, тому до- слідники часто не мають достатнього стимулу, щоб робити свої дані доступ- ними для використання іншими користувачами. Наукова спільнота тради- ційно визнає наукову публікацію, а не дані чи програмне забезпечення, які сприяли появі публікації. Але відношення до оприлюднення даних почало змінюватися. Нещодавно в Нідерландах фірмою DANS було винайдено ме- тод для оцінки якості наукових даних, який називається «Data Seal of Approval» (DSA — Схвалення даних) [7]. Створений для суспільних наук DSA може також бути застосований до природознавчих наук, при цьому він гарантує, що наукові дані, які досліджуються, матимуть необхідну якість і можуть бути знайдені, визнані та використані надійно. Варто вирішити питання про єдиний формат даних замість численних стандартів, по суті, по одному для кожної наукової дисципліни. Тому обмін даними поза кожної групи науковців стає проблематичним. Вимагається новий підхід із використанням розумних індексів і методів організації даних для скорочення обсягу пошуку; паралельної обробки та доступу до даних під час виконання пошуку у величезних наборах; потужних засобів аналізу, які можна було б застосувати до піднабору аналізованих даних. Щоб сумісність була успішною, необхідні стандарти. Наприклад, вико- ристання метаданих може сприяти сумісності баз даних, оскільки дані мо- жуть вживатися, інтерпретуватися і тлумачитися однаково. У суспільних науках центри даних регулярно використовують стандарт Data Documentation Initiative Metadata (метадані ініціативи документації даних). Наукові дисципліни також починають розвивати стандартизовану систему метаданих таким чином, щоб набори даних для різних наукових дисциплін були сумісними. Через Virtual Observatory (віртуальна обсерваторія) астро- номи демонструють хороший приклад сумісності на практиці. Прототипами можуть стати формати HDF (Hierarchical Data Format — ієрархічний формат даних), NetCDF (Network Common Data Form — мере- жева загальна форма даних) та FITS (Flexible Image Transport System — гнуч- ка система передачі зображення), які забезпечують незалежний від платфор- ми спосіб читання масивів, а також формати XML (eXtensible Markup Language — розширювана мова розмітки) та RDF (Resource Description Framework — модель представлення даних), що використані для побудови веб-сервісів, які забезпечують доступ через Інтернет до функцій будь-якої програми. Рішення проблем сумісності в управлінні (менеджменті) даними є клю- човим, щоб гарантувати доступність і можливість використання даних в ін- ших наукових галузях. Оброблення наукових даних в умовах інформаційного «буму» Системні дослідження та інформаційні технології, 2012, № 2 13 ДАНІ ПРО ДАНІ (МЕТАДАНІ) Сьогодні для аналізу наукових даних використовуються такі технічні мож- ливості: • метадані та стандарти метаданих, які забезпечують розуміння даних одночасно людьми і програмами та дозволяють відстежувати походження даних; • інструментальні засоби аналізу, які полегшують ученим процедури формування запитів і розуміння відповідей на них; • паралельний доступ до даних, який підтримується новими індексни- ми схемами та новими алгоритмами, і який дозволяє в інтерактивному ре- жимі досліджувати петабайтні набори даних. Для забезпечення простого доступу до даних, їх взаємообміну й інтег- рації необхідно перейти до використання метаданих, або інформації про да- ні, наприклад, вимірювані атрибути, їх імена, одиниці виміру, точність, фор- мат даних тощо. Найважливішим є те, що метадані включають інформацію про походження даних — як дані вимірювалися, генерувалися або обчислю- валися. Бажано, щоб більшість із цих метаданих мала б генеруватися та ви- користовуватися автоматично, при цьому знижувати інтелектуальне наван- таження на вченого. Наявність добротних метаданих стає основною умовою спільного використання даних у різних наукових дисциплінах і для різних засобів аналізу та візуалізації даних. Майже в кожній дисципліні нині ведуться роботи зі створення онтоло- гії (званою також керованим словником). Це значно полегшує побудову ін- струментальних засобів, оскільки загальна згода щодо базових понять до- помагає під час розробки засобів аналізу. Онтології, що використовуються комп’ютерами, допомагають побудувати семантичний веб, в якому додатки є сумісними на семантичному рівні, а не тільки синтаксично сумісними, як це реалізовано сьогодні під час використання поточного покоління веб- сервісів на основі інтерфейсів, що типізуються. Для реалізації елементарної семантичної алгебри може використовуватися SQL (Structured Query Language — мова структурованих запитів ). Використання XML в сучасних системах управління базами даних (СУБД) відкриває двері для існуючих стандартів RDF та OWL (Web Ontology Language — мова опису онтологій для семантичного веб) [8]. Семантичні веб-технології можуть бути використані для: • інтеграції даних, за допомогою якої дані з різних сховищ і різними форматами можуть бути застосовані в одному цілісному додатку; • відкриття ресурсів і їх класифікації, щоб забезпечити кращу роботу систем пошуку даних; • каталогізації опису контенту та змістових зв’язків даних, доступних на веб-сайті, сторінці або цифровій бібліотеці; • підтримки інтелектуальних агентів програмного забезпечення з ме- тою полегшення спільного використання й обміну знаннями; • оцінки контенту; • опису колекцій сторінок, які являють єдиний логічний «документ»; М.З. Згуровський, А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2012, № 2 14 • опису інтелектуальних прав власності веб-сторінок. Семантичний веб-портал призначається для користувачів і забезпечує авторизований доступ певної групи користувачів до специфічних інформа- ційних ресурсів: баз даних, електронних архівів, програм тощо. Важливою функцією порталу є також організація взаємодії користувачів, наприклад, з ншими користувачами в складі проектної команди або віртуальної органі- зації. Важлива також функція візуалізації, успіх якої визначається можли- вістю відображення запиту, сформульованого в концептуальному середо- вищі онтології предметної області, в запит(и) сервера аналізу (мета) даних. Завдання на сьогодні: створити додаткові важливі інформаційні сервіси та надати можливість користувачеві об’єднувати дані більше, ніж з одного джерела інформації, поєднувати функціональності різних програмних ін- терфейсів. ДОВГОСТРОКОВЕ ЗБЕРЕЖЕННЯ ДАНИХ Для того, щоб дослідники в майбутньому могли використовувати дані, ство- рені зараз, необхідне тривале їх збереження. Потрібний не лише менедж- мент нових даних, але і дані, які створені в минулому, потребують також відповідного упорядкування та збереження. Перш за все, необхідні метадані, щоб надати дослідникам можливість зрозуміти дані, використовувати їх ба- гато разів і повторювати, якщо потрібно, роботу колег. Наприклад, тривале збереження даних дуже важливе в галузі елект- ронної медицини. Ніхто не знає під час формування записів, скільки разів і коли вони знадобляться, тому спеціальні пошукові системи мають бути впроваджені для забезпечення майбутньої доступності та сумісності даних, що архівуються, з новими даними. Дуже важливо забезпечити безпеку цих записів. У разі електронних медичних записів лікарі, лікарні, страхові ком- панії і самі пацієнти, можливо, вимагатимуть доступу до них протягом десятиліть у майбутньому. Крім того, вони, можливо, будуть використані представниками різних країн з різними правилами, які можуть змінюва- тися в часі. Еволюція технологій така, що програми, які були використані для ство- рення інформації, імовірно, не будуть доступні в майбутньому для тих, хто побажає вивчити дані, що були архівовані. Можливе рішення полягає в збе- реженні даних в інваріантному для часу способі, наприклад, за допомогою мови XML, яка є набором правил для шифрування документів електронним засобом. У галузі збереження даних бібліотеки та репозитарії можуть відігравати ключову роль. Бібліотекарі мають довгу історію підтримки записів, і могли б використовувати ці навики, щоб допомагати розповсюджувати і за- пам’ятовувати дані. Надаючи цю відповідальність централізованому обслу- говуванню, дослідники мають бути впевнені, що дані запам’ятовуються, доступні та використовуються надійним сталим засобом для багатьох різних дисциплін. В Європі, наприклад, EC забезпечує доступ до інформації, що зберігається європейськими бібліотеками, архівами, музеями й аудіові- зуальними архівами через Digital Libraries Initiative (Ініціативу цифрових бібліотек) [9]. Оброблення наукових даних в умовах інформаційного «буму» Системні дослідження та інформаційні технології, 2012, № 2 15 Відпрацьована та поширена сьогодні реляційна база даних нікуди не зникне, але скоро з’являться інші види баз даних, наприклад, потокові. Це означатиме істотний відхід від того, що ІТ відділи та ділові користувачі ви- користовували протягом десятиліть. Потрібне впровадження нового покоління об’єктно-реляційних систем баз даних, які сприймають будь-який тип даних (чи то звичайне число, ма- сив, рядок символів або складений об’єкт, такий як XML або HTML- документ) як інкапсульований тип, значення якого можуть зберігатися в по- лі запису. Такі системи баз даних забезпечують потужний асоціативний по- шук (пошук за значенням, а не за місцем розташування), а також автоматич- ний паралельний доступ і виконання, що істотно для аналізу петабайтних даних. Розглянуті системи приховують поняття файла (він є всього лише контейнером даних) і працюють із колекціями даних. Вони забезпечують непроцедурний і паралельний пошук даних для швидкого знаходження під- наборів даних і можуть утворювати федеральні об’єднання багатьох різних джерел даних, дозволяючи програмам бачити їх як єдину колекцію даних. Вони також дозволяють програмам спиратися на будь-які атрибути даних. Можна розглядати NetCDF, HDF, FITS та Google Map-Reduce (Map & Reduce — модель распределених обчислень компанії Google) як приклади таких систем баз даних, що зароджуються: у них є мова для визначення ме- таданих, декілька стратегій індексування та проста мова маніпулювання да- ними, наробки непроцедурного і паралельного програмування, набір засобів для створення, доступу, пошуку та візуалізації даних. ЗНАННЯ З ДАНИХ Нині наукова громадськість орієнтується на створення потужних інтелек- туальних засобів оброблення даних вільного використання у вигляді веб- сервісів, що полегшують фіксацію, організацію, аналіз, візуалізацію та публікацію даних. Ці засоби мають здійснювати інтелектуальний аналіз да- них (Data mining) і навчати користувачів на основі цих даних (machine learning — машинне навчання). При цьому налаштування їх на аналіз конк- ретних даних здійснювалося б простою зміною скриптів, що описують по- токи робіт з аналізу даних. Це нова технологія інтелектуального аналізу да- них з метою виявлення прихованих закономірностей у вигляді вагомих особливостей, кореляцій, тенденцій та шаблонів. Сучасні системи вилучен- ня знань із «сирих» даних, що використовують, засновані на методах штуч- ного інтелекту, засобів уявлення й інтерпретації, це полегшує пошук роз- чиненої в петабайтних сховищах цінної інформації. В основу технології Data Mining встановлена концепція шаблонів (pattern), що відображають фрагменти багатоаспектних взаємостосунків у даних. Цими шаблонами є закономірності, властиві підрозділам даних, які можуть бути компактно ви- ражені у формі, яка зрозуміла людині. Пошук шаблонів проводиться мето- дами, не обмеженими апріорними припущенями про структуру вибірки і вид розподілів значень аналізованих показників. М.З. Згуровський, А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2012, № 2 16 Для автоматизації цих засобів важливо мати якісні метадані. Збережен- ня та поповнення цих даних в процесі обробки (походження даних) складуть основну перевагу інструментальних засобів наступного покоління. ІТ фахівцям потрібно тісніше працювати з науковцями, щоб визначити, де аналітичні дослідження можуть бути фактично посилені, і де передбача- ється належне поєднання послуг, щоб оптимізувати можливості аналітики в підприємстві в цілому. ПОШУК ДАНИХ Виявлення необхідної інформації ускладнюється з появою петабайтних на- борів даних. Для того, щоб керувати своїми розподіленими наборами даних, багато наукових організацій адаптують для своїх потреб SRВ (Storage Resource Broker — брокер ресурсів збереження), розроблений у супер- комп’ютерному центрі в Сан-Дієго [10]. SRB — це проміжне програмне за- безпечення, завданням якого є об’єднання наборів розподілених даних та представлення цих наборів користувачу як цільних та логічно зв’язаних. Ін- дексація та отримання даних, що збережені під керуванням SRB, виконуєть- ся за допомогою каталогу метаданих MCAT, який надає користувачеві мож- ливість отримувати доступ до даних із використанням атрибутів логічних імен, а не посилань на конкретні місця розміщення тощо. Хоча такий підхід забезпечує гнучкість, але він стикається з труднощами функціональної суміс- ності у випадках виконання пошукових операцій на розподіленій множині даних, різні частини якої використовують різні користувацькі розширення метаданих. Оскільки SRB використовується багатьма організаціями різного профілю, кожна із них сформувала власний набір мета даних, властивий конкретній галузі, а поточні механізми пошуку використовують певні клю- чові слова. Для вирішення проблеми сумісності необхідно мати детальні відомості щодо структури всіх метаданих та словників, які використано в системі. Нещодавно зроблено спробу покращити SRB через онтологічні описи для підтримки довільних схем метаданих та посилення таким чином пошукових можливостей. Здатність робити логічний висновок, використовую- чи інформацію із онтологій щодо відносин, дозволяє семантичним пошуко- вим системам долати багато з недоліків, які пов’язані з існуючими методами пошуку. Можливість формального опису взаємовідносин між різними схе- мами метаданих в онтології дозволяє використовувати її як посередника для об’єднання гетерогенних мультидисциплінарних репозиторіїв даних. Інтеграція семантичної складової у систему зберігання даних полегшує також її застосування разом із різноманітними Грід-сервісами. Сенс запро- понованого рішення полягає у створенні розширення до SRB, що реалізовує семантичний шар над існуючим інструментарієм. Інтерфейс системи дозво- ляє завантажити додаткові користувацькі онтології і це розширення є неза- лежним від основного ядра SRB, тому немає необхідності в перекомпіляції існуючих інсталяцій. Створений таким чином додаток потребує більше часу на свою роботу, що пов’язано із проведенням логічного висновку та аналі- Оброблення наукових даних в умовах інформаційного «буму» Системні дослідження та інформаційні технології, 2012, № 2 17 зом завантажених онтологій, при чому швидкодія пошуку залежить від вжи- ваних механізмів логічних висновків. В цілому, інтеграція семантичної складової дозволила покращити якість та обсяг пошукових результатів системи. МЕРЕЖА ЦЕНТРІВ НАУКОВИХ ДАНИХ За наявності петабайтних наборів даних необхідно впроваджувати новий стиль роботи наукових центрів даних. Сьогодні у більшості випадків учений копіює файли на локальний сервер і оперує наборами даних із використан- ням своїх власних ресурсів. Проте все частіше набори даних є настільки ве- ликими, а прикладні програми настільки складними, що економніше переміс- тити програми до даних і передавати в наукові центри тільки запити користувачів та отримувати на них відповіді, а не переміщати початкові дані і додатки в локальну систему користувача. Розподіл даних і програм є штучним: ніхто не може побачити дані без використання програм, а біль- шість програм, у свою чергу, керується даними. Передбачається реплікація даних центрами даних у різних географіч- них місцях, що забезпечить доступність даних і запобіжить їх втраті. По- шкоджені дані автоматично відновлюватимуться на основі запасних копій без переривання доступу до бази даних. Для роботи з петабайтними набора- ми даних вимагаються величезні масиви пам’яті і тисячі обчислювальних вузлів, що сьогодні найефективніше забезпечується Грід або хмарними об- числювальними інфраструктурами. Варто забезпечити дієву співпрацю та сумісність даних Наукових центрів різної підлеглості: як системи 53-ьох Світових центрів даних (World Data Centers — WDC), підлеглих ICSU (International Council of Scientific and Technical Information — Міжнародний комітет із наукової та технічної інфо- рмації), так і центрів, об’єднаних за федеральним принципом: центрів SDSS, NCBI (National Center for Biotechnology Information — Національний центр біотехнологічної інформації), NSIDC (National Snow and Ice Data Center — Національний центр снігових і льодових даних), MMPDN (Materials Properties Data Network — мережа даних про властивості матеріалів), Euro VO Data Centre Alliance (Європейський альянс центрів даних про віртуальні організації), AIMS Data Centre (Азійський центр даних), Databases of the European Institute for Environment and Sustainability (база даних Європейсь- кого інституту зовнішнього середовища і сталого розвитку), Google’s Palimpsest (бібліотека наукових даних компанії Google) та ін. Це дозволить організувати одночасний пошук даних у семантично об’єднаних базах цих різних центрів за допомогою Грід-сервісів для різних галузей науки і техні- ки (фізики, хімії, біології, геофізики). ПЛАТФОРМИ ВИЗНАЧАЮТЬСЯ ДАНИМИ Настав час, коли архітектура платформи оброблення буде вибратися за умо- ви впорання з величезними обсягами даних і складністю управління, а не М.З. Згуровський, А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2012, № 2 18 з умов здатності підтримувати конкретні додатки (застосування). Тобто, ІТ і наукові лідери починають змінювати свою орієнтацію на вибір платформ даних: від монолітних систем з центральними серверами для обслуговуван- ня до розподілених сервісно-орієнтованих систем, в яких додатки склада- ються з композиції окремих веб-сервісів, що можуть бути повторно вико- ристовувані й за межами підприємства. Таким чином, прикладні послуги стають утилітами. При цьому передбачається еволюція також засобів, якими науковці ведуть дослідження, формулюючи нові виклики і можливості для ІТ. Стане ціннішою інформація для наукових структур, яку індивідууми розміщують у соціальних мережах, ніж традиційна й ізольована інформація, яку можна отримати від реєстрації індивідуумів на корпоративних веб- сайтах. Центр тяжіння буде зміщуватися від звичних рішень для комп’ютерних систем до розвитку хмарних інфраструктур, які забезпечать збільшену функціональність і гнучкість, використовуючи змішування суспільних і приватних хмарних застосувань і платформи сервісів. Необхідно передбачи- ти поступовий перехід до використання хмарних обчислювальних ресурсів, коли веб- і Грід-сервіси (а також Data Mining) перемістяться до SaaS (Software as a Service — програмне забезпечення як сервіс), засоби розпо- ділення та підтримки наукових даних і ресурсів до PaaS (Platform as a Service — платформа як сервіс) і наукові центри безпосередньо до IaaS (Infrastructure as a Service — інфраструктура як сервіс). ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ ВИЩОГО РІВНЯ У ВИГЛЯДІ СЕРВІСІВ Завдяки програмним сервісам програмісти мають змогу зосередитись на то- му, аби зробити їх функціональнішими із більшою ефективністю, гнучкістю, скоріше просувати їх до впровадження і ринку, також співпрацювати з предметними експертами. Далі ці сервіси стандартизуються і стають час- тиною застосування для вибраної прикладної платформи. Висока пропускна спроможність підключення до Інтернет і наявність стандартів дозволить програмним сервісам слугувати структурними блоками під час формування мережевих застосувань вищого рівня. ТЕНДЕНЦІЇ РОЗВИТКУ ІТ ПЛАТФОРМ Можна виділити декілька тенденцій, що характеризують сучасний прогрес у розвитку засобів ІТ: 1. Прогрес в інформаційних технологіях триває, збільшуючи темп по- рівняно з минулими роками. Нові технології збереження даних з надзвичайно високими щільністю та швидкістю доступу, зростаюча пропускна спроможність оптичних ліній і сучасні нанотранзистори, забезпечують це зростання. Уже на сьогодні функціонують декілька суперкомп’ютерів із обчислювальною спроможніс- тю, яка перевищує 10 петафлопс (1 Петафлопс = 1015 операцій за секунду). Хоча в наступному десятилітті очікуються проявлення істотних бар’єрів для майбутнього прогресу в багатьох галузях, які пов’язані з фізичними основа- Оброблення наукових даних в умовах інформаційного «буму» Системні дослідження та інформаційні технології, 2012, № 2 19 ми сучасних технологій, але історія ІТ показала, що завжди знаходяться нові технології, які долають ці обмеження. Цікаві можливості відкриваються у зв’язку з винайденням плівки (електронного паперу), на який можна виводити зображення. Це призведе до того, що монітори почнуть нестримно поширюватися і станеться розрив між пристроєм, через який надходить інформація, умовно кажучи, систем- ним блоком, і монітором. Зараз ведуться активні дослідження безпровідного інтерфейсу між пристроєм та монітором, оскільки передбачається, що такі монітори будуть скрізь і користувачі зможуть під’єднуватися до ближчого та зручнішого у використанні. Під’єднання може виконуватися за допомо- гою мережі LTE (Long Term Evolution — назва 4G технології мобільної пе- редачі даних), яка на відміну від Wi–Fi може забезпечити швидкість пере- дачі до 300 Мбіт/c у повітрі. 2. Розподілені обчислення скрізь змінюють взаємодію людей і об’єктів із цифровим світом, роблячи персональні пристрої домінуючим засобом ін- формаційного доступу. Перша хвиля такої взаємодії відбулася в 1980-ті рр. і зв’язала людей академічного та бізнесового суспільств електронною поштою. Друга хвиля (1990-ті рр.) дозволила науковим структурам і зростаючій кількості людей взаємодіяти через електронну пошту, мережеві браузери і засоби співпраці, засновані на Інтернет. Третя хвиля взаємодії (2000-і рр.) поєднувала штучне інтелектуальне окілля з різних об’єктів, щоденних речей і безлічі задавачів, які підключені до цифрового світу й інтегруючих ІТ, з особистою і діловою активністю людини. Четверта хвиля, що тільки розпочинається, передбачає використання природних засобів взаємодії, притаманних людям, не тільки через звичайну мову, але і мову жестів (положення тіла, пильний погляд, ручні рухи), щоб виказати свою емоцію, настрій, відношення й увагу (Multimodal Human computer interaction — багатомодальна взаємодія лю- дини з комп’ютером), а також використання інтерфейсу, що керується кон- тентом. 3. Застосування ІТ у майбутньому буде динамічним, адаптивним і таким, що постійно оптимізується, а також залежать від потужної ділової аналітики й управління знаннями для виживання. Обсяги даних та інформації збільшилися не лише завдяки науковому інструментарію й автоматизації моделювання об’єктів і процесів, але й завдяки електронній комерції та автоматизації бізнесових процесів (наприклад, ERP (Enterprise Resource Planning — планування ресурсів під- приємства), SCM (Supply Chain Management — системи управління ланцю- гами поставок), CRM (Customer Relationship Management — управління взає- мовідношеннями з клієнтами)). В умовах високої конкурентоздатності тільки організації із адаптивною структурою, які здатні опрацювати ці дані, зможуть вижити та розвиватися. Досконале управління й аналіз даних дозволять успішним підприємствам швидко та гнучко реагувати на ринкові події (розпізнавати їх і реагувати). Наприклад, ланцюги статичного поста- чання сьогодні будуть замінені динамічною торгівлею на електронних біз- несових ринках. М.З. Згуровський, А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2012, № 2 20 4. Майбутнє ІТ-технологій пов’язане з персональними хмарними об- численнями. Хмарні обчислення — модель зручного за вимогою мережевого досту- пу до розподіленої конфігуруємої множини обчислювальних ресурсів (ме- реж, серверів VM (Virtual Machine — віртуальна машина), сховищ, додатків і сервісів), які можуть швидко обиратися та змінюватися з мінімальними менеджерськими зусиллями, або з мінімальною взаємодією з постачальни- ками послуг (рис. 4). Хмарні обчислення характеризуються п’ятьма істотними властивостя- ми (самообслуговуванням за бажанням, широкосмуговим мережевим досту- пом, пошуком і об’єднанням ресурсів, суттєвою гнучкістю, оцінюванням послуг); трьома згаданими вище сервісними моделями SaaS, PaaS, IaaS і чо- тирма моделями розгортання (приватна Хмара, громадська Хмара, соціальна Хмара, гібридна Хмара). Ключові базові технології включають: швидкі гло- бальні мережі, потужні, недорогі серверні комп’ютери, і високопродуктивну серверну віртуалізацію для технічного забезпечення. Хмарна обчислювальна модель обіцяє значну економію витрат, які по- єднані зі зростаючим застосуванням ІТ. Переконливим є те, що уряди та промисловість починають користуватися цією технологію в умовах ниніш- ніх економічних труднощів. При цьому хмарні обчислення підтримують ба- гато традиційних підходів до організації наукових центрів даних і проекту- ванню програмних додатків для підприємств і менеджменту. Хмарні обчислення зараз починають використовуватися, проте досі невирішені повністю питання безпеки, сумісності та гнучкості, що гальмує ширше застосування. ХМАРНІ ТА ГРІД ОБЧИСЛЕННЯ ДЛЯ Е-НАУКИ Хмарні та Грід обчислення розвиваються паралельно і використовуються в сучасній е-інфраструктурі суспільства. Дослідження зв’язків між ними і тенденціями їх розвитку дозволяють краще організувати розподілені об- числення в академічних і комерційних е-інфраструктурах, об’єднуючи мож- ливості цих двох існуючих сьогодні важливих парадигм. Грід є об’єднанням комп’ютерів, які зазвичай належать різним власни- кам і географічно розподілені, але користувачі можуть розділяти доступ до Рис. 4. Користувач у сервісно-орієнтованому середовищі Оброблення наукових даних в умовах інформаційного «буму» Системні дослідження та інформаційні технології, 2012, № 2 21 цих об’єднаних ресурсів. Прикладами можуть бути е-інфраструктури EGEE (Enabling Grids for E-sciencE — Грід-інфраструктура для наукових до- сліджень в Європі) в Європі та OSG (Open Science Grid — відкритий науко- вий Грід) у США. Хмара є об’єднанням комп’ютерів, які належать одному власнику, але при цьому користувачі можуть орендувати доступ до цих ресурсів, що роз- діляються. Прикладами можуть бути Amazon’s Elastic Compute Cloud (веб- сервіс, який надає обчислювальні потужності в Хмарі і належить компанії Amazon). Google’s App. Engine (сервіс хостингу сайтів і web-додатків на сер- верах Google з безкоштовним ім’ям), IBM’s Enterprise Data Centre (центр даних підприємтва компанії ІБМ). Грід і Хмари мають такі спільні ознаки: вони забезпечують доступ до відділених комп’ютерних ресурсів і забезпечують сервіси для користувачів. Грід на сьогодні є досить поширеною формою організації розподілених обчислень, яка виникла з ініціативи наукової спільноти фізиків і стала звич- ною для інших галузей е-науки (концепція сформована у 1997 р., а Грід- система EGEE побудована в 2004 р.). Навпаки, Хмари знаходяться зараз на експериментальному етапі розвитку (виникли в 2007 р.) і їх послуги пропо- нуються лише декількома провідними ІТ-компаніями. Послуги Грід як фор- ми співпраці науковців часто можуть бути безкоштовними, у той час, як Хмари надають лише комерційні послуги. Крім того, Грід концентрується на забезпеченні доступу до різних ресурсів багатьох сайтів, а Хмара розра- хована на надання ресурсів із обчислень і пам’яті на замовлення. Хмарні обчислення довели свою перевагу в ефективності та спрощенні обслуговування у випадках, коли користувачу потрібен доступ до сконцент- рованих однорідних ресурсів. Але специфічні ІТ вимоги наукової спільноти (перш за все, з можливості співпраці) виправдовують подальше існування Грід-інфраструктур, тому що існуючі зараз комерційні Хмари ще не в змозі підтримувати складні сценарії спільних досліджень, які потребують нау- ковці. Схожі і відмінні ознаки Грід і Хмари подані в табл. 2. Звичайно, слід очікувати подальший розвиток хмарних послуг. Але Грід, що розвивається колективно науковою громадою, у своїх послугах, здається, буде завжди випереджати послуги Amazon та Google та ін., тому що науковці добре розуміють, що їм потрібно, і концентрують свої зусилля на оперативному задоволенні своїх потреб в інтересах розвитку науки. Природно постає питання про доцільність і можливість об’єднання Грід- і хмарних сервісів, і про можливі здобутки від цього для різних галу- зей науки, починаючи з ядерної фізики та закінчуючи генною інженерією. Очікуються, що такі здобутки будуть корисними як для користувачів (зменшення коштовності та тривалості обчислень), так і для провайдерів (зменшення операційних витрат на підтримку функціонування Грід-сайтів). Хмари можуть успішно використовуватися як локальні ресурси, а Грід об’єднувати ці ресурси в національні е-інфраструктури. Тому доцільно до- слідити наслідки використання хмарних технологій (наприклад віртуаліза- ції) в існуючих Грід-інфраструктурах, з одного боку, і можливості побудови Грід-сервісів поверх віртуальних інфраструктур, з іншого. М.З. Згуровський, А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2012, № 2 22 Т а б л и ц я 2 . Схожість і розбіжність Грід і Хмари Ознака Грід (наприклад EGEE) Хмара (наприклад Amazon) Призна- чення Забезпечує доступ до обчислюваль- них ресурсів і пам’яті, що спільно використовуються з комп’ютера користувача Забезпечує доступ до обчислювальних ресурсів і пам’яті, що орендуються з комп’ютера користувача Провайдери Спільнота дослідницьких інститутів і університетів по всьому світі Великі індустріальні компанії Користувачі • Спільнота вчених • Віртуальні організації, складені вченими, які розміщені по всьому світу • Малі та середні комерційні фірми • Учені, яким потрібні великі обчис- лювальні потужності Платники за послуги Державні провайдери та наукові організації, які отримають громадсь- кі гранти Провайдери Хмари сплачують за комп’ютерні ресурси, а користувачі — за їх оренду Розташу- вання В обчислювальних центрах, розподі- лених за різними сайтами, країнами і континентами У приватних центрах даних провайдерів Хмар, які часто централізовані Функціону- вання Грід є відкритою технологією. Корис- тувач і провайдер можуть приймати участь у менеджменті Грід-системи Хмара є приватною технологією. Тільки провайдер ресурсів знає точно, як в його Хмарі здійснюється менеджмент даних, обслуговування черг, організовано за- хист даних тощо Причини викорис- тання • Немає потреби створювати та підтримувати свій власний комп’ю- терний центр. • Можна виконати більший обсяг робіт і вирішити складніші задачі. • Можна обмінюватися даними з членами вашої розподіленої команди • Немає потреби створювати і підтри- мувати свій власний комп’ютерний центр. • Можна швидко отримати додаткові ресурси під час роботи Корисність Грід-системи було впроваджено для вирішення безлічі задач із обмеже- ним часом виконання, які потребу- ють або вироблять великі обсяги даних Хмари краще підтримають довгостроко- ві сервіси і задачі зі значним часом ви- конання Переваги Співпраця: Грід надає платформу для розподіленої співпраці вчених. Власність: провайдери ресурсів збе- рігають власність на ресурси, які вони внесли в Грід. Прозорість: Грід-технології є від- критими, що посилює довіру та ро- бить процеси прозорими. Пружність: Грід-систему розміщено на багатьох сайтах, що зменшує ри- зик у випадку відмови одного з сай- тів Гучність: користувач може швидко збіль- шити ресурси, потрібні йому для забез- печення піку активності, без довгого погодження й очікування. Надійність: провайдер ресурсів бере на себе фінансові зобов’язання із забезпе- чення якості послуги, що надається (на- приклад, Amazon повертає користувачу частково кошти, якщо обсяг послуги знизиться на 99,9 %). Простота використання: користувач може порівняно просто та швидко поча- ти вирішувати свої задачі Недоліки Надійність: Грід базується на мно- жині розподілених сервісів, які під- тримуються розподіленим персона- лом, що може призводити до їх неузгодженості. Складність: будувати й експлуату- вати Грід складно, тому користувач повинен мати певний рівень досвіду Загальність: Хмари не пропонують багатьох високорівневих сервісів, які притаманні Грід. Безпека: користувач з цінними даними може не довіряти їх зовнішньому про- вайдеру. Непрозорість: технології, що викорис- товуються в Хмарах для гарантії надій- ності та безпеки, не є публічними. Жорсткість: Хмара зазвичай розміщу- ється на одному сайті, що збільшує ри- зик виходу з ладу всієї системи Оброблення наукових даних в умовах інформаційного «буму» Системні дослідження та інформаційні технології, 2012, № 2 23 ЄВРОПЕЙСЬКІ ІНІЦІАТИВИ Для науки про інтенсивні дані (Data Intensive Sciences — науки з інтенсив- ним використанням даних), на жаль, поки що немає жодних Європейських проектів, подібно тим, що мають місце в галузях мережевих технологій, ви- сокопродуктивних обчислень і Грід та хмарних технологій. Тому e-IRG (e- Infrastructure Reflection Group — група супроводження е-інфраструктур) ви- рішила разом з ESFRI (European Strategy Forum on Research Infrastructures — Європейський форум стратегічного розвитку наукових інфраструктур) ство- рити групу спеціального призначення, щоб узагальнити численні Євро- пейські ініціативи, які пов’язані з менеджментом наукових даних, і сприяти визначенню загальних принципів і практик у цій галузі. Звіти е-IRG [13] підкреслюють важливість метаданих у допомозі полегшити довгострокове збереження даних і рекомендують постійно (незмінне у часі) сприяття схо- вищам збережених даних. Програми PARADE (Partnership for Advanced Data in Europe — співпраця для важливих даних у Європі) та GRL2020 (Global Research Library 2020 — бібліотека глобальних досліджень 2020) також під- тримають такі заклики [14]. Біла книга PARADE [15] призвала до широкої співпраці з менеджменту даними для допомоги в їх збереженні й оброблен- ні. Програма GRL2020 прийшла до подібного висновку, запропонувавши Європейським державам працювати разом, щоб розвивати інструменти та методи для довгострокового збереження даних. Європейська Комісія розпочала низку проектів: від METAFOR, який пов’язаний із даними зі зміни клімату, до IMPACT, що досліджує структури протеїнів, які охоплюють оброблення наукових даних в європейській e- інфраструктурі e-IRG. У кінці 2009 р. було опубліковано звіт e-IRG, що міс- тить рекомендації щодо стану та майбутнього цієї інфраструктури, а саме: • переконати дослідників приводити описи метаданих, їх потрібно створювати одночасно з даними і вони мають бути з доступними для поста- чальників ресурсів і послуг; • поліпшити доступ до наборів даних, враховуючи зв’язки з оригі- нальними матеріалами дослідження та джерелами походження; • заохочувати до створення міждисциплінарних і неспецифічних для вибраної дисципліни даних; • підтримувати комунікацію та співпрацю між виробниками даних (для кращої сумісності і багатократного використання рішень) та інфра- структурою; • скоординувати європейські міжнародні зусилля з отримання техніч- них, організаційних і політичних вимог для побудови екосистем глобаль- ної інфраструктури наукових даних (GRDIs — Global Research Data Infrastructures), оскільки сьогодні швидко зростаюча кількість наукових да- них архівуються в розподілених сховищах, при чому кожен із них має спе- цифічний доступ і технології управління, використовує різні формати фай- лів та інструменти метаданих. Європейська Комісія також приділяє велику увагу розвитку хмарних технологій в Європі, хоч поки в Європі (на відміну від США) немає поста- чальників хмарних обчислень [18]. М.З. Згуровський, А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2012, № 2 24 ВИСНОВКИ Доступ до інформації взагалі та до наукових даних зокрема критичний до безперервного наукового та технологічного прогресу. Після обговорення різноманітних інформаційних вимог і тенденцій розвитку ІТ можна зробити такі висновки: • сучасні інформаційні ресурси та механізми їх використання мають враховувати постійно наростаючий «інформаційний бум», завдяки чому щороку обсяги наукових даних майже подвоюються; • зараз йдеться про обробку петабайтних наборів даних, що потребує розроблення інтелектуальних методів організації даних для скорочення об- сягу пошуку, паралельної обробки та доступу до даних під час пошуку у величезних наборах; • за наявності петабайтних наборів даних вимагається нова методо- логія роботи наукових центрів, яка передбачає переміщення прикладних програм до даних і передачу в наукові центри тільки запитів і отримання відповіді, а не переміщення початкових даних і додатків у локальну систему користувача; • для роботи з петабайтними наборами даних вимагаються величезні масиви пам’яті та тисячі обчислювальних вузлів, що сьогодні найефектив- ніше забезпечуються Грід- або хмарними обчислювальними інфраструкту- рами; • для забезпечення простого доступу до даних, їх взаємообміну й ін- теграції необхідно перейти до використання метаданих, або самоописів, а також онтологій, які забезпечують розуміння даних як інструментальними засобами, так і людьми; • нині платформа оброблення даних визначається більше самими даними, а її архітектуру орієнтовано на сервіси, з яких процедурою компо- зиції можна за бажанням користувача складати прикладні додатки оброб- лення даних. Серед головних принципів такої SOA (Service-Oriented Architecture — сервісно-орієнтована архітектура) виокремлюють такі: мак- симальне повторне використання, модульність, здатність до поєднання (композиції), функціональна сумісність, відповідність стандартам; • бажано об’єднати можливості хмарних і Грід-обчислень для поси- лення засобів е-науки. Важливо в наступні роки забезпечити можливість збереження постійно зростаючих обсягів даних, зробити їх ефективно керованими і доступними для спільного використання, надати вченим ефективні розподілені засоби інтелектуальної обробки даних. ЛІТЕРАТУРА 1. Martin Hilbert, Priscila López. The World’s Technological Capacity to Store, Communicate, and Compute Information, 10 February, 2011. — www.sciencexpress.org / 10 February 2011 / Page 5 / 10.1126/science.1200970. 2. Accenture Technology Vision 2011. — The Technology Waves That Are Reshaping the Business Landscape. — www.accenture.com/us-en/technology/technology- labs/Pages/insight-accenture-technology-vision-2011.aspx. Оброблення наукових даних в умовах інформаційного «буму» Системні дослідження та інформаційні технології, 2012, № 2 25 3. WLCG. — http://lcg.web.cern.ch/lcg/. 4. GEOSS. — www.epa.gov/geoss/. 5. EISCAT. — www.eiscat.uit.no/index.html. 6. CODATA. — www.codata.org/. 7. DSA. — www.datasealofapproval.org/. 8. David R. Lide.The impact of information technology on the access to science. — http://archive.unu.edu/unupress/unupbooks/uu07ee/uu07ee05.htm. 9. Digital Libraries Initiative. — http://ec.europa.eu/information_society/activities/ digital_libraries/index_en.htm. 10. SRB (Storage Resource Broker). — www.sdsc.edu/srb/index.php/What_is_the_ SRB. 11. Paul Horn. The Future of Information Technology (ppt),University of Colorado, 14 September, 2000. — www.cs.colorado.edu/events/lectures/horn/horn.pdf. 12. Jason Hiner. The future of IT jobs? It’s in three types of roles, 26 July, 2011. — www.techrepublic.com/blog/hiner/the-future-of-it-will-be-reduced-to-three-kinds -of-jobs/8717. 13. e-IRG. — www.e-irg.eu. 14. The Fourth Paradigm: Data-Intensive Scientific Discovery. — www.fourthparadigm. org. 15. PARADE. — www.csc.fi/english/pages/parade. 16. GRDI2020. — www.grdi2020.eu. 17. ESFRI. — http://ec.europa.eu/research/infrastructures/index_en.cfm?pg=esfri. 18. European Commission, The future of Cloud computing: opportunitied for European 19. Cloud computing beyond. — 2010. — www.cordis.europa.eu/fp7/ict/ssai/docs /cloud-report-final.pdf. Надійшла 13.02.2012
id journaliasakpiua-article-71923
institution System research and information technologies
keywords_txt_mv keywords
language Ukrainian
last_indexed 2025-07-17T10:20:19Z
publishDate 2012
publisher The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
record_format ojs
resource_txt_mv journaliasakpiua/c1/4fd9db569f2a8c61a7d2a6b5573d28c1.pdf
spelling journaliasakpiua-article-719232018-03-30T15:05:06Z Processing of scientific data in the conditions of the information "boom" Обработка научных данных в условиях информационного "бума" Оброблення наукових даних в умовах інформаційного "буму" Zgurovsky, M. Z. Petrenko, A. I. Modern science (е-science) is based on treatment of potentially enormous volumes of information. Tendencies and prospects of information technologies development in the conditions of information "boom", which embrace the question of providing data quality and compatibility, metadata and data semantics usage, long-term data maintenance, intellectual processing of data (Data Mining), data search in existent sources taking into account the heterogeneity of these resources, data influence on choice of the platform and its service-oriented architecture, Grid and Cloud Integration Opportunities and also European initiatives on this subjects, are considered. Современная наука (е-наука) базируется на обработке потенциально огромных объемов информации. Рассмотрены тенденции и перспективы развития е-наука в условиях информационного "бума", которые охватывают вопросы обеспечения качества и совместимости данных, использования метаданных и семантики данных, долгосрочного их сохранения, интеллектуальной обработки и поиска данных в существующих источниках, влияния данных на выбор платформы и ее сервисно-ориентированной архитектуры, перспективы объединения Грид и облачных вычислений, а также европейские инициативы по этой тематике. Сучасна наука (е-наука) базується на обробленні потенційно величезних обсягів інформації. Розглянуто тенденції та перспективи розвитку е-науки в умовах інформаційного "буму", які охоплюють питання забезпечення якості та сумісності даних, використання метаданих і семантики даних, довгострокового їх збереження, інтелектуального оброблення та пошуку даних в існуючих джерелах, впливу даних на вибір платформи й її сервісно-орієнтованої архітектури, перспективи об’єднання Грід і хмарних обчислень, а також європейські ініціативи з цієї тематики. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2012-06-27 Article Article application/pdf https://journal.iasa.kpi.ua/article/view/71923 System research and information technologies; No. 2 (2012); 7-25 Системные исследования и информационные технологии; № 2 (2012); 7-25 Системні дослідження та інформаційні технології; № 2 (2012); 7-25 2308-8893 1681-6048 uk https://journal.iasa.kpi.ua/article/view/71923/66901 Copyright (c) 2021 System research and information technologies
spellingShingle Zgurovsky, M. Z.
Petrenko, A. I.
Оброблення наукових даних в умовах інформаційного "буму"
title Оброблення наукових даних в умовах інформаційного "буму"
title_alt Processing of scientific data in the conditions of the information "boom"
Обработка научных данных в условиях информационного "бума"
title_full Оброблення наукових даних в умовах інформаційного "буму"
title_fullStr Оброблення наукових даних в умовах інформаційного "буму"
title_full_unstemmed Оброблення наукових даних в умовах інформаційного "буму"
title_short Оброблення наукових даних в умовах інформаційного "буму"
title_sort оброблення наукових даних в умовах інформаційного "буму"
url https://journal.iasa.kpi.ua/article/view/71923
work_keys_str_mv AT zgurovskymz processingofscientificdataintheconditionsoftheinformationquotboomquot
AT petrenkoai processingofscientificdataintheconditionsoftheinformationquotboomquot
AT zgurovskymz obrabotkanaučnyhdannyhvusloviâhinformacionnogoquotbumaquot
AT petrenkoai obrabotkanaučnyhdannyhvusloviâhinformacionnogoquotbumaquot
AT zgurovskymz obroblennânaukovihdanihvumovahínformacíjnogoquotbumuquot
AT petrenkoai obroblennânaukovihdanihvumovahínformacíjnogoquotbumuquot