Recurrent neural networks for the problem of improving numerical meteorological forecasts

This paper briefly describes examples of how deep learning can be applied to geoscientific problems, as well as the main difficulties that arise when scientists apply this technique to the problems of meteorological forecasting. This paper aims at comparing the two most popular types of recurrent ne...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2023
Автори: Doroshenko, А.Yu., Kushnirenko, R.V.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Інститут програмних систем НАН України 2023
Теми:
Онлайн доступ:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/596
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Репозитарії

Problems in programming
id pp_isofts_kiev_ua-article-596
record_format ojs
resource_txt_mv ppisoftskievua/7f/44159577bde5b943907387f86823497f.pdf
spelling pp_isofts_kiev_ua-article-5962024-04-26T21:18:21Z Recurrent neural networks for the problem of improving numerical meteorological forecasts Рекурентні нейронні мережі для задачі уточнення чисельних метеорологічних прогнозів Doroshenko, А.Yu. Kushnirenko, R.V. deep learning; recurrent neural networks; meteorological forecasting UDC 51:681.3.06 глибоке навчання; рекурентні нейронні мережі; метеорологічне прогнозування УДК 51:681.3.0 This paper briefly describes examples of how deep learning can be applied to geoscientific problems, as well as the main difficulties that arise when scientists apply this technique to the problems of meteorological forecasting. This paper aims at comparing the two most popular types of recurrent neural network architectures, namely the long short-term memory network and the gated recurrent unit when they are used to improve 2m temperature forecast results obtained using numerical hydrodynamic methods of meteorological forecasting. An efficiency comparison of architectures of recurrent neural networks was performed using the root-mean-square error. It is shown that all models with gated recurrent units are more efficient than models with long short-term memory. Thus the best architecture of recurrent neural networks for solving the problem of improving numerical meteorological forecasts has been revealed.Prombles in programming 2023; 4: 90-97 Зроблено короткий огляд застосування “глибокого навчання” до геонаукових задач. Порівняні два найпопулярніші види архітектур рекурентних нейронних мереж, а саме мережу довгої короткочасної пам’яті та вентильний рекурентний вузол. Показано, що усі моделі з вентильними рекурентними вузлами є більш ефективними за моделі довгої короткочасної пам’яті. На основі доступних даних спостережень здійснено чисельні експерименти з уточнення прогнозу за допомогою машинного навчання. Виявлено, що кращою архітектуру рекурентних нейронних мереж для розв’язання задачі уточнення чисельних метеорологічних прогнозів є вентильний рекурентний вузол.Prombles in programming 2023; 4: 90-97 Інститут програмних систем НАН України 2023-12-18 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/596 10.15407/pp2023.04.090 PROBLEMS IN PROGRAMMING; No 4 (2023); 90-97 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2023); 90-97 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2023); 90-97 1727-4907 10.15407/pp2023.04 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/596/645 Copyright (c) 2023 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2024-04-26T21:18:21Z
collection OJS
language Ukrainian
topic deep learning
recurrent neural networks
meteorological forecasting
UDC 51:681.3.06
spellingShingle deep learning
recurrent neural networks
meteorological forecasting
UDC 51:681.3.06
Doroshenko, А.Yu.
Kushnirenko, R.V.
Recurrent neural networks for the problem of improving numerical meteorological forecasts
topic_facet deep learning
recurrent neural networks
meteorological forecasting
UDC 51:681.3.06
глибоке навчання
рекурентні нейронні мережі
метеорологічне прогнозування
УДК 51:681.3.0
format Article
author Doroshenko, А.Yu.
Kushnirenko, R.V.
author_facet Doroshenko, А.Yu.
Kushnirenko, R.V.
author_sort Doroshenko, А.Yu.
title Recurrent neural networks for the problem of improving numerical meteorological forecasts
title_short Recurrent neural networks for the problem of improving numerical meteorological forecasts
title_full Recurrent neural networks for the problem of improving numerical meteorological forecasts
title_fullStr Recurrent neural networks for the problem of improving numerical meteorological forecasts
title_full_unstemmed Recurrent neural networks for the problem of improving numerical meteorological forecasts
title_sort recurrent neural networks for the problem of improving numerical meteorological forecasts
title_alt Рекурентні нейронні мережі для задачі уточнення чисельних метеорологічних прогнозів
description This paper briefly describes examples of how deep learning can be applied to geoscientific problems, as well as the main difficulties that arise when scientists apply this technique to the problems of meteorological forecasting. This paper aims at comparing the two most popular types of recurrent neural network architectures, namely the long short-term memory network and the gated recurrent unit when they are used to improve 2m temperature forecast results obtained using numerical hydrodynamic methods of meteorological forecasting. An efficiency comparison of architectures of recurrent neural networks was performed using the root-mean-square error. It is shown that all models with gated recurrent units are more efficient than models with long short-term memory. Thus the best architecture of recurrent neural networks for solving the problem of improving numerical meteorological forecasts has been revealed.Prombles in programming 2023; 4: 90-97
publisher Інститут програмних систем НАН України
publishDate 2023
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/596
work_keys_str_mv AT doroshenkoayu recurrentneuralnetworksfortheproblemofimprovingnumericalmeteorologicalforecasts
AT kushnirenkorv recurrentneuralnetworksfortheproblemofimprovingnumericalmeteorologicalforecasts
AT doroshenkoayu rekurentnínejronnímerežídlâzadačíutočnennâčiselʹnihmeteorologíčnihprognozív
AT kushnirenkorv rekurentnínejronnímerežídlâzadačíutočnennâčiselʹnihmeteorologíčnihprognozív
first_indexed 2024-12-16T04:08:06Z
last_indexed 2024-12-16T04:08:06Z
_version_ 1818568516207378432
fulltext Моделі та методи машинного навчання 90 © А.Ю.Дорошенко, Р.В.Кушніренко, 2023 ISSN 1727-4907. Проблеми програмування. 2023. №4 УДК 51:681.3.0 http://doi.org/10.15407/pp2023.04.090 А.Ю. Дорошенко, Р.В. Кушніренко РЕКУРЕНТНІ НЕЙРОННІ МЕРЕЖІ ДЛЯ ЗАДАЧІ УТОЧНЕННЯ ЧИСЕЛЬНИХ МЕТЕОРОЛОГІЧНИХ ПРОГНОЗІВ Зроблено короткий огляд застосування “глибокого навчання” до геонаукових задач. Порівняні два най- популярніші види архітектур рекурентних нейронних мереж, а саме мережу довгої короткочасної пам’яті та вентильний рекурентний вузол. Показано, що усі моделі з вентильними рекурентними вузла- ми є більш ефективними за моделі довгої короткочасної пам’яті. На основі доступних даних спостере- жень здійснено чисельні експерименти з уточнення прогнозу за допомогою машинного навчання. Вияв- лено, що кращою архітектуру рекурентних нейронних мереж для розв’язання задачі уточнення чисель- них метеорологічних прогнозів є вентильний рекурентний вузол. Ключові слова: “глибоке навчання”, рекурентні нейронні мережі, метеорологічне прогнозування. Вступ Протягом останнього десятиліття “глибоке навчання” стало важливою части- ною дослідницьких і оперативних схем геонаукової обробки, що стосуються атмо- сфери, поверхні суші та океану. Цьому сприяли, поміж іншого, збільшення до- ступності даних спостережень, а також підвищення швидкості їхньої передачі, що вже перевищує сотні терабайт на день [1]. Ці дані надходять від безлічі датчиків, що вимірюють різні часово і просторово інте- гровані величини. Зокрема, вони включа- ють дані дистанційного зондування на ви- соті від кількох метрів до сотень кіло- метрів над Землею, а також спостереження на місці (на поверхні та під нею) за допо- могою автономних датчиків. Хоча “глибоке навчання” досягло помітних успіхів у моделюванні впоряд- кованих послідовностей і даних із просто- ровим контекстом у сферах комп’ютерного зору, систем розпізнавання мови та керу- вання [2], а також у таких наукових галузях як фізика [3], хімія [4] та біологія [5], його застосування до проблем геонауки знахо- диться в зародковому стані. Однак деякі спроби його застосування до таких ключо- вих проблем як класифікація, регресія, ви- явлення аномалій та прогнозування залеж- ного від простору або часу стану мають перспективні рішення. До прикладу, є декі- лька досліджень, що демонструють засто- сування “глибокого навчання” до проблеми прогнозування екстремальних погодних умов [6,7]. Зауважимо, що ця задача є про- блематичною для традиційного машинного навчання. Згадані дослідження свідчать про успіх у застосуванні архітектур “глибокого навчання” до виокремлення просторових і часових характеристик для визначення та класифікації екстремальних ситуацій (на- приклад, штормів) у вихідних даних чи- слової моделі прогнозування погоди. Такий підхід дозволяє швидко виявляти такі події та моделювати прогнози без використання суб’єктивних анотацій людини або методів, які покладаються на заздалегідь визначені порогові значення для швидкості вітру та інших метеорологічних величин. Нагадаємо, що підходи “глибокого навчання” класично поділяються на прос- торові (наприклад, згорткові нейронні ме- режі [8] для класифікації об’єктів) і послі- довні (наприклад, рекурентні нейронні мережі для розпізнавання мовлення [9]). Згорткові мережі являють собою стек філь- трів малого розміру з невеликою кількістю параметрів, які власне “навчаються”. Вони застосовуються до зображень або інших даних на прямокутній сітці для отримання узагальнених характерних особливостей досліджуваного об’єкта. У царині геонауки згорткові мережі можуть бути використані для виявлення просторових характеристик, наприклад, під час аналізу супутникових зображень [10]. На противагу рекурентні нейронні мережі були розроблені для ви- вчення залежних від часу особливостей Моделі та методи машинного навчання 91 даних. Рекурентність — це лише загальна ідея, яка полягає у тому, що топологічно така архітектура нейронної мережі може бути представлена орієнтованим у часі графом. Завдяки цьому утворюється “пам’ять” мережі (вектор внутрішнього стану), що і дозволяє виявляти динамічні (у часовому вимірі) характеристики дослі- джуваних даних. Однак спостерігається все більша зацікавленість у поєднанні цих двох під- ходів. Прототипним прикладом цього по- єднання є прогнозування відео та руху [11], проблема, яка має разючу подібність до багатьох динамічних геонаукових проблем. Тут ми стикаємося з багатовимірними стру- ктурами, змінними в часі. Наприклад, па- раметри рослинного покриву, що вплива- ють на вуглецевий цикл та випаровування. Вже існують дослідження, що починають застосовувати комбіновані згортково- рекурентні підходи до таких геонаукових проблем як прогнозування опадів [12]. Мо- делювання динаміки атмосфери та океану, моделювання поширення вогню чи руху ґрунту також є прикладами проблем, де важлива просторово-часова динаміка. Але наразі вони не отримали переваг від засто- сування комбінованих згортково-рекурент- них підходів “глибокого навчання”. Коротко кажучи, подібність між ти- пами даних, притаманних класичним засто- суванням “глибокого навчання”, і даних, з якими працює геонаука, є переконливим аргументом на користь інтеграції “глибоко- го навчання” в геонауки. Зображення є ана- логом двовимірних полів даних, що містять певні змінні за аналогією з триплетами ко- льорів (значення RGB) на фотографіях, тоді як відео можна пов’язати з послідовністю зображень, тобто з двовимірними полями, які змінюються у часі. Подібним чином природна мова та мовлення мають такі ж характерні особливості динамічних часових рядів, що їх мають дані, притаманні геонау- ковій сфері. Крім того, класифікація, регре- сія, виявлення аномалій і динамічне моде- лювання є типовими проблемами як для класичних застосувань “глибокого навчан- ня”, так і для геонаук. Проте, як було показано у [13], ще рано говорити про повний перехід геонау- ки, зокрема, сфери метеорологічного про- гнозування, на методи, що базуються лише на “глибокому навчанні” і спостережу- ваних даних. Як було зазначено вище, по- при те, що “глибоке навчання” останнім часом показує себе успішно у різних сфе- рах, і попри те, що робляться спроби його застосування до метеорологічних задач, такі дослідження все ще знаходяться в за- родковому стані. Це пов’язано передусім з тим, що характерні особливості метеоро- логічних даних вимагають розробки нових підходів поза межами класичних концеп- цій комп’ютерного зору, розпізнавання мовлення та інших типових задач, постав- лених перед “глибоким навчанням”. На відміну від них, підвищення точності про- гнозування є хоча і дуже важливим, однак недостатнім компонентом. Дуже важливим складником тут є також надання можливо- сті інтерпретації та розуміння результатів, включаючи їх візуалізацію для аналізу лю- дьми. А, як відомо, інтерпретованість була визначена як потенційна слабкість “глибо- ких” нейронних мереж, і досягнення цієї мети зараз є центральною проблемою для “глибокого навчання” [14]. Ця галузь все ще є далекою від створення зрозумілих моделей, а також від надання можливості визначення причин закономірностей на основі даних спостережень [15]. Однак ми маємо визнати, що на практиці, враховую- чи складність сучасних моделей чисельно- го метеорологічного прогнозування, також нелегко відстежити зв’язок між результа- тами їхньої роботи та припущеннями, на яких їх побудовано, а це, очевидно, обме- жує їхню інтерпретованість. Крім цього, моделі “глибокого навчання” можуть бути фізично непослідовними або неправдопо- дібними, хоча їхня статистична точність буде високою. Це може відбуватися через надмірну екстраполяцію та/або статистич- ну упередженість спостережень. Інтеграція знань предметної області та досягнення фізичної узгодженості моделей за допомо- гою навчання відповідно до законів фізики, може забезпечити дуже сильні теоретичні обмеження на додаток до спостережуваних даних. Треба зазначити, що робота над підходами, що розв’язували б ці та інші проблеми, триває, і навіть деякі проблеми Моделі та методи машинного навчання 92 тією чи іншою мірою вже розв’язані, та попри це не існує єдиного методу, що розв’язував би усі проблеми одночасно, а саме він і потрібен аби успішно здійснити повний перехід метеорологічного прогно- зування на методи “глибокого навчання”. Однак відповідно до [16], є тенден- ція до розробки гібридних підходів моде- лювання, які поєднали б моделі фізичних процесів з універсальністю інструментів “глибокого навчання” для досягнення кра- щих результатів. Зокрема, існують дослі- дження можливості успішного викорис- тання “глибокого навчання” на різних ста- діях чисельного прогнозу: обробка спосте- режень [17], асиміляція даних [18], про- гностична модель [19] та постпроцесинг отриманих результатів [20]. Власне, дана стаття присвячена за- стосуванню “глибокого навчання” до пост- процесингу результатів прогнозу при- земної температури, отриманого за допо- могою чисельних гідродинамічних методів метеорологічного прогнозування, а саме порівнянню двох найпопулярніших видів рекурентних нейронних мереж у за- стосуванні до даної прикладної задачі. Це порівняння дасть змогу виявити оптималь- ну архітектуру нейронної мережі для пода- льшого досягнення належного ступеня точності метеорологічних прогнозів. Опис даних “Глибоке навчання” як техніка ви- окремлення характерних особливостей даних суттєво залежить від якості, репре- зентативності та цілісності викори- стовуваних даних. Тому правильний відбір і підготовка даних є важливими факторами для отримання хороших і узагальнюючих результатів. Зокрема, відбір даних має бути спрямований на охоплення якнайбільше повної варіативності значень змінних, на яких базуватиметься власне навчання ней- ромережевої моделі. Хороші дані мають дозволяти моделі охоплювати зв’язки між змінними, на основі яких робиться про- гноз. Водночас важливим є уникнення надлишковості у даних. Нижче поданий опис даних, вико- ристаних для дослідження, описаного у даній статті. Ці дані складалися з чо- тириелементних кортежів і містили на- ступну інформацію: • дата, • час за Гринвічем, • прогнозоване значення температури (Fcst), завчасністю в одну добу від моменту ініціалізації чисельної ре- гіональної моделі, • спостережуване значення темпера- тури (Obs). Чисельною моделлю прогнозу по- годи, результат роботи якої ми хочемо пок- ращити, є модель однойменного європей- ського консорціуму COSMO (Consortium for Small-scale Modelling). Ця модель ви- користовується в Українському гідромете- орологічному інституті ДСНС України та НАН України для наукових та прикладних задач, починаючи із липня 2011 р. [21]. Нагадаємо, що COSMO є не- гідростатичною моделлю, яка здатна ефе- ктивно відтворювати широкий спектр ат- мосферних процесів у масштабі мезо-β та мезо-γ. В основу динамічного ядра моделі покладено рівняння термо- та гідродинамі- ки, що описують потік у вологій атмосфе- рі. Різноманітні фізичні процеси врахову- ються схемами параметризації [22]. Рис. 1 зображує розрахункову об- ласть чисельної регіональної моделі: кі- лькість вузлів із заходу на схід – 209; кі- лькість вузлів із півдня на північ – 101; кількість рівнів по вертикалі – 50; крок ~ 14 км. Рис.1. Розрахункова область моделі прогнозу погоди COSMO Моделі та методи машинного навчання 93 Наявні дані охоплюють проміжок часу від 01.07.2012 до 31.03.2014, або 639 днів. Спостереження проводилися кожні три години, а саме о 00:00, 03:00, 06:00, 09:00, 12:00, 15:00, 18:00 і 21:00 за Гринві- чем. Для цих же моментів часу обчислю- вався і прогноз регіональної моделі. Таким чином, для кожної дати має- мо по вісім кортежів. Відповідно 639 днів дають 5112 кортежів. Що до просторової приналежності, то дані охоплюють спостережувані значен- ня і прогнози для станцій “Біла Церква”, “Бориспіль”, “Київ”, “Миронівка”, “Тете- рів”, “Фастів”, “Чорнобиль” та “Яготин”. Рекурентні нейронні мережі Як зазначалося вище, поточне дос- лідження має за мету порівняння двох найпопулярніших видів архітектур реку- рентних нейронних мереж у застосуванні до задачі постпроцесингу результатів про- гнозу приземної температури, отриманого за допомогою чисельних гідродинамічних методів метеорологічного прогнозування. Зауважимо, що використання конце- пції рекурентних нейронних мереж зумов- лене тим, що метеорологічні дані мають природу часового ряду, тобто містять за- лежні від часу особливості. А рекурентні нейронні мережі були розроблені саме для роботи з даними такого роду. Двома найпопулярнішими видами рекурентних нейронних мереж, про які йшлося вище, є мережа довгої коро- ткочасної пам’яті (long short-term memory, LSTM) [23] та вентильний рекурентний вузол (gated recurrent unit, GRU) [24]. Ці методи завдячують своєю популярністю тому, що дозволяють уникнути основних проблем, які виникають під час аналізу довгострокових залежностей. Цими про- блемами є ефект зникнення градієнтів (vanishing gradient effect) і безпосередньо пов’язаний з ним ефект вибуху градієнтів (exploding gradients effect). Наведемо теоретичні відомості, що стосуються згаданих вище архітектур ней- ронних мереж. Вузол GRU працює наступним чи- ном. У кожний момент часу йому на вхід подаються вхідний вектор 𝑥𝑥𝑡𝑡 і вихідний вектор з попереднього моменту часу ℎ𝑡𝑡−1. Вихідний вектор ℎ𝑡𝑡 обчислюється як лі- нійна інтерполяція між ℎ𝑡𝑡−1 і поточним кандидатом ℎ𝑡𝑡~ : ℎ𝑡𝑡 = (1 − 𝑧𝑧𝑡𝑡) ⊙ ℎ𝑡𝑡−1 + 𝑧𝑧𝑡𝑡 ⊙ ℎ𝑡𝑡~, де 𝑧𝑧𝑡𝑡 – вектор вузла уточнення. Він ви- значає, які долі першого і другого векторів впливатимуть на поточне значення. ⊙ по- значає добуток Адамара. Вектор вузла уточнення обчислює- ться наступним чином: 𝑧𝑧𝑡𝑡 = 𝜎𝜎𝑔𝑔(𝑊𝑊𝑧𝑧𝑥𝑥𝑡𝑡 + 𝑈𝑈𝑧𝑧ℎ𝑡𝑡−1 + 𝑏𝑏𝑧𝑧). Поточний кандидат ℎ𝑡𝑡~ обчислюєть- ся подібно до стандартної рекурентної нейронної мережі: ℎ𝑡𝑡~ = 𝜎𝜎ℎ(𝑊𝑊ℎ𝑥𝑥𝑡𝑡 + 𝑈𝑈ℎ(𝑟𝑟𝑡𝑡 ⊙ ℎ𝑡𝑡−1) + 𝑏𝑏ℎ), де 𝑟𝑟𝑡𝑡 – вектор вузла скидання, що обчи- слюється подібно до вектора вузла уточ- нення: 𝑟𝑟𝑡𝑡 = 𝜎𝜎𝑔𝑔(𝑊𝑊𝑟𝑟𝑥𝑥𝑡𝑡 + 𝑈𝑈𝑟𝑟ℎ𝑡𝑡−1 + 𝑏𝑏𝑟𝑟). 𝑊𝑊𝑧𝑧, 𝑈𝑈𝑧𝑧, 𝑊𝑊ℎ, 𝑈𝑈ℎ, 𝑊𝑊𝑟𝑟, 𝑊𝑊𝑟𝑟 позначають матриці параметрів, а𝑏𝑏𝑧𝑧, 𝑏𝑏ℎ, 𝑏𝑏𝑟𝑟 позначають вектори параметрів. Вектори вузлів уточнення і скидання активуються сигмоїдною функці- єю, а вектор поточного кандидата – гіпер- болічним тангенсом. Що до LSTM, то ця архітектура яв- ляє собою дещо ускладнену версію GRU. Замість двох вузлів (уточнення та скидан- ня) вона має три — вузли входу, забування та виходу. Звичайно, це робить мережі дов- гої короткочасної пам’яті повільнішими для навчання та використання, але разом з тим, вони можуть бути ефективнішими, коли йдеться про зберігання та доступ до довгострокових залежностей. Зауважимо, що і мережі довгої коро- ткочасної пам’яті, і вентильні рекурентні вузли можуть розв’язувати широкий спектр задач, зокрема, розпізнавання мов- лення, машинний переклад та прогнозу- вання часових рядів. Як правило, LSTM- Моделі та методи машинного навчання 94 мережі більш ефективні в задачах, які ви- магають зберігання та доступ до довго- строкових залежностей. З іншого боку, GRU-мережі ефективніші в задачах, які вимагають швидкого навчання та адаптації до нових вхідних даних. Проте варто пам’ятати, що не існує єдиного найбільш ефективного типу рекурентних нейронних мереж, який підходив би для усіх завдань. Тому вибір між LSTM і GRU залежатиме від конкретних вимог розв’язуваної задачі. Як правило, доцільно спробувати обидві архітектури та порівняти їхню ефе- ктивність у застосуванні до тієї чи іншої конкретної задачі. Власне, це і є мета про- ведення даного дослідження, а саме порів- няння цих двох архітектур у застосуванні до задачі постпроцесингу результатів чи- сельного метеорологічного прогнозування. Опис експерименту Як було зазначено вище, порівняння архітектур рекурентних нейронних мереж буде здійснено у застосуванні до прикла- дної задачі уточнення прогнозу приземної температури, отриманого за допомогою чисельної моделі прогнозу погоди COSMO [25]. Для кожної метеорологічної станції було натреновано дві нейромережеві моде- лі (одна з GRU-шаром, інша з LSTM- шаром), які мали б якнайкраще виокреми- ти фізичні особливості конкретного пункту спостереження. Тож, ми маємо 16 натрено- ваних моделей. Нейромережева топологія та інші конфігураційні параметри були однакови- ми для усіх моделей. Першим шаром ней- ронної мережі (після вхідного) було взято рекурентний шар (GRU або LSTM), що складався з 64 вузлів для GRU та 32 вузлів для LSTM, оскільки менша і більша кіль- кість давали гірші результати. Після нього було додано один прихований пов- нозв’язний шар із 64 вузлами. Останній шар запропонованої архітектури був також повнозв’язним і мав 8 вузлів, оскільки ви- хідний вектор повинен мати розмірність добового вектора прогнозу (8 значень). Рис. 2 зображує описану топологію нейромережевих моделей. Що стосується даних, то для кожної метеорологічної станції уся їх сукупність була розбита на три класи: тренувальні (період з 01.07.2012 до 30.06.2013; 365 днів), валідаційні (період з 01.07.2013 до 31.10.2013; 123 дні) і тестувальні (з 01.11.2013 до 01.04.2014; 151 день). Рис. 2. Запропонована архітектура нейронної мережі Зауважимо, що поділ на три класи (набори) — це загальна практика для “гли- бокого навчання” [26]. Тренувальний набір є найбільшим і використовується для оно- влення вагових коефіцієнтів моделі шля- хом зворотного розповсюдження помилки або інших алгоритмів навчання. Другий набір, валідаційний, використовується ви- ключно для налаштування гіперпарамет- рів: кількості шарів, типів шарів, функцій активації, цільових функцій, швидкості навчання тощо. Ключовою метою цього налаштування є підвищення здатності ме- режі до узагальнення для гарантії, що ме- режа добре функціонуватиме на невідомих для неї даних. Третій набір даних — це тестовий набір, раніше невідомі дані, які використовуються для оцінювання мережі після налаштування. Зазначимо, що усі експерименти проводилися з використанням відкритого нейромережевого інтерфейсу Keras [27] і відкритої програмної бібліотеки для “гли- бокого навчання” TensorFlow [28]. Програ- мний код був написаний мовою Python [29]. Отримані результати Порівняння ефективностей двох ар- хітектур рекурентних нейронних мереж здійснювалось за допомогою стандартного способу оцінювання похибок, а саме за Моделі та методи машинного навчання 95 допомогою середнього квадратичного від- хилення (RMSE). Як бачимо з таблиці, усі моделі з вентильними рекурентними вуз- лами (GRU) є оптимальнішими за моделі довгої короткочасної пам’яті (LSTM). Таблиця. Порівняння архітектур рекурентних нейронних мереж Станція RMSE (GRU), °C RMSE (LSTM), °C Біла Церква 1.8865 2.1451 Бориспіль 1.9958 2.1456 Київ 1.9824 2.1334 Миронівка 2.0099 2.4484 Тетерів 2.0215 2.3027 Фастів 1.8565 2.1394 Чорнобиль 2.0094 2.0355 Яготин 2.1157 2.3793 Висновки На прикладі прогнозів моделі COSMO приземної температури повітря для восьми метеорологічних станцій Київ- ської області та відповідних їм даних фак- тичних спостережень було порівняно два найпопулярніші види архітектур реку- рентних нейронних мереж, а саме мережу довгої короткочасної пам’яті та венти- льний рекурентний вузол. Показано, що усі моделі з венти- льними рекурентними вузлами є ефектив- нішими за моделі довгої короткочасної пам’яті. Таким чином, виявлено найкращу архітектуру рекурентних нейронних мереж для розв’язання задачі постпроцесингу ре- зультатів чисельного метеорологічного прогнозування. References 1. Agapiou, A., 2017. Remote sensing heritage in a petabyte-scale: satellite data and heritage Earth Engine© applications. International Journal of Digital Earth, 10(1), pp.85-102. 2. LeCun, Y., Bengio, Y. and Hinton, G., 2015. Deep learning. nature, 521(7553), pp.436-444. 3. Bhimji, W., Farrell, S.A., Kurth, T., Paganini, M., Prabhat and Racah, E., 2018, September. Deep neural networks for physics analysis on low-level whole- detector data at the LHC. In Journal of Physics: Conference Series (Vol. 1085, p. 042034). IOP Publishing. 4. Schütt, K.T., Arbabzadah, F., Chmiela, S., Müller, K.R. and Tkatchenko, A., 2017. Quantum-chemical insights from deep tensor neural networks. Nature communications, 8(1), p.13890. 5. Alipanahi, B., Delong, A., Weirauch, M.T. and Frey, B.J., 2015. Predicting the sequence specificities of DNA-and RNA- binding proteins by deep learning. Nature biotechnology, 33(8), pp.831-838. 6. Liu, Y., Racah, E., Correa, J., Khosrowshahi, A., Lavers, D., Kunkel, K., Wehner, M. and Collins, W., 2016. Application of deep convolutional neural networks for detecting extreme weather in climate datasets. arXiv preprint arXiv:1605.01156. 7. Racah, E., Beckham, C., Maharaj, T., Ebrahimi Kahou, S., Prabhat, M. and Pal, C., 2017. Extremeweather: A large-scale climate dataset for semi-supervised detection, localization, and understanding of extreme weather events. Advances in neural information processing systems, 30. 8. LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P., 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), pp.2278-2324. 9. Sak, H., Senior, A. and Beaufays, F., 2014. Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition. arXiv preprint arXiv:1402.1128. 10. Zhu, X.X., Tuia, D., Mou, L., Xia, G.S., Zhang, L., Xu, F. and Fraundorfer, F., 2017. Deep learning in remote sensing: A comprehensive review and list of resources. IEEE geoscience and remote sensing magazine, 5(4), pp.8-36. 11. Oh, J., Guo, X., Lee, H., Lewis, R.L. and Singh, S., 2015. Action-conditional video prediction using deep networks in atari Моделі та методи машинного навчання 96 games. Advances in neural information processing systems, 28. 12. Shi, X., Chen, Z., Wang, H., Yeung, D.Y., Wong, W.K. and Woo, W.C., 2015. Convolutional LSTM network: A machine learning approach for precipitation nowcasting. Advances in neural information processing systems, 28. 13. Schultz, M.G., Betancourt, C., Gong, B., Kleinert, F., Langguth, M., Leufen, L.H., Mozaffari, A. and Stadtler, S., 2021. Can deep learning beat numerical weather prediction?. Philosophical Transactions of the Royal Society A, 379(2194), p.20200097. 14. Montavon, G., Samek, W. and Müller, K.R., 2018. Methods for interpreting and understanding deep neural networks. Digital signal processing, 73, pp.1-15. 15. Runge, J., Petoukhov, V., Donges, J.F., Hlinka, J., Jajcay, N., Vejmelka, M., Hartman, D., Marwan, N., Paluš, M. and Kurths, J., 2015. Identifying causal gateways and mediators in complex spatio-temporal systems. Nature communications, 6(1), p.8502. 16. Bauer, P., Dueben, P.D., Hoefler, T., Quintino, T., Schulthess, T.C. and Wedi, N.P., 2021. The digital revolution of Earth-system science. Nature Computational Science, 1(2), pp.104-113. 17. Prudden, R., Adams, S., Kangin, D., Robinson, N., Ravuri, S., Mohamed, S. and Arribas, A., 2020. A review of radar- based nowcasting of precipitation and applicable machine learning techniques. arXiv preprint arXiv:2005.04988. 18. Bonavita, M. and Laloyaux, P., 2020. Machine learning for model error inference and correction. Journal of Advances in Modeling Earth Systems, 12(12), p.e2020MS002232. 19. Krasnopolsky, V.M., Fox-Rabinovitz, M.S. and Chalikov, D.V., 2005. New approach to calculation of atmospheric model physics: Accurate and fast neural network emulation of longwave radiation in a climate model. Monthly Weather Review, 133(5), pp.1370-1383. 20. Rasp, S. and Lerch, S., 2018. Neural networks for postprocessing ensemble weather forecasts. Monthly Weather Review, 146(11), pp.3885-3900. 21. Shpyg, V., Budak, I., Pishniak, D. and Poperechnyi, P., 2013, November. The application of regional NWP models to operational weather forecasting in Ukraine. In CAS Technical Conference (TECO) on" Responding to the Environmental Stressors of the 21st Century" Available from: http://www. wmo. int/pages/prog/arep/cas/documents/Ukrain e-NWPModels. pdf [Accessed 27/02/2020]. 22. Doms, G. and Baldauf, M., 2011. A description of the nonhydrostatic regional COSMO-Model Part I: dynamics and numerics. Deutscher Wetterdienst, Offenbach. 23. Hochreiter, S. and Schmidhuber, J., 1997. Long short-term memory. Neural computation, 9(8), pp.1735-1780. 24. Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H. and Bengio, Y., 2014. Learning phrase representations using RNN encoder- decoder for statistical machine translation. arXiv preprint arXiv:1406.1078. 25. Doroshenko, А.Y., Shpyg, V.M. and Kushnirenko, R.V., 2023. Deeplearning- based approach to improving numerical weather forecasts. PROBLEMS IN PROGRAMMING, (3), pp.91-98. 26. Goodfellow, I., Bengio, Y. and Courville, A., 2016. Deep learning. MIT press. 27. https://keras.io/ 28. https://www.tensorflow.org/ 29. https://www.python.org/ Одержано: 01.12.2023 Про авторів: Дорошенко Анатолій Юхимович, доктор фізико-математичних наук, професор, завідувач відділу ІПС НАНУ, професор кафедри інформаційних систем та технологій КПІ імені Ігоря Сікорського. Кількість наукових публікацій в українських виданнях – понад 200. Моделі та методи машинного навчання 97 Кількість наукових публікацій в зарубіжних виданнях – понад 90. Індекс Гірша – 7. http://orcid.org/0000-0002-8435-1451, Кушніренко Роман Владиславович, аспірант. Кількість наукових публікацій в українських виданнях – 3. https://orcid.org/0000-0002-1990-8727. Місце роботи авторів: Інститут програмних систем НАН України, 03187, м. Київ-187, проспект Академіка Глушкова, 40. Тел.: (38)(044) 526-60-33. E-mail: doroshenkoanatoliy2@gmail.com, roman.kushnirenk@gmail.com.