Recurrent neural networks for the problem of improving numerical meteorological forecasts
This paper briefly describes examples of how deep learning can be applied to geoscientific problems, as well as the main difficulties that arise when scientists apply this technique to the problems of meteorological forecasting. This paper aims at comparing the two most popular types of recurrent ne...
Збережено в:
Дата: | 2023 |
---|---|
Автори: | , |
Формат: | Стаття |
Мова: | Ukrainian |
Опубліковано: |
Інститут програмних систем НАН України
2023
|
Теми: | |
Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/596 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Problems in programming |
Завантажити файл: |
Репозитарії
Problems in programmingid |
pp_isofts_kiev_ua-article-596 |
---|---|
record_format |
ojs |
resource_txt_mv |
ppisoftskievua/7f/44159577bde5b943907387f86823497f.pdf |
spelling |
pp_isofts_kiev_ua-article-5962024-04-26T21:18:21Z Recurrent neural networks for the problem of improving numerical meteorological forecasts Рекурентні нейронні мережі для задачі уточнення чисельних метеорологічних прогнозів Doroshenko, А.Yu. Kushnirenko, R.V. deep learning; recurrent neural networks; meteorological forecasting UDC 51:681.3.06 глибоке навчання; рекурентні нейронні мережі; метеорологічне прогнозування УДК 51:681.3.0 This paper briefly describes examples of how deep learning can be applied to geoscientific problems, as well as the main difficulties that arise when scientists apply this technique to the problems of meteorological forecasting. This paper aims at comparing the two most popular types of recurrent neural network architectures, namely the long short-term memory network and the gated recurrent unit when they are used to improve 2m temperature forecast results obtained using numerical hydrodynamic methods of meteorological forecasting. An efficiency comparison of architectures of recurrent neural networks was performed using the root-mean-square error. It is shown that all models with gated recurrent units are more efficient than models with long short-term memory. Thus the best architecture of recurrent neural networks for solving the problem of improving numerical meteorological forecasts has been revealed.Prombles in programming 2023; 4: 90-97 Зроблено короткий огляд застосування “глибокого навчання” до геонаукових задач. Порівняні два найпопулярніші види архітектур рекурентних нейронних мереж, а саме мережу довгої короткочасної пам’яті та вентильний рекурентний вузол. Показано, що усі моделі з вентильними рекурентними вузлами є більш ефективними за моделі довгої короткочасної пам’яті. На основі доступних даних спостережень здійснено чисельні експерименти з уточнення прогнозу за допомогою машинного навчання. Виявлено, що кращою архітектуру рекурентних нейронних мереж для розв’язання задачі уточнення чисельних метеорологічних прогнозів є вентильний рекурентний вузол.Prombles in programming 2023; 4: 90-97 Інститут програмних систем НАН України 2023-12-18 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/596 10.15407/pp2023.04.090 PROBLEMS IN PROGRAMMING; No 4 (2023); 90-97 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2023); 90-97 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2023); 90-97 1727-4907 10.15407/pp2023.04 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/596/645 Copyright (c) 2023 PROBLEMS IN PROGRAMMING |
institution |
Problems in programming |
baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
datestamp_date |
2024-04-26T21:18:21Z |
collection |
OJS |
language |
Ukrainian |
topic |
deep learning recurrent neural networks meteorological forecasting UDC 51:681.3.06 |
spellingShingle |
deep learning recurrent neural networks meteorological forecasting UDC 51:681.3.06 Doroshenko, А.Yu. Kushnirenko, R.V. Recurrent neural networks for the problem of improving numerical meteorological forecasts |
topic_facet |
deep learning recurrent neural networks meteorological forecasting UDC 51:681.3.06 глибоке навчання рекурентні нейронні мережі метеорологічне прогнозування УДК 51:681.3.0 |
format |
Article |
author |
Doroshenko, А.Yu. Kushnirenko, R.V. |
author_facet |
Doroshenko, А.Yu. Kushnirenko, R.V. |
author_sort |
Doroshenko, А.Yu. |
title |
Recurrent neural networks for the problem of improving numerical meteorological forecasts |
title_short |
Recurrent neural networks for the problem of improving numerical meteorological forecasts |
title_full |
Recurrent neural networks for the problem of improving numerical meteorological forecasts |
title_fullStr |
Recurrent neural networks for the problem of improving numerical meteorological forecasts |
title_full_unstemmed |
Recurrent neural networks for the problem of improving numerical meteorological forecasts |
title_sort |
recurrent neural networks for the problem of improving numerical meteorological forecasts |
title_alt |
Рекурентні нейронні мережі для задачі уточнення чисельних метеорологічних прогнозів |
description |
This paper briefly describes examples of how deep learning can be applied to geoscientific problems, as well as the main difficulties that arise when scientists apply this technique to the problems of meteorological forecasting. This paper aims at comparing the two most popular types of recurrent neural network architectures, namely the long short-term memory network and the gated recurrent unit when they are used to improve 2m temperature forecast results obtained using numerical hydrodynamic methods of meteorological forecasting. An efficiency comparison of architectures of recurrent neural networks was performed using the root-mean-square error. It is shown that all models with gated recurrent units are more efficient than models with long short-term memory. Thus the best architecture of recurrent neural networks for solving the problem of improving numerical meteorological forecasts has been revealed.Prombles in programming 2023; 4: 90-97 |
publisher |
Інститут програмних систем НАН України |
publishDate |
2023 |
url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/596 |
work_keys_str_mv |
AT doroshenkoayu recurrentneuralnetworksfortheproblemofimprovingnumericalmeteorologicalforecasts AT kushnirenkorv recurrentneuralnetworksfortheproblemofimprovingnumericalmeteorologicalforecasts AT doroshenkoayu rekurentnínejronnímerežídlâzadačíutočnennâčiselʹnihmeteorologíčnihprognozív AT kushnirenkorv rekurentnínejronnímerežídlâzadačíutočnennâčiselʹnihmeteorologíčnihprognozív |
first_indexed |
2024-12-16T04:08:06Z |
last_indexed |
2024-12-16T04:08:06Z |
_version_ |
1818568516207378432 |
fulltext |
Моделі та методи машинного навчання
90
© А.Ю.Дорошенко, Р.В.Кушніренко, 2023
ISSN 1727-4907. Проблеми програмування. 2023. №4
УДК 51:681.3.0 http://doi.org/10.15407/pp2023.04.090
А.Ю. Дорошенко, Р.В. Кушніренко
РЕКУРЕНТНІ НЕЙРОННІ МЕРЕЖІ
ДЛЯ ЗАДАЧІ УТОЧНЕННЯ ЧИСЕЛЬНИХ
МЕТЕОРОЛОГІЧНИХ ПРОГНОЗІВ
Зроблено короткий огляд застосування “глибокого навчання” до геонаукових задач. Порівняні два най-
популярніші види архітектур рекурентних нейронних мереж, а саме мережу довгої короткочасної
пам’яті та вентильний рекурентний вузол. Показано, що усі моделі з вентильними рекурентними вузла-
ми є більш ефективними за моделі довгої короткочасної пам’яті. На основі доступних даних спостере-
жень здійснено чисельні експерименти з уточнення прогнозу за допомогою машинного навчання. Вияв-
лено, що кращою архітектуру рекурентних нейронних мереж для розв’язання задачі уточнення чисель-
них метеорологічних прогнозів є вентильний рекурентний вузол.
Ключові слова: “глибоке навчання”, рекурентні нейронні мережі, метеорологічне прогнозування.
Вступ
Протягом останнього десятиліття
“глибоке навчання” стало важливою части-
ною дослідницьких і оперативних схем
геонаукової обробки, що стосуються атмо-
сфери, поверхні суші та океану. Цьому
сприяли, поміж іншого, збільшення до-
ступності даних спостережень, а також
підвищення швидкості їхньої передачі, що
вже перевищує сотні терабайт на день [1].
Ці дані надходять від безлічі датчиків, що
вимірюють різні часово і просторово інте-
гровані величини. Зокрема, вони включа-
ють дані дистанційного зондування на ви-
соті від кількох метрів до сотень кіло-
метрів над Землею, а також спостереження
на місці (на поверхні та під нею) за допо-
могою автономних датчиків.
Хоча “глибоке навчання” досягло
помітних успіхів у моделюванні впоряд-
кованих послідовностей і даних із просто-
ровим контекстом у сферах комп’ютерного
зору, систем розпізнавання мови та керу-
вання [2], а також у таких наукових галузях
як фізика [3], хімія [4] та біологія [5], його
застосування до проблем геонауки знахо-
диться в зародковому стані. Однак деякі
спроби його застосування до таких ключо-
вих проблем як класифікація, регресія, ви-
явлення аномалій та прогнозування залеж-
ного від простору або часу стану мають
перспективні рішення. До прикладу, є декі-
лька досліджень, що демонструють засто-
сування “глибокого навчання” до проблеми
прогнозування екстремальних погодних
умов [6,7]. Зауважимо, що ця задача є про-
блематичною для традиційного машинного
навчання. Згадані дослідження свідчать про
успіх у застосуванні архітектур “глибокого
навчання” до виокремлення просторових і
часових характеристик для визначення та
класифікації екстремальних ситуацій (на-
приклад, штормів) у вихідних даних чи-
слової моделі прогнозування погоди. Такий
підхід дозволяє швидко виявляти такі події
та моделювати прогнози без використання
суб’єктивних анотацій людини або методів,
які покладаються на заздалегідь визначені
порогові значення для швидкості вітру та
інших метеорологічних величин.
Нагадаємо, що підходи “глибокого
навчання” класично поділяються на прос-
торові (наприклад, згорткові нейронні ме-
режі [8] для класифікації об’єктів) і послі-
довні (наприклад, рекурентні нейронні
мережі для розпізнавання мовлення [9]).
Згорткові мережі являють собою стек філь-
трів малого розміру з невеликою кількістю
параметрів, які власне “навчаються”. Вони
застосовуються до зображень або інших
даних на прямокутній сітці для отримання
узагальнених характерних особливостей
досліджуваного об’єкта. У царині геонауки
згорткові мережі можуть бути використані
для виявлення просторових характеристик,
наприклад, під час аналізу супутникових
зображень [10]. На противагу рекурентні
нейронні мережі були розроблені для ви-
вчення залежних від часу особливостей
Моделі та методи машинного навчання
91
даних. Рекурентність — це лише загальна
ідея, яка полягає у тому, що топологічно
така архітектура нейронної мережі може
бути представлена орієнтованим у часі
графом. Завдяки цьому утворюється
“пам’ять” мережі (вектор внутрішнього
стану), що і дозволяє виявляти динамічні
(у часовому вимірі) характеристики дослі-
джуваних даних.
Однак спостерігається все більша
зацікавленість у поєднанні цих двох під-
ходів. Прототипним прикладом цього по-
єднання є прогнозування відео та руху [11],
проблема, яка має разючу подібність до
багатьох динамічних геонаукових проблем.
Тут ми стикаємося з багатовимірними стру-
ктурами, змінними в часі. Наприклад, па-
раметри рослинного покриву, що вплива-
ють на вуглецевий цикл та випаровування.
Вже існують дослідження, що починають
застосовувати комбіновані згортково-
рекурентні підходи до таких геонаукових
проблем як прогнозування опадів [12]. Мо-
делювання динаміки атмосфери та океану,
моделювання поширення вогню чи руху
ґрунту також є прикладами проблем, де
важлива просторово-часова динаміка. Але
наразі вони не отримали переваг від засто-
сування комбінованих згортково-рекурент-
них підходів “глибокого навчання”.
Коротко кажучи, подібність між ти-
пами даних, притаманних класичним засто-
суванням “глибокого навчання”, і даних, з
якими працює геонаука, є переконливим
аргументом на користь інтеграції “глибоко-
го навчання” в геонауки. Зображення є ана-
логом двовимірних полів даних, що містять
певні змінні за аналогією з триплетами ко-
льорів (значення RGB) на фотографіях, тоді
як відео можна пов’язати з послідовністю
зображень, тобто з двовимірними полями,
які змінюються у часі. Подібним чином
природна мова та мовлення мають такі ж
характерні особливості динамічних часових
рядів, що їх мають дані, притаманні геонау-
ковій сфері. Крім того, класифікація, регре-
сія, виявлення аномалій і динамічне моде-
лювання є типовими проблемами як для
класичних застосувань “глибокого навчан-
ня”, так і для геонаук.
Проте, як було показано у [13], ще
рано говорити про повний перехід геонау-
ки, зокрема, сфери метеорологічного про-
гнозування, на методи, що базуються лише
на “глибокому навчанні” і спостережу-
ваних даних. Як було зазначено вище, по-
при те, що “глибоке навчання” останнім
часом показує себе успішно у різних сфе-
рах, і попри те, що робляться спроби його
застосування до метеорологічних задач,
такі дослідження все ще знаходяться в за-
родковому стані. Це пов’язано передусім з
тим, що характерні особливості метеоро-
логічних даних вимагають розробки нових
підходів поза межами класичних концеп-
цій комп’ютерного зору, розпізнавання
мовлення та інших типових задач, постав-
лених перед “глибоким навчанням”. На
відміну від них, підвищення точності про-
гнозування є хоча і дуже важливим, однак
недостатнім компонентом. Дуже важливим
складником тут є також надання можливо-
сті інтерпретації та розуміння результатів,
включаючи їх візуалізацію для аналізу лю-
дьми. А, як відомо, інтерпретованість була
визначена як потенційна слабкість “глибо-
ких” нейронних мереж, і досягнення цієї
мети зараз є центральною проблемою для
“глибокого навчання” [14]. Ця галузь все
ще є далекою від створення зрозумілих
моделей, а також від надання можливості
визначення причин закономірностей на
основі даних спостережень [15]. Однак ми
маємо визнати, що на практиці, враховую-
чи складність сучасних моделей чисельно-
го метеорологічного прогнозування, також
нелегко відстежити зв’язок між результа-
тами їхньої роботи та припущеннями, на
яких їх побудовано, а це, очевидно, обме-
жує їхню інтерпретованість. Крім цього,
моделі “глибокого навчання” можуть бути
фізично непослідовними або неправдопо-
дібними, хоча їхня статистична точність
буде високою. Це може відбуватися через
надмірну екстраполяцію та/або статистич-
ну упередженість спостережень. Інтеграція
знань предметної області та досягнення
фізичної узгодженості моделей за допомо-
гою навчання відповідно до законів фізики,
може забезпечити дуже сильні теоретичні
обмеження на додаток до спостережуваних
даних. Треба зазначити, що робота над
підходами, що розв’язували б ці та інші
проблеми, триває, і навіть деякі проблеми
Моделі та методи машинного навчання
92
тією чи іншою мірою вже розв’язані, та
попри це не існує єдиного методу, що
розв’язував би усі проблеми одночасно, а
саме він і потрібен аби успішно здійснити
повний перехід метеорологічного прогно-
зування на методи “глибокого навчання”.
Однак відповідно до [16], є тенден-
ція до розробки гібридних підходів моде-
лювання, які поєднали б моделі фізичних
процесів з універсальністю інструментів
“глибокого навчання” для досягнення кра-
щих результатів. Зокрема, існують дослі-
дження можливості успішного викорис-
тання “глибокого навчання” на різних ста-
діях чисельного прогнозу: обробка спосте-
режень [17], асиміляція даних [18], про-
гностична модель [19] та постпроцесинг
отриманих результатів [20].
Власне, дана стаття присвячена за-
стосуванню “глибокого навчання” до пост-
процесингу результатів прогнозу при-
земної температури, отриманого за допо-
могою чисельних гідродинамічних методів
метеорологічного прогнозування, а саме
порівнянню двох найпопулярніших видів
рекурентних нейронних мереж у за-
стосуванні до даної прикладної задачі. Це
порівняння дасть змогу виявити оптималь-
ну архітектуру нейронної мережі для пода-
льшого досягнення належного ступеня
точності метеорологічних прогнозів.
Опис даних
“Глибоке навчання” як техніка ви-
окремлення характерних особливостей
даних суттєво залежить від якості, репре-
зентативності та цілісності викори-
стовуваних даних. Тому правильний відбір
і підготовка даних є важливими факторами
для отримання хороших і узагальнюючих
результатів.
Зокрема, відбір даних має бути
спрямований на охоплення якнайбільше
повної варіативності значень змінних, на
яких базуватиметься власне навчання ней-
ромережевої моделі. Хороші дані мають
дозволяти моделі охоплювати зв’язки між
змінними, на основі яких робиться про-
гноз. Водночас важливим є уникнення
надлишковості у даних.
Нижче поданий опис даних, вико-
ристаних для дослідження, описаного у
даній статті. Ці дані складалися з чо-
тириелементних кортежів і містили на-
ступну інформацію:
• дата,
• час за Гринвічем,
• прогнозоване значення температури
(Fcst), завчасністю в одну добу від
моменту ініціалізації чисельної ре-
гіональної моделі,
• спостережуване значення темпера-
тури (Obs).
Чисельною моделлю прогнозу по-
годи, результат роботи якої ми хочемо пок-
ращити, є модель однойменного європей-
ського консорціуму COSMO (Consortium
for Small-scale Modelling). Ця модель ви-
користовується в Українському гідромете-
орологічному інституті ДСНС України та
НАН України для наукових та прикладних
задач, починаючи із липня 2011 р. [21].
Нагадаємо, що COSMO є не-
гідростатичною моделлю, яка здатна ефе-
ктивно відтворювати широкий спектр ат-
мосферних процесів у масштабі мезо-β та
мезо-γ. В основу динамічного ядра моделі
покладено рівняння термо- та гідродинамі-
ки, що описують потік у вологій атмосфе-
рі. Різноманітні фізичні процеси врахову-
ються схемами параметризації [22].
Рис. 1 зображує розрахункову об-
ласть чисельної регіональної моделі: кі-
лькість вузлів із заходу на схід – 209; кі-
лькість вузлів із півдня на північ – 101;
кількість рівнів по вертикалі – 50; крок ~
14 км.
Рис.1. Розрахункова область моделі
прогнозу погоди COSMO
Моделі та методи машинного навчання
93
Наявні дані охоплюють проміжок
часу від 01.07.2012 до 31.03.2014, або 639
днів. Спостереження проводилися кожні
три години, а саме о 00:00, 03:00, 06:00,
09:00, 12:00, 15:00, 18:00 і 21:00 за Гринві-
чем. Для цих же моментів часу обчислю-
вався і прогноз регіональної моделі.
Таким чином, для кожної дати має-
мо по вісім кортежів. Відповідно 639 днів
дають 5112 кортежів.
Що до просторової приналежності,
то дані охоплюють спостережувані значен-
ня і прогнози для станцій “Біла Церква”,
“Бориспіль”, “Київ”, “Миронівка”, “Тете-
рів”, “Фастів”, “Чорнобиль” та “Яготин”.
Рекурентні нейронні мережі
Як зазначалося вище, поточне дос-
лідження має за мету порівняння двох
найпопулярніших видів архітектур реку-
рентних нейронних мереж у застосуванні
до задачі постпроцесингу результатів про-
гнозу приземної температури, отриманого
за допомогою чисельних гідродинамічних
методів метеорологічного прогнозування.
Зауважимо, що використання конце-
пції рекурентних нейронних мереж зумов-
лене тим, що метеорологічні дані мають
природу часового ряду, тобто містять за-
лежні від часу особливості. А рекурентні
нейронні мережі були розроблені саме для
роботи з даними такого роду.
Двома найпопулярнішими видами
рекурентних нейронних мереж, про які
йшлося вище, є мережа довгої коро-
ткочасної пам’яті (long short-term memory,
LSTM) [23] та вентильний рекурентний
вузол (gated recurrent unit, GRU) [24]. Ці
методи завдячують своєю популярністю
тому, що дозволяють уникнути основних
проблем, які виникають під час аналізу
довгострокових залежностей. Цими про-
блемами є ефект зникнення градієнтів
(vanishing gradient effect) і безпосередньо
пов’язаний з ним ефект вибуху градієнтів
(exploding gradients effect).
Наведемо теоретичні відомості, що
стосуються згаданих вище архітектур ней-
ронних мереж.
Вузол GRU працює наступним чи-
ном. У кожний момент часу йому на вхід
подаються вхідний вектор 𝑥𝑥𝑡𝑡 і вихідний
вектор з попереднього моменту часу ℎ𝑡𝑡−1.
Вихідний вектор ℎ𝑡𝑡 обчислюється як лі-
нійна інтерполяція між ℎ𝑡𝑡−1 і поточним
кандидатом ℎ𝑡𝑡~ :
ℎ𝑡𝑡 = (1 − 𝑧𝑧𝑡𝑡) ⊙ ℎ𝑡𝑡−1 + 𝑧𝑧𝑡𝑡 ⊙ ℎ𝑡𝑡~,
де 𝑧𝑧𝑡𝑡 – вектор вузла уточнення. Він ви-
значає, які долі першого і другого векторів
впливатимуть на поточне значення. ⊙ по-
значає добуток Адамара.
Вектор вузла уточнення обчислює-
ться наступним чином:
𝑧𝑧𝑡𝑡 = 𝜎𝜎𝑔𝑔(𝑊𝑊𝑧𝑧𝑥𝑥𝑡𝑡 + 𝑈𝑈𝑧𝑧ℎ𝑡𝑡−1 + 𝑏𝑏𝑧𝑧).
Поточний кандидат ℎ𝑡𝑡~ обчислюєть-
ся подібно до стандартної рекурентної
нейронної мережі:
ℎ𝑡𝑡~ = 𝜎𝜎ℎ(𝑊𝑊ℎ𝑥𝑥𝑡𝑡 + 𝑈𝑈ℎ(𝑟𝑟𝑡𝑡 ⊙ ℎ𝑡𝑡−1) + 𝑏𝑏ℎ),
де 𝑟𝑟𝑡𝑡 – вектор вузла скидання, що обчи-
слюється подібно до вектора вузла уточ-
нення:
𝑟𝑟𝑡𝑡 = 𝜎𝜎𝑔𝑔(𝑊𝑊𝑟𝑟𝑥𝑥𝑡𝑡 + 𝑈𝑈𝑟𝑟ℎ𝑡𝑡−1 + 𝑏𝑏𝑟𝑟).
𝑊𝑊𝑧𝑧, 𝑈𝑈𝑧𝑧, 𝑊𝑊ℎ, 𝑈𝑈ℎ, 𝑊𝑊𝑟𝑟, 𝑊𝑊𝑟𝑟 позначають матриці
параметрів, а𝑏𝑏𝑧𝑧, 𝑏𝑏ℎ, 𝑏𝑏𝑟𝑟 позначають вектори
параметрів. Вектори вузлів уточнення і
скидання активуються сигмоїдною функці-
єю, а вектор поточного кандидата – гіпер-
болічним тангенсом.
Що до LSTM, то ця архітектура яв-
ляє собою дещо ускладнену версію GRU.
Замість двох вузлів (уточнення та скидан-
ня) вона має три — вузли входу, забування
та виходу. Звичайно, це робить мережі дов-
гої короткочасної пам’яті повільнішими
для навчання та використання, але разом з
тим, вони можуть бути ефективнішими,
коли йдеться про зберігання та доступ до
довгострокових залежностей.
Зауважимо, що і мережі довгої коро-
ткочасної пам’яті, і вентильні рекурентні
вузли можуть розв’язувати широкий
спектр задач, зокрема, розпізнавання мов-
лення, машинний переклад та прогнозу-
вання часових рядів. Як правило, LSTM-
Моделі та методи машинного навчання
94
мережі більш ефективні в задачах, які ви-
магають зберігання та доступ до довго-
строкових залежностей. З іншого боку,
GRU-мережі ефективніші в задачах, які
вимагають швидкого навчання та адаптації
до нових вхідних даних. Проте варто
пам’ятати, що не існує єдиного найбільш
ефективного типу рекурентних нейронних
мереж, який підходив би для усіх завдань.
Тому вибір між LSTM і GRU залежатиме
від конкретних вимог розв’язуваної задачі.
Як правило, доцільно спробувати
обидві архітектури та порівняти їхню ефе-
ктивність у застосуванні до тієї чи іншої
конкретної задачі. Власне, це і є мета про-
ведення даного дослідження, а саме порів-
няння цих двох архітектур у застосуванні
до задачі постпроцесингу результатів чи-
сельного метеорологічного прогнозування.
Опис експерименту
Як було зазначено вище, порівняння
архітектур рекурентних нейронних мереж
буде здійснено у застосуванні до прикла-
дної задачі уточнення прогнозу приземної
температури, отриманого за допомогою
чисельної моделі прогнозу погоди COSMO
[25].
Для кожної метеорологічної станції
було натреновано дві нейромережеві моде-
лі (одна з GRU-шаром, інша з LSTM-
шаром), які мали б якнайкраще виокреми-
ти фізичні особливості конкретного пункту
спостереження. Тож, ми маємо 16 натрено-
ваних моделей.
Нейромережева топологія та інші
конфігураційні параметри були однакови-
ми для усіх моделей. Першим шаром ней-
ронної мережі (після вхідного) було взято
рекурентний шар (GRU або LSTM), що
складався з 64 вузлів для GRU та 32 вузлів
для LSTM, оскільки менша і більша кіль-
кість давали гірші результати. Після нього
було додано один прихований пов-
нозв’язний шар із 64 вузлами. Останній
шар запропонованої архітектури був також
повнозв’язним і мав 8 вузлів, оскільки ви-
хідний вектор повинен мати розмірність
добового вектора прогнозу (8 значень).
Рис. 2 зображує описану топологію
нейромережевих моделей.
Що стосується даних, то для кожної
метеорологічної станції уся їх сукупність
була розбита на три класи: тренувальні
(період з 01.07.2012 до 30.06.2013; 365
днів), валідаційні (період з 01.07.2013 до
31.10.2013; 123 дні) і тестувальні (з
01.11.2013 до 01.04.2014; 151 день).
Рис. 2. Запропонована архітектура
нейронної мережі
Зауважимо, що поділ на три класи
(набори) — це загальна практика для “гли-
бокого навчання” [26]. Тренувальний набір
є найбільшим і використовується для оно-
влення вагових коефіцієнтів моделі шля-
хом зворотного розповсюдження помилки
або інших алгоритмів навчання. Другий
набір, валідаційний, використовується ви-
ключно для налаштування гіперпарамет-
рів: кількості шарів, типів шарів, функцій
активації, цільових функцій, швидкості
навчання тощо. Ключовою метою цього
налаштування є підвищення здатності ме-
режі до узагальнення для гарантії, що ме-
режа добре функціонуватиме на невідомих
для неї даних. Третій набір даних — це
тестовий набір, раніше невідомі дані, які
використовуються для оцінювання мережі
після налаштування.
Зазначимо, що усі експерименти
проводилися з використанням відкритого
нейромережевого інтерфейсу Keras [27] і
відкритої програмної бібліотеки для “гли-
бокого навчання” TensorFlow [28]. Програ-
мний код був написаний мовою Python [29].
Отримані результати
Порівняння ефективностей двох ар-
хітектур рекурентних нейронних мереж
здійснювалось за допомогою стандартного
способу оцінювання похибок, а саме за
Моделі та методи машинного навчання
95
допомогою середнього квадратичного від-
хилення (RMSE). Як бачимо з таблиці, усі
моделі з вентильними рекурентними вуз-
лами (GRU) є оптимальнішими за моделі
довгої короткочасної пам’яті (LSTM).
Таблиця. Порівняння архітектур
рекурентних нейронних мереж
Станція RMSE
(GRU), °C
RMSE
(LSTM), °C
Біла
Церква 1.8865 2.1451
Бориспіль 1.9958 2.1456
Київ 1.9824 2.1334
Миронівка 2.0099 2.4484
Тетерів 2.0215 2.3027
Фастів 1.8565 2.1394
Чорнобиль 2.0094 2.0355
Яготин 2.1157 2.3793
Висновки
На прикладі прогнозів моделі
COSMO приземної температури повітря
для восьми метеорологічних станцій Київ-
ської області та відповідних їм даних фак-
тичних спостережень було порівняно два
найпопулярніші види архітектур реку-
рентних нейронних мереж, а саме мережу
довгої короткочасної пам’яті та венти-
льний рекурентний вузол.
Показано, що усі моделі з венти-
льними рекурентними вузлами є ефектив-
нішими за моделі довгої короткочасної
пам’яті.
Таким чином, виявлено найкращу
архітектуру рекурентних нейронних мереж
для розв’язання задачі постпроцесингу ре-
зультатів чисельного метеорологічного
прогнозування.
References
1. Agapiou, A., 2017. Remote sensing
heritage in a petabyte-scale: satellite data
and heritage Earth Engine©
applications. International Journal of
Digital Earth, 10(1), pp.85-102.
2. LeCun, Y., Bengio, Y. and Hinton, G.,
2015. Deep learning. nature, 521(7553),
pp.436-444.
3. Bhimji, W., Farrell, S.A., Kurth, T.,
Paganini, M., Prabhat and Racah, E.,
2018, September. Deep neural networks
for physics analysis on low-level whole-
detector data at the LHC. In Journal of
Physics: Conference Series (Vol. 1085, p.
042034). IOP Publishing.
4. Schütt, K.T., Arbabzadah, F., Chmiela, S.,
Müller, K.R. and Tkatchenko, A., 2017.
Quantum-chemical insights from deep
tensor neural networks. Nature
communications, 8(1), p.13890.
5. Alipanahi, B., Delong, A., Weirauch, M.T.
and Frey, B.J., 2015. Predicting the
sequence specificities of DNA-and RNA-
binding proteins by deep learning. Nature
biotechnology, 33(8), pp.831-838.
6. Liu, Y., Racah, E., Correa, J.,
Khosrowshahi, A., Lavers, D., Kunkel,
K., Wehner, M. and Collins, W., 2016.
Application of deep convolutional neural
networks for detecting extreme weather in
climate datasets. arXiv preprint
arXiv:1605.01156.
7. Racah, E., Beckham, C., Maharaj, T.,
Ebrahimi Kahou, S., Prabhat, M. and Pal,
C., 2017. Extremeweather: A large-scale
climate dataset for semi-supervised
detection, localization, and understanding
of extreme weather events. Advances in
neural information processing
systems, 30.
8. LeCun, Y., Bottou, L., Bengio, Y. and
Haffner, P., 1998. Gradient-based learning
applied to document
recognition. Proceedings of the
IEEE, 86(11), pp.2278-2324.
9. Sak, H., Senior, A. and Beaufays, F.,
2014. Long short-term memory based
recurrent neural network architectures for
large vocabulary speech
recognition. arXiv preprint
arXiv:1402.1128.
10. Zhu, X.X., Tuia, D., Mou, L., Xia, G.S.,
Zhang, L., Xu, F. and Fraundorfer, F.,
2017. Deep learning in remote sensing: A
comprehensive review and list of
resources. IEEE geoscience and remote
sensing magazine, 5(4), pp.8-36.
11. Oh, J., Guo, X., Lee, H., Lewis, R.L. and
Singh, S., 2015. Action-conditional video
prediction using deep networks in atari
Моделі та методи машинного навчання
96
games. Advances in neural information
processing systems, 28.
12. Shi, X., Chen, Z., Wang, H., Yeung, D.Y.,
Wong, W.K. and Woo, W.C., 2015.
Convolutional LSTM network: A machine
learning approach for precipitation
nowcasting. Advances in neural
information processing systems, 28.
13. Schultz, M.G., Betancourt, C., Gong, B.,
Kleinert, F., Langguth, M., Leufen, L.H.,
Mozaffari, A. and Stadtler, S., 2021. Can
deep learning beat numerical weather
prediction?. Philosophical Transactions of
the Royal Society A, 379(2194),
p.20200097.
14. Montavon, G., Samek, W. and Müller,
K.R., 2018. Methods for interpreting and
understanding deep neural
networks. Digital signal processing, 73,
pp.1-15.
15. Runge, J., Petoukhov, V., Donges, J.F.,
Hlinka, J., Jajcay, N., Vejmelka, M.,
Hartman, D., Marwan, N., Paluš, M. and
Kurths, J., 2015. Identifying causal
gateways and mediators in complex
spatio-temporal systems. Nature
communications, 6(1), p.8502.
16. Bauer, P., Dueben, P.D., Hoefler, T.,
Quintino, T., Schulthess, T.C. and Wedi,
N.P., 2021. The digital revolution of
Earth-system science. Nature
Computational Science, 1(2), pp.104-113.
17. Prudden, R., Adams, S., Kangin, D.,
Robinson, N., Ravuri, S., Mohamed, S.
and Arribas, A., 2020. A review of radar-
based nowcasting of precipitation and
applicable machine learning
techniques. arXiv preprint
arXiv:2005.04988.
18. Bonavita, M. and Laloyaux, P., 2020.
Machine learning for model error
inference and correction. Journal of
Advances in Modeling Earth
Systems, 12(12), p.e2020MS002232.
19. Krasnopolsky, V.M., Fox-Rabinovitz,
M.S. and Chalikov, D.V., 2005. New
approach to calculation of atmospheric
model physics: Accurate and fast neural
network emulation of longwave radiation
in a climate model. Monthly Weather
Review, 133(5), pp.1370-1383.
20. Rasp, S. and Lerch, S., 2018. Neural
networks for postprocessing ensemble
weather forecasts. Monthly Weather
Review, 146(11), pp.3885-3900.
21. Shpyg, V., Budak, I., Pishniak, D. and
Poperechnyi, P., 2013, November. The
application of regional NWP models to
operational weather forecasting in
Ukraine. In CAS Technical Conference
(TECO) on" Responding to the
Environmental Stressors of the 21st
Century" Available from: http://www.
wmo.
int/pages/prog/arep/cas/documents/Ukrain
e-NWPModels. pdf [Accessed
27/02/2020].
22. Doms, G. and Baldauf, M., 2011. A
description of the nonhydrostatic regional
COSMO-Model Part I: dynamics and
numerics. Deutscher Wetterdienst,
Offenbach.
23. Hochreiter, S. and Schmidhuber, J., 1997.
Long short-term memory. Neural
computation, 9(8), pp.1735-1780.
24. Cho, K., Van Merriënboer, B., Gulcehre,
C., Bahdanau, D., Bougares, F., Schwenk,
H. and Bengio, Y., 2014. Learning phrase
representations using RNN encoder-
decoder for statistical machine
translation. arXiv preprint
arXiv:1406.1078.
25. Doroshenko, А.Y., Shpyg, V.M. and
Kushnirenko, R.V., 2023. Deeplearning-
based approach to improving numerical
weather forecasts. PROBLEMS IN
PROGRAMMING, (3), pp.91-98.
26. Goodfellow, I., Bengio, Y. and Courville,
A., 2016. Deep learning. MIT press.
27. https://keras.io/
28. https://www.tensorflow.org/
29. https://www.python.org/
Одержано: 01.12.2023
Про авторів:
Дорошенко Анатолій Юхимович,
доктор фізико-математичних наук,
професор, завідувач відділу ІПС НАНУ,
професор кафедри інформаційних
систем та технологій КПІ
імені Ігоря Сікорського.
Кількість наукових публікацій
в українських виданнях – понад 200.
Моделі та методи машинного навчання
97
Кількість наукових публікацій
в зарубіжних виданнях – понад 90.
Індекс Гірша – 7.
http://orcid.org/0000-0002-8435-1451,
Кушніренко Роман Владиславович,
аспірант.
Кількість наукових публікацій
в українських виданнях – 3.
https://orcid.org/0000-0002-1990-8727.
Місце роботи авторів:
Інститут програмних систем
НАН України,
03187, м. Київ-187,
проспект Академіка Глушкова, 40.
Тел.: (38)(044) 526-60-33.
E-mail:
doroshenkoanatoliy2@gmail.com,
roman.kushnirenk@gmail.com.
|