Parameters’ analysis as a tool for boosting neural networks’ learning efficiency

General traits of neural networks’ learning using error back propagation algorithm were reviewed. Different networks’ parameters and their influence on learning efficiency was analyzed. Various changes in parameters set and resulting changes in the learning process of neural networks were described....

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2026
Автор:	Prokhorov, V.G.
Формат:	Стаття
Мова:	Російська
Опубліковано:	PROBLEMS IN PROGRAMMING 2026
Теми:	UDC 004.934
Онлайн доступ:	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/984
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	Problems in programming
Завантажити файл:

Репозитарії

Problems in programming

_version_	1867660248958894080
author	Prokhorov, V.G.
author_facet	Prokhorov, V.G.
author_institution_txt_mv	[ { "author": "V.G. Prokhorov", "institution": "Institute of Software Systems NAS of Ukraine" } ]
author_sort	Prokhorov, V.G.
baseUrl_str	https://pp.isofts.kiev.ua/index.php/ojs1/oai
collection	OJS
datestamp_date	2026-06-10T11:10:03Z
description	General traits of neural networks’ learning using error back propagation algorithm were reviewed. Different networks’ parameters and their influence on learning efficiency was analyzed. Various changes in parameters set and resulting changes in the learning process of neural networks were described.Problems in programming 2009; 4: 89-95
first_indexed	2026-06-11T01:00:11Z
format	Article
fulltext	Прикладне програмне забезпечення 89 УДК 004.934 В.Г. Прохоров АНАЛИЗ ПАРАМЕТРОВ КАК СРЕДСТВО ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ОБУЧЕНИЯ НЕЙРОННЫХ СЕТЕЙ Рассмотрены общие особенности обучения нейросетей методом обратного распространения ошибки. Про- анализированы различные параметры сети, исследовано их влияние на эффективность обучения. Описаны изменения в ходе обучения нейронных сетей при модификации параметров. Введение Алгоритм обратного распростране- ния ошибки является наиболее широкоис- пользуемым при обучении нейронных се- тей. Причиной этого является его концеп- туальная простота, относительно высокая вычислительная эффективность и способ- ность к достижению результата в боль- шинстве случаев. Тем не менее, настройка такого алгоритма для эффективной работы – трудоемкий процесс, который зачастую сложно описать языком формул. Проекти- рование и обучение сети с помощью об- ратного распространения ошибки требует выбора многих параметров: числа и типа узлов, слоев, скоростей обучения, обу- чающих и проверочных выборок и т.д. Эти параметры коренным образом влияют на дальнейшую работу сети, при этом, нет единого набора параметров, который бы гарантировал оптимальную работу, так как параметры зависят от специфики постав- ленной задачи. Данная работа – результат исследо- вания различных параметров сети, их влияния на скорость обучения и конечную эффективность работы. Здесь не рассмат- риваются алгоритм обратного распростра- нения, ошибки и методы повышения схо- димости второго порядка (методы Левен- берга–Марквадта, использование числен- ного метода Ньютона–Гаусса для оптими- зации вычисления Гессиана) они описаны в [1, 2]. Основное внимание будет уделено описанию параметров, позволяющие раз- работчикам нейронных сетей принять пра- вильные решения при проектировании и обучении. Наиболее распространенный алго- ритм обучения – обратное распростране- ние ошибки, использует метод градиент- ного спуска для нахождения минимума и может работать крайне медленно в случае большого числа слоев персептрона, пло- ской поверхности решений, множеством локальных минимумов и других факторов. Не существует математической формулы, которая гарантирует сходимость сети в точке наилучшего решения, быструю схо- димость, и даже то, что такая сходимость действительно произойдет. Далее будет рассмотрен ряд механизмов нейронной се- ти, настройка которых увеличивает шансы найти наилучшее решение, сократить вре- мя обучения, иногда на порядок. 1. Последовательное и пакетное обучение Как известно, обучение нейронной сети происходит за счет корректировки ве- сов. Эта корректировка может происхо- дить на каждом шаге (последовательное обучение), или после прохода по всей обу- чающей выборке. В этом случае, измене- ния весов накапливаются и суммируются один раз. Такой метод обучения называют пакетным. В большинстве случаев применяет- ся последовательное обучение, так как оно значительно быстрее пакетного и чаще всего находит лучшее решение, чем пакет - © В.Г. Прохоров, 2009 ISSN 1727-4907. Проблеми програмування. 2009. № 4 Прикладне програмне забезпечення 90 ное. Еще одно преимущество последова- тельного обучения – это возможность от- слеживать изменения в сети при обучении на уровне связей. Именно поэтому на практике чаще всего используется метод последовательного обучения. Тем не менее, в отдельных случаях пакетный метод может быть эффективно использован – ряд алгоритмов повышения сходимости второго порядка применим только к пакетному обучению, что обу- словливает использование пакетного ме- тода в случаях, когда время обучения сети является критичным. Это достигается за счет вычисления не только самого гради- ента обучения, но и кривизны поверхно- сти, в которой происходит поиск миниму- ма. Зная значение кривизны поверхности и градиента можно приблизительно рассчи- тать нахождение искомого минимума [3]. 2. Анализ обучающей выборки Особенность обучения нейронной сети в том, что она наиболее эффективно учится на незнакомых примерах. В этом случае, система получает больше новой информации, которая, как правило, изме- няет направление градиента. Оценка ин- формативности каждого примера является нетривиальной задачей. Есть несколько простых и эффективных эвристик, позво- ляющих обучать систему на информатив- ных примерах. Одна из них – последова- тельное обучение на разных (т.е. принад- лежащих к разным классам) примерах, по- скольку принадлежащие одному классу примеры содержат похожую информацию. Еще один способ оценки информа- тивности примера – анализ его выходного вектора ошибок. Очевидно, что если при обучении сети на определенном примере, выходная ошибка имеет большое значе- ние, то такой пример содержит много но- вой информации, не был заучен сетью и имеет смысл подавать сети такой пример чаще остальных. Заметим, что величина ошибки, при которой имеет смысл повто- рять изучение примера, носит относитель- ный характер, и определяется через отно- шение к ошибкам других обучающих при- меров. Использование повторной подачи примеров на обучение может привести к низкой эффективности обучения сети. Рас- смотрим следующий случай: допустим, идет обучение сети на множестве приме- ров, часть которых является искаженными. Очевидно, что такие примеры будут давать большую ошибку, следственно будут по- даны на повторное обучение. Как резуль- тат, веса нейросети будут скорректирова- ны по направлению к искаженным приме- рам, что является нежелательным. С дру- гой стороны, использование такого метода является необходимым, когда обучающие примеры существенно отличаются количе- ственно и система не может запомнить редко встречаемые примеры [4]. 3. Нормирование значений Сходимость сети значительно по- вышается при условии, когда среднее зна- чение входных сигналов приблизительно равно нулю. Для иллюстрации данного ут- верждения рассмотрим случай, когда все значения входных сигналов положитель- ны. Поскольку в процессе обучения веса, идущие к определенному нейрону, меня- ются на векторную величину, пропорцио- нальную скалярной ошибке и входному вектору, то знак всех компонентов векто- ра, на который изменяются веса, будет знаком ошибки-скаляра. Как следствие, все веса могут одновременно или увеличи- ваться, или уменьшатся для определенного обучающего примера. Таким образом, ес- ли для нахождения минимума вектор гра- диент должен сменить направление, он бу- дет менять его за счет сложной комбина- ции поворотов в противоположных на- правлениях, что значительно уменьшает скорость сходимости. Это явление имеет место, если все значения входных сигна- лов отрицательны. Именно по этой причи- не важно нормировать значения входных сигналов так, чтоб их среднее значение было близко к нулю. Такой подход следует применять ко всем слоям нейронной сети, поскольку вы- ходные значения одного слоя – входные значения для следующего слоя. В этом случае, такое нормирование проводит сиг- моидальная активирующая функция, при- Прикладне програмне забезпечення 91 меняемая в данной сети. Более подробно различные виды активирующих функций будут рассмотрены в следующем разделе данной работы. Кроме нормирования значений ком- понента, так чтоб среднее значение было близко к нулю, необходимо также осуще- ствить общее нормирование всех компо- нент, так, чтоб они принадлежали одному диапазону значений. Математически, это требование звучит следующим образом: ковариация всех входных сигналов должна быть примерно одинаковой, при этом ко- вариация вычисляется по формуле ∑ = = P p p ii z P C 1 2)( 1 , (1) где P – общее число обучающих примеров, iC – значение ковариации всех значений i-го нейрона входного слоя, а p iz – i-й компонент обучающего примера p. Такое нормирование значительно ускоряет обу- чение за счет балансирования темпов обу- чения весов, присоединенных к входному слою. Заметим, что данное нормирование не стоит проводить, если заранее известно, что определенные входные сигналы менее важны, чем другие. В этом случае нужно, наоборот, уменьшить диапазон значений малозначимых нейронов входного слоя, так, чтоб они меньше влияли на процесс обучения. 4. Выбор сигмоидальной функции Нелинейные активирующие функ- ции являются ключевым элементом нейро- сетевого механизма в силу их дифферен- цируемости, и свойству производить нели- нейное преобразование входных данных. Чаще всего в этом случае применяются сигмоидные функции (сигмоиды) различ- ных типов: монотонно возрастающие функции, которые при конечном значении аргумента стремятся к бесконечности. На практике применяются два вида таких функций – стандартная логистическая функция: xe xf + = 1 1 )( (2) и гиперболический тангенс: )tanh()( xxf = . (3) На рисунке изображены графики этих функций: a) – логистическая функция, b) – гиперболический тангенс. Руково- дствуясь логикой нормализации значений, изложенной в предыдущем разделе, имен- но гиперболический тангенс является при- емлемой активирующей функцией, так как среднее значение такой функции близко к нулю, что следует из симметричности функции относительно начала координат (в случае с логистической функцией, зна- чения всегда позитивны). Напомним, что выходные значения активирующей функ- ции являются входными значениями для следующего слоя, что повышает требова- ния к функции, и диапазону возвращаемых ею значений. Рисунок На практике, применяется гипербо- лический тангенс с несколько видоизме- ненными параметрами (как показано на рисунке, диапазон значений несколько шире, чем [-1;1], стандартный диапазон гиперболическго тангенса). Наиболее при- Прикладне програмне забезпечення 92 емлемым вариантом гиперболического тангенса является вариация ) 3 2 tanh(7159.1)( xxf = . Такая функция обладает двумя важными особенностями f(1)=1, а вторая производ- ная достигает своего максимума при x=1. Более подробно видоизмененный гипербо- лический тангенс рассмотрен в [5, 6]. 5. Выбор целевых значений выходного слоя В нейронных сетях, используемых для решения задач классификации, целе- вое значение функции, как правило, би- нарное, например, [-1;1]. На первый взгляд, выбор в качестве целевых значений функции значения ее асимптот является наиболее логичным. На практике, у такого подхода есть ряд недостатков. Один из них – медленная сходимость нейросети. При обучении, нейросеть будет адаптировать веса так, чтоб они совпадали с целевыми значениям функции, а этого можно дос- тичь только за счет асимптотичного при- ближения [7]. В результате, веса будут стремиться к большим значениям, но при этом производная функции при таких зна- чениях будет стремится к нулю, что сдела- ет изменение весов крайне малыми, т. е. изменение весов и процесс обучения фак- тически прекратятся. Заметим, что такой подход отчасти противоречит одному из основных требований к активирующей функции – нелинейности. Еще один недостаток – низкая эф- фективность работы такой сети при распо- знавании неоднозначных объектов. Рас- смотрим пример: на вход нейросети по- ступает объект, который лежит возле раз- деляющей 2 класса гиперплоскости. В иде- альном варианте, сеть должна вернуть зна- чение, лежащее между двумя целевыми значениями, т. е. далеко от обеих асим- птот. Проблема в том, что большие веса нейросети, сдвигают результирующие зна- чения к асимптотам сигмоида. Как резуль- тат, сеть может неправильно распознать определенный объект и при этом не сооб- щить никаких данных о том, что вероят- ность неправильного распознавания в дан- ном случае велика. Решение этой проблемы состоит в выборе таких целевых значений, которые лежат в пределах значений сигмоида, а не его асимптот. В этом случае, необходимо выбрать новые целевые значения так, чтоб значение активирующей функции не было ограничено линейной частью сигмоида. Выбор в качестве целевых значений точек максимума второй производной активи- рующей функции является наилучшей практикой – при таком подходе сохраняет- ся требование к нелинейности. По этой причине, сигмоид б) на рисунке является наилучшим выбором активирующей функции. Его вторая производная имеет наибольшее значение в точках -1 и 1, что соответствует бинарным целевым значе- ниям в задачах классификации. 6. Использование радиально базисных функций Несмотря на то, что большинство систем формируют значение нейронов за счет скалярного произведения весов и сиг- налов, а также применения к результату такой операции сигмоидальной функции, можно использовать другие типы слоев и функций. Наиболее распространенным альтернативным вариантом является сеть на базе радиально базисных функций (РБФ). В сетях на основе РБФ скалярное произведение заменено эвклидовым рас- стоянием между входным сигналом и ве- сами, а сигмоид заменен экспонентой. Значение функции для каждого выхода вычисляется по следующей формуле: ∑ = −−= N i i i i vxwxf 1 2 2 )\|\|\|\| 2 1 exp()( σ , (4) где )( iiv σ – стандартное отклонение i-го Гауссиана. РБФ могут как заменять стан- дартные нейроны, так и сосуществовать вместе в рамках разных слоев. На практике чаще всего применяется второй подход, например, современные сверточные сети с большой точностью распознавания ис- пользуют РБФ при формировании послед- него слоя нейронов. В отличии от сигмоидов, которые определены всюду, отдельный РБФ нейрон Прикладне програмне забезпечення 93 покрывает только небольшую локальную область входного пространства. Это опре- деляет одно из преимуществ РБФ – во многих случаях небольшая область уско- ряет адаптацию весов, т. е. обучение [8]. Использование РБФ в качестве базисных функций для моделирования входного пространства (вместо сигмоидов) также возможно, но целесообразность такой за- мены тесно связана с самой задачей. С другой стороны, небольшой размер РБФ области затрудняет ее использование в пространствах с большим числом измере- ний, так как для покрытия всего простран- ства необходимо значительное число ней- ронов. Поэтому, РБФ используют в по- следних уровнях нейросети (с малым ко- личеством измерений), а сигмоиды – в уровнях с большим числом измерений. 7. Экспериментальная оценка эффективности различных параметров нейронных сетей Прежде чем перейти к непосредст- венному описанию экспериментов и полу- ченных результатов, стоит отметить, что эффективность обучения и работы ней- ронной сети зависит от предметной облас- ти, обучающей, и, в меньшей мере, прове- рочной выборки данных. Полученные в результате экспериментов результаты не следует воспринимать как абсолютную ис- тину – эффективность тех, или иных под- ходов может существенно меняться при разных исходных условиях, что будет про- демонстрировано далее при оценке эффек- тивности РБФ функций. Все эксперименты проводились на полносвязной нейронной сети с одним скрытым слоем. Сеть обучалась распозна- ванию рукописных цифр (т. е. количество выходных классов равно 10), которые по- ступали на вход в виде битового изобра- жения 28х28 пикселов (таким образом, входной слой сети состоит из 784 входных нейронов). Число нейронов скрытого слоя выбрано равным 50. Кроме эксперимента, оценивающего эффективность активи- рующих функций, в качестве такого ис- пользовался гиперболический тангенс. Обучение проводилось последовательным методом (кроме сравнительного экспери- мента с пакетным) на стандартном наборе рукописных цифр MNIST, используемом учеными и энтузиастами для оценки эф- фективности OCR систем во всем мире. Размер обучающей выборки – 60.000 сим- волов, проверочной – 10.000. Графические образы цифр не проходили предваритель- ную обработку (центрирование, фильтра- цию, масштабирование). Во втором экспе- рименте с оценкой эффективности РБФ функций в качестве обучающей выборки брались сгенерированные средствами .NET образы букв латинского алфавита, нарисованные разными шрифтами. В этом случае, сеть состояла из 784-100-26 нейро- нов, обучающая выборка состояла из 3250 символов (125 полных алфавитов), прове- рочная – из 178 символов (3 алфавита из обучающей выборки с внесенными мини- мальными искажениями). В качестве критериев эффективно- сти работы брались такие параметры: ско- рость обучения, точность распознавания символов из проверочной выборки. Всего проведено 5 сравнительных экспериментов, в каждом из них менялся параметр: • последовательное и пакетное обу- чение; • нормированные и не нормирован- ные значения; • гиперболический тангенс и логи- стическая функция; • РБФ и стандартные активирующие функции; • РБФ и стандартные активирующие функции (с другой обучающей выборкой – набором букв). Результаты экспериментов приведены в таблице. Рассмотрим их подробнее. Как отмечено выше, пакетное обу- чение стоит использовать только в тех случаях, когда для ускорения обучения ис- пользуются алгоритмы второго порядка. В противном случае, последовательное обу- чение является более эффективным. Логистическую функцию вообще не следует использовать для обучения нейро- сетей. Эксперименты подтверждают ее не- эффективность по сравнению с гиперболи- ческим тангенсом. Прикладне програмне забезпечення 94 Нормирование входов – эффективный прием, который стоит применять для задач с однородными и одинаково важными для сети входными данными. Использование РБФ для распозна- вания символов не превзошло классиче- ский подход. Однако, с увеличением числа выходных классов (с 10 до 26), преимуще- ство имеют РБФ. Причины такого эффекта подробно описаны в [9]. Выводы Сравнение различных параметров нейронных сетей, а также анализ их влия- ния на работу нейронной сети осуществля- ется на основе классической полносвязной сети, настроенной на распознавание обра - зов. Многие параметры тесно связаны с самой задачей и ее предметной областью. По этим причинам цель работы – не поиск оптимального набора параметров, обеспе- чивающего наиболее быстрое обучение и точное распознавание, а подробный анализ параметров и их влияния на работу сети. Отметим, что в данной работе про- пущен анализ начального распределения весовых коэффициентов, а также вариации скорости обучения, которая описана в [7]. Начальное распределение весовых коэф- фициентов – открытый вопрос, что может стать темой отдельной статьи. Различные подходы к начальному распределению по- казаны в [5, 7]. Таблица. Результаты экспериментов Первый параметр Время обучения, час: мин: сек Точность распозна- вания Второй пара- метр Время обучения, час: мин: сек Точность распозна- вания Последовательное обучение 5:10:19 86.48% Пакетное обуче- ние 5:39:07 82.78% Нормированные входные значения 5:10:19 86.48% Ненормирован- ные входные значения 6:12:48 79.58% Гиперболический тангенс 5:10:19 86.48% Логистическая функция 6:28:15 73.37% Стандартная акти- вирующая функция 5:10:19 86.48% РБФ 6:24:43 81.29% Стандартная акти- вирующая (распо- знавание набора букв) 0:40:37 73.5% РБФ (распозна- вание набора букв) 0:29:06 80.3% Прикладне програмне забезпечення 95 1. Le Cunn Y., Bottou L., Orr G.B. Neural Networks: Tricks of the trade, Springer. – 1998. – Р. 1 – 5. 2. Каллан Р. Основные концепции нейрон- ных сетей. – М.: Вильямс, 2001. – С. 80 – 196. 3. Burges C.J.C. A Method for Training Neu- ral Network to Recognize Character Strings, AT&T Bell Laboratories. – 1992. – Р. 1 – 8. 4. Simard P.Y. Best Practices for Convolu- tional Neural Networks Applied to Visual Document Analysis, Microsoft . – 1998. – Р. 23 – 24. 5. Le Cunn Y. Efficient BackProp, Speech and Image Processing Services Research AT&T Lab. – 1998. – Р. 5 – 16. 6. Vaillant R. Localization of Objects in Im- ages, Speech and Image Processing Ser- vices Research AT&T Lab. – 1994. – Р. 1 – 13. 7. Хайкин C. Нейронные сети. Полный курс Изд. второе (испр.). Прэнтис Холл. – 2006. – С. 239 – 298 ; 308 – 315. 8. Le Cunn Y., Bottou L., Haffner P. Gradient Based Learning Applied to Document Recognition, IEEE Press. – 1998 – Р. 4 – 12. 9. Прохоров В. Использование сверхточ- ных сетей для распознавания рукопис- ных символов // Проблеми програму- вання. – 2008. – № 2-3. – С. 669 – 674. Получено 13.10.09 Об авторе: Прохоров Валерий Георгиевич, аспирант Института программных систем НАН Украины. Место работы автора: Институт программных систем НАН Украины. 03187, Киев -187, Проспект Академика Глушкова, 40. Телефон: 80509713876. E-mail: makumazan84@yahoo.com
id	pp_isofts_kiev_ua-article-984
institution	Problems in programming
keywords_txt_mv	keywords
language	Russian
last_indexed	2026-06-11T01:00:11Z
publishDate	2026
publisher	PROBLEMS IN PROGRAMMING
record_format	ojs
resource_txt_mv	ppisoftskievua/f1/8262240a932e48e96214d91de4085bf1.pdf
spelling	pp_isofts_kiev_ua-article-9842026-06-10T11:10:03Z Parameters’ analysis as a tool for boosting neural networks’ learning efficiency Анализ параметров как средство повышения эффективности обучения нейронных сетей Аналіз параметрів як засіб підвищення ефективності навчання нейромереж Prokhorov, V.G. UDC 004.934 УДК 004.934 УДК 004.934 General traits of neural networks’ learning using error back propagation algorithm were reviewed. Different networks’ parameters and their influence on learning efficiency was analyzed. Various changes in parameters set and resulting changes in the learning process of neural networks were described.Problems in programming 2009; 4: 89-95 Рассмотрены общие особенности обучения нейросетей методом обратного распространения ошибки. Проанализированы различные параметры сети, исследовано их влияние на эффективность обучения. Описаны изменения в ходе обучения нейронных сетей при модификации параметров.Problems in programming 2009; 4: 89-95 Розглянуто основні особливості навчання нейромереж методом зворотнього розповсюдження помилки. Проаналізовано різноманітні параметри мережі, досліджено їх вплив на ефективність навчання. Описано зміни в ході навчання нейронних мереж при модифікації параметрів.Problems in programming 2009; 4: 89-95 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2026-06-10 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/984 PROBLEMS IN PROGRAMMING; No 4 (2009); 89-95 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2009); 89-95 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2009); 89-95 1727-4907 ru https://pp.isofts.kiev.ua/index.php/ojs1/article/view/984/1052 Copyright (c) 2026 PROBLEMS IN PROGRAMMING
spellingShingle	UDC 004.934 Prokhorov, V.G. Parameters’ analysis as a tool for boosting neural networks’ learning efficiency
title	Parameters’ analysis as a tool for boosting neural networks’ learning efficiency
title_alt	Анализ параметров как средство повышения эффективности обучения нейронных сетей Аналіз параметрів як засіб підвищення ефективності навчання нейромереж
title_full	Parameters’ analysis as a tool for boosting neural networks’ learning efficiency
title_fullStr	Parameters’ analysis as a tool for boosting neural networks’ learning efficiency
title_full_unstemmed	Parameters’ analysis as a tool for boosting neural networks’ learning efficiency
title_short	Parameters’ analysis as a tool for boosting neural networks’ learning efficiency
title_sort	parameters’ analysis as a tool for boosting neural networks’ learning efficiency
topic	UDC 004.934
topic_facet	UDC 004.934 УДК 004.934 УДК 004.934
url	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/984
work_keys_str_mv	AT prokhorovvg parametersanalysisasatoolforboostingneuralnetworkslearningefficiency AT prokhorovvg analizparametrovkaksredstvopovyšeniâéffektivnostiobučeniânejronnyhsetej AT prokhorovvg analízparametrívâkzasíbpídviŝennâefektivnostínavčannânejromerež

Parameters’ analysis as a tool for boosting neural networks’ learning efficiency

Репозитарії

Схожі ресурси