Проект Templet

акторный фреймворк для запуска задач
на множестве ядер, кластерах и в облаках
templet.ssau.ru

Инструменты пользователя

Инструменты сайта


translate:how_effective_are_neural_networks_at_forecasting_and_prediction

Насколько эффективны нейронные сети в задачах прогноза?

Перевод статьи: How Effective are Neural Networks at Forecasting and Prediction? - Journal of Forecasting J. Forecast. 17, 481-495 (1998)

Авторы: Monica Adya1, Fred Collopy2

  1. University of Maryland at Baltimore County, USA
  2. Case Western Reserve University, USA

Перевод: Артамонов Юрий

Аннотация

Несмотря на увеличение количества приложений прогнозирования с использованием искусственных нейронных сетей в прошлом десятилетии, мнения относительно их вклада различаются. Оценка исследований в этой области сложна в связи с отсутствием чёткого критерия. Мы установили 11 принципов, которые могут быть использованы для оценки этой литературы. Используя их, мы проверили приложения для бизнес прогноза с использованием нейронных сетей. Мы нашли 48 исследований выполненных между 1988 и 1994 годом. Для каждого мы оценили насколько эффективна предлагаемая методика в сравнении с альтернативными (эффективность проверки) и как хорошо методика реализована (эффективность реализации). Мы обнаружили, что 11 исследований были эффективно проверены и реализованы. Другие 11 исследований были эффективно проверены и предоставили положительные результаты, несмотря на некоторые проблемы с качеством реализации нейронных сетей. Из этих 22 исследований 18 потенциально могут быть использованы в задачах прогноза.

Ключевые слова: искусственный интеллект, машинное обучение, проверка.

Введение

Искусственные нейронные сети - вычислительные структуры, моделирующие свободные биологические процессы. НС 1) изучают множество конкурирующих гипотез одновременно, используя массивно параллельные сети состоящие из нелинейных относительно вычислений элементов, соединённых связями с различными весами. Этот соединённый набор весов, который содержит знание, генерируется НС. НСи были удачно использованы для низкоуровневых задач распознавания, таких как распознавание речи или символов. В настоящее время они изучаются для задач принятия решений и индукции.

В общем, модели НС описываются топологией сети, характеристиками узлов и правилами тренировки или обучения. НС состоят из большого числа простых обрабатывающих элементов, каждый из которых взаимодействует с другими посредством возбуждающих или тормозящих соединений. Распределённое представление поверх большого числа элементов вместе с взаимосвязью обрабатывающих элементов обеспечивает допустимую ошибку. Обучение достигается посредством правил, которые адаптируют веса связей в ответ на входные шаблоны. Изменения весов ассоциированных со связями позволяют приспосабливаться к новым ситуациям. Липман открыл широкий спектр топологий, которые используются для реализации НС.

За последние 10 лет всё более активные усилия исследований были направлены на применение НС в бизнесе. Несмотря на это мнения о ценности этих подходов оказались неоднозначными. Одни считают их эффективными для задач неструктурированного принятия решений, другие исследователи выразили сомнения в их потенциале, предполагая что требуются более сильные эмпирические доказательства.

Структура работы состоит в следующем. Во-первых, мы объясняем как были выбраны процедуры обучения. Затем мы описываем критерии, которые были использованы для их оценки. Далее мы обсудим наши результаты после применения критерия к обучающим процедурам. Наконец мы дадим некоторые рекомендации для улучшения исследований в этой области.

Как выбирались исследования

Нас интересовало, в какой степени исследования в области НС внесли свой вклад в повышение точности прогнозов в бизнесе. Мы просмотрели 3 базы данных статей (Индекс цитирования социальных наук, Научный индекс цитирования и база статей бизнес тематики ABI Inform) и труды объединённой международной конференции IEEE/INNS. Наш поиск выдал широкий спектр приложений, ориентированных на задачи прогноза, от прогнозирования погоды до предсказаний цен на бирже. Для этой оценки мы исключили исследования, связанные с погодой, биологическими процессами, чисто математические ряды, а также другие приложения не относящиеся к бизнесу. Мы определили дополнительные исследования по цитатам. Этот процесс выдал всего 46 исследований. Впоследствии мы опросили авторов исследований, чтобы определить точной ли была наша интерпретация их исследований и найти другие исследования, которые должны быть включены в этот обзор. 12 (26%) авторов ответили и 2 указали по одному дополнительному исследованию. Эти два исследования были включены в обзор. Текущий вариант обзора включает 48 исследований между 1988 и 1994 годами, которые были использованы в задачах прогнозирования для бизнеса.

Критерий оценки исследования

При оценке исследований мы были заинтересованы в ответах на 2 вопроса. Во-первых, сделали ли в исследовании оценку возможностей прогнозирования сети? Во-вторых, реализует ли исследование НС в соответствии с подходом, дающим реальный шанс на эффективность? Мы называем это эффективностью проверки и эффективностью реализации соответственно.

Эффективность проверки

Существуют устоявшиеся традиции в исследованиях прогнозирования сравнением подходов на основе эмпирических результатов. Если новый подход следует воспринимать всерьёз, то он должен бы оценён с точки зрения альтернатив, которые могут быть использованы. Если такое сравнение не проводится, сложно судить, насколько ценно исследование для задач прогнозирования.

Честно говоря, исследователи не всегда преследуют такие цели в исследованиях. Иногда они используют прогнозирование в качестве транспортного средства для изучения динамики конкретного метода или области. (Например Пирамуту, Шав и Гентри предложили использовать модифицированный алгоритм обратного распространения ошибки и протестировали его в области кредитования). Тем не менее, наша цель - ответить на вопрос, что эти подходы привносят в наше понимание и способности как специалистов по прогнозу.

Для оценки эффективности проверки мы применили 3 руководящих принципа, описанных у Коллопи, Адиа и Армстронга.

Сравнение с общепринятыми моделями

Прогнозы по предложенной модели должны работать по крайней мере так же хорошо как и некоторые общепринятые модели. Например, если предлагаемая модель не даёт прогнозы лучше чем наивная экстраполяция (случайный проход), нельзя утверждать, что процесс предоставляет знание о тренде.

Использование предварительных проверок

Сравнения прогнозов должны базироваться на предварительном (вне примеров) результате. Другими словами, выборка, которая используется для проверки прогноза, должна отличаться от образцов, используемых для разработки и обучения. Это соответствует условиям задач из реальной жизни, когда необходимо построить прогноз о неизвестном будущем или в случае, для которого результаты недоступны.

Использование разумных примеров прогноза

Размер контрольной выборки должен быть адекватным, чтобы сделать выводы. Мы исследовали размер контрольных выборок, используемых в классификации и в исследованиях временных рядов отдельно. Большинство исследований классификации использовали 40 или более случаев для проверки. Исследования временных рядов обычно используют большие контрольные выборки. Большинство из них использовали 75 или более прогнозов для проверки.

Эффективность реализации

Для исследований, которые были успешно проверены НС, мы задали второй вопрос: Насколько хорошо реализована предложенная архитектура? В то время как от исследования с плохой проверкой мало пользы, исследования с плохой реализацией ещё могут иметь некоторую ценность. Если метод работает сравнительно хорошо, даже когда он реализован не самым оптимальным образом, есть основания быть уверенным, что он может претендовать на это, когда будет доработан.

При определении эффективности с которой НС были разработаны и протестированы мы использовали принципы оценки работы сети предложенные Рефенсом. Наша реализация некоторых критериев (в частности что касается стабильности реализации) отличается от реализаций Рефенса.

  • Сходимость: сходимость связана с проблемой способности обучающей процедуры к обучению классификации определённой в наборе данных. При оценке этого критерия мы были заинтересованы в результате на обучающей выборке поскольку он определяет способность сети к сходимости и проверяет способность к обобщению, т.е. предварительный результат. Если исследование не показывает результат на обучающей выборке, мы рекомендуем с осторожностью подходить к принятию его результатов предварительной оценки.
  • Обобщение: обобщение измеряет способность НС распознавать шаблоны вне обучающей выборки. Показатели точности достигаемые на фазе обучения определяют границы для обобщения. Если результат на новом образце похож на такой же на этапе сходимости, то можно считать, что НС обучена хорошо.
  • Стабильность: стабильность это консистентность результатов во время этапа проверки с различными образцами данных. Этот критерий оценивает является ли конфигурация НС определённой на этапе обучения и что результаты этапа обобщения консистентны на различных образцах тестовых данных. Исследования могли продемонстрировать стабильность через использование итеративных попыток на тех же данных или же через использование множества образцов для обучения и проверки.

Критерии носят довольно общий характер, чтобы быть применимыми к любой НС или механизму обучения. Кроме того, они представляют собой квинтэссенцию лучших практик в литературы. Тот факт, что исследование не отвечает критериям, не обязательно говорит о его провале. Если мы хотим использовать эмпирические исследования для того чтобы высказаться за или против применимости НС к прогнозированию, то мы должны быть в состоянии определить, какие из реализаций подходят для этого.

В целом исследования были классифицированы по 3 типам. Те, что хорошо реализованы и хорошо проверены представляют интерес независимо от результатов. Они могут быть использованы как для аргументации за применение НС, так и против, в зависимости от результата. Это, казалось бы, самые ценные исследования. Ко второму типу относятся исследования, которые были хорошо проверены, хотя их реализация пострадала в некоторых аспектах. Это важно, когда методика, которую они предлагают, хороша, несмотря на ограничения реализации. Они могут быть использованы, чтобы утверждать, что НС применимы и для того, чтобы установить нижнюю границу их возможностей. Наконец, есть исследования, которые не представляют интереса с точки зрения применимости НС для прогнозирования. Некоторые из них имеют малую значимость, поскольку их проверка страдает. Другие успешно проверены, но были получены нулевые или отрицательные результаты. Поскольку невозможно определить из-за чего получены отрицательные результаты: от неприменимости методики или от сложностей реализации, исследования имеют малое значение в качестве исследований прогнозирования.

Результаты

27 из этих исследований были эффективно проверены. В приложении А приведены наши оценки эффективности каждого из 48 исследований. 11 исследований соответствовали критериям реализации и проверки. Из оставшихся 37, 16 были хорошо проверены, но некоторые имели проблемы с реализацией. 11 из описанных НС имели лучшие показатели чем сравнительные модели. 22 (46%) исследования предоставили результаты, которые показывают применимость НС для задач прогнозирования. Таблица 1 содержит итоги.

5 исследований показали хорошую эффективности проверки, но не прошли отбор по эффективности реализации, предоставив отрицательные или смешанные результаты. Наиболее распространённой проблемой с этими исследованиями был негативный результат НС на тестовых выборках, что делает сложным оценку целесообразности таких конфигураций НС. В этом случае также трудно оценить способность НС к обобщению, поскольку нет точки отсчёта для сравнения. Следовательно результаты этих исследований должны рассматриваться с некоторой оговоркой. Из 48 исследований, 27 были эффективно проверены. Приложение Б содержит оценку реализации каждого из них.

Эффективно проверенные и реализованные

Из 11 исследований, которые отвечали критериям как реализации, так и проверки, 8 были реализованы в области классификации, такой как например прогноз банкротства. Остальные 3 изучали прогнозирование временных рядов.

2 из 8 исследований классификации, удовлетворяющих всем критериям эффективности, пока не смогли подтвердить свои гипотезы о том, что НС могу получать более качественные прогнозы. Горр, Нагин, Цзипула (1994) по сравнивали линейную регрессию, пошаговую полиномиальную регрессию и трёхуровневую НС с линейным решающим правилом использующиеся в приёмной комиссии для прогнозирования показателя GPA студентов в профессиональной школе. В исследовании классификации банкротства, Удо (1993) сообщает что НС работают так же хорошо, или немного лучше, чем множественная регрессия, хотя этот вывод не был подтверждён статистическими тестами.

Уилсон и Шарда (1994) и Там и Кианг (1990, 1992) разработали НС для классификации банкротств. Уилсон и Шарда (1994) пришли к выводу, что хотя НС работали лучше чем дискриминантный анализ, различия были не всегда значительными. Авторы обучили и протестировали сеть используя 3 набора образцов: 50% всех обанкротившихся и необанкротившихся фирм, 80% обанкротившихся и 20% необанкротившихся фирм и 90% обанкротившихся и 10% необанкротившихся фирм. Каждый такой образец был протестирован на 50/50, 80/20 и 90/10 обучающего набора, что дало всего 9 сравнений. НС превзошли дискриминантный анализ на всех образцах кроме одного, для обработки которых методы статистически не отличались.

Там и Кианг (1990, 1992) сравнили производительность НС со множеством альтернатив: регрессией, дискриминантным анализом, логистикой, методом K ближайших соседей, и ID3. Они сообщают, что НС обогнали все методы из сравнения, когда для тренировки использовались данные в течение одного года до банкротства. В случаях, когда для тренировки использовались данные за два года до банкротства, дискриминантный анализ превзошёл НС. В обоих случаях НС с одним скрытым слоем превзошли линейную сеть без скрытых слоёв.

В похожей области, Зальценберг, Цинар и Лэш (1992) и Коатс и Фант (1992) использовали НС для классификации финансовых институтов как провальные или нет. Зальценберг и соавторы (1992) сравнили работу НС с логическими моделями. Сети работали лучше, чем логические модели в большинстве случаев, когда обучающая и тестовая выборки имели равное количество провальных и непровальных институтов. НС превзошли логические модели в разбавленном образце, в котором было около 18% данных провальных институтов. Коатс и Фант (1993) использовали алгоритм каскадной корреляции для прогнозирования финансовых затруднений. Сравнительные оценки были выполнены с методом дискриминантного анализа. НС превзошли метод дискриминантного анализа на образцах с большим процентом проблемных фирм, но не смогли сделать это на тех, где были равные количества проблемных и непроблемных фирм.

Рефенс, Азема-Барак и Запранис (1993) протестировали НС в области оценки акций. Сравнение с множественной регрессией показало что предложенная сеть даёт лучший результат на тестовых данных, чем множественная регрессия, примерно на порядок. Сеть превзошла регрессию на проверочной выборке примерно на 36%.

3 из 11 эффективных исследований сравнили работу с альтернативными моделями предсказания временных рядов. Их них 1 показало смешанные результаты в сравнении НС с альтернативными методиками. Хо, Хсу и Йонг (1992) протестировали предложенный алгоритм, алгоритм адаптивного обучения, в области краткосрочного прогнозирования нагрузки. ААО 2) автоматически адаптирует момент процесса обучения в зависимости от ошибки. Работа сети сравнивалась с системой правил и экспертных оценок оператора. Хотя НС несколько лучше, чем основанные на правилах системы и оператор, средняя абсолютная ошибка не сильно отличалась для трёх случаев и не были проведены тесты для определения того, что результаты НС были значительно лучше.

Фостер, Коллопи и Ангер (1992) сравнили производительность линейной регрессии и комбинацией НС с ней в прогнозировании 181 годовых и 203 квартальных временных рядов конкурса M (Мадриакис, 1982). Они использовали одну сеть для прямых прогнозов (комбинация сетей). Авторы отмечают, что в то время пока прямая сеть работала значительно хуже, чем сравниваемые методы, комбинация сетей опередила и регрессию и простую комбинацию. Интересно, что сети становились более консервативны по мере увеличения горизонта или с ростом зашумлённости данных. Это отражает подход, который может применять эксперт в этом случае.

Коннор, Мартин и Атлас (1994) сравнили работу различных НС в прогнозировании временных рядов. Они сравнили работу рекуррентных и упреждающих сетей для прогнозирования нагрузки. Рекуррентная сеть превзошла традиционную упреждающую сеть удачно моделируя область с большей бережливостью чем конкурирующая архитектура.

Эффективно проверенные положительные результаты, несмотря на проблемы реализации

11 дополнительных исследований, которые были фактически подтверждены, показывают что НС работают лучше, чем сравниваемые модели. Датта (1994) использовала искусственные данные, рейтинг корпоративных облигаций и частоту покупки продукции как тестовые выборки для реализации НС. НС работали лучше чем множественная регрессия на искусственных данных, несмотря на подготовленное преимущество для регрессии. В предсказании рейтинга облигаций, НС последовательно превзошли регрессии, в то время как только одна конфигурация сетей превзошла регрессии в области частоты покупки продукции. Ли и Джи (1994) использовали НС для идентификации модели ARMA с расширенной автокорреляционной функцией образца. НС продемонстрировали превосходную точность классификации на искусственных данных. Затем НС были протестированы на данных из трёх предыдущих исследований, где модели были определены с использованием традиционных подходов. Авторы отмечают, что НС правильно определили модель ВНП США, индекс потребительских цен и кофеин.

Другие исследования в области прогнозирования включают исследования Флетчера и Госса (1993), Десилтса (1992) и Кимото (1990). Флетчер и Госс (1993) разработали НС для классификации банкротств и сравнили свою НС с логическими моделями. НС превзошли логические модели, имея более низкую ошибку предсказания и меньшую дисперсию. Десилетс (1992) сравнил работу моделей регрессии с НС в прогнозировании солёности в заливе Чесапик. Результаты показывают, что НС работали эффективно по сравнению с регрессионными моделями. Кимото с соавторами (1990) прогнозировал время покупки и продажи акций на Токийской бирже. Их система, состоящая из многих НС, была сравнена с множественной регрессией. Коэффициенты корреляции с реальными движениями акций показали более высокое значение для НС, чем для регрессии. В этой же области Юн (1993) сравнивал работу НС с дискриминантным анализом для прогнозирования стоимости акций. Хотя исследование не проводило поперечных проверок, результаты показали, что НС работали значительно лучше чем дискриминантный анализ в классификации показателей акций.

В области прогнозирования временных рядов, Чен, Ю и Моджадамжо (1992) использовали НС для прогнозирования электрической нагрузки. НС обеспечили лучший прогноз чем модели ARIMA. Они также лучше адаптированы к изменениям, показывая надёжность. Парк и др. (1991) также разработали НС прогнозирования в области электрической нагрузки и сравнили её работу с подходом, использующемся в электроцехах. Их НС значительно превзошла традиционные подходы. Танг, де Альмеида и Фишвик (1991) протестировали работу НС в прогнозировании продаж отечественных и зарубежных автомобилей, а также на данных авиапассажиров. Они сообщили, что НС работали лучше чем Бокс+Дженкинс для долгосрочных (12 и 24 месяцев) прогнозов, и также как Бокс+Дженкинс для краткосрочных (1 и 6 месяцев) прогнозов.

Дальнейшая оценка реализаций алгоритма обратного распространения ошибки

Из 48 исследований, 44 (88%) использовали алгоритм обратного распространения ошибки как алгоритм обучения. В литературе хорошо освещено, что этот подход может страдать от трёх потенциальных проблем. Во-первых, нет ни одной конфигурации, которая является достаточной для всех областей или даже в пределах одной области. А следовательно, топология должна быть определена методом проб и ошибок. Во-вторых такие НС восприимчивы к проблемам с локальными минимумами (Гроссберга 1998). Наконец, они склонны к переобучению. Рефенс (1995) предлагает 5 параметров управления, которые можно использовать, чтобы направлять эффективный дизайн НС. Мы рассмотрели 27 исследований, которые соответствовали нашим критериям эффективности проверки в отношении их подходов к этим управляющим критериям:

  • Структура сети: Некоторые проблемы, такие как количество скрытых слоёв и узлов, вес соединений, дизайн снизу-вверх или сверху-вниз, можно определить как проблему наиболее эффективной структуры НС. Мы учитывали сделали ли в исследовании анализ чувствительности НС к количеству слоёв и узлов. Оценка других особенностей сети представляется сложной, учитывая уровень раскрытия информации, характерной для этих исследований.
  • Градиентный спуск: манипуляции с коэффициентом обучения во время тренировки показали тенденцию к более эффективному снижению градиента на поверхности ошибок.
  • Перекрёстная проверка: для предотвращения переобучения, Рефенс (1995) рекомендует проводить перекрёстную проверку во время обучения. Это облегчает завершение обучения и предотвращает переобучение.
  • Перекрёстная функция: пока мы определили передаточные функции, мы не пытались оценить их относительные достоинства, а литература по этому вопросу остаётся неубедительной.
  • Функция трансформации: все исследования, которые сообщили о них, использовали сигмоидальные функции.

Из 27 исследований, которые были фактически подтверждены, 18 (67%) сделали анализ чувствительности, для определения более подходящей структуры сети. В общем, большинство решили, что одного скрытого слоя достаточно для решаемой задачи. Однако, не было согласия относительно количества узлов, которое требуется включить в скрытый слой, что свидетельствует о необходимости дальнейших эмпирических исследований по этому вопросу. 11 (41%) исследований пытались контролировать градиентный спуск путём реализации динамического управления коэффициентом обучения. И вновь, необходимы дальнейшие эмпирические исследования, прежде чем предложить соответствующий диапазон скорости обучения. Интересно, что 27 исследований пытались контролировать потенциальные проблемы переобучения, которые могли возникнуть во время обучения с помощью перекрёстной проверки. Это разочаровывающий вывод, особенно в свете того, что алгоритм обратного распространения ошибки в НС, как известно, серьёзно склонен к переобучению. 18 (67%) из 26 исследований сообщили об использовании сигмоидальной функции активации. Остальные 9 не сообщали о конкретной функции преобразования. Эти исследования приведены в приложении В.

Заключение

Из 48 исследований, которые мы оценивали, только 11 соответствовали всем нашим критериям эффективности проверки и реализации. Из оставшихся 38, в 17 представлены эффективные проверки, но недостаточно хорошая реализация. 11 из них сообщили о положительных результатах, несмотря на проблемы реализации. Всего из 48 исследований, 22 внесли вклад в наше знание относительно применимости НС для задач прогнозирования. 19 (86%) из этих результатов были благоприятны, 3 были отрицательными.

Можно сделать 2 вывода из нашей оценки реализации НС для задач прогнозирования. Во-первых НС, когда они эффективно реализованы и проверены, показывают потенциал для задач прогнозирования. Во-вторых, значительной части исследований НС в области прогнозирования не хватает проверки. Более половины исследований страдали от проверки или реализации, что ставит их результаты под сомнение. Поэтому мы рекомендуем в будущих исследованиях в этой области приложить больше усилий к проверке.

Пока значение НС для задач прогнозирования не установлено, требуется проводить сравнение между НС и альтернативными методами. Альтернативы, используемые для сравнения, должны быть простыми и признанными. Литература по прогнозированию выражает предпочтения простым моделям, кроме случая когда сложность даёт силу. Кроме того, результаты исследований показывают, что относительно простые модели экстраполяции являются надёжными. Сравнения должны быть основаны на работе вне обучающих выборок. Наконец, чтобы быть убедительным, существенный образец прогноза должен быть сгенерирован и сравнён.

Исследователи возлагали надежды на потенциал НС в бизнес приложениях. Мы оценили 48 эмпирических исследований прикладных НС для задач прогнозирования в бизнесе. Около 48% исследований не смогли проверить предлагаемые НС. Из оставшихся 26 исследований 54% не смогли надлежащим образом реализовать методику НС, что не позволило им превзойти альтернативные методы, так что их неспособность не даёт ценной информации о полезности НС в целом. Это означает, что мы должны основывать какие-либо выводы о полезности НС для прогнозирования только на 46% исследований, проведённых в этой области. Эти 22 исследования содержат многообещающие результаты. У 19 (86%) из них НС превзошли альтернативные подходы. В восьми исследованиях, в которых были успешно проведены сравнения, НС работают менее, чем альтернативные варианты. Но в пяти из них были вопросы по качеству реализации НС. Это требует с некоторой оговоркой интерпретировать их результаты. Ещё раз предупреждаем, что предубеждение относительно публикации нулевого или отрицательного результата может привести к переизбытку успешных применений представленных в опубликованной литературе.

1)
Нейронные Сети
2)
Алгоритм Адаптивного Обучения
translate/how_effective_are_neural_networks_at_forecasting_and_prediction.txt · Последнее изменение: 2013/10/24 21:12 — artamonov