Проект Templet

акторный фреймворк для запуска задач
на множестве ядер, кластерах и в облаках
templet.ssau.ru

Инструменты пользователя

Инструменты сайта


translate:how_effective_are_neural_networks_at_forecasting_and_prediction

Это старая версия документа!


Насколько эффективны нейронные сети в задачах прогноза?

Перевод статьи: How E€ective are Neural Networks at Forecasting and Prediction? - Journal of Forecasting J. Forecast. 17, 481-495 (1998)

Авторы: Monica Adya1, Fred Collopy2

  1. University of Maryland at Baltimore County, USA
  2. Case Western Reserve University, USA

Аннотация

Несмотря на увеличение количества приложений прогнозирования с использованием искусственных нейронных сетей в прошлом десятилетии, мнения относительно их вклада различаются. Оценка исследований в этой области сложна в связи с отсутствием чёткого критерия. Мы установили 11 принципов, которые могут быть использованы для оценки этой литературы. Используя их, мы проверили приложения для бизнес прогноза с использованием нейронных сетей. Мы нашли 48 исследований выполненных между 1988 и 1994 годом. Для каждого мы оценили насколько эффективна предлагаемая методика в сравнении с альтернативными (эффективность проверки) и как хорошо методика реализована (эффективность реализации). Мы обнаружили, что 11 исследований были эффективно проверены и реализованы. Другие 11 исследований были эффективно проверены и предоставили положительные результаты, несмотря на некоторые проблемы с качеством реализации нейронных сетей. Из этих 22 исследований 18 потенциально могут быть использованы в задачах прогноза.

Ключевые слова: искусственный интеллект, машинное обучение, проверка.

Введение

Искусственные нейронные сети (НС) - вычислительные структуры, моделирующие свободные биологические процессы. НС изучают множество конкурирующих гипотез одновременно, используя массивно параллельные сети состоящие из нелинейных относительно вычислений элементов, соединённых связями с различными весами. Этот соединённый набор весов, который содержит знание, генерируется НС. НСи были удачно использованы для низкоуровневых задач распознавания, таких как распознавание речи или символов. В настоящее время они изучаются для задач принятия решений и индукции.

В общем, модели НС описываются топологией сети, характеристиками узлов и правилами тренировки или обучения. НС состоят из большого числа простых обрабатывающих элементов, каждый из которых взаимодействует с другими посредством возбуждающих или тормозящих соединений. Распределённое представление поверх большого числа элементов вместе с взаимосвязью обрабатывающих элементов обеспечивает допустимую ошибку. Обучение достигается посредством правил, которые адаптируют веса связей в ответ на входные шаблоны. Изменения весов ассоциированных со связями позволяют приспосабливаться к новым ситуациям. Липман открыл широкий спектр топологий, которые используются для реализации НС.

За последние 10 лет всё более активные усилия исследований были направлены на применение НС в бизнесе. Несмотря на это мнения о ценности этих подходов оказались неоднозначными. Одни считают их эффективными для задач неструктурированного принятия решений, другие исследователи выразили сомнения в их потенциале, предполагая что требуются более сильные эмпирические доказательства.

Структура работы состоит в следующем. Во-первых, мы объясняем как были выбраны процедуры обучения. Затем мы описываем критерии, которые были использованы для их оценки. Далее мы обсудим наши результаты после применения критерия к обучающим процедурам. Наконец мы дадим некоторые рекомендации для улучшения исследований в этой области.

Как выбирать обучение

Нас интересовало, в какой степени исследования в области НС внесли свой вклад в повышение точности прогнозов в бизнесе. Мы просмотрели 3 базы данных статей (Индекс цитирования социальных наук, Научный индекс цитирования и база статей бизнес тематики ABI Inform) и труды объединённой международной конференции IEEE/INNS. Наш поиск выдал широкий спектр приложений, ориентированных на задачи прогноза, от прогнозирования погоды до предсказаний цен на бирже. Для этой оценки мы исключили исследования, связанные с погодой, биологическими процессами, чисто математические ряды, а также другие приложения не относящиеся к бизнесу. Мы определили дополнительные исследования по цитатам. Этот процесс выдал всего 46 исследований. Впоследствии мы опросили авторов исследований, чтобы определить точной ли была наша интерпретация их исследований и найти другие исследования, которые должны быть включены в этот обзор. 12 (26%) авторов ответили и 2 указали по одному дополнительному исследованию. Эти два исследования были включены в обзор. Текущий вариант обзора включает 48 исследований между 1988 и 1994 годами, которые были использованы в задачах прогнозирования для бизнеса.

Критерий оценки обучения

При оценке исследований мы были заинтересованы в ответах на 2 вопроса. Во-первых, сделали ли в исследовании оценку возможностей прогнозирования сети? Во-вторых, реализует ли исследование НС в соответствии с подходом, дающим реальный шанс на эффективность? Мы называем это эффективностью проверки и эффективностью реализации соответственно.

Эффективность проверки

Существуют устоявшиеся традиции в исследованиях прогнозирования сравнением подходов на основе эмпирических результатов. Если новый подход следует воспринимать всерьёз, то он должен бы оценён с точки зрения альтернатив, которые могут быть использованы. Если такое сравнение не проводится, сложно судить, насколько ценно исследование для задач прогнозирования.

Честно говоря, исследователи не всегда преследуют такие цели в исследованиях. Иногда они используют прогнозирование в качестве транспортного средства для изучения динамики конкретного метода или области. (Например Пирамуту, Шав и Гентри предложили использовать модифицированный алгоритм обратного распространения ошибки и протестировали его в области кредитования). Тем не менее, наша цель - ответить на вопрос, что эти подходы привносят в наше понимание и способности как специалистов по прогнозу.

Для оценки эффективности проверки мы применили 3 руководящих принципа, описанных у Коллопи, Адиа и Армстронга.

Сравнение с общепринятыми моделями

Прогнозы по предложенной модели должны работать по крайней мере так же хорошо как и некоторые общепринятые модели. Например, если предлагаемая модель не даёт прогнозы лучше чем наивная экстраполяция (случайный проход), нельзя утверждать, что процесс предоставляет знание о тренде.

Использование предварительных проверок

Сравнения прогнозов должны базироваться на предварительном (вне примеров) результате. Другими словами, выборка, которая используется для проверки прогноза, должна отличаться от образцов, используемых для разработки и обучения. Это соответствует условиям задач из реальной жизни, когда необходимо построить прогноз о неизвестном будущем или в случае, для которого результаты недоступны.

Использование разумных примеров прогноза

Размер контрольной выборки должен быть адекватным, чтобы сделать выводы. Мы исследовали размер контрольных выборок, используемых в классификации и в исследованиях временных рядов отдельно. Большинство исследований классификации использовали 40 или более случаев для проверки. Исследования временных рядов обычно используют большие контрольные выборки. Большинство из них использовали 75 или более прогнозов для проверки.

Эффективность реализации

Для исследований, которые были успешно проверены НС, мы задали второй вопрос: Насколько хорошо реализована предложенная архитектура? В то время как от исследования с плохой проверкой мало пользы, исследования с плохой реализацией ещё могут иметь некоторую ценность. Если метод работает сравнительно хорошо, даже когда он реализован не самым оптимальным образом, есть основания быть уверенным, что он может претендовать на это, когда будет доработан.

При определении эффективности с которой НС были разработаны и протестированы мы использовали принципы оценки работы сети предложенные Рефенсом. Наша реализация некоторых критериев (в частности что касается стабильности реализации) отличается от реализаций Рефенса.

  • Сходимость: сходимость связана с проблемой способности обучающей процедуры к обучению классификации определённой в наборе данных. При оценке этого критерия мы были заинтересованы в результате на обучающей выборке поскольку он определяет способность сети к сходимости и проверяет способность к обобщению, т.е. предварительный результат. Если исследование не показывает результат на обучающей выборке, мы рекомендуем с осторожностью подходить к принятию его результатов предварительной оценки.
  • Обобщение: обобщение измеряет способность НС распознавать шаблоны вне обучающей выборки. Показатели точности достигаемые на фазе обучения определяют границы для обобщения. Если результат на новом образце похож на такой же на этапе сходимости, то можно считать, что НС обучена хорошо.
  • Стабильность: стабильность это консистентность результатов во время этапа проверки с различными образцами данных. Этот критерий оценивает является ли конфигурация НС определённой на этапе обучения и что результаты этапа обобщения консистентны на различных образцах тестовых данных. Исследования могли продемонстрировать стабильность через использование итеративных попыток на тех же данных или же через использование множества образцов для обучения и проверки.

Критерии носят довольно общий характер, чтобы быть применимыми к любой НС или механизму обучения. Кроме того, они представляют собой квинтэссенцию лучших практик в литературы. Тот факт, что исследование не отвечает критериям, не обязательно говорит о его провале. Если мы хотим использовать эмпирические исследования для того чтобы высказаться за или против применимости НС к прогнозированию, то мы должны быть в состоянии определить, какие из реализаций подходят для этого.

В целом исследования были классифицированы по 3 типам. Те, что хорошо реализованы и хорошо проверены представляют интерес независимо от результатов. Они могут быть использованы как для аргументации за применение НС, так и против, в зависимости от результата. Это, казалось бы, самые ценные исследования. Ко второму типу относятся исследования, которые были хорошо проверены, хотя их реализация пострадала в некоторых аспектах. Это важно, когда методика, которую они предлагают, хороша, несмотря на ограничения реализации. Они могут быть использованы, чтобы утверждать, что НС применимы и для того, чтобы установить нижнюю границу их возможностей. Наконец, есть исследования, которые не представляют интереса с точки зрения применимости НС для прогнозирования. Некоторые из них имеют малую значимость, поскольку их проверка страдает. Другие успешно проверены, но были получены нулевые или отрицательные результаты. Поскольку невозможно определить из-за чего получены отрицательные результаты: от неприменимости методики или от сложностей реализации, исследования имеют малое значение в качестве исследований прогнозирования.

Результаты

27 из этих исследований были эффективно проверены. В приложении А приведены наши оценки эффективности каждого из 48 исследований. 11 исследований соответствовали критериям реализации и проверки. Из оставшихся 37, 16 были хорошо проверены, но некоторые имели проблемы с реализацией. 11 из описанных НС имели лучшие показатели чем сравнительные модели. 22 (46%) исследования предоставили результаты, которые показывают применимость НС для задач прогнозирования. Таблица 1 содержит итоги.

5 исследований показали хорошую эффективности проверки, но не прошли отбор по эффективности реализации, предоставив отрицательные или смешанные результаты. Наиболее распространённой проблемой с этими исследованиями был негативный результат НС на тестовых выборках, что делает сложным оценку целесообразности таких конфигураций НС. В этом случае также трудно оценить способность НС к обобщению, поскольку нет точки отсчёта для сравнения. Следовательно результаты этих исследований должны рассматриваться с некоторой оговоркой. Из 48 исследований, 27 были эффективно проверены. Приложение Б содержит оценку реализации каждого из них.

Эффективно проверенные и реализованные

Из 11 исследований, которые отвечали критериям как реализации, так и проверки, 8 были реализованы в области классификации, такой как например прогноз банкротства. Остальные 3 изучали прогнозирование временных рядов.

2 из 8 исследований классификации, удовлетворяющих всем критериям эффективности, пока не смогли подтвердить свои гипотезы о том, что НС могу получать более качественные прогнозы. Горр, Нагин, Цзипула (1994) по сравнивали линейную регрессию, пошаговую полиномиальную регрессию и трёхуровневую НС с линейным решающим правилом использующиеся в приёмной комиссии для прогнозирования показателя GPA студентов в профессиональной школе. В исследовании классификации банкротства, Удо (1993) сообщает что НС работают так же хорошо, или немного лучше, чем множественная регрессия, хотя этот вывод не был подтверждён статистическими тестами.

Уилсон и Шарда (1994) и Там и Кианг (1990, 1992) разработали НС для классификации банкротств. Уилсон и Шарда (1994) пришли к выводу, что хотя НС работали лучше чем дискриминантный анализ, различия были не всегда значительными. Авторы обучили и протестировали сеть используя 3 набора образцов: 50% всех обанкротившихся и необанкротившихся фирм, 80% обанкротившихся и 20% необанкротившихся фирм и 90% обанкротившихся и 10% необанкротившихся фирм. Каждый такой образец был протестирован на 50/50, 80/20 и 90/10 обучающего набора, что дало всего 9 сравнений. НС превзошли дискриминантный анализ на всех образцах кроме одного, для обработки которых методы статистически не отличались.

Там и Кианг (1990, 1992) сравнили производительность НС со множеством альтернатив: регрессией, дискриминантным анализом, логистикой, методом K ближайших соседей, и ID3. Они сообщают, что НС обогнали все методы из сравнения, когда для тренировки использовались данные в течение одного года до банкротства. В случаях, когда для тренировки использовались данные за два года до банкротства, дискриминантный анализ превзошёл НС. В обоих случаях НС с одним скрытым слоем превзошли линейную сеть без скрытых слоёв.

В похожей области, Зальценберг, Цинар и Лэш (1992) и Коатс и Фант (1992) использовали НС для классификации финансовых институтов как провальные или нет. Зальценберг и соавторы (1992) сравнили работу НС с логическими моделями. Сети работали лучше, чем логические модели в большинстве случаев, когда обучающая и тестовая выборки имели равное количество провальных и непровальных институтов. НС превзошли логические модели в разбавленном образце, в котором было около 18% данных провальных институтов. Коатс и Фант (1993) использовали алгоритм каскадной корреляции для прогнозирования финансовых затруднений. Сравнительные оценки были выполнены с методом дискриминантного анализа. НС превзошли метод дискриминантного анализа на образцах с большим процентом проблемных фирм, но не смогли сделать это на тех, где были равные количества проблемных и непроблемных фирм.

Заключение

translate/how_effective_are_neural_networks_at_forecasting_and_prediction.1382640318.txt.gz · Последнее изменение: 2013/10/24 18:45 — artamonov