|
07.03.2013, 15:06 | #1 |
Platinum Member
Регистрация: 22.07.2010
Адрес: Санкт-Петербург
Сообщений: 3,304
|
Алгоритм построения прогнозирующей модели (predictive model)
Некоторый поток сознания, чтобы разобраться.
Имеется некоторый набор количественных данных, от которых зависит качественный показатель (Хорошо, Плохо, Очень плохо и т.д.). Стоит задача построить прогнозирующую модель и проверить её на тестовых данных. Алгоритм вырисовывается следующий. 1. Из набора данных выделяем непересекающиеся данные для тренировки модели (train set), валидации (validation set) и тестирующие данные (test set). Самый большой блок из этого - train set. Validation set и test set примерно равны. 2. Строим пару-тройку приличных моделей, например, случайный решающий лес (Random Forest) и модель на базе опорных векторов (SVM) на тренировочных данных. На них же настраиваем модели. 3) Модели натравливаем на данные для валидации и выбираем одну модель, дающую меньше всего ошибок. 4) Проверяем выжившую аки Горец модель на тестовых данных. Строим матрицу неточностей (confusion matrix), графики, диаграммы и прочую ерунду. .... N) PROFIT! Замечания, предложения? |
---------
DNF is not an option
|
|
Реклама | |
|
07.03.2013, 16:22 | #2 |
Advanced Member
Регистрация: 29.08.2012
Сообщений: 284
|
а после обучения обязательно делать ещё 2 выборки (валидация и тестирование)?
|
07.03.2013, 17:45 | #3 | |
Gold Member
Регистрация: 16.04.2012
Сообщений: 1,218
|
Hogfather,
мне тоже эта тема интересна. Но я полный ноль. Разбираюсь. Цитата:
Добавлено через 2 минуты А можно я еще спрошу.. в МатЛабе, например, оцениваем GARCH модели. Там такая табличка с полученными оценками и последний столбец - t Statistic. Вот здесь, например http://www.mathworks.com/help/econ/f...e-returns.html Подскажите, пожалуйста, что это значит (столбец t Statistic). Или где можно почитать. |
|
07.03.2013, 18:35 | #4 | ||
Silver Member
Регистрация: 31.08.2012
Адрес: Туда, вверх и налево
Сообщений: 712
|
Цитата:
Тренировка модели подразумевает идентификацию ее параметров (например, при использовании аппарата НС) на отобранном обучающем (тестовом) множестве. Это то, что Вы назвали calibration sample, думается мне. Валидация модели подразумевает проверку того, насколько (не)хорошо модель аппроксимирует validation sample. Добавлено через 8 минут Цитата:
Поэтому перед тем, как разбивать данные, я бы сначала построила грубую модель на всем множестве, и уже глядя на нее соображала бы, как разбить данные таким образом, чтобы ее не испортить. |
||
---------
и чо я, дура, научнику поверила...
|
|||
07.03.2013, 23:04 | #5 | |||
Platinum Member
Регистрация: 22.07.2010
Адрес: Санкт-Петербург
Сообщений: 3,304
|
Цитата:
Цитата:
Цитата:
|
|||
---------
DNF is not an option
|
||||
08.03.2013, 00:27 | #6 |
Gold Member
Регистрация: 16.04.2012
Сообщений: 1,218
|
Hogfather,
спасибо. Нашла по вашей ссылке объяснение. |