От Семен Лобачевский в scikit-learn — 14 апр. 2024 г.

Разделение данных на обучающую и тестовую выборки

Когда я начинал заниматься машинным обучением, одной из первых вещей, с которой я столкнулся, было разделение имеющихся данных на две части - обучающую выборку (training set) и тестовую выборку (test set). Это необходимо для того, чтобы проверить, насколько хорошо обученная модель работает на новых, ранее не виденных данных.

Обычно я использую около 70-80% данных для обучения модели, а оставшиеся 20-30% - для тестирования. Данные для обучения помечаются как X_train и y_train, а тестовые данные - как X_test и y_test. Важно, чтобы тестовые данные не участвовали в процессе обучения модели, иначе мы получим слишком оптимистичную оценку качества.

Разделив данные, я обучаю модель на обучающей выборке - модель "видит" эти данные и настраивает свои параметры, чтобы давать правильные ответы. После этого я применяю обученную модель к тестовой выборке и смотрю, насколько хорошо она работает. Часто для этого я использую такие метрики, как точность или RMSE.

Пример из личного опыта

Однажды мне нужно было построить модель для прогноза продаж магазина на следующий месяц. У меня были исторические данные по продажам за последние несколько лет. Я разделил эти данные на обучающую и тестовую выборки в пропорции 80/20.

Обучив модель на 80% данных, я применил ее к оставшимся 20%, которые модель еще не видела. Сравнив прогнозы модели с реальными продажами, я увидел, что в среднем они отличаются на 10-15%. Это показало, что модель работает достаточно хорошо и ее можно использовать для реальных прогнозов.

Проблемы переобучения и недообучения

Важно правильно разделить данные и провести честное тестирование модели. Если этого не сделать, можно столкнуться с проблемами переобучения (overfitting) или недообучения (underfitting).

При переобучении модель слишком сильно подстраивается под обучающие данные и плохо работает на новых. При недообучении модель наоборот получается слишком простой и не может уловить закономерности в данных. Поэтому так важно тестировать модель на новых данных, чтобы убедиться в ее адекватной работе.

Заключение

Разделение данных на обучающую и тестовую выборки - критически важный этап в машинном обучении, позволяющий честно оценить качество модели. Это помогает выбрать лучшую архитектуру модели и настроить ее параметры. Без этого шага высок риск получить модель, которая будет плохо работать на реальных данных, несмотря на хорошие результаты на обучении. Поэтому я всегда очень внимательно отношусь к процессу разделения данных.

Пример из личного опыта

Проблемы переобучения и недообучения

Заключение

Подписаться на новости Nerd IT