От Семен Лобачевский в scikit-learn — 19 апр. 2024 г.

Разделение данных на обучающую и тестовую выборки

Когда я начинал заниматься машинным обучением, одной из первых важных концепций, с которой я столкнулся, было разделение данных на обучающую и тестовую выборки. Это критически важный шаг, который помогает оценить реальную производительность модели и избежать проблемы переобучения (overfitting).

Сегодня я поделюсь своим опытом и расскажу подробнее об этом процессе.

Зачем разделять данные?

Основная идея разделения данных проста - мы хотим обучить модель на одной части данных (обучающей выборке), а затем проверить её работу на ранее невиданных данных (тестовой выборке). Это позволяет понять, насколько хорошо модель обобщает знания и работает на новых примерах.

Если использовать одни и те же данные для обучения и проверки модели, мы рискуем получить модель, которая просто "запомнила" примеры, но не научилась выделять общие закономерности. Такая модель будет хорошо работать на обучающих данных, но покажет себя гораздо хуже на реальных задачах.

Как правильно разделить данные?

Типичный подход - случайно разбить весь набор данных на две части: большую (обычно 70-80%) используем для обучения, меньшую (20-30%) - для тестирования.

Простое случайное разделение

Это базовый подход, который я обычно использую по умолчанию. Он заключается в случайном разбиении набора данных на две части в заданной пропорции (обычно 80% для обучения, 20% для теста). Такое разделение легко реализовать, например, с помощью функции train_test_split из библиотеки scikit-learn в Python:

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Этот подход хорошо работает, когда данные однородны и сбалансированы по классам. Но если в данных есть временная структура или дисбаланс классов, могут потребоваться более сложные методы.

Стратифицированное разделение

Если в данных есть несколько классов (в задаче классификации), и они представлены неравномерно, простое случайное разделение может привести к тому, что в обучающей и тестовой выборках будут сильно отличающиеся пропорции классов. Чтобы этого избежать, применяют стратифицированное разделение - оно сохраняет пропорции классов в обеих выборках такими же, как во всём наборе данных.

В scikit-learn для этого есть функция StratifiedShuffleSplit:

from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(X, y):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

Разделение с учётом времени

Если данные представляют собой временной ряд (например, цены акций или продажи по дням), случайное перемешивание при разделении исказит временную структуру. В таких случаях правильнее разбивать данные на обучающую и тестовую части последовательно, по времени. Например, использовать первые 80% наблюдений для обучения, а последние 20% - для теста. Это позволит оценить способность модели прогнозировать будущие значения.

Кросс-валидация

Если набор данных небольшой, разового разделения на обучение и тест может быть недостаточно для надёжной оценки качества модели. Тогда имеет смысл использовать кросс-валидацию. Данные разбиваются на K частей (K-fold cross-validation). Затем модель обучается K раз, каждый раз одна из частей служит для тестирования, а остальные K-1 частей - для обучения. Итоговая метрика качества усредняется по всем K прогонам. Это позволяет более эффективно использовать данные и получить более устойчивые оценки качества.

Дополнительные советы

Разделение должно быть случайным, чтобы обучающая и тестовая выборки были репрезентативны и имели схожие статистические свойства.
Если данных мало, можно использовать методы кросс-валидации, например, K-fold. Данные разбиваются на K частей, и модель обучается K раз, каждый раз одна из частей служит для тестирования, остальные - для обучения. Итоговая метрика качества усредняется по всем K итерациям.
Разделение нужно выполнять до обучения модели. Если сначала обучить модель на всех данных, а потом разделить их - оценка качества будет смещена, т.к. модель уже "видела" тестовые примеры.

Не существует универсального "лучшего" способа разделения данных. Выбор подходящего алгоритма зависит от свойств данных (размер, структура, баланс классов) и задачи (классификация, регрессия, прогнозирование временных рядов). Главное - делать разделение случайным, либо учитывающим специфику данных образом, и обязательно на этапе до обучения модели. Это позволит получить честные оценки качества и избежать переобучения.

Разделение данных на обучающую и тестовую выборки - обязательный шаг при построении моделей машинного обучения. Оно позволяет честно оценить качество модели и избежать переобучения. Надеюсь, мой опыт и советы будут вам полезны! Пробуйте применять эту технику в своих проектах и экспериментируйте с разными подходами к разделению.