От Семен Лобачевский в scikit-learn — 7 мая 2024 г.

Сохранение моделей в pickle формат

Сохранение обученных моделей крайне важно для того, чтобы иметь возможность использовать их в будущем без необходимости повторного обучения. Один из самых простых и удобных способов сериализации моделей - это сохранение в формат pickle.

Библиотека pickle позволяет сохранять Python объекты в бинарном формате. Практически любой объект, включая обученные модели, можно легко "законсервировать" в файл, а затем при необходимости загрузить обратно. Допустим, у нас есть обученная модель случайного леса (random forest classifier). Вот как можно сохранить ее в файл model.pkl:

import pickle
from sklearn.ensemble import RandomForestClassifier

# Обучаем модель random forest
rf_model = RandomForestClassifier(n_estimators=100)  
rf_model.fit(X_train, y_train)

# Сохраняем модель в файл model.pkl
with open('model.pkl', 'wb') as file:
    pickle.dump(rf_model, file)

Здесь мы импортируем модуль pickle и класс модели RandomForestClassifier из sklearn. Обучаем модель на тренировочных данных X_train и y_train. Затем открываем файл model.pkl в бинарном режиме записи ('wb'). С помощью функции pickle.dump() сериализуем объект модели rf_model и записываем его в открытый файловый дескриптор file. Всё, модель сохранена! Теперь в любой момент мы можем загрузить ее из файла:

import pickle

# Загружаем модель из файла model.pkl
with open('model.pkl', 'rb') as file:
    loaded_model = pickle.load(file)

# Используем загруженную модель для предсказания
predictions = loaded_model.predict(X_test)

Открываем файл model.pkl в бинарном режиме чтения ('rb'). Функцией pickle.load() считываем объект из файла и присваиваем его в переменную loaded_model. Всё готово - теперь можно использовать загруженную модель, например, для предсказаний на тестовом наборе данных X_test. Таким же образом в pickle можно сохранять практически любые модели - линейную и логистическую регрессию, нейронные сети, модели кластеризации и т.д. Единственное ограничение - модель должна быть полностью определена в памяти Python, со всеми параметрами. Некоторые модели, использующие внешние зависимости (например, TensorFlow модели), могут требовать дополнительных действий при сериализации. Формат pickle прост и удобен, но у него есть недостатки:

Сохраненные файлы не кроссплатформенные, т.е. нельзя переносить между разными версиями Python и ОС
Нет встроенной поддержки версионности
Потенциальные проблемы безопасности при загрузке файлов из ненадежных источников

Поэтому для хранения и переноса моделей между разными средами лучше использовать более универсальные форматы вроде ONNX или PMML. Но в целом, pickle - отличный выбор, когда нужно быстро сохранить модель для последующего использования в той же среде.

Я часто применяю его в своих проектах и рекомендую попробовать вам. Это существенно экономит время и ресурсы на переобучение моделей. Надеюсь, этот обзор был полезен!

Пишите в комментариях, если есть вопросы или хотите поделиться своим опытом использования pickle для сериализации ML моделей.

Подписаться на новости Nerd IT