От Семен Лобачевский в scikit-learn — 22 апр. 2024 г.

Заполнение пропущенных значений

Как специалист по обработке данных, одной из самых распространенных проблем, с которыми я сталкиваюсь при работе с реальными наборами данных, является обработка пропущенных значений.

Сегодня я хочу поделиться с вами своим опытом работы с пропущенными значениями в данных на Python. Это очень важная тема в анализе данных, так как почти всегда приходится иметь дело с неполными наборами данных. Давайте разберемся, как эффективно заполнять пропуски, чтобы получить качественный результат.

Причины появления пропусков

Для начала стоит понять, почему вообще в данных появляются пропущенные значения. Вот некоторые распространенные причины:

Ошибки при сборе или записи данных
Отсутствие измерений в определенные моменты времени
Некорректная обработка данных на предыдущих этапах
Слияние нескольких источников данных разной полноты

Если знать природу пропусков, это поможет выбрать оптимальный способ их заполнения.

Обнаружение пропусков

В Python для представления пропущенных значений используется специальный тип данных NaN (Not a Number). Для работы с ними удобно применять библиотеку pandas. Пропуски в DataFrame можно найти так:

import pandas as pd

df = pd.read_csv('data.csv')
print(df.isnull().sum())  # подсчет количества NaN в каждом столбце

Простое заполнение пропусков

Самый простой вариант - заполнить пропуски каким-то постоянным значением, например нулем или средним по столбцу:

df.fillna(0, inplace=True)  # заменяем все NaN на нули
df.fillna(df.mean(), inplace=True)  # заменяем на средние значения по столбцам

Однако этот метод может исказить распределение данных и привести к неверным выводам.

Интерполяция

Более продвинутый подход - интерполяция, то есть восстановление пропущенных значений по известным соседним точкам. Популярные варианты:

Линейная интерполяция между крайними известными точками
Заполнение пропуска предыдущим или следующим известным значением
Сплайн-интерполяция (если важна гладкость)

В pandas это делается так:

df.interpolate(method='linear', inplace=True)  # линейная интерполяция
df.fillna(method='ffill', inplace=True)  # заполнение предыдущими значениями
df.interpolate(method='spline', order=2, inplace=True)  # сплайн 2-го порядка

Интерполяция хорошо работает для временных рядов и других упорядоченных данных.

Предсказание пропусков по другим признакам

Если в данных есть взаимосвязанные признаки, можно попробовать предсказать пропущенные значения одних признаков по известным значениям других. Для этого используются методы машинного обучения:

from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=5)
df_filled = imputer.fit_transform(df)

Здесь для каждой строки с пропуском значение восстанавливается по K ближайшим соседям в пространстве остальных признаков. Можно использовать и другие модели - деревья решений, нейронные сети и т.д.

Подводя итог, работа с пропущенными значениями - неотъемлемая часть анализа данных. Какой метод заполнения выбрать, зависит от природы данных и требуемой точности. Но я надеюсь, что изложенные идеи помогут вам эффективнее решать эту задачу. Пробуйте, экспериментируйте и находите лучшие подходы для своих данных!

Причины появления пропусков

Обнаружение пропусков

Простое заполнение пропусков

Интерполяция

Предсказание пропусков по другим признакам

Подписаться на новости Nerd IT