Описательная статистика в pandas
Введение
Описательная статистика позволяет получить общее представление о данных, включая такие показатели, как среднее значение, медиана, минимум, максимум и другие. В этой статье мы рассмотрим, как использовать pandas для вычисления описательной статистики, и приведем примеры кода.
Метод describe()
Одним из самых простых способов получить описательную статистику в pandas является использование метода describe()
. Этот метод возвращает сводную таблицу с основными статистическими показателями для числовых столбцов DataFrame.
Пример использования метода describe()
:
import pandas as pd
data = {'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
'Score': [98, 90, 87, 69, 78]}
df = pd.DataFrame(data)
print(df.describe())
Результат:
Score
count 5.000000
mean 84.400000
std 10.899549
min 69.000000
25% 78.000000
50% 87.000000
75% 90.000000
max 98.000000
Метод describe()
вычисляет следующие статистические показатели:
count
: количество непустых значенийmean
: среднее значениеstd
: стандартное отклонениеmin
: минимальное значение25%
,50%
,75%
: квартилиmax
: максимальное значение
Отдельные статистические функции
Помимо метода describe()
, pandas предоставляет отдельные функции для вычисления конкретных статистических показателей.
Пример использования отдельных статистических функций:
import pandas as pd
data = {'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
'Score': [98, 90, 87, 69, 78]}
df = pd.DataFrame(data)
print("Mean score:", df['Score'].mean())
print("Median score:", df['Score'].median())
print("Minimum score:", df['Score'].min())
print("Maximum score:", df['Score'].max())
print("Standard deviation of scores:", df['Score'].std())
Результат:
Mean score: 84.4
Median score: 87.0
Minimum score: 69
Maximum score: 98
Standard deviation of scores: 10.899549159541988
Эти функции позволяют получить отдельные статистические показатели для указанного столбца DataFrame.
Заключение
Библиотека pandas предоставляет удобные инструменты для вычисления описательной статистики. Метод describe()
позволяет получить сводную таблицу с основными статистическими показателями для числовых столбцов DataFrame. Кроме того, pandas предоставляет отдельные функции для вычисления конкретных статистических показателей, таких как среднее значение, медиана, минимум, максимум и стандартное отклонение.
Используя pandas, вы можете легко анализировать и исследовать данные, получая полезную информацию о их статистических свойствах. Это делает pandas незаменимым инструментом для специалистов по обработке данных и аналитиков.