Описательная статистика в pandas

Pandas - это мощная библиотека Python для работы с данными, которая предоставляет удобные инструменты для вычисления описательной статистики.

Описательная статистика в pandas
Краткое содержание

Введение

Описательная статистика позволяет получить общее представление о данных, включая такие показатели, как среднее значение, медиана, минимум, максимум и другие. В этой статье мы рассмотрим, как использовать pandas для вычисления описательной статистики, и приведем примеры кода.

Метод describe()

Одним из самых простых способов получить описательную статистику в pandas является использование метода describe(). Этот метод возвращает сводную таблицу с основными статистическими показателями для числовых столбцов DataFrame.

Пример использования метода describe():

import pandas as pd

data = {'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
        'Score': [98, 90, 87, 69, 78]}
df = pd.DataFrame(data)

print(df.describe())

Результат:

             Score
count     5.000000
mean     84.400000
std      10.899549
min      69.000000
25%      78.000000
50%      87.000000
75%      90.000000
max      98.000000

Метод describe() вычисляет следующие статистические показатели:

  • count: количество непустых значений
  • mean: среднее значение
  • std: стандартное отклонение
  • min: минимальное значение
  • 25%, 50%, 75%: квартили
  • max: максимальное значение

Отдельные статистические функции

Помимо метода describe(), pandas предоставляет отдельные функции для вычисления конкретных статистических показателей.

Пример использования отдельных статистических функций:

import pandas as pd

data = {'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
        'Score': [98, 90, 87, 69, 78]}
df = pd.DataFrame(data)

print("Mean score:", df['Score'].mean())
print("Median score:", df['Score'].median())
print("Minimum score:", df['Score'].min())
print("Maximum score:", df['Score'].max())
print("Standard deviation of scores:", df['Score'].std())

Результат:

Mean score: 84.4
Median score: 87.0
Minimum score: 69
Maximum score: 98
Standard deviation of scores: 10.899549159541988

Эти функции позволяют получить отдельные статистические показатели для указанного столбца DataFrame.

Заключение

Библиотека pandas предоставляет удобные инструменты для вычисления описательной статистики. Метод describe() позволяет получить сводную таблицу с основными статистическими показателями для числовых столбцов DataFrame. Кроме того, pandas предоставляет отдельные функции для вычисления конкретных статистических показателей, таких как среднее значение, медиана, минимум, максимум и стандартное отклонение.

Используя pandas, вы можете легко анализировать и исследовать данные, получая полезную информацию о их статистических свойствах. Это делает pandas незаменимым инструментом для специалистов по обработке данных и аналитиков.

Подписаться на новости Nerd IT

Не пропустите последние выпуски. Зарегистрируйтесь сейчас, чтобы получить полный доступ к статьям.
jamie@example.com
Подписаться