Предсказание цен на жилье в Бостоне

В этой статье я расскажу о своем опыте создания модели машинного обучения для прогнозирования цен на недвижимость в Бостоне, используя Python и библиотеки машинного обучения.

Предсказание цен на жилье в Бостоне
Краткое содержание

Для начала нам необходимы данные. Я использовал известный набор данных Boston Housing Dataset, который доступен в библиотеке sklearn.datasets в Python. Этот набор данных содержит информацию о ценах на жилье в различных районах Бостона, а также различные характеристики, которые могут повлиять на стоимость, такие как средний доход жителей, уровень преступности, качество школ и т.д.

Шаг 1: Загрузка и предварительная обработка данных

Первым делом нам нужно загрузить данные и провести их предварительную обработку. Для этого используем библиотеки pandas и sklearn.

import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Загрузка данных
boston = load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['PRICE'] = boston.target

# Разделение данных на обучающую и тестовую выборки
X = df.drop('PRICE', axis=1)
y = df['PRICE']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Стандартизация данных
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

Шаг 2: Обучение модели

Для предсказания цен на жилье мы воспользуемся линейной регрессией, которая является одной из простейших, но эффективных моделей для регрессионных задач.

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Создание и обучение модели
model = LinearRegression()
model.fit(X_train_scaled, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test_scaled)

# Оценка модели
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5
r2 = r2_score(y_test, y_pred)

print(f"RMSE: {rmse}")
print(f"R^2: {r2}")

Шаг 3: Анализ результатов

Получив результаты, мы можем оценить, насколько хорошо наша модель предсказывает цены на жилье. RMSE (среднеквадратичная ошибка) показывает среднее отклонение предсказанных значений от фактических, а коэффициент детерминации R^2 указывает, какая доля вариации цен на жилье объясняется нашей моделью.

Заключение

В этой статье мы рассмотрели, как можно использовать машинное обучение для предсказания цен на жилье в Бостоне. Наша простая модель линейной регрессии показала неплохие результаты, но есть множество способов улучшить её, например, используя более сложные алгоритмы или добавляя новые признаки. Экспериментируйте с данными и моделями, чтобы найти оптимальное решение для вашей задачи!

Подписаться на новости Nerd IT

Не пропустите последние выпуски. Зарегистрируйтесь сейчас, чтобы получить полный доступ к статьям.
jamie@example.com
Подписаться