Данный проект выполняется для компании Alyona Ivanovna Real Estate Agency (AI REA Ltd) - международного сервиса по продаже и аренде жилой недвижимости.
Наша команда работает над подготовкой данных для обучения модели машинного обучения, которая будет предсказывать стоимость аренды квартир в Москве. Конечная цель - создать модель, которая будет выдавать предсказания с метрикой MAPE не более 30% (улучшение с текущих 50%).
- Релиз 1.0 ✅ - Разведочный анализ данных (EDA)
- Релиз 2.0 ✅ - Очистка данных от пропусков
- Релиз 3.0 ✅ - Инженерия признаков (Feature Engineering)
- Ступак Александр
- Никита Тимофеев
В рамках третьего релиза мы провели инженерию признаков (Feature Engineering):
-
Признаки на основе цены:
price_per_m2- цена за квадратный метрprice_per_room- цена за комнату
-
Признаки на основе метро:
metro_category- категории удаленности от метро (0-4)is_walk_distance- бинарный признак (пешая доступность ≤ 10 минут)
-
Признаки на основе площади:
is_small_area- бинарный признак для небольших квартирis_large_area- бинарный признак для больших квартирarea_per_room- площадь на комнату
-
Категориальные признаки:
price_category- категория цены (0-3)
-
Комбинированные признаки:
building_renovation- комбинация типа здания и ремонтаmetro_building- комбинация близости к метро и типа здания
-
Связь цены и удаленности от метро: Чем ближе квартира к метро, тем она дороже.

-
Зависимость цены от количества комнат: С увеличением количества комнат растет и стоимость аренды.

-
Распределение цены за квадратный метр: Большинство квартир имеют среднерыночную стоимость за кв.м.

-
Корреляция признаков: Наиболее сильно с ценой коррелируют площадь квартиры и количество комнат.

- Создан набор данных без пропусков и дубликатов
- Все признаки приведены к числовому типу (int или float)
- Добавлено 10 новых информативных признаков для улучшения качества модели
- Результаты сохранены в файл
SOLYaNKA.csv
В рамках второго релиза мы провели очистку данных от пропусков:
- Переименовали колонки на английский язык для соответствия стандартам
- Обработали пропущенные значения во всех колонках
- Стандартизировали форматы данных
- Сократили набор данных до 8 ключевых признаков:
- id_listing: ID объявления
- number_of_rooms: Количество комнат
- metro_on_foot: Время до метро пешком (в минутах)
- area_m2: Площадь квартиры (в м²)
- building_info: Тип дома (категориальный признак)
- price: Цена аренды квартиры
- renovation: Тип ремонта (категориальный признак)
- bathroom: Тип санузла (категориальный признак)
Результаты обработки данных представлены в файлах:
- preprocessing.ipynb: процесс очистки и преобразования данных
- edited_data.csv: очищенный набор данных без пропусков
В рамках первого релиза мы провели разведочный анализ данных:
- Изучили структуру и содержание датасета
- Проанализировали распределения основных показателей
- Выявили закономерности и зависимости
- Определили направления для дальнейшей обработки данных
Результаты анализа представлены в файле EDA.html