В проекте решены задачи:
- улучшения метрики качества модели MAPE с 50% до 30% и менее, т.к. эта метрика показывает среднюю абсолютную ошибку в процентах - очень понятную для менеджеров
- произведена подготовка данных для разработчиков машинного обучения. На результатах данной работы они будут учить модели предсказывать стоимость аренды квартир.
Разведочный анализ данных - Exploratory Data Analysis в виде html-отчёта EDA.html сформированный из EDA.ipynb. Это необходимо, чтобы топы компании могли понять из отчёта что из себя представляют данные
Очистка данных от пропусков.
- состав репозитория дополняется:
- preprocessing.ipynb - jupyter notebook файл, где показан процесс обработки данных
- data.csv - отвечающий критериям:
- названия колонок на английском языке в одно/несколько слов с нижним подчёркиванием
- в каждой колонке отсутствовуют пропущенные значения (NaN, None и т.д.)
Финальный. Коммит данных с новыми фичами (feature engineering) - это тот же файл preprocessing.ipynb, но уже отрефакторенный с прошлого релиза и файл data.csv c новыми колонками.
- README.md добавлены основные выводы и иллюстрации
- data.csv - полностью отвечающий предыдущим и новым критериям:
- все значения внутри данных только численного типа (int или float)
- отсутствуют полные дубликаты объявлений, только уникальные объявления
- preprocessing.ipynb - jupyter notebook файл, где показан весь процесс обработки данных с комментариями
Исходные данные подготовлены для обучения модели. В ходе исследования данных выявлено, что стоимость аренды жилья имеет распределение, близкое к нормальному, в случае, когда целевая переменная логарифмирована.

