Цель В этом задании вы познакомитесь с основами управления данными с помощью DVC, управления экспериментами с использованием MLflow и автоматизации с ClearML. Ваша задача — интегрировать все три инструмента для построения полного цикла ML-проекта.
Часть 1: управление данными с DVC Задача: использовать DVC для управления данными и построения ML-пайплайнов. Настроить удаленное хранилище и запустить пайплайн с использованием CI/CD.
Этапы выполнения Добавление данных в DVC: Добавьте набор данных в проект, используя DVC. Закоммитьте изменения и добавьте DVC файлы в Git. Настройка удаленного хранилища: Настройте удаленное хранилище для DVC (например, Google Drive, AWS S3). Убедитесь, что данные могут синхронизироваться с удаленным хранилищем. Создание и запуск пайплайна: Создайте пайплайн для обработки данных (например, очистка данных или подготовка признаков). Закоммитьте пайплайн в DVC. Интеграция DVC в CI/CD: Настройте пайплайн в CI/CD, который будет автоматически запускать DVC-процесс. Убедитесь, что пайплайн может корректно запускать шаги обработки данных