Voyager — это масштабируемое и эффективное решение, предназначенное для поиска "золотой записи" в больших наборах данных. Сервис оценивает данные на основе актуальности, частоты и полноты, помогая устранить дубликаты и улучшить качество данных. 📊
Наш проект вдохновлен легендарной миссией NASA 🚀, в рамках которой космические аппараты "Вояджер" отправились в межзвездное пространство, неся на борту золотые диски. Эти диски содержат звуки и изображения, представляющие разнообразие жизни и культуры на Земле, и служат посланием для возможных внеземных цивилизаций. 👽 Подобно тому, как золотые диски "Вояджера" содержат ценную информацию, наш проект направлен на извлечение и идентификацию наиболее значимых и ценных данных из массивных наборов информации. 💾
Большие наборы данных часто содержат:
- Дублирующиеся записи. 🔄
- Некорректные или неполные данные. ❌
- Опечатки и нереалистичные значения. 🧐
Это затрудняет анализ и принятие решений. Voyager позволяет консолидировать такие данные в одну, наиболее точную "золотую запись" для каждой сущности, улучшая их качество и упрощая дальнейшую обработку. 📈
- Определение "золотой записи": Находит наиболее полную, актуальную и достоверную запись. 🏆
- Высокая масштабируемость: Обрабатывает миллионы записей с десятками полей. 📚
- Обеспечение качества данных: Повышает надежность данных для анализа и операций. 🔍
- Точность и полнота:
- Высокая точность при выборе "золотых записей". 🎯
- Сохранение полных и достоверных значений полей. ✅
- Надежность:
- Минимизация ошибок и стабильность результатов. 🔒
- Масштабируемость:
- Эффективная работа с большими объемами данных и возможность адаптации к другим наборам. 📈
- Зависимости:
- Используются только стандартные и открытые библиотеки, доступные для коммерческого использования. 📚
- Отсутствие внешних или проприетарных сервисов. 🚫
pip install -r requirements.txtpython server.py- Python версии 3.10 или выше. 🐍 (тестировали на 3.10 и 3.12)
- Библиотеки:
pandas,annotated-types,anyio,clickcolorama,fastapi,h11,idna,Jinja2,MarkupSafe,numpy,patool,pydantic,pydantic_core,python-dateutil,python-multipart,pytz,six,sniffio,starlette,typing_extensions,tzdata,uvicorn
git clone https://github.com/OptonGroup/T1_hackathon.git
cd voyager
pip install -r requirements.txt
python server.py
http://127.0.0.1:8000/ Чтобы запустить это приложение с помощью Docker, выполните следующие действия:
- Создайте и запустите контейнер:
docker-compose up --build-
Приложение будет доступно по адресу
http://localhost:5000 -
Чтобы остановить приложение:
docker-compose downПримечание: Приложение настроено на:
- Запуск на порту 5000
- Автоматический перезапуск в случае сбоя
- Используйте монтирование тома, чтобы отразить изменения в коде без перестройки
- Включите все необходимые зависимости Python

