Skip to content

katimanova/skiovo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

📚 SKIOVO Project: Data Processing & Analysis

Этот проект направлен на упрощение взаимодействия пользователей с Схемами комплексного использования и охраны водных объектов (СКИОВО) — подробными отчетами о состоянии более чем 70 речных бассейнов России. СКИОВО включают в себя следующие блоки:

  • Общая характеристика речного бассейна: география, гидрология, геоморфология и климат.
  • Оценка экологического состояния: выявление ключевых проблем и угроз.
  • Целевые показатели: критерии, к которым необходимо стремиться для улучшения состояния водных ресурсов.
  • Водохозяйственные балансы: данные о распределении водных ресурсов и балансах загрязняющих веществ.
  • Лимиты и квоты: нормативы на забор воды и сброс сточных вод.
  • План мероприятий: рекомендации по достижению целевого состояния речных бассейнов.

Проект SKIOVO автоматизирует предобработку, анализ и визуализацию этих данных, что делает их доступными и удобными для использования.


🗂 Cтруктура проекта

.
├── LICENSE                              # Лицензионное соглашение
├── README.md                            # Описание проекта
├── data                                 # Исходные и предобработанные данные
│   ├── Base_Books                       # PDF-книги, разбитые по речным бассейнам
│   ├── JSON                             # Исходные и предобработанные JSON-файлы
├── documents                            # ТЗ, промежуточные отчеты
├── notebooks                            # Jupyter ноутбуки для выполнения этапов проекта
│   ├── data_collection                  # Про сбор данных
│   ├── data_preprocessing               # Предобработка данных
│   ├── db_vectorization                 # Работа с векторными базами данных
│   ├── eda                              # Исследовательский анализ данных
│   ├── evaluation                       # Оценка моделей векторизации
│   ├── experiment_docling               # Эксперименты с Markdown
│   ├── experiment_structurization_pdf   # Эксперименты с PDF-структуризацией
│   └── getting_path                     # Объединение JSON с путями до PDF
├── poetry.lock                          # Зависимости проекта
├── pyproject.toml                       # Конфигурация проекта

🚀 Установка и запуск

1. Клонирование репозитория

git clone https://github.com/katimanova/skiovo.git
cd skiovo

2. Установка зависимостей и активация среды

Проект использует Poetry для управления зависимостями. Убедитесь, что он установлен (это важно, чтобы использовать нужные версии библиотек питона):

poetry install
poetry shell 

🛠 Ключевые этапы проекта

  1. 📖 Анализ данных:

    • В качестве исходного материала используется архив, содержащий данные восьми водных бассейнов: Волга, Дон, Кубань, Обь, Печора, Сура, Терек, Урал.
    • -> все отчеты хранятся на ифнормационных сайтах БВУ регионовnotebooks/data_collection/collecting.ipynb.
  2. 🧹 Предобработка данных:

  3. 📊 Анализ данных (EDA):

    • Проведен исследовательский анализ данных, включающий:

      • Изучение содержимого отчетов по бассейнам.
      • Анализ частотности слов.
      • Визуализацию данных в формате облака слов.
        Подробнее см. в notebooks/EDA/eda.ipynb.
      • Дашборд реализован на базе Plotly Dash - notebooks/EDA/vector_db_dashboard.ipynb.

      Демонстрация работы

  4. 🎯 Оценка методов для веткоризации текста:

Модель Метрика Результаты Подходит?
USER-bge-m3 cosine_similarity 0.6997 Да
TF-IDF cosine_similarity 0.3827 Да
Sci-Rus-Tiny cosine_similarity 0.6394 Нет (выдал не то)
  1. 🗃 Создание векторной базы данных:

    • Векторизация данных:
    • Оценка качества векторных данных:
  2. Прототип rule-based бот Прототип


🎯 Бизнес-ценность

Проект SKIOVO автоматизирует обработку и анализ данных из отчетов о водных ресурсах России (СКИОВО). Это позволяет:

  1. Ускорить доступ к данным:

    • Структурированные данные и векторная база упрощают поиск и анализ информации.
  2. Подготовить основу для вопросно-ответной системы:

    • Векторизация данных и прототип бота закладывают фундамент для будущей платформы, которая упростит взаимодействие с данными для водопользователей.

Проект является частью инициативы по цифровизации, направленной на повышение эффективности работы с водными ресурсами.


🗓 Сроки работы над проектом

Проект SKIOVO активно разрабатывался с октября по январь и в настоящее время работа над ним продолжается.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors