Skip to content

Saim-SW14/WikiFandom_project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 

Repository files navigation

WikiFandom_project

Проект по извлечению и структурированию информации из Wiki-сообществ Fandom (в нашем случае - вселенная Star Wars) Проект состоит из двух этапов:

  1. Написать парсер: использовать API Fandom, извлечь текст из HTML, разбить текст на чанки, сформировать структурированный датасет. Полученный датасет содержит тексты и ссылки между статьями, которые пригодны для дальнейшего анализа и визуализации
  2. Построить дашборд, который позволит фильтровать и сортировать статьи, смотреть статьи по чанкам При написании парсера использовались библиотеки:
  • Requests
  • модуль re (для стандартизации названий статей)
  • BeautifulSoup (для извлечения текста из HTML страниц)
  • Langchain для разбиения текста на чанки (размер чанка 1850 символов [+- 300 слов], размер перекрытия 320 символов)
  • unquote, quote (для извлечения slug’ов из URL)
  • tqdm (для отображения прогресс-бара)

About

Проект по извлечению и структурированию информации из Wiki-сообществ Fandom

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors