WikiFandom_project

Проект по извлечению и структурированию информации из Wiki-сообществ Fandom (в нашем случае - вселенная Star Wars) Проект состоит из двух этапов:

Написать парсер: использовать API Fandom, извлечь текст из HTML, разбить текст на чанки, сформировать структурированный датасет. Полученный датасет содержит тексты и ссылки между статьями, которые пригодны для дальнейшего анализа и визуализации
Построить дашборд, который позволит фильтровать и сортировать статьи, смотреть статьи по чанкам При написании парсера использовались библиотеки:

Requests
модуль re (для стандартизации названий статей)
BeautifulSoup (для извлечения текста из HTML страниц)
Langchain для разбиения текста на чанки (размер чанка 1850 символов [+- 300 слов], размер перекрытия 320 символов)
unquote, quote (для извлечения slug’ов из URL)
tqdm (для отображения прогресс-бара)

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
Parser_SW.ipynb		Parser_SW.ipynb
README.md		README.md
fandom_dashboard.py		fandom_dashboard.py

Provide feedback