Проект по извлечению и структурированию информации из Wiki-сообществ Fandom (в нашем случае - вселенная Star Wars) Проект состоит из двух этапов:
- Написать парсер: использовать API Fandom, извлечь текст из HTML, разбить текст на чанки, сформировать структурированный датасет. Полученный датасет содержит тексты и ссылки между статьями, которые пригодны для дальнейшего анализа и визуализации
- Построить дашборд, который позволит фильтровать и сортировать статьи, смотреть статьи по чанкам При написании парсера использовались библиотеки:
- Requests
- модуль re (для стандартизации названий статей)
- BeautifulSoup (для извлечения текста из HTML страниц)
- Langchain для разбиения текста на чанки (размер чанка 1850 символов [+- 300 слов], размер перекрытия 320 символов)
- unquote, quote (для извлечения slug’ов из URL)
- tqdm (для отображения прогресс-бара)