stroykova/ontology
Folders and files
| Name | Name | Last commit date | ||
|---|---|---|---|---|
Repository files navigation
Автор: Стройкова Ксения email: k.a.stroykova@gmail.com ТРЕБОВАНИЯ Программа запускалась на Windows 7. Для выполнения использовался Python 2.7.3 ЗАПУСК Исходные данные для онтологии В репозитории уже расположен файл ontology, составленный из этих дампов Для составления онтологии необходимо скачать дампы отсюда: http://dumps.wikimedia.org/ruwiki/20140306/ ruwiki-20140306-pages-articles1.xml.bz2 247.4 MB ruwiki-20140306-pages-articles2.xml.bz2 354.7 MB ruwiki-20140306-pages-articles3.xml.bz2 499.5 MB ruwiki-20140306-pages-articles4.xml.bz2 988.1 MB Распаковать и переместить в папку docs Создать файл category, в котором указать имя категории для поиска Выполнить python ontology.py docs category Выходные файлы: categories - файл со списком всех найденных категорий в дампах википедии ontology - файл с найденными краткими описаниями сущностей из категории. article - признак новой сущности. После признака article следует набор ключ -> значение, что соответствует имени факта -> факту. Извлечение сущностей из статей с помощью Tomita парсера Перейти в директорию tomita. Создать файл input.txt, поместить в него текст исходной статьи. Выполнить tomitaparser.exe config.proto Будет создан файл output.txt, в котором будет содержаться информация о сущностях в формате xml. Поиск сущноcтей в онтологии Перейти в корневую директорию. Выполнить python parse_article.py ontology tomita/output.txt output. output - директория, в которой будет содержаться результат поиска: это набор файлов с сущностями из онтологии.