Skip to content
2 changes: 2 additions & 0 deletions .gitignore
Original file line number Diff line number Diff line change
@@ -0,0 +1,2 @@
data/
test.bat
50 changes: 2 additions & 48 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,53 +1,7 @@
# boolean_search_hw_framework
# Поисковой движок работающий на логике булева поиска

## что здесь
Данный репозитрий содержит базовые скрипты необходимые для выполнения домашнего задания для раздела "Индексация и булев" поиск курса "Информационный поиск"
## Автор: Грищенко Алексей

## Как выполнить задание
Для выполнения домашнего задания нужно создать обратный индекс для набора документов и найти документы по запросам.

Соответственно нужно реализовать логику для следующих объектов:
```
Index -- создание обратного индекса
QueryTree -- загрузка запроса и поиск в обратном индексе
SearchResults -- сбор результатов и создание файла с ответами.
```
Результат решения должен быть представлен в виде csv файла следующего вида:

```
ObjectId,Relevence
1,1
```
где ObjectId -- номер пары документ-запрос, Relevance -- 1 - документ попадает в множество ответов для данного запроса, 0 -- не попадает.

Затем, файл с ответами нужно отправить на соревнование в kaggle для оценки качества.
Подробные описания файлов с тестовыми данными есть на страничке соревнования.

Скрипт с решением следует отправить в виде pull request для данного репозитория.

Для унификации, решения будут проверяться с использованием docker контейнеров, скрипты с командой запуска докера и ожидаемой версией python есть в этом же репозитории.

Для запуска контейнера нужно в корне репозитория создать каталог data и туда скопировать файлы
```
docs.txt
objects.enumerate.txt
queries.enumerate.txt
```
из ресурсов соревнования.
```
Файл docs.txt содержит документы
Файл queries.enumerate.txt содержит запросы
Файл objects.enumerate.txt содержит соответствие ObjectId паре запрос-документ
```
Формат objects.enumerate.txt:

```
ObjectId,QueryId,DocumentId
1,1,D0000003
..
```

если для решения будет использован скрипт запуска докера из репозитория, то результат -- output.csv -- появится в каталоге где находится скрипт.

## состав репозитория

Expand Down
Loading