Skip to content

added research jn#140

Open
molivka wants to merge 9 commits intomainfrom
research
Open

added research jn#140
molivka wants to merge 9 commits intomainfrom
research

Conversation

@molivka
Copy link
Contributor

@molivka molivka commented Dec 7, 2024

No description provided.

@stewkk
Copy link
Collaborator

stewkk commented Dec 9, 2024

Запушил pre-commit хук с jupytext, чтобы в PR нормально дифф можно было смотреть =)

+ настроил CI, чтобы .py и .ipynb файлы синхронизировались автоматически

"### Как считаю метрику?\n",
"Беру два вопроса: пользовательский и из базы знаний, привожу их к одному виду (прописные буквы, начальная форма, удаление стоп слов), потом считаю пересечение и делю на количество слов в вопросе из БЗ.\n",
"\n",
"**Улчушение**: для каждого слова определить его важность: как количество вхождений в БЗ, либо ручками составить словарь с важными терминами."
Copy link

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Если зафиксировать дисциплину заполнения БЗ, то можно и не ручками. Например, потребовать, чтобы все важнейшие понятия в вопросе и ответе из БЗ помечались каким-то emph-форматом (в случае использования англ модели - приводить в скобках перевод). Тогда дальше можно извлекать термины из вопроса-ответа автоматически, тем самым создавая список ключевых слов. И с ними соотносить фразы из запроса.
Плюс добавить в CI линт на то, что в элементах БЗ обязательно есть эти выделенные слова. Конечно, выявлять адекватность ключевых слов - уже задача ревьюера, но хотя бы не придётся дважды делать одну и ту же работу (сначала ревью БЗ, а потом по мотивам БЗ составление словаря).

Copy link
Owner

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Плюс добавить в CI линт

памагите

@molivka
Copy link
Contributor Author

molivka commented Dec 21, 2024

я посмотрела на варианты решений проблемы с близкими, и мне показалось, что обучить w2v будет хорошей идеей, но пока 0, тк я где-то ошиблась и всё обучается не так, как надо
поэтому лучше не радоваться результатам (если кто-то будет пристально смотреть ноутбук)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

4 participants