Conversation
|
Запушил pre-commit хук с jupytext, чтобы в PR нормально дифф можно было смотреть =) + настроил CI, чтобы .py и .ipynb файлы синхронизировались автоматически |
LLM/research/research.ipynb
Outdated
| "### Как считаю метрику?\n", | ||
| "Беру два вопроса: пользовательский и из базы знаний, привожу их к одному виду (прописные буквы, начальная форма, удаление стоп слов), потом считаю пересечение и делю на количество слов в вопросе из БЗ.\n", | ||
| "\n", | ||
| "**Улчушение**: для каждого слова определить его важность: как количество вхождений в БЗ, либо ручками составить словарь с важными терминами." |
There was a problem hiding this comment.
Если зафиксировать дисциплину заполнения БЗ, то можно и не ручками. Например, потребовать, чтобы все важнейшие понятия в вопросе и ответе из БЗ помечались каким-то emph-форматом (в случае использования англ модели - приводить в скобках перевод). Тогда дальше можно извлекать термины из вопроса-ответа автоматически, тем самым создавая список ключевых слов. И с ними соотносить фразы из запроса.
Плюс добавить в CI линт на то, что в элементах БЗ обязательно есть эти выделенные слова. Конечно, выявлять адекватность ключевых слов - уже задача ревьюера, но хотя бы не придётся дважды делать одну и ту же работу (сначала ревью БЗ, а потом по мотивам БЗ составление словаря).
There was a problem hiding this comment.
Плюс добавить в CI линт
памагите
|
я посмотрела на варианты решений проблемы с близкими, и мне показалось, что обучить w2v будет хорошей идеей, но пока 0, тк я где-то ошиблась и всё обучается не так, как надо |
No description provided.