Dshiriaev by dm-shr · Pull Request #9 · SimulatorML/KarpovAI

dm-shr · 2023-12-27T23:47:27Z

added evaluation tools in evaluation/rag_evaluate:

evaluate_rag_utils.py
generate_questions.ipynb to show how to generate Q-A pairs ('doc_question_dataset_1000.json', etc) to the provided index.
irrelevant_words.txt, relevant_words.txt - keywords for sampling more useful nodes when sampling nodes for Q-A pairs.
gpt_questions.txt, with/out prompt - GPT generated questions within data science: 70 - analytics, 50 - ML general, 50 - ranking, pricing, deployment, etc (ML topics), 20 - time series, 20 - MLOps, data engineering.
rag_evaluate.ipynb to show how to evaluate the retrieval/answering by generating 'rag_evaluate_json_512_postprocess_both_1.json' and 'rag_evaluate_json_1024.json' sample datasets.

…informative nodes" This reverts commit b8807d1.

…_utils.py

dm-shr added 10 commits December 8, 2023 01:13

Revert "added "evaluate_rag_utils" to generate questions to the more …

a10ab62

…informative nodes" This reverts commit b8807d1.

added evaluate_rag_utils for qa_dataset generation

06d05aa

changed .gitignore

e1aa032

added 10 generated questions also for 3k tokens

9bee548

pulling dshiriaev branch

72f96ad

added rag utils back

e822ffa

added words list back

2a3b9f4

added validation pipeline with ./evaluation/rag_evaluate/evaluate_rag…

c788756

…_utils.py

cleaned up generate_questions.ipynb

088f221

cleaned up generate_questions.ipynb further

8c228f7

Provide feedback