shree970 · shreyassks · Jun 10, 2023 · Jun 10, 2023 · Jun 11, 2023 · Jun 11, 2023
diff --git a/.gitignore b/.gitignore
@@ -1 +1,5 @@
-.env
+.env
+.idea
+.chroma
+venv
+.DS_Store
diff --git a/db/chroma-collections.parquet b/db/chroma-collections.parquet
diff --git a/db/chroma-embeddings.parquet b/db/chroma-embeddings.parquet
diff --git a/db/index/id_to_uuid_f019bbd5-c4be-41b2-a2ae-36a063741cb6.pkl b/db/index/id_to_uuid_f019bbd5-c4be-41b2-a2ae-36a063741cb6.pkl
diff --git a/db/index/index_f019bbd5-c4be-41b2-a2ae-36a063741cb6.bin b/db/index/index_f019bbd5-c4be-41b2-a2ae-36a063741cb6.bin
diff --git a/db/index/index_metadata_f019bbd5-c4be-41b2-a2ae-36a063741cb6.pkl b/db/index/index_metadata_f019bbd5-c4be-41b2-a2ae-36a063741cb6.pkl
diff --git a/db/index/uuid_to_id_f019bbd5-c4be-41b2-a2ae-36a063741cb6.pkl b/db/index/uuid_to_id_f019bbd5-c4be-41b2-a2ae-36a063741cb6.pkl
diff --git a/pdf-retrieval.py b/pdf-retrieval.py
@@ -0,0 +1,66 @@
+import gradio as gr
+from langchain.embeddings.openai import OpenAIEmbeddings
+from langchain.vectorstores import Chroma
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.chains import ConversationalRetrievalChain
+from langchain.memory import ConversationSummaryBufferMemory
+from langchain.document_loaders import PyPDFDirectoryLoader
+from langchain.chat_models import ChatOpenAI
+from dotenv import load_dotenv
+
+load_dotenv()
+
+llm = ChatOpenAI(temperature=0.1, model_name="gpt-4")
+
+# Data Ingestion
+pdf_loader = PyPDFDirectoryLoader('static/')
+
+documents = pdf_loader.load()
+
+# Chunk and Embeddings
+text_splitter = CharacterTextSplitter(chunk_size=1500, chunk_overlap=150)
+documents = text_splitter.split_documents(documents)
+
+embeddings = OpenAIEmbeddings()
+
+vectorstore = Chroma.from_documents(documents, embeddings, persist_directory="db")
+vectorstore.persist()
+vectordb = Chroma(persist_directory="db", embedding_function=embeddings)
+
+memory = ConversationSummaryBufferMemory(
+    llm=llm,
+    max_token_limit=850,
+    output_key='answer',
+    memory_key='chat_history',
+    return_messages=True)
+
+retriever = vectordb.as_retriever(
+    search_type="similarity",
+    search_kwargs={"k": 3})
+
+# Initialise Langchain - Conversation Retrieval Chain
+qa = ConversationalRetrievalChain.from_llm(llm, retriever=retriever, memory=memory,
+                                           get_chat_history=lambda h: h,
+                                           chain_type="stuff")
+
+with gr.Blocks() as demo:
+    chatbot = gr.Chatbot()
+    msg = gr.Textbox()
+    clear = gr.Button("Clear")
+    chat_history = []
+
+
+    def user(user_message, history):
+        # Get response from QA chain
+        response = qa({"question": user_message, "chat_history": history})
+        # Append user message and response to chat history
+        history.append((user_message, response["answer"]))
+        # print(type(history[0]))
+        return gr.update(value=""), history
+
+
+    msg.submit(user, [msg, chatbot], [msg, chatbot], queue=False)
+    clear.click(lambda: None, None, chatbot, queue=False)
+
+if __name__ == "__main__":
+    demo.launch(debug=True)
diff --git a/requirements.txt b/requirements.txt
@@ -0,0 +1,9 @@
+unstructured
+langchain
+openai
+pdf2image
+chromadb
+tiktoken
+python-dotenv
+pypdf
+streamlit
diff --git a/static/Aadhaar FAQ.pdf b/static/Aadhaar FAQ.pdf
diff --git a/static/Resident_HandBook_Hindi.pdf b/static/Resident_HandBook_Hindi.pdf
diff --git a/static/UIDAI_Handbook English.pdf b/static/UIDAI_Handbook English.pdf
diff --git a/static/recently_asked_questions.pdf b/static/recently_asked_questions.pdf