LangChain और OpenAI के साथ अपने CSV डेटा पर चैटबॉट बनाएं

May 05 2023
मेमोरी चैटबॉट के साथ अपनी CSV फ़ाइलों के साथ चैट करें Langchain और OpenAI के साथ बनाया गया इस लेख में, हम देखेंगे कि मेमोरी के साथ एक साधारण चैटबॉट कैसे बनाया जाए जो आपके स्वयं के CSV डेटा के बारे में आपके प्रश्नों का उत्तर दे सके। हेलो सब लोग! पिछले कुछ हफ्तों में, मैं सभी प्रकार की चीजें बनाने के लिए बड़े भाषा मॉडल की आकर्षक क्षमता का प्रयोग कर रहा हूं, और मैंने जो सीखा है उसे साझा करने का समय आ गया है! हम GPT-3 को लिंक करने के लिए LangChain का उपयोग करेंगे।

मेमोरी चैटबॉट के साथ अपनी CSV फ़ाइलों के साथ चैट करें Langchain और OpenAI के साथ बनाया गया

StableDiffusion के साथ बनाई गई छवि

इस लेख में, हम देखेंगे कि मेमोरी के साथ एक साधारण चैटबॉट कैसे बनाया जाए जो आपके स्वयं के CSV डेटा के बारे में आपके प्रश्नों का उत्तर दे सके।

हेलो सब लोग! पिछले कुछ हफ्तों में, मैं सभी प्रकार की चीजें बनाने के लिए बड़े भाषा मॉडल की आकर्षक क्षमता का प्रयोग कर रहा हूं, और मैंने जो सीखा है उसे साझा करने का समय आ गया है!

हम अपने डेटा से लिंक करने के लिए LangChain का उपयोग gpt-3.5करेंगे और अपने चैटबॉट के लिए यूजर इंटरफेस बनाने के लिए स्ट्रीमलिट का उपयोग करेंगे।

चैटजीपीटी के विपरीत, जो हमारे डेटा पर सीमित संदर्भ प्रदान करता है (हम केवल अधिकतम 4096 टोकन प्रदान कर सकते हैं), हमारा चैटबॉट सीएसवी डेटा को संसाधित करने और एम्बेडिंग और वेक्टरस्टोर के उपयोग के लिए एक बड़े डेटाबेस का प्रबंधन करने में सक्षम होगा।

LangChain Blog से आपके डेटा पर चैटबॉट बनाने के लिए उपयोग की जाने वाली प्रक्रिया का आरेख

कोड

अब चलो व्यावहारिक हो जाओ! हम अपने चैटबॉट को CSV डेटा पर बहुत कम पायथन सिंटैक्स के साथ विकसित करेंगे।

अस्वीकरण : यह कोड मेरे द्वारा बनाए गए चैटबॉट का सरलीकृत संस्करण है, यह OpenAI API लागत को कम करने के लिए अनुकूलित नहीं है, अधिक प्रदर्शन करने वाले और अनुकूलित चैटबॉट के लिए, मेरे GitHub प्रोजेक्ट को बेझिझक देखें: yvann-hub/Robby-chatbot या बस Robby-chatbot.com पर ऐप का परीक्षण करें ।

  • सबसे पहले, हम आवश्यक लाइब्रेरी स्थापित करेंगे:
  • 
    pip install streamlit streamlit_chat langchain openai faiss-cpu tiktoken
    

    import streamlit as st
    from streamlit_chat import message
    from langchain.embeddings.openai import OpenAIEmbeddings
    from langchain.chat_models import ChatOpenAI
    from langchain.chains import ConversationalRetrievalChain
    from langchain.document_loaders.csv_loader import CSVLoader
    from langchain.vectorstores import FAISS
    import tempfile
    

  • कम कीमत पर चैटबॉट का परीक्षण करने के लिए, आप इस हल्की CSV फ़ाइल का उपयोग कर सकते हैं:fishfry-locations.csv
  • user_api_key = st.sidebar.text_input(
        label="#### Your OpenAI API key ",
        placeholder="Paste your openAI API key, sk-",
        type="password")
    
    uploaded_file = st.sidebar.file_uploader("upload", type="csv")
    

    if uploaded_file :
       #use tempfile because CSVLoader only accepts a file_path
        with tempfile.NamedTemporaryFile(delete=False) as tmp_file:
            tmp_file.write(uploaded_file.getvalue())
            tmp_file_path = tmp_file.name
    
        loader = CSVLoader(file_path=tmp_file_path, encoding="utf-8", csv_args={
                    'delimiter': ','})
        data = loader.load()
    

    st.write(data)
    0:"Document(page_content='venue_name: McGinnis Sisters\nvenue_type: Market\nvenue_address: 4311 Northern Pike, Monroeville, PA\nwebsite: http://www.mcginnis-sisters.com/\nmenu_url: \nmenu_text: \nphone: 412-858-7000\nemail: \nalcohol: \nlunch: True', metadata={'source': 'C:\\Users\\UTILIS~1\\AppData\\Local\\Temp\\tmp6_24nxby', 'row': 0})"
    1:"Document(page_content='venue_name: Holy Cross (Reilly Center)\nvenue_type: Church\nvenue_address: 7100 West Ridge Road, Fairview PA\nwebsite: \nmenu_url: \nmenu_text: Fried pollack, fried shrimp, or combo. Adult $10, Child $5. Includes baked potato, homemade coleslaw, roll, butter, dessert, and beverage. Mac and cheese $5.\nphone: 814-474-2605\nemail: \nalcohol: \nlunch: ', metadata={'source': 'C:\\Users\\UTILIS~1\\AppData\\Local\\Temp\\tmp6_24nxby', 'row': 1})"
    

  • एम्बेडिंग CSVLoader द्वारा काटे गए भागों को वैक्टर में बदलने की अनुमति देता है, जो तब दी गई फ़ाइल की प्रत्येक पंक्ति की सामग्री के आधार पर एक सूचकांक का प्रतिनिधित्व करता है।
  • व्यवहार में, जब उपयोगकर्ता कोई क्वेरी करता है, तो वेक्टरस्टोर में एक खोज की जाएगी, और सबसे अच्छा मिलान इंडेक्स (तों) को एलएलएम में वापस कर दिया जाएगा, जो एक स्वरूपित प्रतिक्रिया प्रदान करने के लिए पाए गए इंडेक्स की सामग्री को फिर से बदल देगा। उपयोगकर्ता।
  • बेहतर समझ के लिए मैं वेक्टरस्टोर और एम्बेडिंग अवधारणाओं की आपकी समझ को गहरा करने की सलाह देता हूं।
  • embeddings = OpenAIEmbeddings()
    vectorstore = FAISS.from_documents(data, embeddings)
    

  • vectorstoreयह श्रृंखला हमें अपने दस्तावेज़ से प्रासंगिक जानकारी खोजने के लिए निर्भर करते हुए स्मृति के साथ एक चैटबॉट रखने की अनुमति देती है।
  • chain = ConversationalRetrievalChain.from_llm(
    llm = ChatOpenAI(temperature=0.0,model_name='gpt-3.5-turbo'),
    retriever=vectorstore.as_retriever())
    

  • st.session_state[‘history’]स्ट्रीमलिट साइट पर उपयोगकर्ता के वार्तालाप इतिहास को संग्रहीत करता है।

def conversational_chat(query):
        
        result = chain({"question": query, 
        "chat_history": st.session_state['history']})
        st.session_state['history'].append((query, result["answer"]))
        
        return result["answer"]

  • [‘generated’]चैटबॉट की प्रतिक्रियाओं से मेल खाता है।
  • [‘past’]उपयोगकर्ता द्वारा प्रदान किए गए संदेशों से मेल खाता है।
  • कंटेनर आवश्यक नहीं हैं लेकिन चैट संदेशों के नीचे उपयोगकर्ता के प्रश्न क्षेत्र को रखकर यूआई को बेहतर बनाने में मदद करते हैं।
  • if 'history' not in st.session_state:
            st.session_state['history'] = []
    
        if 'generated' not in st.session_state:
            st.session_state['generated'] = ["Hello ! Ask me anything about " + uploaded_file.name + " "]
    
        if 'past' not in st.session_state:
            st.session_state['past'] = ["Hey ! "]
            
        #container for the chat history
        response_container = st.container()
        #container for the user's text input
        container = st.container()
    

  • हम यूआई भाग को सेट कर सकते हैं जो उपयोगकर्ता को conversational_chatतर्क के रूप में उपयोगकर्ता के प्रश्न के साथ हमारे फ़ंक्शन में प्रवेश करने और भेजने की अनुमति देता है।
  • with container:
            with st.form(key='my_form', clear_on_submit=True):
                
                user_input = st.text_input("Query:", placeholder="Talk about your csv data here (:", key='input')
                submit_button = st.form_submit_button(label='Send')
                
            if submit_button and user_input:
                output = conversational_chat(user_input)
                
                st.session_state['past'].append(user_input)
                st.session_state['generated'].append(output)
    

    if st.session_state['generated']:
            with response_container:
                for i in range(len(st.session_state['generated'])):
                    message(st.session_state["past"][i], is_user=True, key=str(i) + '_user', avatar_style="big-smile")
                    message(st.session_state["generated"][i], key=str(i), avatar_style="thumbs")
    

    streamlit run name_of_your_chatbot.py #run with the name of your file
    
           
                    
    The result after launch the last command

आप मेरे GitHub पर पूरा प्रोजेक्ट भी पा सकते हैं ।