Zbuduj Chatbota na swoich danych CSV za pomocą LangChain i OpenAI

May 05 2023
Czatuj ze swoimi plikami CSV za pomocą chatbota pamięci | Wykonane z Langchain i OpenAI W tym artykule zobaczymy, jak zbudować prostego chatbota z pamięcią, który może odpowiedzieć na Twoje pytania dotyczące Twoich własnych danych CSV. Cześć wszystkim! W ciągu ostatnich kilku tygodni eksperymentowałem z fascynującym potencjałem dużych modeli językowych do tworzenia wszelkiego rodzaju rzeczy i nadszedł czas, aby podzielić się tym, czego się nauczyłem! Użyjemy LangChain do połączenia gpt-3.

Czatuj ze swoimi plikami CSV za pomocą chatbota pamięci | Wykonane z Langchain i OpenAI

obrazek wykonany programem StableDiffusion

W tym artykule zobaczymy, jak zbudować prostego chatbota z pamięcią, który odpowie na Twoje pytania dotyczące Twoich własnych danych CSV.

Cześć wszystkim! W ciągu ostatnich kilku tygodni eksperymentowałem z fascynującym potencjałem dużych modeli językowych do tworzenia wszelkiego rodzaju rzeczy i nadszedł czas, aby podzielić się tym, czego się nauczyłem!

Użyjemy LangChain do połączenia gpt-3.5z naszymi danymi i Streamlit do stworzenia interfejsu użytkownika dla naszego chatbota.

W przeciwieństwie do ChatGPT, który oferuje ograniczony kontekst dla naszych danych (maksymalnie możemy dostarczyć tylko 4096 tokenów), nasz chatbot będzie mógł przetwarzać dane CSV i zarządzać dużą bazą danych dzięki zastosowaniu osadzania i sklepu wektorowego.

Diagram procesu użytego do stworzenia chatbota na Twoich danych, z LangChain Blog

Kod

A teraz przejdźmy do praktyki! Opracujemy naszego chatbota na danych CSV z bardzo małą składnią Pythona.

Zastrzeżenie : ten kod jest uproszczoną wersją stworzonego przeze mnie chatbota, nie jest zoptymalizowany pod kątem obniżenia kosztów API OpenAI, aby uzyskać bardziej wydajnego i zoptymalizowanego chatbota, możesz sprawdzić mój projekt GitHub: yvann-hub/Robby-chatbot lub po prostu przetestuj aplikację na Robby-chatbot.com .

  • Najpierw zainstalujemy niezbędne biblioteki:
  • 
    pip install streamlit streamlit_chat langchain openai faiss-cpu tiktoken
    

    import streamlit as st
    from streamlit_chat import message
    from langchain.embeddings.openai import OpenAIEmbeddings
    from langchain.chat_models import ChatOpenAI
    from langchain.chains import ConversationalRetrievalChain
    from langchain.document_loaders.csv_loader import CSVLoader
    from langchain.vectorstores import FAISS
    import tempfile
    

  • Aby przetestować chatbota po niższych kosztach, możesz użyć tego lekkiego pliku CSV:fishfry-locations.csv
  • user_api_key = st.sidebar.text_input(
        label="#### Your OpenAI API key ",
        placeholder="Paste your openAI API key, sk-",
        type="password")
    
    uploaded_file = st.sidebar.file_uploader("upload", type="csv")
    

    if uploaded_file :
       #use tempfile because CSVLoader only accepts a file_path
        with tempfile.NamedTemporaryFile(delete=False) as tmp_file:
            tmp_file.write(uploaded_file.getvalue())
            tmp_file_path = tmp_file.name
    
        loader = CSVLoader(file_path=tmp_file_path, encoding="utf-8", csv_args={
                    'delimiter': ','})
        data = loader.load()
    

    st.write(data)
    0:"Document(page_content='venue_name: McGinnis Sisters\nvenue_type: Market\nvenue_address: 4311 Northern Pike, Monroeville, PA\nwebsite: http://www.mcginnis-sisters.com/\nmenu_url: \nmenu_text: \nphone: 412-858-7000\nemail: \nalcohol: \nlunch: True', metadata={'source': 'C:\\Users\\UTILIS~1\\AppData\\Local\\Temp\\tmp6_24nxby', 'row': 0})"
    1:"Document(page_content='venue_name: Holy Cross (Reilly Center)\nvenue_type: Church\nvenue_address: 7100 West Ridge Road, Fairview PA\nwebsite: \nmenu_url: \nmenu_text: Fried pollack, fried shrimp, or combo. Adult $10, Child $5. Includes baked potato, homemade coleslaw, roll, butter, dessert, and beverage. Mac and cheese $5.\nphone: 814-474-2605\nemail: \nalcohol: \nlunch: ', metadata={'source': 'C:\\Users\\UTILIS~1\\AppData\\Local\\Temp\\tmp6_24nxby', 'row': 1})"
    

  • Embeddings pozwalają przekształcić części wycięte przez CSVLoader na wektory, które następnie reprezentują indeks na podstawie zawartości każdego wiersza danego pliku.
  • W praktyce, gdy użytkownik wysyła zapytanie, wyszukiwanie zostanie przeprowadzone w magazynie wektorów, a najlepiej pasujące indeksy zostaną zwrócone do LLM, który przeformułuje zawartość znalezionego indeksu, aby zapewnić sformatowaną odpowiedź na użytkownik.
  • Zalecam pogłębienie zrozumienia koncepcji sklepu wektorowego i osadzania w celu lepszego zrozumienia.
  • embeddings = OpenAIEmbeddings()
    vectorstore = FAISS.from_documents(data, embeddings)
    

  • Ten łańcuch pozwala nam mieć chatbota z pamięcią, polegając jednocześnie na vectorstoreznalezieniu odpowiednich informacji z naszego dokumentu.
  • chain = ConversationalRetrievalChain.from_llm(
    llm = ChatOpenAI(temperature=0.0,model_name='gpt-3.5-turbo'),
    retriever=vectorstore.as_retriever())
    

  • st.session_state[‘history’]przechowuje historię konwersacji użytkownika, gdy znajduje się on na stronie Streamlit.

def conversational_chat(query):
        
        result = chain({"question": query, 
        "chat_history": st.session_state['history']})
        st.session_state['history'].append((query, result["answer"]))
        
        return result["answer"]

  • [‘generated’]odpowiada odpowiedziom chatbota.
  • [‘past’]odpowiada komunikatom podanym przez użytkownika.
  • Kontenery nie są niezbędne, ale pomagają ulepszyć interfejs użytkownika, umieszczając obszar pytań użytkownika pod wiadomościami na czacie.
  • if 'history' not in st.session_state:
            st.session_state['history'] = []
    
        if 'generated' not in st.session_state:
            st.session_state['generated'] = ["Hello ! Ask me anything about " + uploaded_file.name + " "]
    
        if 'past' not in st.session_state:
            st.session_state['past'] = ["Hey ! "]
            
        #container for the chat history
        response_container = st.container()
        #container for the user's text input
        container = st.container()
    

  • Możemy skonfigurować część interfejsu użytkownika, która pozwala użytkownikowi wprowadzić i wysłać swoje pytanie do naszej conversational_chatfunkcji z pytaniem użytkownika jako argumentem.
  • with container:
            with st.form(key='my_form', clear_on_submit=True):
                
                user_input = st.text_input("Query:", placeholder="Talk about your csv data here (:", key='input')
                submit_button = st.form_submit_button(label='Send')
                
            if submit_button and user_input:
                output = conversational_chat(user_input)
                
                st.session_state['past'].append(user_input)
                st.session_state['generated'].append(output)
    

    if st.session_state['generated']:
            with response_container:
                for i in range(len(st.session_state['generated'])):
                    message(st.session_state["past"][i], is_user=True, key=str(i) + '_user', avatar_style="big-smile")
                    message(st.session_state["generated"][i], key=str(i), avatar_style="thumbs")
    

    streamlit run name_of_your_chatbot.py #run with the name of your file
    
           
                    
    The result after launch the last command

Cały projekt można również znaleźć na moim GitHubie .