Spaces:

techconspartners
/

ConversAI

Sleeping

Rauhan commited on Aug 8, 2024

Commit

ac9adab

1 Parent(s): e6741bc

UPDATE: YT Transcripts

Files changed (3) hide show

app.py CHANGED Viewed

@@ -155,4 +155,8 @@ async def getCount(vectorstore: str):
     df = pd.DataFrame(client.table("ConversAI_ChatbotInfo").select("*").execute().data)
     return {
         "currentCount": df[(df['username'] == username) & (df['chatbotname'] == chatbotName)]['charactercount'].iloc[0]
-        }

     df = pd.DataFrame(client.table("ConversAI_ChatbotInfo").select("*").execute().data)
     return {
         "currentCount": df[(df['username'] == username) & (df['chatbotname'] == chatbotName)]['charactercount'].iloc[0]
+        }
+@app.post("/getYoutubeTranscript")
+async def getYTTranscript(url: str):
+    return getTranscript(url = url)

functions.py CHANGED Viewed

@@ -10,6 +10,7 @@ from langchain_core.runnables.history import RunnableWithMessageHistory
 from langchain.memory import ChatMessageHistory
 from langchain_core.chat_history import BaseChatMessageHistory
 from langchain.storage import InMemoryStore
 from langchain.docstore.document import Document
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain.retrievers import ContextualCompressionRetriever
@@ -294,4 +295,15 @@ def getTextFromImagePDF(pdfBytes):
     allImages = convert_from_bytes(pdfBytes)
     allImages = [np.array(image) for image in allImages]
     text = "\n\n\n".join(["\n".join([text[1] for text in reader.readtext(image, paragraph=True)]) for image in allImages])
-    return text

 from langchain.memory import ChatMessageHistory
 from langchain_core.chat_history import BaseChatMessageHistory
 from langchain.storage import InMemoryStore
+from langchain_community.document_loaders import YoutubeLoader
 from langchain.docstore.document import Document
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain.retrievers import ContextualCompressionRetriever
     allImages = convert_from_bytes(pdfBytes)
     allImages = [np.array(image) for image in allImages]
     text = "\n\n\n".join(["\n".join([text[1] for text in reader.readtext(image, paragraph=True)]) for image in allImages])
+    return text
+def getTranscript(url: str):
+    loader = YoutubeLoader.from_youtube_url(
+        url, add_video_info=False
+    )
+    try:
+        doc = " ".join([x.page_content for x in loader.load()])
+    except:
+        doc = "ENGLISH TRANSCRIPT UNAVAILABLE"
+    return doc

requirements.txt CHANGED Viewed

@@ -18,6 +18,7 @@ python-dotenv
 pydantic
 pandas
 easyocr
 pdf2image
 sentence-transformers
 supabase

 pydantic
 pandas
 easyocr
+youtube-transcript-api
 pdf2image
 sentence-transformers
 supabase