Spaces:

joermd
/

speedy-llm

Paused

App Files Files Community

joermd commited on Nov 11, 2024

Commit

74011b4

verified ·

1 Parent(s): 64e1afa

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -9

app.py CHANGED Viewed

@@ -8,10 +8,8 @@ import os
 random_dog = [
     "0f476473-2d8b-415e-b944-483768418a95.jpg",
     "1bd75c81-f1d7-4e55-9310-a27595fa8762.jpg",
-    # Add more images as needed
 ]
-# Function to reset conversation
 def reset_conversation():
     '''Resets conversation'''
     st.session_state.conversation = []
@@ -33,7 +31,7 @@ for message in st.session_state.messages:
         st.markdown(message["content"])
 # Set cache directory path to /data
-cache_dir = "/data"  # المسار المحدد للتخزين في مساحة Hugging Face
 # Load model and tokenizer on-demand to save memory
 if prompt := st.chat_input(f"مرحبا انا سبيدي , كيف استطيع مساعدتك ؟"):
@@ -41,11 +39,20 @@ if prompt := st.chat_input(f"مرحبا انا سبيدي , كيف استطيع
         st.markdown(prompt)
     st.session_state.messages.append({"role": "user", "content": prompt})
-    # Load model only when user submits a prompt
     try:
-        # Load the tokenizer and model with caching in the specified directory
-        tokenizer = AutoTokenizer.from_pretrained("joermd/llma-speedy", cache_dir=cache_dir)
-        model = AutoModelForCausalLM.from_pretrained("joermd/llma-speedy", cache_dir=cache_dir)
         # Generate response
         inputs = tokenizer(prompt, return_tensors="pt")
@@ -57,7 +64,7 @@ if prompt := st.chat_input(f"مرحبا انا سبيدي , كيف استطيع
         )
         assistant_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        # Clear memory (for CUDA) and delete the model to free up RAM
         if torch.cuda.is_available():
             torch.cuda.empty_cache()
         del model
@@ -71,4 +78,4 @@ if prompt := st.chat_input(f"مرحبا انا سبيدي , كيف استطيع
     # Display assistant response
     with st.chat_message("assistant"):
         st.markdown(assistant_response)
-    st.session_state.messages.append({"role": "assistant", "content": assistant_response})

 random_dog = [
     "0f476473-2d8b-415e-b944-483768418a95.jpg",
     "1bd75c81-f1d7-4e55-9310-a27595fa8762.jpg",
 ]
 def reset_conversation():
     '''Resets conversation'''
     st.session_state.conversation = []
         st.markdown(message["content"])
 # Set cache directory path to /data
+cache_dir = "/data"
 # Load model and tokenizer on-demand to save memory
 if prompt := st.chat_input(f"مرحبا انا سبيدي , كيف استطيع مساعدتك ؟"):
         st.markdown(prompt)
     st.session_state.messages.append({"role": "user", "content": prompt})
     try:
+        # Load the tokenizer and model with specific configuration
+        tokenizer = AutoTokenizer.from_pretrained(
+            "joermd/llma-speedy",
+            cache_dir=cache_dir,
+            local_files_only=False  # السماح بتحميل الملفات المتوفرة فقط
+        )
+        model = AutoModelForCausalLM.from_pretrained(
+            "joermd/llma-speedy",
+            cache_dir=cache_dir,
+            local_files_only=False,  # السماح بتحميل الملفات المتوفرة فقط
+            ignore_missing_weights=True  # تجاهل الأوزان المفقودة
+        )
         # Generate response
         inputs = tokenizer(prompt, return_tensors="pt")
         )
         assistant_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        # Clear memory
         if torch.cuda.is_available():
             torch.cuda.empty_cache()
         del model
     # Display assistant response
     with st.chat_message("assistant"):
         st.markdown(assistant_response)
+    st.session_state.messages.append({"role": "assistant", "content": assistant_response})