Spaces:

nileshhanotia
/

PeVe_mistral

Sleeping

App Files Files Community

nileshhanotia commited on Sep 10, 2024

Commit

c4b5351

verified ·

1 Parent(s): 2133124

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -4

app.py CHANGED Viewed

@@ -28,13 +28,19 @@ set_git_config()
 def load_data(file_paths):
     combined_data = []
     for file_path in file_paths:
         if not os.path.exists(file_path):
             st.error(f"File not found: {file_path}")
             return None
         try:
             with open(file_path, 'r') as f:
                 data = json.load(f)
-            combined_data.extend(data)
         except Exception as e:
             st.error(f"Error loading dataset from {file_path}: {str(e)}")
             return None
@@ -56,8 +62,8 @@ def initialize_model_and_tokenizer(model_name, num_labels):
         return None, None
 def create_dataset(data, tokenizer, max_length):
-    texts = [item['prompt'] for item in data]
-    labels = [item['label'] for item in data]
     encodings = tokenizer(texts, truncation=True, padding='max_length', max_length=max_length)
     dataset = Dataset.from_dict({
@@ -68,6 +74,8 @@ def create_dataset(data, tokenizer, max_length):
     return dataset
 def split_data(data, test_size=0.2):
     random.shuffle(data)
     split_index = int(len(data) * (1 - test_size))
     return data[:split_index], data[split_index:]
@@ -100,7 +108,11 @@ def main():
     st.write("Preparing dataset...")
     # Split the data into train and evaluation sets
-    train_data, eval_data = split_data(data)
     train_dataset = create_dataset(train_data, tokenizer, max_length)
     eval_dataset = create_dataset(eval_data, tokenizer, max_length)

 def load_data(file_paths):
     combined_data = []
     for file_path in file_paths:
+        file_path = file_path.strip()
         if not os.path.exists(file_path):
             st.error(f"File not found: {file_path}")
             return None
         try:
             with open(file_path, 'r') as f:
                 data = json.load(f)
+            if 'intents' in data:
+                for intent in data['intents']:
+                    combined_data.extend(intent['examples'])
+            else:
+                st.error(f"Invalid format in file: {file_path}")
+                return None
         except Exception as e:
             st.error(f"Error loading dataset from {file_path}: {str(e)}")
             return None
         return None, None
 def create_dataset(data, tokenizer, max_length):
+    texts = [item.get('prompt', '') for item in data]
+    labels = [item.get('label', -1) for item in data]
     encodings = tokenizer(texts, truncation=True, padding='max_length', max_length=max_length)
     dataset = Dataset.from_dict({
     return dataset
 def split_data(data, test_size=0.2):
+    if not data:
+        raise ValueError("Data is empty, cannot split.")
     random.shuffle(data)
     split_index = int(len(data) * (1 - test_size))
     return data[:split_index], data[split_index:]
     st.write("Preparing dataset...")
     # Split the data into train and evaluation sets
+    try:
+        train_data, eval_data = split_data(data)
+    except ValueError as e:
+        st.error(f"Data splitting error: {str(e)}")
+        return
     train_dataset = create_dataset(train_data, tokenizer, max_length)
     eval_dataset = create_dataset(eval_data, tokenizer, max_length)