data-generator

Running

davidberenstein1957 HF staff commited on 19 days ago

Commit

d982700

•

1 Parent(s): dd0124d

update failed token message

Files changed (6) hide show

pdm.lock CHANGED Viewed

The diff for this file is too large to render. See raw diff

pyproject.toml CHANGED Viewed

@@ -19,11 +19,11 @@ license = {text = "Apache 2"}
 dependencies = [
     "distilabel[hf-inference-endpoints,argilla,outlines,instructor]>=1.4.1",
-    "gradio[oauth]<5.0.0",
     "transformers>=4.44.2",
     "sentence-transformers>=3.2.0",
     "model2vec>=0.2.4",
-    "gradio-huggingfacehub-search>=0.0.7",
     "argilla>=2.4.0",
 ]

 dependencies = [
     "distilabel[hf-inference-endpoints,argilla,outlines,instructor]>=1.4.1",
+    "gradio[oauth]>=5.4.0",
     "transformers>=4.44.2",
     "sentence-transformers>=3.2.0",
     "model2vec>=0.2.4",
+    "gradio-huggingfacehub-search>=0.0.12",
     "argilla>=2.4.0",
 ]

src/synthetic_dataset_generator/apps/eval.py CHANGED Viewed

@@ -739,7 +739,6 @@ with gr.Blocks() as app:
                 dataframe = gr.Dataframe(
                     headers=["prompt", "completion", "evaluation"],
                     wrap=True,
-                    height=500,
                     interactive=False,
                     elem_classes="table-view",
                 )

                 dataframe = gr.Dataframe(
                     headers=["prompt", "completion", "evaluation"],
                     wrap=True,
                     interactive=False,
                     elem_classes="table-view",
                 )

src/synthetic_dataset_generator/apps/sft.py CHANGED Viewed

@@ -15,7 +15,11 @@ from synthetic_dataset_generator.apps.base import (
     validate_argilla_user_workspace_dataset,
     validate_push_to_hub,
 )
-from synthetic_dataset_generator.constants import DEFAULT_BATCH_SIZE, SFT_AVAILABLE, MODEL
 from synthetic_dataset_generator.pipelines.embeddings import (
     get_embeddings,
     get_sentence_embedding_dimensions,
@@ -82,7 +86,6 @@ def _get_dataframe():
     return gr.Dataframe(
         headers=["prompt", "completion"],
         wrap=True,
-        height=500,
         interactive=False,
         elem_classes="table-view",
     )
@@ -97,8 +100,12 @@ def generate_dataset(
     progress=gr.Progress(),
 ) -> pd.DataFrame:
     progress(0.0, desc="(1/2) Generating instructions")
-    magpie_generator = get_magpie_generator(system_prompt, num_turns, temperature, is_sample)
-    response_generator = get_response_generator(system_prompt, num_turns, temperature, is_sample)
     total_steps: int = num_rows * 2
     batch_size = DEFAULT_BATCH_SIZE
@@ -520,7 +527,7 @@ with gr.Blocks() as app:
                 num_turns,
                 num_rows,
                 private,
-                temperature
             ],
             outputs=[success_message],
             show_progress=True,

     validate_argilla_user_workspace_dataset,
     validate_push_to_hub,
 )
+from synthetic_dataset_generator.constants import (
+    DEFAULT_BATCH_SIZE,
+    MODEL,
+    SFT_AVAILABLE,
+)
 from synthetic_dataset_generator.pipelines.embeddings import (
     get_embeddings,
     get_sentence_embedding_dimensions,
     return gr.Dataframe(
         headers=["prompt", "completion"],
         wrap=True,
         interactive=False,
         elem_classes="table-view",
     )
     progress=gr.Progress(),
 ) -> pd.DataFrame:
     progress(0.0, desc="(1/2) Generating instructions")
+    magpie_generator = get_magpie_generator(
+        system_prompt, num_turns, temperature, is_sample
+    )
+    response_generator = get_response_generator(
+        system_prompt, num_turns, temperature, is_sample
+    )
     total_steps: int = num_rows * 2
     batch_size = DEFAULT_BATCH_SIZE
                 num_turns,
                 num_rows,
                 private,
+                temperature,
             ],
             outputs=[success_message],
             show_progress=True,

src/synthetic_dataset_generator/apps/textcat.py CHANGED Viewed

@@ -39,7 +39,6 @@ def _get_dataframe():
     return gr.Dataframe(
         headers=["labels", "text"],
         wrap=True,
-        height=500,
         interactive=False,
         elem_classes="table-view",
     )
@@ -96,7 +95,10 @@ def generate_dataset(
     progress(0.0, desc="(1/2) Generating text classification data")
     labels = get_preprocess_labels(labels)
     textcat_generator = get_textcat_generator(
-        difficulty=difficulty, clarity=clarity, temperature=temperature, is_sample=is_sample
     )
     labeller_generator = get_labeller_generator(
         system_prompt=f"{system_prompt} {', '.join(labels)}",
@@ -541,7 +543,7 @@ with gr.Blocks() as app:
             num_rows,
             labels,
             private,
-            temperature
         ],
         outputs=[success_message],
         show_progress=True,
@@ -558,7 +560,7 @@ with gr.Blocks() as app:
             labels,
             num_labels,
             num_rows,
-            temperature
         ],
         outputs=[pipeline_code],
     ).success(

     return gr.Dataframe(
         headers=["labels", "text"],
         wrap=True,
         interactive=False,
         elem_classes="table-view",
     )
     progress(0.0, desc="(1/2) Generating text classification data")
     labels = get_preprocess_labels(labels)
     textcat_generator = get_textcat_generator(
+        difficulty=difficulty,
+        clarity=clarity,
+        temperature=temperature,
+        is_sample=is_sample,
     )
     labeller_generator = get_labeller_generator(
         system_prompt=f"{system_prompt} {', '.join(labels)}",
             num_rows,
             labels,
             private,
+            temperature,
         ],
         outputs=[success_message],
         show_progress=True,
             labels,
             num_labels,
             num_rows,
+            temperature,
         ],
         outputs=[pipeline_code],
     ).success(

src/synthetic_dataset_generator/utils.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import json
 from typing import List, Optional, Union
 import argilla as rg
@@ -38,9 +39,15 @@ def list_orgs(oauth_token: Union[OAuthToken, None] = None):
             organizations = [org for org in organizations if org != data["name"]]
             organizations = [data["name"]] + organizations
     except Exception as e:
-        raise gr.Error(
-            f"Failed to get organizations: {e}. See if you are logged and connected: https://huggingface.co/settings/connected-applications."
         )
     return organizations

 import json
+import warnings
 from typing import List, Optional, Union
 import argilla as rg
             organizations = [org for org in organizations if org != data["name"]]
             organizations = [data["name"]] + organizations
     except Exception as e:
+        data = whoami(oauth_token.token)
+        warnings.warn(str(e))
+        gr.Info(
+            "Your user token does not have the necessary permissions to push to organizations."
+            "Please check your OAuth permissions in https://huggingface.co/settings/connected-applications."
+            "Update yout token permissions to include repo.write: https://huggingface.co/settings/tokens."
         )
+        return [data["name"]]
     return organizations