Spaces:

bjpietrzak
/

music_mind_app

Sleeping

App Files Files Community

Bartosz Pietrzak commited on Jun 8

Commit

710c57b

•

1 Parent(s): 2ca2ca9

Final touches

Browse files

Files changed (7) hide show

README.md +100 -0
dl/make_dataset.py +42 -0
dl/push_model.py +36 -0
dl/train.py +21 -9
images/changes.png +0 -0
images/file_upload.png +0 -0
images/new.png +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,100 @@

+# Music Mind
+[Aplikacja gradio projektu](https://huggingface.co/spaces/bjpietrzak/music_mind)
+## CI/CD Pipeline
+### 1. **Wybór modelu**
+Jeśli model nie pochodzi z biblioteki HF, trzeba się upewnić, że jest kompatybilny z klasą Trainer biblioteki HuggingFace [LINK](https://huggingface.co/transformers/v3.3.1/training.html)
+### 2. **Wybór danych trenujących**
+Jeżeli dataset pochodzi z biblioteki HuggingFace, można ten krok pominąć.
+1. Zbór uczący musi posiadać:
+    - Pliki muzyczne w formacie; znajdujące się w jednym folderze `[.ogg, .mp3 .wav]`
+    - Plik json zawierający oznaczenia dla wszystkich plików muzycznych:
+    ```json
+    {
+        "file1.ogg": "jazz",
+        "file2.ogg": "hiphop"
+    }
+    ```
+2. Aby dataset miał formę kompatybilną z trenerem HF, dostępny zbiór danych należy sparsować za pomocą skryptu `make_dataset.py` znajdującego się w katalogu `dl/` projektu:
+    ```bash
+    python make_dataset.py --dir sciezka/do/folderu/plikow/audio --file sciezka/do/pliku/json.json --output lokalizacja/wygenerowanego/datasetu
+    ```
+### 3. **Trening Modelu**
+Trening modelu odbywa się poprzez skrypt `train.py` znajdujący się w katalogu `/dl/` projektu.
+Skrupt posiada następujące flagi:
+- learning_rate: Współczynnik uczenia podczas treningu modelu.
+- train_eval_split: Stosunek danych trenujących do całego zbioru; reszta to dane walidacyjne.
+- model_id: Identyfikator modelu z Hugging Face lub ścieżka do lokalnego modelu.
+- num_epochs: Liczba epok treningowych.
+- seed: Ziarno liczb losowych.
+- save_dir: Ścieżka do katalogu wag tranowanego modelu.
+- dataset: Nazwa/lokalizacja zbioru danych.
+Przykładowe uruchomienie skryptu:
+```bash
+python train_audio_model.py --model_id "facebook/wav2vec2-base-960h" --learning_rate 0.0001 --train_eval_split 0.8 --num_epochs 10 --seed 42 --save_dir "/path/to/save/models" --dataset "marsyas/gtzan"
+```
+Wagi i pliki konfiguracyjne modelu zostaną zapisane w podanej ścierzce pod nazwą składającą się z parametrów uczenia np:
+`/path/to/save/facebook-wav2vec2-base-960h-123-marsyas-gtzan-0.0001`
+### 4. **Wersjonowanie modelów**
+Modele można przesyłać do repozytorium na huggingface.
+Za pomocą skryptu `push_model.py`:
+```bash
+python script_name.py --username your_username --model_dir /path/to/your/model --repo_name your_repo_name --private True
+```
+lub za pomocą GUI strony HuggingFace [LINK](https://huggingface.co/new)
+![Widok strony początkowej zakładania repozytorium modelu](images/new.png)
+![Dodawanie plików do repozytorium](images/file_upload.png)
+Na stronie:
+![alt text](images/new.png)
+![alt text](images/file_upload.png)
+### 6. **Aktualizowanie modelu w deployowanej aplikacji**
+Po dodaniu modelu do repozytorium należy go wykorzystać w deployowanej aplikacji dostępnej pod tym adresem:
+`git clone https://huggingface.co/spaces/bjpietrzak/music_mind`
+W katalogu głównym projektu znajduje się plik `main.py`. W jego wnętrzu znajduje się zmienna config:
+```py
+config = {
+    "sampling_rate": 16000,
+    "model": "bjpietrzak/distilhubert-gtzan-20-5e-5",
+}
+```
+Nazwę repozytorium, oraz model można umieścić w wartości klucza `model`, jeśli jest taka potrzeba, należy zmienić sampling rate.
+Po zmianie zmian, należy je pchnąć:
+```bash
+git push
+```
+Zmiany powinny być widoczne po kilku minutach:
+![alt text](images/changes.png)

dl/make_dataset.py ADDED Viewed

	@@ -0,0 +1,42 @@

+import os
+import json
+import argparse
+import librosa
+import pandas as pd
+def parse_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--dir", type=str, help="Directory containing OGG audio files.")
+    parser.add_argument("--file", type=str, help="JSON file mapping filenames to classes.")
+    parser.add_argument('-o', '--output', type=str, default="output_dataset.csv", help="Output CSV file.")
+    return vars(parser.parse_args())
+def load_audio_files(audio_dir, file_class_mapping):
+    data = []
+    for filename, class_label in file_class_mapping.items():
+        file_path = os.path.join(audio_dir, filename)
+        if os.path.exists(file_path):
+            audio, sr = librosa.load(file_path, sr=None)
+            data.append({
+                'filename': filename,
+                'audio': audio,
+                'sampling_rate': sr,
+                'label': class_label
+            })
+    return data
+def main(args):
+    audio_dir = args['dir']
+    json_file = args['file']
+    with open(json_file, 'r') as f:
+        file_class_mapping = json.load(f)
+    dataset = load_audio_files(audio_dir, file_class_mapping)
+    df = pd.DataFrame(dataset)
+    df.to_csv(args['output'], index=False)
+if __name__ == "__main__":
+    main(parse_args())

dl/push_model.py ADDED Viewed

	@@ -0,0 +1,36 @@

+import argparse
+from transformers import AutoModel, AutoTokenizer
+from huggingface_hub import HfApi, HfFolder
+def parse_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--username", type=str, required=True, help="Nazwa użytkownika Hugging Face.")
+    parser.add_argument("--model_dir", type=str, required=True, help="Ścieżka do zapisanego modelu.")
+    parser.add_argument("--repo_name", type=str, required=True, help="Nazwa repozytorium HuggingFace Hub.")
+    parser.add_argument("--private", type=bool, default=False, help="Flaga określająca, czy repozytorium powinno być prywatne.")
+    return parser.parse_args()
+def main():
+    args = parse_args()
+    token = HfFolder.get_token()
+    if token is None:
+        raise ValueError("Token uwierzytelniający nie został znaleziony. Zaloguj się za pomocą CLI Hugging Face.")
+    model = AutoModel.from_pretrained(args.model_dir)
+    tokenizer = AutoTokenizer.from_pretrained(args.model_dir)
+    repo_url = HfApi().create_repo(
+        token=token,
+        name=args.repo_name,
+        organization=args.username,
+        private=args.private,
+        exist_ok=True
+    )
+    model.push_to_hub(args.repo_name, use_auth_token=token)
+    tokenizer.push_to_hub(args.repo_name, use_auth_token=token)
+    print(f"Model i tokajzer zostały wysłane do {repo_url}")
+if __name__ == "__main__":
+    main()

dl/train.py CHANGED Viewed

@@ -4,6 +4,7 @@ from datasets import load_dataset, Audio
 from transformers import (AutoFeatureExtractor,
                           AutoModelForAudioClassification, TrainingArguments,
                           Trainer)
 import evaluate
 import random
@@ -11,15 +12,24 @@ import random
 accuracy_metric = evaluate.load("accuracy")
 def parse_args() -> dict:
-    parser = argparse.ArgumentParser()
-    parser.add_argument("--learning_rate", type=float, default=5e-5)
-    parser.add_argument("--train_eval_split", type=float, default=0.9)
-    parser.add_argument("--model_id", type=str, required=True)
-    parser.add_argument("--num_epochs", type=int, default=20)
-    parser.add_argument("--seed", type=int, default=42)
-    parser.add_argument("--save_dir", type=str, default=".")
     return vars(parser.parse_args())
 def compute_metrics(eval_pred):
     predictions = np.argmax(eval_pred.predictions, axis=1)
     return accuracy_metric.compute(predictions=predictions,
@@ -29,7 +39,7 @@ def main(args: dict) -> None:
     random.seed(args["seed"])
     max_duration = 30.0
-    gtzan = load_dataset("marsyas/gtzan", "all")
     gtzan = gtzan["train"].train_test_split(seed=42, shuffle=True,
         test_size=1 - args["train_eval_split"])
@@ -70,8 +80,10 @@ def main(args: dict) -> None:
         label2id=label2id,
         id2label=id2label)
     training_args = TrainingArguments(
-        output_dir=args["save_dir"],
         evaluation_strategy="epoch",
         save_strategy="epoch",
         learning_rate=args["learning_rate"],

 from transformers import (AutoFeatureExtractor,
                           AutoModelForAudioClassification, TrainingArguments,
                           Trainer)
+import os
 import evaluate
 import random
 accuracy_metric = evaluate.load("accuracy")
 def parse_args() -> dict:
+    parser = argparse.ArgumentParser(description="Skrypt do trenowania modelu klasyfikacji audio.")
+    parser.add_argument("--learning_rate", type=float, default=5e-5,
+                        help="Współczynnik uczenia podczas treningu modelu.")
+    parser.add_argument("--train_eval_split", type=float, default=0.9,
+                        help="Stosunek danych trenujących do całego zbioru; reszta to dane walidacyjne.")
+    parser.add_argument("--model_id", type=str, required=True,
+                        help="Identyfikator modelu z Hugging Face lub ścieżka do lokalnego modelu.")
+    parser.add_argument("--num_epochs", type=int, default=20,
+                        help="Liczba epok treningowych.")
+    parser.add_argument("--seed", type=int, default=42,
+                        help="Ziarno liczb losowych.")
+    parser.add_argument("--save_dir", type=str, default=".",
+                        help="Ścieżka do katalogu wag tranowanego modelu.")
+    parser.add_argument("--dataset", type=str, default="marsyas/gtzan",
+                        help="Nazwa/lokalizacja zbioru danych.")
     return vars(parser.parse_args())
 def compute_metrics(eval_pred):
     predictions = np.argmax(eval_pred.predictions, axis=1)
     return accuracy_metric.compute(predictions=predictions,
     random.seed(args["seed"])
     max_duration = 30.0
+    gtzan = load_dataset(args["dataset"], "all")
     gtzan = gtzan["train"].train_test_split(seed=42, shuffle=True,
         test_size=1 - args["train_eval_split"])
         label2id=label2id,
         id2label=id2label)
+    dir_name = f"{args["model_id"]}-{args["seed"]}-{args["dataset"]}-{args['learning_rate']}".replace("/", "-")
     training_args = TrainingArguments(
+        output_dir=os.path.join(args["save_dir"], dir_name),
         evaluation_strategy="epoch",
         save_strategy="epoch",
         learning_rate=args["learning_rate"],

images/changes.png ADDED Viewed

images/file_upload.png ADDED Viewed

images/new.png ADDED Viewed