devilteo911 commited on
Commit
d7159f4
1 Parent(s): bccd953

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +74 -3
README.md CHANGED
@@ -1,3 +1,74 @@
1
- ---
2
- license: apache-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - it
5
+ - en
6
+ metrics:
7
+ - wer
8
+ pipeline_tag: automatic-speech-recognition
9
+ tags:
10
+ - audio
11
+ - automatic-speech-recognition
12
+ - hf-asr-leaderboard
13
+ library_name: ctranslate2
14
+ ---
15
+
16
+ # Litus whisper-small-ita for CTranslate2
17
+
18
+ La repo contiene la conversione di [litus-ai/whisper-small-ita](https://huggingface.co/litus-ai/whisper-small-ita/) al formato di [CTranslate2](https://github.com/OpenNMT/CTranslate2).
19
+
20
+ Questo modello può essere usato su CTranslate2 o su progetti affini tipo:[faster-whisper](https://github.com/systran/faster-whisper).
21
+
22
+ # Descrizione del Modello
23
+ Questo modello è una versione di [openai/whisper-small](https://huggingface.co/openai/whisper-small) ottimizzata per la lingua italiana, addestrata utilizzando una parte dei dati proprietari di [Litus AI](https://litus.ai/it/).
24
+ `litus-ai/whisper-small-ita` rappresenta un ottimo compromesso value/cost ed è ottimale per contesti in cui il budget computazionale è limitato,
25
+ ma è comunque necessaria una trascrizione accurata del parlato.
26
+
27
+ # Particolarità del Modello
28
+ La peculiarità principale del modello è l'integrazione di token speciali che arricchiscono la trascrizione con meta-informazioni:
29
+
30
+ - Elementi paralinguistici: `[LAUGH]`, `[MHMH]`, `[SIGH]`, `[UHM]`
31
+ - Qualità audio: `[NOISE]`, `[UNINT]` (non intelligibile)
32
+ - Caratteristiche del parlato: `[AUTOCOR]` (autocorrezioni), `[L-EN]` (code-switching inglese)
33
+
34
+ Questi token consentono una trascrizione più ricca che cattura non solo il contenuto verbale ma anche elementi contestuali rilevanti.
35
+
36
+ # Evaluation
37
+ Nel seguente grafico puoi trovare l'Accuracy di `openai/whisper-small`, `openai/whisper-medium`, `litus-ai/whisper-small-ita` e il modello proprietario di Litus AI, `litus-proprietary`,
38
+ su benchmark proprietari per meeting e chiamate vocali in lingua italiana.
39
+
40
+ <div style="width: auto; margin-left: auto; margin-right: auto">
41
+ <img src="https://huggingface.co/litus-ai/whisper-small-ita/resolve/main/Models%20Accuracy.png" alt="Litus AI eval">
42
+ </div>
43
+ <hr style="margin-top: 1.0em; margin-bottom: 1.0em;">
44
+ <!-- header end -->
45
+
46
+ # Come usare il modello
47
+ Puoi utlizzare devilteo911/whisper-small-ita-ct2 tramite faster-whisper:
48
+
49
+ ```python
50
+ from faster_whisper import WhisperModel
51
+
52
+ model = WhisperModel("devilteo911/whisper-small-ita-ct2")
53
+
54
+ segments, info = model.transcribe("audio.mp3")
55
+ for segment in segments:
56
+ print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
57
+
58
+ ```
59
+
60
+ ## Dettagli sulla conversione
61
+
62
+ Il modello originale è stato convertito usando questo comando:
63
+
64
+ ```
65
+ ct2-transformers-converter --model litus-ai/whisper-small-ita --output_dir whisper-small-ita-ct2 \
66
+ --copy_files tokenizer_config.json preprocessor_config.json vocab.json normalizer.json merges.txt \
67
+ added_tokens.json generation_config.json special_tokens_map.json --quantization float16
68
+ ```
69
+
70
+ Nota che i pesi del modello sono salvati in FP16. Questo tipo può essere cambiato al momento del caricamento del modello usando il parametro [`compute_type` option in CTranslate2](https://opennmt.net/CTranslate2/quantization.html).
71
+
72
+ # Conclusions
73
+ Per qualsiasi informazione sull'architettura sui dati utilizzati per il pretraining e l'intended use ti preghiamo di
74
+ rivolgerti al [Paper](https://arxiv.org/abs/2212.04356), la [Model Card](https://huggingface.co/openai/whisper-small) e la [Repository](https://github.com/openai/whisper) originali.