0-hero commited on
Commit
8e80a0c
1 Parent(s): b08f737

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +108 -0
README.md CHANGED
@@ -1,3 +1,111 @@
1
  ---
2
  license: apache-2.0
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: apache-2.0
3
+ datasets:
4
+ - 0-hero/lj_speech_with_spectogram_conversations
5
+ - 0-hero/lj_speech_with_spectogram
6
  ---
7
+ ## Explanation
8
+ A small experiment insipred by the [Mistral playing DOOM experiment](https://github.com/umuthopeyildirim/DOOM-Mistral/tree/main) from the Mistral Hackathon
9
+
10
+ **How it works?**
11
+ ```
12
+ Audio -> Waveform Visualization -> Waveform ASCII Art -> Finetune Mistral on ASCII Art to predict text from ASCII Art
13
+ ```
14
+
15
+ **Quick video explanation**
16
+ <video width="820" controls src="https://cdn-uploads.huggingface.co/production/uploads/6382255fcae34727b9cc149e/nCB8Qu8QwDbJAKcq9IzPE.mp4"></video>
17
+
18
+
19
+ #### Example Waveform
20
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/6382255fcae34727b9cc149e/4ui-5eJihKm0vYQ33MRfZ.png)
21
+
22
+
23
+ #### Example ASCII Art
24
+ ```
25
+
26
+ y
27
+ x
28
+ x
29
+ x
30
+ ux
31
+ tx
32
+ dx
33
+ 9 ex v
34
+ 4 dr v
35
+ 4 do s
36
+ 1Y 6o e o5
37
+ x 1Y y 6o ze 7 iYY
38
+ e YYz r Ys Ym xd Y gYY
39
+ 6 YYY r Ys Yl xd sY Y eYY Y
40
+ z 6 YYY y s k z Ys Yl xd sY Y m vYYY s 5Y z
41
+ Yh 6Y xfYYY y qq i 2m Ydu Y6 Y vd sYY Yz cq vYYY eY 5Y0 b z q
42
+ YYz 6Y xywYYYY ZzqYt f YY Ydu Y6 Y vd sYY Yl 6d iYYY YYz 5YY Y z 9 g il
43
+ YYx YYo gfwYYYY ZxkY6 wf Z9YY Ydu xz6 Y6 Yi8 v4 sYY z YY 6d 4YYY uYYu o 5YY f Y zkyY 0 1Y z
44
+ YYw YY7 hfwYYYY 7 ZYkYY 1 z 7Y yYYYY YdY 8zY Y6 Y78 v4 sYYyt Y YY 6d 4YYYz3YYY o 4YYx e Yzx0xY Z 1Y 8
45
+ YYw YYY 5dwYYYYeYmZYmYY Y Y YY sYYYYY YdYl x 50Yo 9 Y6 YYY4 v5 vYY3tpY YY 6d 4YYYyYYYY m 3YYq Y Yzg0iY Y 4ZY 98 p
46
+ YYsjYYYYz 5Y7YYYYYYdYYYYY Y Y YY YYYYYY YcYY 5lY8YYa1 Y6 YYY2 v7YYYYYYpYz YYY 6d ZYYYtYYYY Yg 3YYo Y Yz8YZY xw Y YYY Y5 p Y
47
+ YY6YYYYYa YY9YYYYYYYYYYYYrYyYz YYe YYYYYY YYYYv YsYYYYYYY uY5 YYYY0 vYYYYYYYoYz YYY 6Y YYYYtYYYY Y7 3YYi rY wYz7YYYvkt YYYYY Y4yo4 1Yay
48
+ 3YYdYYYYY8 YYYYYYYYYYYYYYYYYwYu YY3 YYYYYY YYYYn YeYYYYYYYZ uY5 YYYY0 uYYYYYYY6Yz YYY 6Y9 YYYYsYYYY Y58 3YYi6pY ZYz5YYY2e5 YYYYY Y2qeYz1YY9
49
+ YYY5YYYYY5 YYYYYYYYYYYYYYYYYuYu YY1 YYYYYY YYYY3 YYYYYYYYYY uYYYYYYY0 hYYYYYYY6YyrYYY 6YY YYYYYYYYY YYY 3YYfYsY YYz1YYY1Y2Y YYYYY YYq0YYYYYY
50
+ YYYYYYYYYY YYYYYYYYYYYYYYYYYsYuyYYYoYYYYYY1 YYYY2YYYYYYYYYYY vYYYYYYYY z4YYYYYYYYYYYYYYZg1YYYYYYYYYYYYzYYYz ZYYYYdYlYYYYYYYZYYY YYYYYzYYYYYYYYYY
51
+ YYYYYYYYYYYYY1YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYZY112YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY
52
+ YYY1YYYYYY YYYYYYYYYYYYYYYYYsYu YYYoYYYYYY4 YYYY2YYYYYYYYYYY vYYYYYYYY 7YYYYYYYZYYYYYYZv7YYYYYYYYYYYY YYYz 1YYYYdYmYYYYYYYZYYY YYYYYzYYYYYYYYYY
53
+ YYY6YYYYY6 YYYYYYYYYYYYYYYYYvYu YY1 YYYYYY YYYY3 YYYYYYYYYY uYYYYYYY0 hYYYYYYY6YyxYYY 6YY YYYYYYYYY YYY 3YYfYtY YYz3YYY1Y2Y YYYYY YYq0YYYYYY
54
+ cYYcYYYYY8 YYYYYYYYYYYYYYYYYxYu YY3 YYYYYY YYYYn YfYYYYYYYZ uY5 YYYY0 vYYYYYYY6Yz YYY 6Y9 YYYYsYYYY Y5n 3YYi8pY 1Yz6YYY3g7 YYYYY Y2qkYz1YYa
55
+ YY9YYYYYf YY9YYYYYYYYYYYYrYyYz YYi YYYYYY Y1YYv YsYZYYYYY uY5 YYYYb vYYYYYYYoYz YYY 6Y YYYYtYYYY Y7 3YYi rY wYz7YYYvku YYYYY Y3zo6 1Yn
56
+ YYskYYYYz 5Y8YYYYYYdYY2YY Y Y YY YYYYYY YcYY 5lY8YYd3 Y6 YYY4 v9YYYYYYpYz YYY 6d 1YYYtYYYY Yg 3YYp Y Yz8Y1Y yw Y YYY Y5 q Y
57
+ YYw YYY 5dwYYYYhYpZYmYY Y Y YY wYYYYY YdYr z 50Yo 0 Y6 YYY5 v5 vYY4tpY YY 6d 4YYYzYYYY m 3YYq Y Yzh0iY Y 4ZY 98 o
58
+ YYw YY7 hfwYYYY b ZYkYY 4 cY yYYYY YdY dzY Y6 Y78 v4 sYYzt Y YY 6d 4YYY 7YYY o 5YYx f Yzy0yY 3 1Y 8
59
+ YYx ZYo hfwYYYY ZykY7 wf Z9YY Ydu xz7 Y6 Ykb v3 sYY YY 6d 9YYY uYYy o 5YY f Y zpyY b 1Y z
60
+ YY 6Y xywYYYY ZzqYy f YY Ydu Y6 Y vd sYY Yo 6d jYYY 1Yz 5YY Y z 9 g lm
61
+ Yi 6Y ygYYY y qq i 9m Ydu Y6 Y vd sYY Y cs vYYY rY 5Yp e z t
62
+ 6 YYY y s o Ys Yl xd sY Y r vYYY y 5Y z
63
+ 6 YYY r Ys Yl xd sY Y eYY Y
64
+ e YYz r Ys Ym xd Y gYY
65
+ x 1Y z 6o ze 8 mYY
66
+ 14 6o e o5
67
+ 4 do t
68
+ 4 dv v
69
+ h ex v
70
+ dx
71
+ ux
72
+ ux
73
+ x
74
+ x
75
+ x
76
+ y
77
+
78
+
79
+ ```
80
+
81
+ ## Models & Results
82
+ Mistral 7B 0.2 finetunes on ascii art. **As seen in the results, experiment didn't amount to much**
83
+ - 2 epochs - [0-hero/mistral-speech-to-text-preview](https://huggingface.co/0-hero/mistral-speech-to-text-preview/) - Loss pretty much flattened after this epoch
84
+ - ```
85
+ Metrics:
86
+ rouge-1: {'r': 0.12919024091165357, 'p': 0.1163312036605547, 'f': 0.11315199212991178}
87
+ rouge-2: {'r': 0.013705453572242508, 'p': 0.0137500428446463, 'f': 0.012676757505648992}
88
+ rouge-l: {'r': 0.11261286554140228, 'p': 0.09921920076529338, 'f': 0.09705621471622536}
89
+ length_correlation: 0.014470676120233311
90
+ avg_actual_length: 16.59
91
+ avg_pred_length: 21.46
92
+ exact_match_accuracy: 0.0
93
+ ```
94
+ - 4 epochs - [0-hero/mistral-speech-to-text](https://huggingface.co/0-hero/mistral-speech-to-text/) - (this)
95
+ - ```
96
+ Metrics:
97
+ rouge-1: {'r': 0.11869828051815862, 'p': 0.11697319273190071, 'f': 0.11154343875398197}
98
+ rouge-2: {'r': 0.008572925612399297, 'p': 0.009040061245943597, 'f': 0.008369604666309954}
99
+ rouge-l: {'r': 0.10780857719316121, 'p': 0.10373665666448233, 'f': 0.09985384905943501}
100
+ length_correlation: -0.1500200314034927
101
+ avg_actual_length: 16.59
102
+ avg_pred_length: 18.32
103
+ exact_match_accuracy: 0.0
104
+ ```
105
+
106
+ ## Datasets
107
+ [lj_speech](https://huggingface.co/datasets/lj_speech) dataset used to convert audio waveforms into ASCII Art
108
+ - [0-hero/lj_speech_with_spectogram_conversations](https://huggingface.co/datasets/0-hero/lj_speech_with_spectogram_conversations) - ShareGPT style finetuning dataset with train, test split
109
+ - [0-hero/lj_speech_with_spectogram](https://huggingface.co/datasets/0-hero/lj_speech_with_spectogram) - Raw dataset with ASCII Art
110
+
111
+