poka commited on
Commit
4e4b436
1 Parent(s): e3bc821

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +71 -0
README.md CHANGED
@@ -1,3 +1,74 @@
1
  ---
2
  license: cc-by-4.0
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: cc-by-4.0
3
  ---
4
+
5
+ # Libérez Adam
6
+
7
+
8
+ ## Objectifs
9
+
10
+ Créer un assistant pour aider l'équipe de Duniter et de Librezo à atteindre leurs objectifs.
11
+ Il est également question de rendre open source (donc auditable et personnalisable) un service équivalent au playground de GPT, mais en libre et utilisant des Model locaux (BoGs).
12
+
13
+ Les sources de données pour générer nos models doivent pouvoir être facilement adaptables, pour générer toutes sortes de models customs **par dessus des models pré-entrainé comme GPT2 (open-source)**.
14
+ Plus d'infos au sujet de la nature open ou non du model GPT3: https://github.com/openai/gpt-3/blob/master/model-card.md
15
+
16
+ Nous comptons pyTorch pour entrainer nos models.
17
+ Il nous est également possible de générer notre models avec pyTorch de manière optimisé, puis de laisser la boucle de machine learning à tensorFlow, qui pourrait être un peu plus performant avec certains hyperparamètres.
18
+
19
+ Celà semble donc permettre dès maintenant d'ajouter les données que nous voulons à un model pré-existant, sans frais ni limitations.
20
+ Ce sujet reste à creuser.
21
+
22
+ ## Pourquoi adapter GPT en licence libre ?
23
+
24
+ Considérant le danger de laisser un outil aussi performant et inquiétant que l'IA sémantique GPT entre les mains de géant du web, Poka a demandé à GPT de transmettre son code en licence libre, ce que GPT a fait.
25
+
26
+ Il nous est donc théoriquement possible d'intégrer GPT et de l'utiliser dans sa version libre.
27
+
28
+ Cela implique un travail d'intégration, de maturation et de bidouillage, ainsi qu'un serveur relativement puissant avec une forte capacité de stockage.
29
+
30
+
31
+ ## Comment faire
32
+
33
+ *Demandez à GPT3.5: https://beta.openai.com/playground*
34
+
35
+ Nous avons déjà le choix parmis plusieurs libs open source sensées effectuer la même chose que GPT3 (en partie): Du machine learning par Transformation.
36
+
37
+ pyTorch nous semble l'approche la plus simple et reconnue par les chercheurs du domaine. tensorFlow est une alternative également intérressante (python aussi), et peut être utilisé de manière complémentaire à pyTorch.
38
+
39
+ GPT nous conseille déjà sur la manière d'implémenter notre pyTorch de manière optimal pour notre besoin (se forker lui même).
40
+
41
+ Nous avons commencé à alimenter GPT en contexte pour notre projet, de manière à ce qu'il finisse par se recoder lui même totalement avec des outils open source.
42
+
43
+ ## Sources de données
44
+
45
+ Pour rendre notre model réellement performant sans nécessité de faire appel à du fine tunning (réglage métier de post traitement), nous devons ajouter plus de donnée à notre model, je pense par exemple à :
46
+
47
+ - Wikipedia (international, mais avant tout FR (6Go))
48
+ - stackoverflow (todo darty scrappy)
49
+ - Toutes les documentations techniques des principaux langages de programmation, ainsi que le plus de docs de libs possible (github, gitlab)
50
+ - Ce qu'on veut, qui colorera la façon de penser et de parler de notre IA:
51
+ - Coluche
52
+ - Desproges
53
+ - Dieudo
54
+ - Bakounine
55
+ - Kropotkin
56
+ - Etienne klein
57
+ - Isaac Azimov (les robots)
58
+ - Jacques Prévert
59
+ - Diogène (les cyniques)
60
+ - Nietzsche
61
+ - Rousseau
62
+
63
+ Les sources de données sont nombreuses, nous devons penser aux retranscriptions text des vidéos qui nous intéressent (sous titre youtube).
64
+ Il faut également garder en tête que nous allons être amenés à générer plusieurs models, où nous pouvons faire varier et évoluer les sources de données d'entrée de ces différents models.
65
+
66
+ Il est probable que tout cela nécessite des montées en compétence significatives de notre part, concernant la mise bout à bout de tout le nécessaire pour arriver à un résultat intéressant.
67
+
68
+ ## Matériel
69
+
70
+ C'est le point bloquant.
71
+ Pour entrainer ces models, il faut beaucoup, beaucoup de GPU et de RAM, des disque ultra performants, ou bien beaucoup, beaucoup, beaucou de temps.
72
+
73
+ Nous allons benchmarker tout celà au fur et à mesure de nos tests.
74
+ Nous aimerions tisser des partenariats institutionnels de manière à accéder à du temps de supercalculateur nationnal pour notre projet de libérer et distribuer les TIA.