mrm8488 commited on
Commit
852bff4
1 Parent(s): b3ac64e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +133 -1
README.md CHANGED
@@ -1,5 +1,100 @@
1
  ---
2
  license: openrail
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3
  datasets:
4
  - Hello-SimpleAI/HC3
5
  metrics:
@@ -8,9 +103,46 @@ pipeline_tag: text-classification
8
 
9
  widget:
10
  - text: "La Guerra Civil Española, que tuvo lugar entre 1936 y 1939, fue un conflicto sangriento y divisivo en el que se enfrentaron las fuerzas republicanas y las fuerzas nacionalistas lideradas por Francisco Franco. El origen de la guerra se remonta a las tensiones políticas y sociales que se habían ido acumulando en España durante años, incluyendo la lucha entre la izquierda y la derecha, el descontento popular con el gobierno y la crisis económica.\nEl estallido de la guerra civil se produjo después de las elecciones de febrero de 1936, en "
 
11
  ---
12
 
13
- # XLM-RoBERTa fine-tuned on HC3 for ChatGPT text detection
14
 
15
 
16
  ## F1 score on test dataset: 0.9736
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: openrail
3
+ language:
4
+ - multilingual
5
+ - af
6
+ - am
7
+ - ar
8
+ - as
9
+ - az
10
+ - be
11
+ - bg
12
+ - bn
13
+ - br
14
+ - bs
15
+ - ca
16
+ - cs
17
+ - cy
18
+ - da
19
+ - de
20
+ - el
21
+ - en
22
+ - eo
23
+ - es
24
+ - et
25
+ - eu
26
+ - fa
27
+ - fi
28
+ - fr
29
+ - fy
30
+ - ga
31
+ - gd
32
+ - gl
33
+ - gu
34
+ - ha
35
+ - he
36
+ - hi
37
+ - hr
38
+ - hu
39
+ - hy
40
+ - id
41
+ - is
42
+ - it
43
+ - ja
44
+ - jv
45
+ - ka
46
+ - kk
47
+ - km
48
+ - kn
49
+ - ko
50
+ - ku
51
+ - ky
52
+ - la
53
+ - lo
54
+ - lt
55
+ - lv
56
+ - mg
57
+ - mk
58
+ - ml
59
+ - mn
60
+ - mr
61
+ - ms
62
+ - my
63
+ - ne
64
+ - nl
65
+ - no
66
+ - om
67
+ - or
68
+ - pa
69
+ - pl
70
+ - ps
71
+ - pt
72
+ - ro
73
+ - ru
74
+ - sa
75
+ - sd
76
+ - si
77
+ - sk
78
+ - sl
79
+ - so
80
+ - sq
81
+ - sr
82
+ - su
83
+ - sv
84
+ - sw
85
+ - ta
86
+ - te
87
+ - th
88
+ - tl
89
+ - tr
90
+ - ug
91
+ - uk
92
+ - ur
93
+ - uz
94
+ - vi
95
+ - xh
96
+ - yi
97
+
98
  datasets:
99
  - Hello-SimpleAI/HC3
100
  metrics:
 
103
 
104
  widget:
105
  - text: "La Guerra Civil Española, que tuvo lugar entre 1936 y 1939, fue un conflicto sangriento y divisivo en el que se enfrentaron las fuerzas republicanas y las fuerzas nacionalistas lideradas por Francisco Franco. El origen de la guerra se remonta a las tensiones políticas y sociales que se habían ido acumulando en España durante años, incluyendo la lucha entre la izquierda y la derecha, el descontento popular con el gobierno y la crisis económica.\nEl estallido de la guerra civil se produjo después de las elecciones de febrero de 1936, en "
106
+ - text: "Cristóbal Colón fue un navegante, cartógrafo y almirante español que llevó a cabo cuatro viajes transatlánticos entre 1492 y 1504. Es conocido por haber sido el primer europeo en llegar a América, aunque en realidad no fue el primer ser humano en alcanzar el continente, ya que los pueblos indígenas ya habitaban allí desde hacía miles de años.\nColón nació en la ciudad italiana de Génova en 1451. Aunque no se sabe con certeza dónde recibió su formación, se cree que tuvo una educación marinera y cartográfica. A mediados de la década de 1470, se trasladó a España, donde trabajó como piloto y cartógrafo para la Casa de Contratación de las Indias, una institución encargada de las relaciones comerciales entre España y América."
107
  ---
108
 
109
+ # XLM-RoBERTa (base) fine-tuned on HC3 for ChatGPT text detection
110
 
111
 
112
  ## F1 score on test dataset: 0.9736
113
+
114
+ ## The model
115
+ XLM-RoBERTa model pre-trained on 2.5TB of filtered CommonCrawl data containing 100 languages. It was introduced in the paper Unsupervised Cross-lingual Representation Learning at Scale by Conneau et al. and first released in this repository.
116
+
117
+ ## The dataset
118
+
119
+ #### Human ChatGPT Comparison Corpus (HC3)
120
+ The first human-ChatGPT comparison corpus, named **HC3** dataset by [Hello-SimpleAI](https://huggingface.co/Hello-SimpleAI)
121
+
122
+ This dataset is introduced in the paper:
123
+ - Paper: [***How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection***](https://arxiv.org/abs/2301.07597)
124
+
125
+
126
+ ## Metrics
127
+ |metric| value|
128
+ |------|------|
129
+ |F1 |0.9736|
130
+
131
+ ## Usage
132
+ ```py
133
+ from transformers import pipeline
134
+
135
+ ckpt = "mrm8488/xlm-roberta-base-finetuned-HC3-mix"
136
+
137
+ detector = pipeline('text-classification', model=ckpt)
138
+
139
+ text = "Here your text..."
140
+
141
+ result = detector(text)
142
+
143
+ print(result)
144
+ ```
145
+
146
+
147
+
148
+ ## Citation