fix: conflicts

Files changed (10) hide show

.gitattributes +1 -9
README.md +100 -0
config.json +71 -0
merges.txt +0 -0
pytorch_model.bin +3 -0
special_tokens_map.json +1 -0
tf_model.h5 +3 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -2,34 +2,26 @@
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,100 @@

+---
+language: en
+widget:
+- text: It is great to see athletes promoting awareness for climate change.
+datasets:
+- cardiffnlp/tweet_topic_multi
+license: mit
+metrics:
+- f1
+- accuracy
+pipeline_tag: text-classification
+---
+# tweet-topic-21-multi
+This model is based on a [TimeLMs](https://github.com/cardiffnlp/timelms) language model trained on ~124M tweets from January 2018 to December 2021 (see [here](https://huggingface.co/cardiffnlp/twitter-roberta-base-2021-124m)), and finetuned for multi-label topic classification on a corpus of 11,267 [tweets](https://huggingface.co/datasets/cardiffnlp/tweet_topic_multi). This model is suitable for English.
+ - Reference Paper: [TweetTopic](https://arxiv.org/abs/2209.09824) (COLING 2022).
+<b>Labels</b>:
+| <span style="font-weight:normal">0: arts_&_culture</span>           | <span style="font-weight:normal">5: fashion_&_style</span>   | <span style="font-weight:normal">10: learning_&_educational</span>  | <span style="font-weight:normal">15: science_&_technology</span>  |
+|-----------------------------|---------------------|----------------------------|--------------------------|
+| 1: business_&_entrepreneurs | 6: film_tv_&_video  | 11: music                  | 16: sports               |
+| 2: celebrity_&_pop_culture  | 7: fitness_&_health | 12: news_&_social_concern  | 17: travel_&_adventure   |
+| 3: diaries_&_daily_life     | 8: food_&_dining    | 13: other_hobbies          | 18: youth_&_student_life |
+| 4: family                   | 9: gaming           | 14: relationships          |                          |
+## Full classification example
+```python
+from transformers import AutoModelForSequenceClassification, TFAutoModelForSequenceClassification
+from transformers import AutoTokenizer
+import numpy as np
+from scipy.special import expit
+MODEL = f"cardiffnlp/tweet-topic-21-multi"
+tokenizer = AutoTokenizer.from_pretrained(MODEL)
+# PT
+model = AutoModelForSequenceClassification.from_pretrained(MODEL)
+class_mapping = model.config.id2label
+text = "It is great to see athletes promoting awareness for climate change."
+tokens = tokenizer(text, return_tensors='pt')
+output = model(**tokens)
+scores = output[0][0].detach().numpy()
+scores = expit(scores)
+predictions = (scores >= 0.5) * 1
+# TF
+#tf_model = TFAutoModelForSequenceClassification.from_pretrained(MODEL)
+#class_mapping = tf_model.config.id2label
+#text = "It is great to see athletes promoting awareness for climate change."
+#tokens = tokenizer(text, return_tensors='tf')
+#output = tf_model(**tokens)
+#scores = output[0][0]
+#scores = expit(scores)
+#predictions = (scores >= 0.5) * 1
+# Map to classes
+for i in range(len(predictions)):
+  if predictions[i]:
+    print(class_mapping[i])
+```
+Output:
+```
+news_&_social_concern
+sports
+```
+### BibTeX entry and citation info
+Please cite the [reference paper](https://aclanthology.org/2022.coling-1.299/) if you use this model.
+```bibtex
+@inproceedings{antypas-etal-2022-twitter,
+    title = "{T}witter Topic Classification",
+    author = "Antypas, Dimosthenis  and
+      Ushio, Asahi  and
+      Camacho-Collados, Jose  and
+      Silva, Vitor  and
+      Neves, Leonardo  and
+      Barbieri, Francesco",
+    booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
+    month = oct,
+    year = "2022",
+    address = "Gyeongju, Republic of Korea",
+    publisher = "International Committee on Computational Linguistics",
+    url = "https://aclanthology.org/2022.coling-1.299",
+    pages = "3386--3400"
+}
+```

config.json ADDED Viewed

	@@ -0,0 +1,71 @@

+{
+  "_name_or_path": "antypasd/tweet-topic-21-multi",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "arts_&_culture",
+    "1": "business_&_entrepreneurs",
+    "2": "celebrity_&_pop_culture",
+    "3": "diaries_&_daily_life",
+    "4": "family",
+    "5": "fashion_&_style",
+    "6": "film_tv_&_video",
+    "7": "fitness_&_health",
+    "8": "food_&_dining",
+    "9": "gaming",
+    "10": "learning_&_educational",
+    "11": "music",
+    "12": "news_&_social_concern",
+    "13": "other_hobbies",
+    "14": "relationships",
+    "15": "science_&_technology",
+    "16": "sports",
+    "17": "travel_&_adventure",
+    "18": "youth_&_student_life"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "arts_&_culture": 0,
+    "business_&_entrepreneurs": 1,
+    "celebrity_&_pop_culture": 2,
+    "diaries_&_daily_life": 3,
+    "family": 4,
+    "fashion_&_style": 5,
+    "film_tv_&_video": 6,
+    "fitness_&_health": 7,
+    "food_&_dining": 8,
+    "gaming": 9,
+    "learning_&_educational": 10,
+    "music": 11,
+    "news_&_social_concern": 12,
+    "other_hobbies": 13,
+    "relationships": 14,
+    "science_&_technology": 15,
+    "sports": 16,
+    "travel_&_adventure": 17,
+    "youth_&_student_life": 18
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.19.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b215c9f18a58753b4d276d2acf71f16d09467463c176971fd7a7ea37172377e6
+size 498723565

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}}

tf_model.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97e8a502c449ee300305442f555e20a006af45853d8a7d005fc0dd9c771b184d
+size 498930560

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"unk_token": {"content": "<unk>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "bos_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "eos_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "add_prefix_space": false, "errors": "replace", "sep_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "cls_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "pad_token": {"content": "<pad>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "special_tokens_map_file": "/home/antypasd/.cache/huggingface/transformers/601312a9cb96656475ff2ef71b3b002f803e0889279718ab471aed2c84b95b18.a11ebb04664c067c8fe5ef8f8068b0f721263414a26058692f7b2e4ba2a1b342", "name_or_path": "cardiffnlp/twitter-roberta-base-sentiment-latest", "tokenizer_class": "RobertaTokenizer"}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff