model commit

Browse files

Files changed (9) hide show

.gitattributes +1 -4
README.md +55 -1
added_tokens.json +237 -1
config.json +10 -3
merges.txt +1 -1
pytorch_model.bin +0 -3
special_tokens_map.json +15 -1
tokenizer.json +0 -0
tokenizer_config.json +64 -1

.gitattributes CHANGED Viewed

@@ -2,13 +2,11 @@
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
@@ -22,10 +20,8 @@
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
@@ -33,3 +29,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+model.safetensors filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,4 +1,58 @@
 ---
-license: mit
 ---

 ---
+language: en
+license: apache-2.0
+datasets: climatebert/environmental_claims
+tags:
+- Env Claims
 ---
+# Model Card for environmental-claims
+## Model Description
+## Climate Performance Model Card
+| environmental-claims                                                     |                |
+|--------------------------------------------------------------------------|----------------|
+| 1. Is the resulting model publicly available?                            | Yes            |
+| 2. How much time does the training of the final model take?              | < 5 min        |
+| 3. How much time did all experiments take (incl. hyperparameter search)? | 60 hours       |
+| 4. What was the power of GPU and CPU?                                    | 0.3 kW         |
+| 5. At which geo location were the computations performed?                | Switzerland    |
+| 6. What was the energy mix at the geo location?                          | 89 gCO2eq/kWh  |
+| 7. How much CO2eq was emitted to train the final model?                  | 2.2 g          |
+| 8. How much CO2eq was emitted for all experiments?                       | 1.6 kg         |
+| 9. What is the average CO2eq emission for the inference of one sample?   | 0.0067 mg      |
+| 10. Which positive environmental impact can be expected from this work?  | This work can help detect and evaluate environmental claims and thus have a positive impact on the environment in the future. |
+| 11. Comments                                                             | - |
+## Citation Information
+## How to Get Started With the Model
+You can use the model with a pipeline for text classification:
+```python
+from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline
+from transformers.pipelines.pt_utils import KeyDataset
+import datasets
+from tqdm.auto import tqdm
+dataset_name = "climatebert/environmental_claims"
+dataset = datasets.load_dataset(dataset_name, split="test")
+model = AutoModelForSequenceClassification.from_pretrained(model_name)
+tokenizer = AutoTokenizer.from_pretrained(model_name, max_len=512)
+pipe = pipeline("text-classification", model=model, tokenizer=tokenizer, device=0)
+# See https://huggingface.co/docs/transformers/main_classes/pipelines#transformers.pipeline
+for out in tqdm(pipe(KeyDataset(dataset, "text"), padding=True, truncation=True)):
+   print(out)
+```

added_tokens.json CHANGED Viewed

	@@ -1 +1,237 @@
1	- {"conducted": 50439, "patterns": 50349, "provides": 50373, "snow": 50496, "companies": 50312, "fossil": 50348, "further": 50301, "countries": 50283, "industry": 50306, "ensure": 50449, "contribution": 50468, "agreement": 50464, "monitoring": 50465, "observed": 50293, "processes": 50291, "relationship": 50400, "however": 50454, "variability": 50298, "waste": 50350, "–": 50300, "vegetation": 50330, "assess": 50430, "trees": 50478, "populations": 50441, "customers": 50358, "ecosystem": 50333, "operating": 50440, "dioxide": 50346, "compared": 50282, "previous": 50482, "atmospheric": 50310, "become": 50394, "sustainable": 50284, "conservation": 50458, "across": 50277, "ecosystems": 50384, "studies": 50297, "indicate": 50388, "provide": 50285, "increases": 50361, "temporal": 50479, "possible": 50332, "fuels": 50424, "nitrogen": 50405, "observations": 50461, "communities": 50318, "southern": 50481, "consistent": 50494, "pollution": 50467, "ocean": 50347, "seasonal": 50411, "recovery": 50450, "ratio": 50416, "considered": 50339, "“": 50305, "benefits": 50402, "2021": 50328, "caused": 50389, "northern": 50446, "conditions": 50272, "concentration": 50357, "diversity": 50431, "respectively": 50316, "•": 50324, "planning": 50473, "moisture": 50493, "estimates": 50408, "significantly": 50299, "following": 50369, "transition": 50344, "towards": 50409, "solutions": 50351, "factors": 50292, "decades": 50495, "understanding": 50356, "least": 50429, "means": 50486, "tropical": 50415, "2050": 50487, "importance": 50414, "combined": 50451, "investigated": 50385, "proposed": 50370, "methods": 50378, "policies": 50355, "achieve": 50437, "opportunities": 50469, "contribute": 50498, "”": 50488, "materials": 50398, "infrastructure": 50425, "assessment": 50345, "studied": 50443, "uncertainty": 50489, "showed": 50304, "methane": 50359, "particular": 50413, "dynamics": 50390, "shares": 50474, "environmental": 50269, "thermal": 50365, "productivity": 50463, "potential": 50273, "’": 50267, "simulations": 50470, "basis": 50372, "targets": 50436, "flood": 50363, "soils": 50448, "Committee": 50410, "reducing": 50381, "decreased": 50396, "renewable": 50294, "determine": 50480, "distribution": 50296, "consumption": 50307, "already": 50435, "challenges": 50404, "integrated": 50483, "activities": 50317, "efforts": 50392, "measurements": 50422, "employees": 50419, "drought": 50336, "applied": 50360, "increase": 50271, "trend": 50407, "influence": 50329, "degrees": 50276, "fluxes": 50491, "emissions": 50266, "strategy": 50353, "costs": 50326, "addition": 50303, "measured": 50364, "presented": 50428, "systems": 50278, "increased": 50274, "reduction": 50286, "variables": 50447, "sources": 50331, "impacts": 50281, "flux": 50476, "approach": 50290, "relatively": 50484, "investments": 50466, "sustainability": 50325, "losses": 50462, "agricultural": 50395, "analyses": 50485, "technologies": 50343, "temperature": 50268, "requirements": 50477, "adaptation": 50377, "variations": 50442, "variation": 50380, "operations": 50374, "several": 50342, "climatic": 50319, "delta": 50433, "scenarios": 50334, "transport": 50352, "ecological": 50401, "CH4": 50354, "determined": 50455, "areas": 50275, "mitigation": 50457, "decision": 50452, "sediment": 50475, "parameters": 50383, "soil": 50270, "yield": 50386, "mainly": 50399, "atmosphere": 50341, "decrease": 50367, "concentrations": 50366, "scenario": 50421, "estimate": 50459, "plans": 50423, "developing": 50412, "additional": 50444, "composition": 50418, "capture": 50379, "+/-": 50403, "summer": 50335, "pandemic": 50490, "various": 50340, "estimated": 50362, "temperatures": 50295, "precipitation": 50280, "rainfall": 50323, "GHG": 50397, "solar": 50320, "construction": 50445, "findings": 50492, "overall": 50426, "performed": 50497, "strategies": 50387, "crisis": 50499, "risks": 50309, "greater": 50368, "N2O": 50382, "statements": 50472, "regions": 50302, "gases": 50471, "trends": 50371, "affect": 50438, "CO2": 50265, "spatial": 50322, "2030": 50417, "emission": 50279, "electricity": 50315, "annual": 50287, "supply": 50311, "hydrogen": 50376, "resulting": 50456, "coastal": 50393, "greenhouse": 50289, "characteristics": 50420, "periods": 50432, "biomass": 50314, "reduce": 50288, "responses": 50427, "structure": 50337, "regional": 50308, "forests": 50406, "included": 50434, "differences": 50375, "economy": 50338, "practices": 50453, "identify": 50460, "investment": 50321, "plants": 50313, "obtained": 50391, "reduced": 50327}

+{
+  "+/-": 50403,
+  "2021": 50328,
+  "2030": 50417,
+  "2050": 50487,
+  "CH4": 50354,
+  "CO2": 50265,
+  "Committee": 50410,
+  "GHG": 50397,
+  "N2O": 50382,
+  "achieve": 50437,
+  "across": 50277,
+  "activities": 50317,
+  "adaptation": 50377,
+  "addition": 50303,
+  "additional": 50444,
+  "affect": 50438,
+  "agreement": 50464,
+  "agricultural": 50395,
+  "already": 50435,
+  "analyses": 50485,
+  "annual": 50287,
+  "applied": 50360,
+  "approach": 50290,
+  "areas": 50275,
+  "assess": 50430,
+  "assessment": 50345,
+  "atmosphere": 50341,
+  "atmospheric": 50310,
+  "basis": 50372,
+  "become": 50394,
+  "benefits": 50402,
+  "biomass": 50314,
+  "capture": 50379,
+  "caused": 50389,
+  "challenges": 50404,
+  "characteristics": 50420,
+  "climatic": 50319,
+  "coastal": 50393,
+  "combined": 50451,
+  "communities": 50318,
+  "companies": 50312,
+  "compared": 50282,
+  "composition": 50418,
+  "concentration": 50357,
+  "concentrations": 50366,
+  "conditions": 50272,
+  "conducted": 50439,
+  "conservation": 50458,
+  "considered": 50339,
+  "consistent": 50494,
+  "construction": 50445,
+  "consumption": 50307,
+  "contribute": 50498,
+  "contribution": 50468,
+  "costs": 50326,
+  "countries": 50283,
+  "crisis": 50499,
+  "customers": 50358,
+  "decades": 50495,
+  "decision": 50452,
+  "decrease": 50367,
+  "decreased": 50396,
+  "degrees": 50276,
+  "delta": 50433,
+  "determine": 50480,
+  "determined": 50455,
+  "developing": 50412,
+  "differences": 50375,
+  "dioxide": 50346,
+  "distribution": 50296,
+  "diversity": 50431,
+  "drought": 50336,
+  "dynamics": 50390,
+  "ecological": 50401,
+  "economy": 50338,
+  "ecosystem": 50333,
+  "ecosystems": 50384,
+  "efforts": 50392,
+  "electricity": 50315,
+  "emission": 50279,
+  "emissions": 50266,
+  "employees": 50419,
+  "ensure": 50449,
+  "environmental": 50269,
+  "estimate": 50459,
+  "estimated": 50362,
+  "estimates": 50408,
+  "factors": 50292,
+  "findings": 50492,
+  "flood": 50363,
+  "flux": 50476,
+  "fluxes": 50491,
+  "following": 50369,
+  "forests": 50406,
+  "fossil": 50348,
+  "fuels": 50424,
+  "further": 50301,
+  "gases": 50471,
+  "greater": 50368,
+  "greenhouse": 50289,
+  "however": 50454,
+  "hydrogen": 50376,
+  "identify": 50460,
+  "impacts": 50281,
+  "importance": 50414,
+  "included": 50434,
+  "increase": 50271,
+  "increased": 50274,
+  "increases": 50361,
+  "indicate": 50388,
+  "industry": 50306,
+  "influence": 50329,
+  "infrastructure": 50425,
+  "integrated": 50483,
+  "investigated": 50385,
+  "investment": 50321,
+  "investments": 50466,
+  "least": 50429,
+  "losses": 50462,
+  "mainly": 50399,
+  "materials": 50398,
+  "means": 50486,
+  "measured": 50364,
+  "measurements": 50422,
+  "methane": 50359,
+  "methods": 50378,
+  "mitigation": 50457,
+  "moisture": 50493,
+  "monitoring": 50465,
+  "nitrogen": 50405,
+  "northern": 50446,
+  "observations": 50461,
+  "observed": 50293,
+  "obtained": 50391,
+  "ocean": 50347,
+  "operating": 50440,
+  "operations": 50374,
+  "opportunities": 50469,
+  "overall": 50426,
+  "pandemic": 50490,
+  "parameters": 50383,
+  "particular": 50413,
+  "patterns": 50349,
+  "performed": 50497,
+  "periods": 50432,
+  "planning": 50473,
+  "plans": 50423,
+  "plants": 50313,
+  "policies": 50355,
+  "pollution": 50467,
+  "populations": 50441,
+  "possible": 50332,
+  "potential": 50273,
+  "practices": 50453,
+  "precipitation": 50280,
+  "presented": 50428,
+  "previous": 50482,
+  "processes": 50291,
+  "productivity": 50463,
+  "proposed": 50370,
+  "provide": 50285,
+  "provides": 50373,
+  "rainfall": 50323,
+  "ratio": 50416,
+  "recovery": 50450,
+  "reduce": 50288,
+  "reduced": 50327,
+  "reducing": 50381,
+  "reduction": 50286,
+  "regional": 50308,
+  "regions": 50302,
+  "relationship": 50400,
+  "relatively": 50484,
+  "renewable": 50294,
+  "requirements": 50477,
+  "respectively": 50316,
+  "responses": 50427,
+  "resulting": 50456,
+  "risks": 50309,
+  "scenario": 50421,
+  "scenarios": 50334,
+  "seasonal": 50411,
+  "sediment": 50475,
+  "several": 50342,
+  "shares": 50474,
+  "showed": 50304,
+  "significantly": 50299,
+  "simulations": 50470,
+  "snow": 50496,
+  "soil": 50270,
+  "soils": 50448,
+  "solar": 50320,
+  "solutions": 50351,
+  "sources": 50331,
+  "southern": 50481,
+  "spatial": 50322,
+  "statements": 50472,
+  "strategies": 50387,
+  "strategy": 50353,
+  "structure": 50337,
+  "studied": 50443,
+  "studies": 50297,
+  "summer": 50335,
+  "supply": 50311,
+  "sustainability": 50325,
+  "sustainable": 50284,
+  "systems": 50278,
+  "targets": 50436,
+  "technologies": 50343,
+  "temperature": 50268,
+  "temperatures": 50295,
+  "temporal": 50479,
+  "thermal": 50365,
+  "towards": 50409,
+  "transition": 50344,
+  "transport": 50352,
+  "trees": 50478,
+  "trend": 50407,
+  "trends": 50371,
+  "tropical": 50415,
+  "uncertainty": 50489,
+  "understanding": 50356,
+  "variability": 50298,
+  "variables": 50447,
+  "variation": 50380,
+  "variations": 50442,
+  "various": 50340,
+  "vegetation": 50330,
+  "waste": 50350,
+  "yield": 50386,
+  "–": 50300,
+  "’": 50267,
+  "“": 50305,
+  "”": 50488,
+  "•": 50324
+}

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "climatebert/distilroberta-base-climate-f",
   "architectures": [
     "RobertaForSequenceClassification"
   ],
@@ -7,12 +7,19 @@
   "bos_token_id": 0,
   "classifier_dropout": null,
   "eos_token_id": 2,
-  "gradient_checkpointing": true,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "layer_norm_eps": 1e-05,
   "max_position_embeddings": 514,
   "model_type": "roberta",
@@ -22,7 +29,7 @@
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
-  "transformers_version": "4.6.1",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 50500

 {
+  "_name_or_path": "./climatebert-environmental-claims",
   "architectures": [
     "RobertaForSequenceClassification"
   ],
   "bos_token_id": 0,
   "classifier_dropout": null,
   "eos_token_id": 2,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
+  "id2label": {
+    "0": "no",
+    "1": "yes"
+  },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
+  "label2id": {
+    "no": 0,
+    "yes": 1
+  },
   "layer_norm_eps": 1e-05,
   "max_position_embeddings": 514,
   "model_type": "roberta",
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
+  "transformers_version": "4.29.2",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 50500

merges.txt CHANGED Viewed

@@ -1,4 +1,4 @@
-#version: 0.2 - Trained by `huggingface/tokenizers`
 Ġ t
 Ġ a
 h e

+#version: 0.2
 Ġ t
 Ġ a
 h e

pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c8c12117c7110ab8b8577d8b4b276ceda2e97604312d750ce81882d55c35c1d4
-size 329250921

special_tokens_map.json CHANGED Viewed

	@@ -1 +1,15 @@
1	- {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}}

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

	@@ -1 +1,64 @@
1	- {"unk_token": {"content": "<unk>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "bos_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "eos_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "add_prefix_space": false, "errors": "replace", "sep_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "cls_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "pad_token": {"content": "<pad>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "model_max_length": 512, "name_or_path": "climatebert/distilroberta-base-climate-f", "special_tokens_map_file": "pre_model/21072022_roberta/special_tokens_map.json", "tokenizer_class": "RobertaTokenizer", "trim_offsets": true}

+{
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 512,
+  "pad_token": {
+    "__type": "AddedToken",
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}