upload ckpt 5

Browse files

Files changed (6) hide show

.gitattributes +1 -0
generate.py +93 -0
outputs/ckpt_5/config.json +163 -0
outputs/ckpt_5/flax_model.msgpack +3 -0
outputs/events.out.tfevents.1626474479.t1v-n-cab111a8-w-0.878944.3.v2 +2 -2
outputs/summary.txt +6 -0

.gitattributes CHANGED Viewed

@@ -20,3 +20,4 @@ wit_data_dir/dev/dev.tsv filter=lfs diff=lfs merge=lfs -text
 wit_data_dir/test/test.tsv filter=lfs diff=lfs merge=lfs -text
 train.json filter=lfs diff=lfs merge=lfs -text
 val.json filter=lfs diff=lfs merge=lfs -text

 wit_data_dir/test/test.tsv filter=lfs diff=lfs merge=lfs -text
 train.json filter=lfs diff=lfs merge=lfs -text
 val.json filter=lfs diff=lfs merge=lfs -text
+outputs/ckpt_5/flax_model.msgpack filter=lfs diff=lfs merge=lfs -text

generate.py ADDED Viewed

	@@ -0,0 +1,93 @@

+import sys, os, datasets, json
+current_path = os.path.dirname(os.path.abspath(__file__))
+sys.path.append(current_path)
+# jax
+import jax
+# Main model -  ViTGPT2LM
+from vit_gpt2.modeling_flax_vit_gpt2_lm import FlaxViTGPT2LMForConditionalGeneration
+# Vit - as encoder
+from transformers import ViTFeatureExtractor
+from PIL import Image
+import requests
+import numpy as np
+# GPT2 / GPT2LM - as decoder
+from transformers import ViTFeatureExtractor, GPT2Tokenizer
+ckpt_no = 5
+model_name_or_path = f'./outputs/ckpt_{ckpt_no}/'
+flax_vit_gpt2_lm = FlaxViTGPT2LMForConditionalGeneration.from_pretrained(model_name_or_path)
+vit_model_name = 'google/vit-base-patch16-224-in21k'
+feature_extractor = ViTFeatureExtractor.from_pretrained(vit_model_name)
+gpt2_model_name = 'asi/gpt-fr-cased-small'
+tokenizer = GPT2Tokenizer.from_pretrained(gpt2_model_name)
+max_length = 32
+num_beams = 8
+gen_kwargs = {"max_length": max_length, "num_beams": num_beams}
+@jax.jit
+def predict_fn(pixel_values):
+    return flax_vit_gpt2_lm.generate(pixel_values, **gen_kwargs)
+def predict(image):
+    # batch dim is added automatically
+    encoder_inputs = feature_extractor(images=image, return_tensors="jax")
+    pixel_values = encoder_inputs.pixel_values
+    # generation
+    generation = predict_fn(pixel_values)
+    token_ids = np.array(generation.sequences)[0]
+    caption = tokenizer.decode(token_ids)
+    return caption, token_ids
+if __name__ == '__main__':
+    from datetime import datetime
+    split = 'val'
+    image_id = 322141
+    p = f'/home/33611/caption/{split}2014/COCO_{split}2014_{str(image_id).zfill(12)}.jpg'
+    image = Image.open(p)
+    caption, token_ids = predict(image)
+    image.close()
+    print(f'token_ids: {token_ids}')
+    print(f'caption: {caption}')
+    ds = datasets.load_dataset('./coco_dataset_script.py', data_dir='/home/33611/caption/')
+    ds = ds['train']
+    ds = ds.select(range(100))
+    predictions = []
+    for ex in ds:
+        p = ex['image_file']
+        image = Image.open(p)
+        s = datetime.now()
+        caption, token_ids = predict(image)
+        caption = caption.replace('<s>', '').replace('</s>', '').replace('<pad>', '').strip()
+        image.close()
+        e = datetime.now()
+        e = (e - s).total_seconds()
+        print(f'    timing: {e}')
+        print(f'   caption: {ex["fr"]}')
+        print(f'prediction: {caption}')
+        print('-' * 20)
+        ex['pred'] = caption
+        predictions.append(ex)
+    with open(f'ckpt_{ckpt_no}_preds.json', 'w', encoding='UTF-8') as fp:
+        json.dump(predictions, fp, ensure_ascii=False, indent=4)

outputs/ckpt_5/config.json ADDED Viewed

	@@ -0,0 +1,163 @@

+{
+  "architectures": [
+    "ViTGPT2LMForConditionalGeneration"
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 2,
+  "gpt2_config": {
+    "_name_or_path": "",
+    "activation_function": "gelu_new",
+    "add_cross_attention": true,
+    "architectures": null,
+    "attn_pdrop": 0.1,
+    "bad_words_ids": null,
+    "bos_token_id": 0,
+    "chunk_size_feed_forward": 0,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "embd_pdrop": 0.1,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 2,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "gradient_checkpointing": false,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_epsilon": 1e-05,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "min_length": 0,
+    "model_type": "gpt2",
+    "n_ctx": 1024,
+    "n_embd": 768,
+    "n_head": 12,
+    "n_inner": null,
+    "n_layer": 12,
+    "n_positions": 1024,
+    "no_repeat_ngram_size": 0,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 1,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "resid_pdrop": 0.1,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "scale_attn_weights": true,
+    "sep_token_id": null,
+    "summary_activation": null,
+    "summary_first_dropout": 0.1,
+    "summary_proj_to_labels": true,
+    "summary_type": "cls_index",
+    "summary_use_proj": true,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.9.0.dev0",
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 50000
+  },
+  "is_encoder_decoder": true,
+  "model_type": "vit-gpt2",
+  "pad_token_id": 1,
+  "transformers_version": null,
+  "vit_config": {
+    "_name_or_path": "",
+    "add_cross_attention": false,
+    "architectures": [
+      "ViTModel"
+    ],
+    "attention_probs_dropout_prob": 0.0,
+    "bad_words_ids": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.0,
+    "hidden_size": 768,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "image_size": 224,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "min_length": 0,
+    "model_type": "vit",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 12,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_channels": 3,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": null,
+    "patch_size": 16,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.9.0.dev0",
+    "use_bfloat16": false
+  }
+}

outputs/ckpt_5/flax_model.msgpack ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8e99c510ec8b0373084cfb90b85e8555fc8dd31c6a5b34bcb4e0da6688f750a
+size 1012706583

outputs/events.out.tfevents.1626474479.t1v-n-cab111a8-w-0.878944.3.v2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e8a3d0a6269cbdb20e41469f2d609d57a48438b9fa13117dae18ce8aa723563
-size 116380

 version https://git-lfs.github.com/spec/v1
+oid sha256:26719e710837c70e552401ff0a0d54bdbb82a6bd98e373ff04766dcca1c279f2
+size 228985

outputs/summary.txt CHANGED Viewed

@@ -4,3 +4,9 @@ Epoch... (2/10 | Loss: 2.1883292198181152, Learning Rate: 1.6007936210371554e-05
 Epoch... (2/10 | Eval Loss: 2.2480881214141846 | Eval rouge1: 15.861 | Eval rouge2: 3.108 | Eval rougeL: 13.6457 | Eval rougeLsum: 13.6531 | Eval gen_len: 31.5794 |)
 Epoch... (3/10 | Loss: 2.1005117893218994, Learning Rate: 1.4007936442794744e-05)
 Epoch... (3/10 | Eval Loss: 2.182466506958008 | Eval rouge1: 18.7278 | Eval rouge2: 3.4425 | Eval rougeL: 15.3744 | Eval rougeLsum: 15.3757 | Eval gen_len: 31.9742 |)

 Epoch... (2/10 | Eval Loss: 2.2480881214141846 | Eval rouge1: 15.861 | Eval rouge2: 3.108 | Eval rougeL: 13.6457 | Eval rougeLsum: 13.6531 | Eval gen_len: 31.5794 |)
 Epoch... (3/10 | Loss: 2.1005117893218994, Learning Rate: 1.4007936442794744e-05)
 Epoch... (3/10 | Eval Loss: 2.182466506958008 | Eval rouge1: 18.7278 | Eval rouge2: 3.4425 | Eval rougeL: 15.3744 | Eval rougeLsum: 15.3757 | Eval gen_len: 31.9742 |)
+Epoch... (4/10 | Loss: 1.9504339694976807, Learning Rate: 1.2007935765723232e-05)
+Epoch... (4/10 | Eval Loss: 2.1522512435913086 | Eval rouge1: 18.217 | Eval rouge2: 2.819 | Eval rougeL: 15.1391 | Eval rougeLsum: 15.1443 | Eval gen_len: 31.9922 |)
+Epoch... (5/10 | Loss: 1.9127023220062256, Learning Rate: 1.0007936907641124e-05)
+Epoch... (5/10 | Eval Loss: 2.1301980018615723 | Eval rouge1: 19.1425 | Eval rouge2: 3.3425 | Eval rougeL: 15.796 | Eval rougeLsum: 15.8031 | Eval gen_len: 31.9547 |)
+Epoch... (6/10 | Loss: 1.9510844945907593, Learning Rate: 8.007936230569612e-06)
+Epoch... (6/10 | Eval Loss: 2.1168270111083984 | Eval rouge1: 18.8478 | Eval rouge2: 3.2246 | Eval rougeL: 15.519 | Eval rougeLsum: 15.5254 | Eval gen_len: 31.9568 |)