IDEA-CCNL
/

Taiyi-CLIP-Roberta-102M-Chinese

Feature Extraction

text-classification

Inference Endpoints

Model card Files Files and versions Community

Weifeng-Chen commited on Jul 13, 2022

Commit

59cea48

•

1 Parent(s): a6dcf85

using hugging face clip version

Files changed (1) hide show

README.md +9 -5

README.md CHANGED Viewed

@@ -30,20 +30,23 @@ import requests
 import clip
 import torch
 from transformers import BertForSequenceClassification, BertConfig, BertTokenizer
 import numpy as np
 # 加载Taiyi 中文 text encoder
 text_tokenizer = BertTokenizer.from_pretrained("IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese")
 text_encoder = BertForSequenceClassification.from_pretrained("IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese").eval()
-text = text_tokenizer(["一只猫", "一只狗",'两只猫', '两只老虎','一只老虎'], return_tensors='pt', padding=True)['input_ids']
 # 加载CLIP的image encoder
-url = "http://images.cocodataset.org/val2017/000000039769.jpg"
-clip_model, preprocess = clip.load("ViT-B/32", device='cpu')
-image = preprocess(Image.open(requests.get(url, stream=True).raw)).unsqueeze(0)
 with torch.no_grad():
-    image_features = clip_model.encode_image(image)
     text_features = text_encoder(text).logits
     # 归一化
     image_features = image_features / image_features.norm(dim=1, keepdim=True)
@@ -54,6 +57,7 @@ with torch.no_grad():
     logits_per_text = logits_per_image.t()
     probs = logits_per_image.softmax(dim=-1).cpu().numpy()
     print(np.around(probs, 3))
 ```
 # Evaluation

 import clip
 import torch
 from transformers import BertForSequenceClassification, BertConfig, BertTokenizer
+from transformers import CLIPProcessor, CLIPModel
 import numpy as np
+query_texts = ["一只猫", "一只狗",'两只猫', '两只老虎','一只老虎']  # 这里是输入文本的，可以随意替换。
 # 加载Taiyi 中文 text encoder
 text_tokenizer = BertTokenizer.from_pretrained("IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese")
 text_encoder = BertForSequenceClassification.from_pretrained("IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese").eval()
+text = text_tokenizer(query_texts, return_tensors='pt', padding=True)['input_ids']
+url = "http://images.cocodataset.org/val2017/000000039769.jpg"  # 这里可以换成任意图片的url
 # 加载CLIP的image encoder
+clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
+processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
+image = processor(images=Image.open(requests.get(url, stream=True).raw), return_tensors="pt")
 with torch.no_grad():
+    image_features = clip_model.get_image_features(**image)
     text_features = text_encoder(text).logits
     # 归一化
     image_features = image_features / image_features.norm(dim=1, keepdim=True)
     logits_per_text = logits_per_image.t()
     probs = logits_per_image.softmax(dim=-1).cpu().numpy()
     print(np.around(probs, 3))
 ```
 # Evaluation