关于clip处理数据

#20
by pushi - opened

您好,感谢您们出色的工作!
我们在尝试使用封神榜的中文clip去处理wokong数据集,采用的策略和封神榜中文stable diffusion一样。
我们用相同方法去算了所有收集到数据的clip cosine similarity,发现阈值大于0.08的数据也只有600多万数据,想问下为什么您们阈值大于0.2能过滤到2千万数据呢?下面是我们的计算方法:

  1. 太乙clip:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese
  2. 计算clip cosine similarity的代码:
    image.png

同时,我们测试过你们给的例子(query_texts = ["一只猫", "一只狗",'两只猫', '两只老虎','一只老虎']),最高cosine similarity也不到0.2
image.png

Fengshenbang-LM org

您好,感谢您们出色的工作!
我们在尝试使用封神榜的中文clip去处理wokong数据集,采用的策略和封神榜中文stable diffusion一样。
我们用相同方法去算了所有收集到数据的clip cosine similarity,发现阈值大于0.08的数据也只有600多万数据,想问下为什么您们阈值大于0.2能过滤到2千万数据呢?下面是我们的计算方法:

  1. 太乙clip:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese
  2. 计算clip cosine similarity的代码:
    image.png

同时,我们测试过你们给的例子(query_texts = ["一只猫", "一只狗",'两只猫', '两只老虎','一只老虎']),最高cosine similarity也不到0.2
image.png

大概率是图像数据没做预处理?

您好,感谢您们出色的工作!
我们在尝试使用封神榜的中文clip去处理wokong数据集,采用的策略和封神榜中文stable diffusion一样。
我们用相同方法去算了所有收集到数据的clip cosine similarity,发现阈值大于0.08的数据也只有600多万数据,想问下为什么您们阈值大于0.2能过滤到2千万数据呢?下面是我们的计算方法:

  1. 太乙clip:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese
  2. 计算clip cosine similarity的代码:
    image.png

同时,我们测试过你们给的例子(query_texts = ["一只猫", "一只狗",'两只猫', '两只老虎','一只老虎']),最高cosine similarity也不到0.2
image.png

大概率是图像数据没做预处理?

和您们给的例子一样,用了clip的预处理
self.clip_model, _, self.processor = open_clip.create_model_and_transforms('ViT-L-14', pretrained='openai')
image.png

Sign up or log in to comment