|
--- |
|
许可证: 其他 |
|
许可证_名称: Deepseek |
|
许可证_链接: 许可证 |
|
管道_标签: 图像文本到文本 |
|
license: apache-2.0 |
|
datasets: |
|
- HuggingFaceTB/cosmopedia |
|
language: |
|
- ar |
|
metrics: |
|
- accuracy |
|
library_name: asteroid |
|
--- |
|
|
|
|
|
|
|
介绍 DeepSeek-VL ,一种用于实际世界视觉和语言理解应用程序的开源视觉语言( VL )模型。 DeepSeek-VL 具有一般的多模式理解能力,能够处理逻辑图、网页、公式识别、科学文献、自然图像,并在复杂场景中体现智力。 |
|
|
|
[DeepSeek-VL:实现真正的世界愿景语言理解](https://arxiv.org/abs/2403.05525) |
|
|
|
[**Github存储库**](https://github.com/deepseek-ai/DeepSeek-VL) |
|
|
|
浩宇路*、文刘*、波张**、王炳轩、开东、波刘、景祥孙、同正人、卓树李、浩阳、姚峰孙、程琦邓、韩伟徐、振大谢、崇阮(*等贡献,**项目领先) |
|
|
|
!](https://github.com/deepseek-ai/DeepSeek-VL/blob/main/images/sample.jpg) |
|
|
|
|
|
|
|
|
|
DeepSeek-VL-7b [Siglip L](https://huggingface.co/timm/ViT-L-16-SigLIP-384) 和 [SAM-B](https://huggingface.co/facebook/sam-vit-base) 作为支持1024x1024图像输入的混合视觉编码器 |
|
并且基于 DeePSeek-LLM-7b 基结构,该基体在 2 T 文本令牌的近似语料库上进行训练。 整个 DeepSeek-VL-7b 基模型最终在 400 B 视觉语言令牌上进行了训练。 |
|
DeekSeel-VL-7bzä [DeepSeek-VL-7b](https://huggingface.co/deepseek-ai/deepseek-vl-7b-base). |
|
|
|
|
|
|
|
|
|
|
|
|
|
根据 `Python > = 3.8` 环境,通过运行以下命令安装必要的依赖项: |
|
|
|
|
|
```贝壳 |
|
GIT 克隆 https://github.com/deepseek-ai/DeepSeek-VL |
|
CD DeepSeek-VL |
|
|
|
PIP安装-E。 |
|
``` |
|
|
|
|
|
|
|
```蟒蛇 |
|
进口火炬 |
|
汽车模型 |
|
|
|
Tepsek_vl |
|
从 deepseek_vl.utils.io 导入负载_pil_ages |
|
|
|
|
|
|
|
Model_path = "Deepseek-I/Deepseek-VL-7b-chat" |
|
VL_chat_croptor: VLCHATProcessor = VLCHATProcessor.fropreed (Model_path) |
|
托格纳 |
|
|
|
VL_gpt: 多模态 CausalLM = AutoModelForCausalLM.ropreed (Model_path 、Trust_remote_code=True) |
|
VL_GPT = VL_gpt.to (Torch.bfloat16).cuda (.eeval () |
|
|
|
对话=[ |
|
{ |
|
“角色”:“用户”, |
|
“内容”:“《形象_占位符>描述这个图像的每个阶段。” |
|
"图像":["./images/training_pipelines.png" |
|
}, |
|
{ |
|
“角色”:“助理”, |
|
"内容":" |
|
} |
|
] |
|
|
|
|
|
Pil_mages = load_pil_mages (iïg) |
|
▲照片=美联社、NEWSIS |
|
对话 |
|
▲照片=Pilmages |
|
力量_batchify=True |
|
)to(vl_gpt.device) |
|
|
|
|
|
输入_embeds =vl_gpt.prepare_inputs_embeds (**prepare_inputs) |
|
|
|
|
|
产出=vl_gpt.language_model.generate( |
|
输入 embeds=inputs_embeds, |
|
注意_mask=prepare_inputs.注意_ mask, |
|
dad_token_id= tokener.eos_token_id, |
|
博斯_token_id=Tokenizer.bos_token_id, |
|
eos_token_id=Tokenizer.eos_token_id, |
|
Max_new_tokens=512 |
|
Do_sample=False |
|
使用_cache=True |
|
) |
|
|
|
回答 = tokenizer.decode (输出 [0].cpu (.tolist (), skep_cpecial_tokens=True) |
|
打印(f”{prepre_inputs[freft_format'][0]},回答) |
|
``` |
|
|
|
|
|
```巴什 |
|
|
|
Python cli_chat.py - model_path "deepseek-i/deepseek-VL-7b-chat" |
|
|
|
|
|
Python Cli_chat.py - Model_path “局部模型路径” |
|
|
|
``` |
|
|
|
|
|
|
|
此代码存储库在 [MIT 许可证](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-CODE)1. DeepSeek-VL基地/Chat模型的使用须视 [DeepSeek Model License](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL)DeepSeek-VL系列(包括Base和Cat)支持商业使用。 |
|
|
|
|
|
|
|
``` |
|
@misc {卢2024 深层 |
|
标题 = {深色 VL: 向真正的世界视觉语言理解}, |
|
作者 = {浩宇路、文刘、鲍章、王炳轩、鲍刘、孙景祥、李俊俊、李耀淑、孙耀凤、邓承琦、韩伟、徐振大、蔡瑞}}, |
|
年 = {2024}, |
|
Eprint={2403.05525}, |
|
存档Prefix={arxiv}, |
|
初级类 = {cs.AI} |
|
} |
|
``` |
|
|
|
|
|
|
|
如有疑问,请提出问题或在 [service@deepseek.com](mailto:service@deepseek.com). |