deepseek-vl-7b-chat / 总感觉有点道理
poiuy741741's picture
Rename README.md to 总感觉有点道理
e1b372f verified
raw
history blame
4.23 kB
---
许可证: 其他
许可证_名称: Deepseek
许可证_链接: 许可证
管道_标签: 图像文本到文本
license: apache-2.0
datasets:
- HuggingFaceTB/cosmopedia
language:
- ar
metrics:
- accuracy
library_name: asteroid
---
## 1. 导言
介绍 DeepSeek-VL ,一种用于实际世界视觉和语言理解应用程序的开源视觉语言( VL )模型。 DeepSeek-VL 具有一般的多模式理解能力,能够处理逻辑图、网页、公式识别、科学文献、自然图像,并在复杂场景中体现智力。
[DeepSeek-VL:实现真正的世界愿景语言理解](https://arxiv.org/abs/2403.05525)
[**Github存储库**](https://github.com/deepseek-ai/DeepSeek-VL)
浩宇路*、文刘*、波张**、王炳轩、开东、波刘、景祥孙、同正人、卓树李、浩阳、姚峰孙、程琦邓、韩伟徐、振大谢、崇阮(*等贡献,**项目领先)
!](https://github.com/deepseek-ai/DeepSeek-VL/blob/main/images/sample.jpg)
### 2. 示范摘要
DeepSeek-VL-7b [Siglip L](https://huggingface.co/timm/ViT-L-16-SigLIP-384) [SAM-B](https://huggingface.co/facebook/sam-vit-base) 作为支持1024x1024图像输入的混合视觉编码器
并且基于 DeePSeek-LLM-7b 基结构,该基体在 2 T 文本令牌的近似语料库上进行训练。 整个 DeepSeek-VL-7b 基模型最终在 400 B 视觉语言令牌上进行了训练。
DeekSeel-VL-7bzä [DeepSeek-VL-7b](https://huggingface.co/deepseek-ai/deepseek-vl-7b-base).
## 3. 快速开始
### 安装
根据 `Python > = 3.8` 环境,通过运行以下命令安装必要的依赖项:
```贝壳
GIT 克隆 https://github.com/deepseek-ai/DeepSeek-VL
CD DeepSeek-VL
PIP安装-E。
```
### 简单推理示例
```蟒蛇
进口火炬
汽车模型
Tepsek_vl
deepseek_vl.utils.io 导入负载_pil_ages
# 指定通往模型的路径
Model_path = "Deepseek-I/Deepseek-VL-7b-chat"
VL_chat_croptor: VLCHATProcessor = VLCHATProcessor.fropreed (Model_path)
托格纳
VL_gpt: 多模态 CausalLM = AutoModelForCausalLM.ropreed (Model_path 、Trust_remote_code=True)
VL_GPT = VL_gpt.to (Torch.bfloat16).cuda (.eeval ()
对话=[
{
“角色”:“用户”,
“内容”:“《形象_占位符>描述这个图像的每个阶段。”
"图像":["./images/training_pipelines.png"
},
{
“角色”:“助理”,
"内容":"
}
]
# 加载图像并准备输入
Pil_mages = load_pil_mages (iïg)
▲照片=美联社、NEWSIS
对话
▲照片=Pilmages
力量_batchify=True
)to(vl_gpt.device)
# 运行图像编码器以获取图像嵌入
输入_embeds =vl_gpt.prepare_inputs_embeds (**prepare_inputs)
# 运行模型以获取响应
产出=vl_gpt.language_model.generate(
输入 embeds=inputs_embeds,
注意_mask=prepare_inputs.注意_ mask,
dad_token_id= tokener.eos_token_id,
博斯_token_id=Tokenizer.bos_token_id,
eos_token_id=Tokenizer.eos_token_id,
Max_new_tokens=512
Do_sample=False
使用_cache=True
)
回答 = tokenizer.decode (输出 [0].cpu (.tolist (), skep_cpecial_tokens=True)
打印(f”{prepre_inputs[freft_format'][0]},回答)
```
### CLI Chat
```巴什
Python cli_chat.py - model_path "deepseek-i/deepseek-VL-7b-chat"
#或本地路径
Python Cli_chat.py - Model_path “局部模型路径”
```
## 4. 许可证
此代码存储库在 [MIT 许可证](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-CODE)1. DeepSeek-VL基地/Chat模型的使用须视 [DeepSeek Model License](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL)DeepSeek-VL系列(包括Base和Cat)支持商业使用。
## 5. 引文
```
@misc {卢2024 深层
标题 = {深色 VL: 向真正的世界视觉语言理解},
作者 = {浩宇路、文刘、鲍章、王炳轩、鲍刘、孙景祥、李俊俊、李耀淑、孙耀凤、邓承琦、韩伟、徐振大、蔡瑞}},
= {2024},
Eprint={2403.05525},
存档Prefix={arxiv},
初级类 = {cs.AI}
}
```
## 6. 联系
如有疑问,请提出问题或在 [service@deepseek.com](mailto:service@deepseek.com).