--- 许可证: 其他 许可证_名称: Deepseek 许可证_链接: 许可证 管道_标签: 图像文本到文本 license: apache-2.0 datasets: - HuggingFaceTB/cosmopedia language: - ar metrics: - accuracy library_name: asteroid --- ## 1. 导言 介绍 DeepSeek-VL ,一种用于实际世界视觉和语言理解应用程序的开源视觉语言( VL )模型。 DeepSeek-VL 具有一般的多模式理解能力,能够处理逻辑图、网页、公式识别、科学文献、自然图像,并在复杂场景中体现智力。 [DeepSeek-VL:实现真正的世界愿景语言理解](https://arxiv.org/abs/2403.05525) [**Github存储库**](https://github.com/deepseek-ai/DeepSeek-VL) 浩宇路*、文刘*、波张**、王炳轩、开东、波刘、景祥孙、同正人、卓树李、浩阳、姚峰孙、程琦邓、韩伟徐、振大谢、崇阮(*等贡献,**项目领先) !](https://github.com/deepseek-ai/DeepSeek-VL/blob/main/images/sample.jpg) ### 2. 示范摘要 DeepSeek-VL-7b [Siglip L](https://huggingface.co/timm/ViT-L-16-SigLIP-384) 和 [SAM-B](https://huggingface.co/facebook/sam-vit-base) 作为支持1024x1024图像输入的混合视觉编码器 并且基于 DeePSeek-LLM-7b 基结构,该基体在 2 T 文本令牌的近似语料库上进行训练。 整个 DeepSeek-VL-7b 基模型最终在 400 B 视觉语言令牌上进行了训练。 DeekSeel-VL-7bzä [DeepSeek-VL-7b](https://huggingface.co/deepseek-ai/deepseek-vl-7b-base). ## 3. 快速开始 ### 安装 根据 `Python > = 3.8` 环境,通过运行以下命令安装必要的依赖项: ```贝壳 GIT 克隆 https://github.com/deepseek-ai/DeepSeek-VL CD DeepSeek-VL PIP安装-E。 ``` ### 简单推理示例 ```蟒蛇 进口火炬 汽车模型 Tepsek_vl 从 deepseek_vl.utils.io 导入负载_pil_ages # 指定通往模型的路径 Model_path = "Deepseek-I/Deepseek-VL-7b-chat" VL_chat_croptor: VLCHATProcessor = VLCHATProcessor.fropreed (Model_path) 托格纳 VL_gpt: 多模态 CausalLM = AutoModelForCausalLM.ropreed (Model_path 、Trust_remote_code=True) VL_GPT = VL_gpt.to (Torch.bfloat16).cuda (.eeval () 对话=[ { “角色”:“用户”, “内容”:“《形象_占位符>描述这个图像的每个阶段。” "图像":["./images/training_pipelines.png" }, { “角色”:“助理”, "内容":" } ] # 加载图像并准备输入 Pil_mages = load_pil_mages (iïg) ▲照片=美联社、NEWSIS 对话 ▲照片=Pilmages 力量_batchify=True )to(vl_gpt.device) # 运行图像编码器以获取图像嵌入 输入_embeds =vl_gpt.prepare_inputs_embeds (**prepare_inputs) # 运行模型以获取响应 产出=vl_gpt.language_model.generate( 输入 embeds=inputs_embeds, 注意_mask=prepare_inputs.注意_ mask, dad_token_id= tokener.eos_token_id, 博斯_token_id=Tokenizer.bos_token_id, eos_token_id=Tokenizer.eos_token_id, Max_new_tokens=512 Do_sample=False 使用_cache=True ) 回答 = tokenizer.decode (输出 [0].cpu (.tolist (), skep_cpecial_tokens=True) 打印(f”{prepre_inputs[freft_format'][0]},回答) ``` ### CLI Chat ```巴什 Python cli_chat.py - model_path "deepseek-i/deepseek-VL-7b-chat" #或本地路径 Python Cli_chat.py - Model_path “局部模型路径” ``` ## 4. 许可证 此代码存储库在 [MIT 许可证](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-CODE)1. DeepSeek-VL基地/Chat模型的使用须视 [DeepSeek Model License](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL)DeepSeek-VL系列(包括Base和Cat)支持商业使用。 ## 5. 引文 ``` @misc {卢2024 深层 标题 = {深色 VL: 向真正的世界视觉语言理解}, 作者 = {浩宇路、文刘、鲍章、王炳轩、鲍刘、孙景祥、李俊俊、李耀淑、孙耀凤、邓承琦、韩伟、徐振大、蔡瑞}}, 年 = {2024}, Eprint={2403.05525}, 存档Prefix={arxiv}, 初级类 = {cs.AI} } ``` ## 6. 联系 如有疑问,请提出问题或在 [service@deepseek.com](mailto:service@deepseek.com).