deepseek-vl-7b-chat / 总感觉有点道理

Rename README.md to 总感觉有点道理

e1b372f verified 9 months ago

4.23 kB

	---
	许可证: 其他
	许可证_名称: Deepseek
	许可证_链接: 许可证
	管道_标签: 图像文本到文本
	license: apache-2.0
	datasets:
	- HuggingFaceTB/cosmopedia
	language:
	- ar
	metrics:
	- accuracy
	library_name: asteroid
	---

	## 1. 导言

	介绍 DeepSeek-VL ,一种用于实际世界视觉和语言理解应用程序的开源视觉语言( VL )模型。 DeepSeek-VL 具有一般的多模式理解能力,能够处理逻辑图、网页、公式识别、科学文献、自然图像,并在复杂场景中体现智力。

	[DeepSeek-VL:实现真正的世界愿景语言理解](https://arxiv.org/abs/2403.05525)

	[Github存储库](https://github.com/deepseek-ai/DeepSeek-VL)

	浩宇路、文刘、波张*、王炳轩、开东、波刘、景祥孙、同正人、卓树李、浩阳、姚峰孙、程琦邓、韩伟徐、振大谢、崇阮(等贡献,**项目领先)

	!](https://github.com/deepseek-ai/DeepSeek-VL/blob/main/images/sample.jpg)


	### 2. 示范摘要

	DeepSeek-VL-7b [Siglip L](https://huggingface.co/timm/ViT-L-16-SigLIP-384) 和 [SAM-B](https://huggingface.co/facebook/sam-vit-base) 作为支持1024x1024图像输入的混合视觉编码器
	并且基于 DeePSeek-LLM-7b 基结构,该基体在 2 T 文本令牌的近似语料库上进行训练。整个 DeepSeek-VL-7b 基模型最终在 400 B 视觉语言令牌上进行了训练。
	DeekSeel-VL-7bzä [DeepSeek-VL-7b](https://huggingface.co/deepseek-ai/deepseek-vl-7b-base).


	## 3. 快速开始

	### 安装

	根据 `Python > = 3.8` 环境,通过运行以下命令安装必要的依赖项:


	```贝壳
	GIT 克隆 https://github.com/deepseek-ai/DeepSeek-VL
	CD DeepSeek-VL

	PIP安装-E。
	```

	### 简单推理示例

	```蟒蛇
	进口火炬
	汽车模型

	Tepsek_vl
	从 deepseek_vl.utils.io 导入负载_pil_ages


	# 指定通往模型的路径
	Model_path = "Deepseek-I/Deepseek-VL-7b-chat"
	VL_chat_croptor: VLCHATProcessor = VLCHATProcessor.fropreed (Model_path)
	托格纳

	VL_gpt: 多模态 CausalLM = AutoModelForCausalLM.ropreed (Model_path 、Trust_remote_code=True)
	VL_GPT = VL_gpt.to (Torch.bfloat16).cuda (.eeval ()

	对话=[
	{
	“角色”:“用户”,
	“内容”:“《形象_占位符>描述这个图像的每个阶段。”
	"图像":["./images/training_pipelines.png"
	},
	{
	“角色”:“助理”,
	"内容":"
	}
	]

	# 加载图像并准备输入
	Pil_mages = load_pil_mages (iïg)
	▲照片=美联社、NEWSIS
	对话
	▲照片=Pilmages
	力量_batchify=True
	)to(vl_gpt.device)

	# 运行图像编码器以获取图像嵌入
	输入_embeds =vl_gpt.prepare_inputs_embeds (**prepare_inputs)

	# 运行模型以获取响应
	产出=vl_gpt.language_model.generate(
	输入 embeds=inputs_embeds,
	注意_mask=prepare_inputs.注意_ mask,
	dad_token_id= tokener.eos_token_id,
	博斯_token_id=Tokenizer.bos_token_id,
	eos_token_id=Tokenizer.eos_token_id,
	Max_new_tokens=512
	Do_sample=False
	使用_cache=True
	)

	回答 = tokenizer.decode (输出 [0].cpu (.tolist (), skep_cpecial_tokens=True)
	打印(f”{prepre_inputs[freft_format'][0]},回答)
	```

	### CLI Chat
	```巴什

	Python cli_chat.py - model_path "deepseek-i/deepseek-VL-7b-chat"

	#或本地路径
	Python Cli_chat.py - Model_path “局部模型路径”

	```

	## 4. 许可证

	此代码存储库在 [MIT 许可证](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-CODE)1. DeepSeek-VL基地/Chat模型的使用须视 [DeepSeek Model License](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL)DeepSeek-VL系列(包括Base和Cat)支持商业使用。

	## 5. 引文

	```
	@misc {卢2024 深层
	标题 = {深色 VL: 向真正的世界视觉语言理解},
	作者 = {浩宇路、文刘、鲍章、王炳轩、鲍刘、孙景祥、李俊俊、李耀淑、孙耀凤、邓承琦、韩伟、徐振大、蔡瑞}},
	年 = {2024},
	Eprint={2403.05525},
	存档Prefix={arxiv},
	初级类 = {cs.AI}
	}
	```

	## 6. 联系

	如有疑问,请提出问题或在 [service@deepseek.com](mailto:service@deepseek.com).