sperfu commited on
Commit
ba90ee4
1 Parent(s): 3c16da3

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +46 -1
README.md CHANGED
@@ -196,7 +196,7 @@ lmdeploy serve api_server ./workspace \
196
  --tp 1
197
  ```
198
 
199
- In the above parameters, `server_name` and `server_port` indicate the service address and port, respectively. The `tp` parameter, as mentioned earlier, stands for Tensor Parallelism. The remaining parameter, instance_num, represents the number of instances and can be understood as the batch size. After execution, it will appear as shown below.
200
 
201
  After this, users can start the Web Service as described in [TurboMind Service as the Backend](#--turbomind-service-as-the-backend).
202
 
@@ -382,6 +382,51 @@ curl http://localhost:8000/v1/chat/completions \
382
 
383
  更多信息请查看 [vLLM 文档](https://docs.vllm.ai/en/latest/index.html)
384
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
385
 
386
  ## 网页服务启动方式1:
387
 
 
196
  --tp 1
197
  ```
198
 
199
+ In the above parameters, `server_name` and `server_port` indicate the service address and port, respectively. The `tp` parameter, as mentioned earlier, stands for Tensor Parallelism.
200
 
201
  After this, users can start the Web Service as described in [TurboMind Service as the Backend](#--turbomind-service-as-the-backend).
202
 
 
382
 
383
  更多信息请查看 [vLLM 文档](https://docs.vllm.ai/en/latest/index.html)
384
 
385
+ ## 使用本地训练模型
386
+
387
+ ### 第一步:转换为 lmdeploy TurboMind 格式
388
+
389
+ 这里,我们将使用预训练的模型文件,并在用户的根目录下执行转换,如下所示。
390
+
391
+ ```bash
392
+ # 将模型转换为 TurboMind (FastTransformer 格式)
393
+ lmdeploy convert internlm2-chat-7b /root/autodl-tmp/agri_intern/XiXiLM --tokenizer-path ./GouMang/tokenizer.json
394
+ ```
395
+
396
+ 执行完毕后,当前目录下将生成一个 workspace 文件夹。
397
+ 这个文件夹包含 TurboMind 和 Triton “模型推理”所需的文件,如下所示:
398
+
399
+
400
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/658a3c4cbbb04840e3ce7e2c/CqdwhshIL8xxjog_WD_St.png)
401
+
402
+
403
+ ### 第二步:本地聊天
404
+
405
+ ```bash
406
+ lmdeploy chat turbomind ./workspace
407
+ ```
408
+
409
+ ### 第三步(可选):TurboMind 推理 + API 服务
410
+
411
+ 在前一部分中,我们尝试通过命令行直接启动客户端。现在,我们将尝试使用 lmdeploy 进行服务部署。
412
+
413
+ “模型推理/服务”目前提供两种服务部署方式:TurboMind 和 TritonServer。在这种情况下,服务器可以是 TurboMind 或 TritonServer,而 API 服务器可以提供外部 API 服务。我们推荐使用 TurboMind。
414
+
415
+ 首先,使用以下命令启动服务:
416
+
417
+ ```bash
418
+ # ApiServer+Turbomind api_server => AsyncEngine => TurboMind
419
+ lmdeploy serve api_server ./workspace \
420
+ --server-name 0.0.0.0 \
421
+ --server-port 23333 \
422
+ --tp 1
423
+ ```
424
+
425
+ 在上述参数中,server_name 和 server_port 分别表示服务地址和端口。tp 参数如前所述代表 Tensor 并行性。
426
+
427
+ 之后,用户可以按照[TurboMind Service as the Backend](#--turbomind-service-as-the-backend) 中描述的启动 Web 服务。
428
+
429
+
430
 
431
  ## 网页服务启动方式1:
432