Spaces:

AIDC-AI
/

Marco-MT-Algharb

Running on Zero

App Files Files Community

怀羽 commited on Oct 20

Commit

a67e7e4

1 Parent(s): 4dca14c

change to hf decode

Browse files

Files changed (2) hide show

app.py +105 -29
requirements.txt +3 -2

app.py CHANGED Viewed

@@ -1,30 +1,80 @@
 import gradio as gr
-from vllm import LLM, SamplingParams
 # --------------------------------------------------------------------------
 # 1. 配置和加载模型 (在应用启动时执行一次)
 # --------------------------------------------------------------------------
-# !! 重要 !! -> 将此处的 "your-org/your-algharb-model" 替换成你在 Hugging Face Hub 上的模型ID
 model_id = "AIDC-AI/Marco-MT-Algharb"
-print(f"正在加载模型: {model_id}...")
 try:
-    llm = LLM(model=model_id)
-    print("模型加载成功!")
 except Exception as e:
-    print(f"模型加载失败: {e}")
-    llm = None # 标记模型加载失败
-# 定义采样参数
-sampling_params = SamplingParams(
-    n=1,
-    temperature=0.001,
-    top_p=0.001,
-    max_tokens=512,
-)
-# 语言代码到全名的映射
 source_lang_name_map = {
     "en": "english",
     "ja": "japanese",
@@ -46,14 +96,14 @@ target_lang_name_map = {
     "de": "german",
 }
 # --------------------------------------------------------------------------
-# 2. 定义核心翻译函数
 # --------------------------------------------------------------------------
 def translate(source_text, source_lang_code, target_lang_code):
     """
-    接收用户输入并返回翻译结果
     """
-    if llm is None:
-        return "错误：模型未能成功加载，请检查 Space 日志。"
     # 简单的输入验证
     if not source_text or not source_text.strip():
@@ -62,23 +112,50 @@ def translate(source_text, source_lang_code, target_lang_code):
     source_language_name = source_lang_name_map.get(source_lang_code, "the source language")
     target_language_name = target_lang_name_map.get(target_lang_code, "the target language")
     prompt = (
         f"Human: Please translate the following text into {target_language_name}: \n"
         f"{source_text}<|im_end|>\n"
         f"Assistant:"
     )
     print(prompt)
-    outputs = llm.generate([prompt], sampling_params)
-    generated_text = outputs[0].outputs[0].text.strip()
-    return generated_text
 # --------------------------------------------------------------------------
-# 3. 创建并配置 Gradio 界面 (修改版)
 # --------------------------------------------------------------------------
-# <--- 修改 1: 定义自定义 CSS 样式 (高级背景 + 正常字体) --->
 css = """
 /* --- 1. 整体背景 (改为更高级的浅灰蓝渐变) --- */
 .gradio-container {
@@ -188,7 +265,6 @@ with gr.Blocks(
     )
     # --- (新位置) 支持的语向卡片 ---
-    # <--- 修改 3: 此处HTML将自动继承新的全局字体 --->
     gr.HTML(f"""
     <div style="color: #444; font-size: 16px; margin-top: 30px; padding: 20px 25px; background-color: #FFFFFF; border-radius: 15px; max-width: 900px; margin-left: auto; margin-right: auto; box-shadow: 0 4px 20px rgba(0,0,0,0.05);">

 import gradio as gr
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
+import sys
+import os
 # --------------------------------------------------------------------------
 # 1. 配置和加载模型 (在应用启动时执行一次)
 # --------------------------------------------------------------------------
+# 确保这里是你的本地模型路径
+# model_id = "/mnt/workspace/wanghao/model_saved/Marco-MT-WMT"
 model_id = "AIDC-AI/Marco-MT-Algharb"
+# 将模型目录添加到 Python 路径 (修复 Qwen3ForCausalLM 导入问题)
+if os.path.isdir(model_id):
+    sys.path.insert(0, model_id)
+    print(f"已将模型目录添加到 sys.path: {model_id}")
+print(f"正在加载 Tokenizer: {model_id}...")
+tokenizer = None
+model = None
+device = "cuda"
 try:
+    tokenizer = AutoTokenizer.from_pretrained(
+        model_id,
+        trust_remote_code=True
+    )
+    print("Tokenizer 加载成功!")
 except Exception as e:
+    print(f"Tokenizer 加载失败: {e}")
+if tokenizer:
+    print(f"正在加载模型: {model_id}...")
+    try:
+        model = AutoModelForCausalLM.from_pretrained(
+            model_id,
+            trust_remote_code=True
+        ).to(device).eval()
+        print("模型加载成功!")
+    except Exception as e:
+        print(f"模型加载失败: {e}")
+        model = None
+else:
+    print("因 Tokenizer 加载失败，跳过模型加载。")
+    model = None
+# --- ★★★ 关键修复: 正确设置 Qwen 的停止 Token ★★★ ---
+if tokenizer:
+    # 1. 获取 <|im_end|> 的 ID (通常是 151645)
+    im_end_id = tokenizer.convert_tokens_to_ids("<|im_end|>")
+    # 2. 获取 <|endoftext|> 的 ID (通常是 151643)
+    eot_id = tokenizer.eos_token_id
+    print(f"设置停止 IDs: <|im_end|_id={im_end_id}, <|endoftext|_id={eot_id}")
+    # 3. 创建 GenerationConfig
+    generation_config = GenerationConfig(
+        do_sample=False,
+        max_new_tokens=512,
+        # 关键(1): 告诉 generate() 遇到 *这两个* token 中的任何一个都要停止
+        eos_token_id=[im_end_id, eot_id],
+        # 关键(2): 告诉 generate() 在批处理(batching)时使用哪个 token 进行填充
+        # (我们使用 <|endoftext|>)
+        pad_token_id=eot_id
+    )
+else:
+    # 备用配置，以防 tokenizer 加载失败
+    generation_config = GenerationConfig(
+        do_sample=False,
+        max_new_tokens=512
+    )
+# 语言代码到全名的映射 (保持不变)
 source_lang_name_map = {
     "en": "english",
     "ja": "japanese",
     "de": "german",
 }
 # --------------------------------------------------------------------------
+# 2. 定义核心翻译函数 (修改版)
 # --------------------------------------------------------------------------
 def translate(source_text, source_lang_code, target_lang_code):
     """
+    接收用户输入并返回翻译结果 (使用 Transformers)
     """
+    if model is None or tokenizer is None:
+        return "错误：模型或 Tokenizer 未能成功加载，请检查 Space 日志。"
     # 简单的输入验证
     if not source_text or not source_text.strip():
     source_language_name = source_lang_name_map.get(source_lang_code, "the source language")
     target_language_name = target_lang_name_map.get(target_lang_code, "the target language")
+    # 构建与 vLLM 版本相同的提示
     prompt = (
         f"Human: Please translate the following text into {target_language_name}: \n"
         f"{source_text}<|im_end|>\n"
         f"Assistant:"
     )
+    print("--- Prompt ---")
     print(prompt)
+    print("--------------")
+    try:
+        # 1. 编码 (Tokenize)
+        # CausalLM 需要将 "Human: ... Assistant:" 整个作为输入
+        inputs = tokenizer(prompt, return_tensors="pt")
+        # 2. 将输入张量移动到模型所在的设备
+        # (当使用 device_map="auto" 时, model.device 指向第一个设备)
+        inputs = inputs.to(model.device)
+        # 3. 生成 (Generate)
+        with torch.no_grad(): # 推理时不需要计算梯度
+            outputs = model.generate(
+                **inputs,
+                generation_config=generation_config
+            )
+        # 4. 解码 (Decode)
+        # outputs[0] 包含了 "input_ids + generated_ids"
+        # 我们需要从 "input_ids" 之后开始解码
+        input_length = inputs.input_ids.shape[1]
+        generated_ids = outputs[0][input_length:]
+        generated_text = tokenizer.decode(generated_ids, skip_special_tokens=True).strip()
+        return generated_text
+    except Exception as e:
+        print(f"翻译过程中出错: {e}")
+        return f"翻译时发生错误: {e}"
 # --------------------------------------------------------------------------
+# 3. 创建并配置 Gradio 界面 (这部分保持不变)
 # --------------------------------------------------------------------------
+# <--- 定义自定义 CSS 样式 --->
 css = """
 /* --- 1. 整体背景 (改为更高级的浅灰蓝渐变) --- */
 .gradio-container {
     )
     # --- (新位置) 支持的语向卡片 ---
     gr.HTML(f"""
     <div style="color: #444; font-size: 16px; margin-top: 30px; padding: 20px 25px; background-color: #FFFFFF; border-radius: 15px; max-width: 900px; margin-left: auto; margin-right: auto; box-shadow: 0 4px 20px rgba(0,0,0,0.05);">

requirements.txt CHANGED Viewed

@@ -1,2 +1,3 @@
-vllm==0.10.0
-gradio==5.49.1

+Transformers==4.55.0
+gradio==5.49.1
+tomli