Spaces:
Running
title: PDFTranslate
emoji: 📚
colorFrom: red
colorTo: yellow
sdk: docker
pinned: true
short_description: pdf翻译
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
PDFTranslate
科学 PDF 文档翻译及双语对照工具
欢迎在 GitHub Issues 或 Telegram 用户群 中提供反馈。
近期更新
- [Nov. 26 2024] CLI 现在已支持(多个)在线 PDF 文件 (by @reycn)
- [Nov. 24 2024] 为降低依赖大小,提供 ONNX 支持 (by @Wybxc)
- [Nov. 23 2024] 🌟 免费公共服务 上线! (by @Byaidu)
- [Nov. 23 2024] 防止网页爬虫的防火墙 (by @Byaidu)
- [Nov. 22 2024] 图形用户界面现已支持意大利语,并获得了一些更新 (by @Byaidu, @reycn)
- [Nov. 22 2024] 现在你可以将自己部署的服务分享给朋友了 (by @Zxis233)
- [Nov. 22 2024] 支持腾讯翻译 (by @hellofinch)
- [Nov. 21 2024] 图形用户界面现在支持下载双语文档 (by @reycn)
- [Nov. 20 2024] 🌟 提供了 在线演示! (by @reycn)
效果预览
在线演示 🌟
免费服务 (https://pdf2zh.com/)
你可以立即尝试 免费公共服务 而无需安装。
Hugging Face 在线演示
你可以立即尝试 在 HuggingFace 上的在线演示 而无需安装。 请注意,演示的计算资源有限,因此请避免滥用。
安装和使用
我们提供了三种使用该项目的方法:命令行工具、图形交互界面 和 容器化部署.
方法一、命令行工具
确保安装了版本大于 3.8 且小于 3.12 的 Python
安装此程序:
pip install pdf2zh
开始使用:
pdf2zh document.pdf
方法二、图形交互界面
确保安装了版本大于 3.8 且小于 3.12 的 Python
安装此程序:
pip install pdf2zh
开始在浏览器中使用:
pdf2zh -i
如果您的浏览器没有自动启动并跳转,请用浏览器打开:
http://localhost:7860/
查看 documentation for GUI 获取细节说明.
方法三、容器化部署
拉取 Docker 镜像并运行:
docker pull byaidu/pdf2zh docker run -d -p 7860:7860 byaidu/pdf2zh
通过浏览器打开:
http://localhost:7860/
用于在云服务上部署容器镜像:
高级选项
在命令行中执行翻译命令,生成译文文档 example-zh.pdf
和双语对照文档 example-dual.pdf
,默认使用 Google 翻译服务
我们在下表中列出了所有高级选项,以供参考:
Option | Function | Example |
---|---|---|
(文档) | 本地(多个)文件 | pdf2zh ~/local.pdf |
在线(多个)文件 | pdf2zh http://web.com/online.pdf |
|
-i |
进入图形界面 | pdf2zh -i |
-p |
仅翻译部分文档 | pdf2zh example.pdf -p 1 |
-li |
源语言 | pdf2zh example.pdf -li en |
-lo |
目标语言 | pdf2zh example.pdf -lo zh |
-s |
指定翻译服务 | pdf2zh example.pdf -s deepl |
-t |
多线程 | pdf2zh example.pdf -t 1 |
-f , -c |
例外规则 | pdf2zh example.pdf -f "(MS.*)" |
某些服务需要设置环境变量。关于设置环境变量的详细说明,请参考 ChatGPT
全文或部分文档翻译
- 全文翻译
pdf2zh example.pdf
- 部分翻译
pdf2zh example.pdf -p 1-3,5
指定源语言和目标语言
参考 Google Languages Codes, DeepL Languages Codes
pdf2zh example.pdf -li en -lo ja
使用不同的翻译服务
- DeepL
参考 DeepL
设置环境变量构建接入点:{DEEPL_SERVER_URL}/translate
DEEPL_SERVER_URL
(可选), e.g.,export DEEPL_SERVER_URL=https://api.deepl.com
DEEPL_AUTH_KEY
, e.g.,export DEEPL_AUTH_KEY=xxx
pdf2zh example.pdf -s deepl
- DeepLX
参考 DeepLX
设置环境变量构建接入点:{DEEPLX_SERVER_URL}/translate
DEEPLX_SERVER_URL
(可选), e.g.,export DEEPLX_SERVER_URL=https://api.deepl.com
DEEPLX_AUTH_KEY
, e.g.,export DEEPLX_AUTH_KEY=xxx
pdf2zh example.pdf -s deepl
- Ollama
参考 Ollama
设置环境变量构建接入点:{OLLAMA_HOST}/api/chat
OLLAMA_HOST
(可选), e.g.,export OLLAMA_HOST=https://localhost:11434
pdf2zh example.pdf -s ollama:gemma2
- 支持 OpenAI 协议的 LLM(如 OpenAI、SiliconCloud、Zhipu)
参考 SiliconCloud, Zhipu
设置环境变量构建接入点:{OPENAI_BASE_URL}/chat/completions
OPENAI_BASE_URL
(可选), e.g.,export OPENAI_BASE_URL=https://api.openai.com/v1
OPENAI_API_KEY
, e.g.,export OPENAI_API_KEY=xxx
pdf2zh example.pdf -s openai:gpt-4o
- Azure
需设置以下环境变量:
AZURE_APIKEY
, e.g.,export AZURE_APIKEY=xxx
AZURE_ENDPOINT
, e.g.,export AZURE_ENDPOINT=https://api.translator.azure.cn/
AZURE_REGION
, e.g.,export AZURE_REGION=chinaeast2
pdf2zh example.pdf -s azure
- 腾讯机器翻译
参考 腾讯机器翻译
需设置以下环境变量:
TENCENT_SECRET_ID
, e.g.,export TENCENT_SECRET_ID=AKIDxxx
TENCENT_SECRET_KEY
, e.g.,export TENCENT_SECRET_KEY=xxx
pdf2zh example.pdf -s tmt
指定例外规则
使用正则表达式指定需保留的公式字体与字符
pdf2zh example.pdf -f "(CM[^RT].*|MS.*|.*Ital)" -c "(\(|\||\)|\+|=|\d|[\u0080-\ufaff])"
指定线程数量
使用 -t
指定翻译时使用的线程数量:
pdf2zh example.pdf -t 1
致谢
文档合并:PyMuPDF
文档解析:Pdfminer.six
文档提取:MinerU
多线程翻译:MathTranslate
布局解析:DocLayout-YOLO