# 英文PDF翻译中文工具 基于本地 LLM 服务(Qwen3.5)的英文PDF自动翻译工具。 ## 功能特点 - ✅ 从 PDF 提取文本并翻译成中文 - ✅ 保持原文段落结构 - ✅ 支持多种输出格式 (Markdown/TXT/JSON) - ✅ 上下文连贯翻译 - ✅ 自动重试机制 ## 快速使用 ```bash # 翻译 PDF 为 Markdown python translate_pdf.py input.pdf output.md # 指定输出格式 python translate_pdf.py input.pdf output.txt --format txt # JSON 格式(包含原文对照) python translate_pdf.py input.pdf output.json --format json # 测试 LLM 连接 python translate_pdf.py --test ``` ## 配置说明 修改 `translate_pdf.py` 中的 `CONFIG` 部分: ```python CONFIG = { "api_base": "http://192.168.2.5:1234/v1", # LLM API 地址 "api_key": "sk-lm-fuP5tGU8:Hi7YU87jHyDP6Ay8Tl2j", # API Key "model": "qwen/qwen3.5-35b-a3b", # 模型名称 "chunk_size": 2000, # 每次翻译字符数 "max_tokens": 8000, # 最大输出 token(需足够让思考完成) "timeout": 180, # 单次请求超时(秒) } ``` ## 依赖安装 ```bash pip install pypdf openai ``` ## 注意事项 ⚠️ **Qwen 模型的思考模式** Qwen3.5 模型会在翻译前进行"思考",占用大量 token。因此: - `max_tokens` 需设置较大(建议 8000+) - 翻译速度较慢(约 30秒/块) - 适合处理重要文档,不适合快速预览 ## 输出示例 输入英文: ``` Machine learning is a subset of artificial intelligence (AI) that enables systems to learn and improve from experience. ``` 输出中文: ``` 机器学习是人工智能(AI)的一个子集, 它使系统能够从经验中学习和改进。 ``` ## 文件结构 ``` pdf-translator/ ├── translate_pdf.py # 主翻译脚本 ├── README.md # 使用说明 └── output.md # 翻译输出示例 ``` ## 扩展建议 1. **批量翻译**:循环处理多个 PDF 2. **进度保存**:中断后可从上次位置继续 3. **质量检查**:对比原文与译文段落 4. **格式优化**:保留 PDF 原排版样式