Skip to content

翻译医学类文献会出现无法正确识别连字符 #789

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
4 tasks done
xunhu0914 opened this issue Mar 21, 2025 · 6 comments
Open
4 tasks done

翻译医学类文献会出现无法正确识别连字符 #789

xunhu0914 opened this issue Mar 21, 2025 · 6 comments
Labels

Comments

@xunhu0914
Copy link

在提问之前...

  • 我已经搜索了现有的 issues
  • 我在提问题之前至少花费了 5 分钟来思考和准备
  • 我已经认真且完整的阅读了 wiki
  • 我已经认真检查了问题和网络环境无关(包括但不限于Google不可用,模型下载失败)

使用的环境

- OS:win11
- Python:3.10.15
- pdf2zh:1.8.1

请选择安装方式

pip

描述你的问题

翻译医学类论文无法正确识别连字符,导致翻译错误。个别段落会出现乱码

Implantable_hydrogels_as_pioneering_materials_for.pdf

Implantable_hydrogels_as_pioneering_materials_for-zh.pdf

如何复现

  1. 执行 '...'
  2. 选择 '....'
  3. 出现问题

预期行为

No response

相关 Logs


原始PDF文件

No response

还有别的吗?

No response

@xunhu0914 xunhu0914 added the bug Something isn't working label Mar 21, 2025
@awwaawwa awwaawwa added enhancement New feature or request and removed bug Something isn't working labels Mar 21, 2025
@awwaawwa
Copy link
Collaborator

  1. 启用实验性选项的use BabelDOC再试一次
  2. 将出问题的段落截图,并用红框标注出具体问题所在位置

@xunhu0914
Copy link
Author

尝试了一下 报错 ValueError: Unsupported translation service # # @awwaawwa

Image

Image

Image

Image
另外,连字符的问题感觉并不在代码,而是专业术语的问题,机器翻译很难避免。不过可以专门针对生物医学优化

@awwaawwa
Copy link
Collaborator

最新版1.9.6,请先更新后再使用。

@xunhu0914
Copy link
Author

更新了,提示argos-translate is not installed。请教一下大佬,我觉得默认的google翻译效果一般,想换用Gemini。
命令行里这么写pdf2zh The_role_of_the_basal_ganglia_in_the_control_of_seizure.pdf -s gemini --api key --gemini-1.5-flash对吗

@hellofinch
Copy link
Contributor

提示argos-translate is not installed。

这个不用管

想换用Gemini。

请参考readme

@xunhu0914
Copy link
Author

调用了Gemini-2.0-flash,效果好了很多,比默认强。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants