Skip to content

Mini lib to translate PDF files without limitations, using Yandex OCR translator

License

Notifications You must be signed in to change notification settings

Ge-os/pdf-translator

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

PDF Translator

Программа для автоматического перевода PDF-документов через Яндекс.Переводчик OCR с сохранением структуры документа. Размер файла ограничен только параметрами устройства.

Как это работает

  1. Конвертация PDF в отдельные изображения (страницы)
  2. Автоматическая загрузка страниц на Яндекс.Переводчик
  3. Скачивание переведенных изображений
  4. Сборка итогового PDF из обработанных страниц

Также поддерживается сохранение частичных результатов при ошибках и фоновый режим работы браузера.

Требования

  • Python 3.10+
  • Google Chrome ПОСЛЕДНЕЙ ВЕРСИИ!!!
  • Доступ к интернету

Установка

  1. Клонируйте репозиторий:
git clone https://github.com/your-repo/pdf-translator.git
cd pdf-translator
  1. Установите зависимости:
  • Вариант 1 (автоматическая установка):
python setup.py
  • Вариант 2 (вручную):
python -m venv venv
venv\Scripts\activate
pip install -r requirements.txt

Использование

  1. Запустите программу:
python main.py
  1. В интерфейсе:

    • Нажмите "Выбрать PDF" для выбора исходного файла
    • Укажите папку для сохранения результата
    • Опционально: включите фоновый режим
    • Нажмите "Старт"
  2. Дождитесь завершения процесса:

    • Прогресс отображается в прогресс-баре
    • Логи выводятся в текстовом поле
    • Результат сохраняется в выбранную папку

Особенности

Автовосстановление при ошибках
При сбоях сохраняется частично обработанный PDF

Безопасное выполнение
Все временные файлы автоматически удаляются после завершения

Умные ожидания
Автоматические паузы между операциями для стабильной работы

Визуализация прогресса
Детальное отображение этапов выполнения

Ограничения

  • Требуется стабильное интернет-соединение
  • На страницу уходит примерно по ~0.3 секунды
  • Динамическая страница иногда ломает поиск элемента, из-за чего регулярно возникают ошибки
  • Математические формулы могут (и будут) выглядеть ужасно (особенность перевода с помощью OCR)

Решение проблем

Если возникают ошибки:

  1. Убедитесь, что установлена последняя версия Chrome
  2. Проверьте наличие свободного места на диске
  3. Обновите зависимости:
pip install -r requirements.txt --upgrade
  1. Для проблем с драйвером:
  • Удалите папку venv
  • Переустановите зависимости
  • Проверьте совместимость версий Chrome и ChromeDriver
  1. Создайте Issue

About

Mini lib to translate PDF files without limitations, using Yandex OCR translator

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages