Skip to content

celsolnv/ocr-python

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Extrator de textos em imagens

Objetivo

Este projeto visa a construção de uma ferramenta capaz de extrair textos de imagens de forma eficiente.

Instalação

Antes de tudo, você vai precisar instalar os pacotes abaixo

  • tesseract-ocr
  • tesseract-ocr-por
  • python3-opencv
  • python3-numpy
  • pillow
  • opencv-python
  • pytesseract

Execute esses comandos caso esteja em um linux

  • sudo apt-get install tesseract-ocr
  • sudo apt-get install tesseract-ocr-por
  • sudo apt-get install python3-opencv
  • sudo apt-get install python3-numpy
  • pip3 install pillow
  • pip3 install opencv-python
  • pip3 install pytesseract

Testando

Você pode verificar o funcionamento da ferramenta executando o arquivo demo.py.

Ao executar esse arquivo, ele irá gerar arquivos no formato txt na pasta "demo-txt", com o nome correspondente a imagem que se encontra na pasta "demo-img"

OBSERVAÇÃO: Com quantos mais pixels a foto estiver, melhor será o resultado.

Versões dos pacotes

  • tesseract-ocr 4.1.1
  • tesseract-ocr-por 4.00
  • python3-numpy 1.18.5
  • pillow 7.0.0
  • opencv-python 4.4.0.46
  • pytesseract 0.3.6
  • About

    No description, website, or topics provided.

    Resources

    License

    Stars

    Watchers

    Forks

    Releases

    No releases published

    Packages

    No packages published

    Languages