自动检测和标记文档敏感信息的Python程序,支持Word和PDF文档处理。
- 自动检测文档中的敏感信息
- 支持多种文档格式 (PDF, DOC, DOCX)
- 自动将敏感区域涂黑处理
- 支持自定义敏感信息模式
- 完整的日志记录
git clone https://github.com/Lingzilla/document-security-marker.git
cd document-security-markerwget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.shconda env create -f environment.yml
conda activate doc_securityconda create -n doc_security python=3.8
conda activate doc_securityconda install -c conda-forge python-docx pymupdf pypdf2 pillow
pip install -r requirements.txt # 安装其他未在conda中的包处理PDF文档:
python main.py input.pdf output.pdf处理Word文档:
python main.py input.docx output.docxdocument-security-marker/
├── src/
│ ├── main.py
│ └── document_processor/
│ ├── __init__.py
│ ├── word_handler.py
│ └── pdf_handler.py
├── requirements.txt
└── README.md
- 身份证号码
- 电话号码
- 电子邮箱
- 银行卡号
- 其他自定义模式
- Python 3.8+
- PyMuPDF
- python-docx
- PyPDF2
- 其他依赖见 requirements.txt