Kotlin 기반 HWP/HWPX 파일 텍스트 추출 유틸리티
- HWP(한글 2005 이하) 및 HWPX(한글 2007 이상) 파일 지원
- 텍스트 추출
- 메타데이터 추출
- 임베디드 파일 추출
- 암호화된 파일 지원
- 여러 파일 동시 처리
- Java 17 이상
- Gradle 7.0 이상
./gradlew build./hwp-extract file.hwp
./hwp-extract file.hwpx./hwp-extract file1.hwp file2.hwpx file3.hwp./hwp-extract [-h] [--debug] [--extract-meta] [--extract-files] \
[--output-directory OUTPUT_DIRECTORY] [--password PASSWORD] \
[--version] target_file [target_file ...]-h, --help: 도움말 표시-d, --debug: 디버그 모드 활성화-m, --extract-meta: 메타데이터 추출 (제목, 작성자 등)-f, --extract-files: 임베디드 파일 추출-o, --output-directory OUTPUT_DIRECTORY: 출력 디렉토리 지정 (지정하지 않으면 stdout)-p, --password PASSWORD: 암호화된 파일의 비밀번호-v, --version: 버전 정보 표시
./hwp-extract -o output/ document.hwp./hwp-extract --extract-meta document.hwp./hwp-extract --extract-files -o output/ document.hwp./hwp-extract --password mypassword encrypted.hwp./hwp-extract --debug document.hwp./hwp-extract --debug --extract-meta --extract-files \
-o output/ --password mypass document.hwp./gradlew run --args="document.hwp"
./gradlew run --args="--extract-meta -o output/ document.hwp"java -jar build/libs/hwp-extractor-1.0.0.jar document.hwphwp_extractor_java/
├── build.gradle.kts # Gradle 빌드 설정
├── settings.gradle.kts # Gradle 프로젝트 설정
├── gradle.properties # Gradle 속성
├── hwp-extract # Shell 실행 스크립트
├── README.md # 이 파일
└── src/
└── main/
└── kotlin/
└── kr/
└── etna/
└── hwpextractor/
├── Main.kt # CLI 진입점
├── HwpExtractor.kt # 메인 추출기
├── HwpTextExtractor.kt # HWP 추출 구현
└── HwpxTextExtractor.kt # HWPX 추출 구현
- hwplib - HWP 파일 처리
- hwpxlib - HWPX 파일 처리
- Apache Commons CLI - 명령줄 인자 파싱
이 프로젝트는 사용된 라이브러리들의 라이선스를 따릅니다.