Skip to content

word pruning system 개발 #3

@shin285

Description

@shin285

배경

  • 세종 코퍼스에는 수십만 개의 단어가 존재
  • 브론스끼, 내무국장 등과 같이 현재는 거의 사용되지 않는 단어들이 다수 포함되어 있음
  • 코퍼스 내 단어 출현 빈도로 pruning 을 하면 코퍼스 내 출현 빈도가 낮지만 현재도 자주 사용되는 평정심 (freq. : 1) 과 같은 단어들이 사라지는 현상 발생

Tasks

  • 빈도수 n 개 미만인 NNG 리스트 구축
  • 구글에 exact match query를 통해 검색된 문서의 수를 확인
  • 문서의 수에 따라 사전에서 사용할 NNG 추출 후 사전 등록

AC

  • 세종 코퍼스에서 출현한 단어들 중 현재도 자주 사용되는 단어들의 리스트를 확인할 수 있다.

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions