-
Notifications
You must be signed in to change notification settings - Fork 2
Open
Description
배경
- 세종 코퍼스에는 수십만 개의 단어가 존재
브론스끼,내무국장등과 같이 현재는 거의 사용되지 않는 단어들이 다수 포함되어 있음- 코퍼스 내 단어 출현 빈도로 pruning 을 하면 코퍼스 내 출현 빈도가 낮지만 현재도 자주 사용되는
평정심 (freq. : 1)과 같은 단어들이 사라지는 현상 발생
Tasks
- 빈도수 n 개 미만인 NNG 리스트 구축
- 구글에 exact match query를 통해 검색된 문서의 수를 확인
- 문서의 수에 따라 사전에서 사용할 NNG 추출 후 사전 등록
AC
- 세종 코퍼스에서 출현한 단어들 중 현재도 자주 사용되는 단어들의 리스트를 확인할 수 있다.
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels