Record the embedding study history.
- This course meets for in-class lecture Wed 16:00PM - 18:00PM (Seminar room No.4 at KISTI).
- Kyong-Ha Lee
- Dong-Hun Yang
- Ik-Je Choi
- Ju-Yeon Yu
- Book:
본 레파지토리의 디렉토리 및 코드 구조는 다음과 같습니다.
docker: 도커 환경 구성을 위한Dockerfile이 있습니다. CPU, GPU 버전을 구분합니다.docs: 튜토리얼 페이지와 관련한 마크다운 문서 등이 있습니다.models: 임베딩 기법 관련 핵심 코드가 모여 있습니다.bert: BERT 모델 (저자 original 코드)bilm: ELMo 모델 (저자 original 코드)swivel: Swivel 모델 (저자 original 코드)xlnet: XLNet 모델 (저자 original 코드)sent_eval.py: 문장 임베딩 평가 코드sent_utils.py: 문장 임베딩 학습 관련 유틸train_elmo.py: ELMo 프리트레인 코드 (저자 original 코드, 하이퍼파라미터 일부 수정)tune_utils.py: 임베딩 파인튜닝 관련 유틸visualize_utils.py: 임베딩 시각화 관련 유틸word_eval.py: 단어 임베딩 평가 코드word_utils.py: 단어 임베딩 학습 관련 유틸
preprocess: 말뭉치 전처리 관련 코드가 모여 있습니다.dump.py: 원시 말뭉치(raw corpus)를 1개 라인(line)이 1개 문서인 순수 텍스트 파일로 변환하는 유틸mecab-user-dic.csv: 은전한닢(mecab) 형태소 분석기의 사용자 사전을 추가하기 위한 입력 파일supervised_nlputils.py: KoNLPy, Khaiii 등 지도학습 기반 형태소 분석기 유틸unsupervised_nlputils.py: soynlp, sentencepiece 등 비지도학습 기반 형태소 분석기 유틸
preprocess.sh: 말뭉치 전처리 자동화 스크립트 모음sentmodel.sh: 문장 수준 임베딩 자동화 스크립트 모음wordmodel.sh: 단어 수준 임베딩 자동화 스크립트 모음
| Event | Date | In-class lecture | Materials and Assignments |
|---|---|---|---|
| Lecture 1 | 03/03 | Course Introduction | |
| Lecture 2 | 03/10 | 01. 서론
|
Presenter:
|
| Lecture 3 | 03/17 | 02. 벡터가 어떻게 의미를 가지게 되는가
|
Presenter:
|
| Lecture 4 | 03/24 | 03. 한국어 전처리
|
Presenter:
|
| Lecture 5 | 04/01 | 04. 단어 수준 임베딩
|
Presenter:
|
| Lecture 6 | 04/07 | Field study | Presenter:유주연 |
| Lecture 7 | 04/15 | 04. 단어 수준 임베딩
|
Presenter:
|
| Lecture 8 | 04/21 | Field study | Presenter:유주연 |
| Lecture 9 | 04/29 | 05. 문장 수준 임베딩
|
Presenter:
|
| Lecture 10 | 05/17 | 05. 문장 수준 임베딩
|
Presenter:
|
| Lecture 11 | 05/26 | 05. 문장 수준 임베딩
|
Presenter:
|
| Lecture 12 | 06/16 | 06. 임베딩 파인 튜닝
|
Presenter:
|
| Lecture 13 | 06/29 | 06. 임베딩 파인 튜닝
|
Presenter:
|
