MATHPRESSO_NLP_Project

Contribution of Project

산학 주제

NLP 파트이며 수학 문제에 대한 데이터가 주어질 때 문제의 유형을 예측하는 Task입니다.

Input Example.

`x`에 대한 이차방정식 `x^2-6x+k+1=0`은 실근을 갖고, `x`에 대한 이차방정식 `kx^2-8x+5=0`은 서로 다른 두 허근을 갖도록 하는 자연수 `k`의 개수는?

Output Example.

H1S1-05

Modeling To-do

Training Dataset Preprocessing To-do

각 preprocessing version 별로 나눠서 모델 성능을 평가하는 게 좋겠다. 깃헙 commit log를 첨부하면 무엇을 바꿨는지 파악하기 더 쉬울 듯
- Roman Letters in english (alpha, beta...) -> ɑ, β
- 영문 -> 한글
- 영문 -> 특수문자
- White Space
- Data Augmentation
  - Python Regex으로 noise 발생
  - TFIDF or Word2vec으로 noise 발생
  - BERT으로 noise 발생
중의성을 해소하는 것에 목적을 둔 Preprocess module for Deep NLP 만들어보려고 합니다.
- ()랑 ^의 중복처리는 아직임. 해야 한다. 이를 Evaluation dataset에 적용
  - () : 점? 좌표? 순서쌍? 정규분포 N(0, 1)
Pipe ( | ) : 정의역치역? 절댓값? 조건부확률?: 정의역, 치역 집합 조건 |, 조건부확률의 |, 절대값 || 다르게 처리해야 한다. -> 물론, '정의역', '치역'이라는 단어로 분리되긴 할 듯.
- CSV에서 replace all해서 "pipe"로 바꾼 다음에 regex 처리 하겠음.
bar은 기호 하나로 바꾸면 더 좋을 것 같음.
combination이나 permutation 등으로 용어를 바꿔준 부분들을 그럼 순열, 조합 등의 한글로 바꿔 주기로 함.

Evaluation Dataset Preprocessing To-do

evaluation dataset을 기반으로 Preprocess module for Deep Learning NLP 만들기.
- evaluation dataset: "다음 중 무슨 함수의 그래프인가?", "다음 중 ..." "다음 중 옳지 않은 걸 고르시오" 등 20자 밑의 질문들이 있음. -> Koelectra에서 이걸 빼던데, 어디서 추가해주는 거에용? 결국에 제출물에 추가를 해주긴 해야 하는데 Preprocessing에서 함수를 하나 만들어 놓자.

Training Dataset Size-up To-do

Nlp Data Augmentation: 데이터셋 100개 미만 챕터: H1S2-01, H1S1-01, H1S1-06, HSTA-04, H1S1-03, HSTA-01, HSTA-02, H1S1-09, HSU1-11
- Proportion 맞춰서 키우는 것
- Even하게 데이터셋 키우는 것
- Training dataset만 augmentation을 해야 validation dataset에 같은 문제들이 섞이지 않을 것. 즉 모듈로 만들어야겠네.
- Random Deletion이 수학 기호와 한글 사이의 경계를 날려버리기도 함 ㅠ ->
```
`3+5` 의 답은?
```
  {A: "3+5"...} 로 놓고 dict에다가 저장. 특정 부분만 사라지는 문제는 일단 해결을 함. A에서 3+5라는 string으로 다시 복구하는 것
- 논문에 다르면 5000개 정도의 데이터에서 EDA로 20000개로 늘리는 게 최적이라고 함.
KoELECTRA에 수학 데이터셋을 학습시키면 좋지 않을까? 수학 기호들이 [UNK] 토큰으로 표시 될까봐 두렵다.
- Deep Mind's Mathematical Q&A Pairs과의 수학 notation 통일. 라벨링은 진행하지 않기.
- Deep mind dataset training 활용 사례
- Deep mind 논문 2019
- Automatic Generation of Headlines for Online Math Questions

Done for Modeling

Done for Preprocessing

Modeling So Far

Feedback

Task에 매몰되지 않았으면 좋겠다. 성능보다는 어떤 식으로 의사결정을 하고, 어떤 근거를 보고 개발하고 나아가는지를 볼 것 같다. Tuning에 시간을 많이 쓰지는 마라.
Slide에 실험에 대해서 요약을 했으면 좋겠다. 시행착오에 대해서 얘기를 해줬으면 좋겠다. Baseline부터 시작해서 왜 이걸 선택을 하게 됐는지가 드러났으면 좋겠다.
최종 발표에 대해서 데이터셋을 더 공개를 하려고 한다. 연립방정식 -> 연랍방정식 형태로 noisy한 형태임. 실제 production 환경과 비슷한 test validation을 할 것 같다. 지금 regex 방식이 아니라 noise에 대응할 수 있는 방식을 보고 싶다. 논리적인 과정을 보고 싶다.
제 예상으로는 Open source를 잘 활용하고 있는 것 같다. 지금까지 진행한 건에 팀이 가장 크게 contribution한 게 어떤 거라고 생각하나?
- 마지막 최종 발표 때 preprocessing에 대한 분석이 있으면 좋겠다. 어떤 preprocessing을 했을 때 "어느 정도의 성능향상을 가져왔다"는 주장이 더 좋을 것 같다.
- 울 회사에서도 내부 BERT 모델을 제작해서 1000개 ~ 2000개를 분류하는 classification을 하고 있음.
분류할 수 없는 문제가 아니라, 실제로 class를 나눠 떨어지지는 않는다. 충분히 문제를 풀어보고 one label로 했었는데, multi labeling은 내부에서 논의가 나오고 있음.
높은 평가를 드리는 게 아니라 점수 기반이 아니라, 문제 상황을 listup하고 해결하는 과정을 보고 싶다. 성능을 높이기 위해서 어떤 문제가 있었는지, 어떤 게 요인이 제일 크고, 이걸 어떻게 해결한 건지를 보고 싶다.
어떤 쪽을 유도하기 위해서가 아니라 본인이 중요하다고 생각한 부분을 집중적으로 파면 되고, 그게 왜 중요한 지만 설득할 수 있으면 됨. Presentation을 할 때 그 부분이 부각될 수 있도록 하면 좋겠다. 결과를 보여준 것들은 Model 별로 보여준 느낌이 있어서... 어떤 방식으로 의사결정을 하고, 어떤 방향으로 나갔는지, 어떤 로직으로 방향을 결정했는지를 보여주면 좋겠다.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
Archive		Archive
modeling		modeling
modules		modules
reference		reference
.DS_Store		.DS_Store
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MATHPRESSO_NLP_Project

Contribution of Project

산학 주제

Modeling To-do

Training Dataset Preprocessing To-do

Evaluation Dataset Preprocessing To-do

Training Dataset Size-up To-do

Done for Modeling

Done for Preprocessing

Modeling So Far

Feedback

Others

Notation Parsing & Markup

Korean Corpora

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

MATHPRESSO_NLP_Project

Contribution of Project

산학 주제

Modeling To-do

Training Dataset Preprocessing To-do

Evaluation Dataset Preprocessing To-do

Training Dataset Size-up To-do

Done for Modeling

Done for Preprocessing

Modeling So Far

Feedback

Others

Notation Parsing & Markup

Korean Corpora

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages