안녕하세요.
먼저 좋은 데이터 제공해주셔서 감사합니다.
데이터를 살펴보는 중, label 값이 반대로 정리된 것 같아 수정 제안드립니다.
현재 레이블은 아래와 같이 정의되어 있습니다.
is_duplicate 의미를 정리한 것으로 같은 의도의 질문일 경우 0으로 표기하고 있습니다.
데이터 생성에 참고한 링크를 보면, is_duplicate의 값이 같은 의도의 질문일 경우 1로 표기하고 있습니다.
같은 용도의 데이터이기도 하고, is_duplicate의 의미를 생각해볼 때도 같은 의도의 질문일 경우 1로 표기하는 것이 더 적절하다고 생각됩니다.
확인 부탁드립니다. 감사합니다.