Skip to content

Conversation

@parknew0
Copy link
Contributor

No description provided.

이전에는 PHASE 4에서 Top-5 순서대로 첫 번째 이미지를 선택했으나,
LLM이 실제로 사용하지 않은 문서의 이미지가 선택될 수 있었음.

변경사항:
- PHASE 4: 이미지 즉시 선택 대신 images_by_title 딕셔너리로 수집
- PHASE 7: LLM이 실제 사용한 문서(relevant_docs) 중 우선순위 최고 문서의 이미지 선택
- 폴백: LLM 사용 문서에 이미지 없으면 Top-5 순서대로 선택

예시 시나리오:
- Top-2: 이미지 O, LLM 사용 X
- Top-4: 이미지 O, LLM 사용 O
→ 이전: Top-2 이미지 선택 (잘못됨)
→ 현재: Top-4 이미지 선택 (올바름)
문제:
- "실리콘밸리 합격한 사람 누구니?" 질문에 "문서 4에 명시되어 있습니다" 라고 답변
- 사용자는 문서 번호를 알 수 없고, 실제 게시글 제목을 알고 싶어함

변경사항:
1. formatter.py:
   - "📄 문서 N (검색 순위: N위)" → "📄 게시글: {제목}"
   - 제목을 먼저 표시하여 LLM이 제목으로 참조하도록 유도

2. qa_prompt.txt:
   - 모든 "문서" 용어를 "게시글"로 일관되게 변경
   - 출처 명시 규칙 추가:
     * ❌ 잘못된 예: "문서 4에 명시되어 있습니다"
     * ✅ 올바른 예: "[2025학년도 동계 실리콘밸리 프로그램 최종 합격자 발표]에 명시되어 있습니다"

기대 효과:
- 이제 LLM이 "[게시글 제목]에서 확인할 수 있습니다" 형식으로 답변
- 사용자가 출처를 명확히 이해할 수 있음
@parknew0 parknew0 merged commit 056be38 into main Nov 30, 2025
7 checks passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants