1. ✨ 문제의식 및 기여
1.1 기존 한계
- LLM 기반 문서 생성은 부분적 요약이나 문장 확장에 집중, 전면적인 사전 작성(pre-writing) 및 리서치 과정은 미흡
- Outlining 및 정보 수집이 부실하여 계층적인 구조가 약하고 전이적 플로우가 부족함
1.2 제안: STORM
2. 🧠 시스템 구성 (STORM)
단계 1. 관점( perspectives ) 탐색
- 유사 주제의 위키 문서 table-of-contents(TOC) 추출 → 특징 관점 열거
- 예: Opening ceremony 관련 문서들에서 Planning, Significance 관점 추출 ([DigitalOcean][2], [ACL Anthology][3])
단계 2. 질문 생성 & Q&A (Multi-perspective conversation)
-
각 관점마다 Writer vs Expert 간 simulated multi-turn 대화:
- Writer: “해당 관점 기준으로 중요 질문을 만들어 달라”
- Expert: 검색 + 문장 합성을 통해 답변
-
이 구조는 단순 “ask 30 questions”보다 심층적 질문 유도 ([arXiv][4], [RD World Online][5], [ACL Anthology][3])
단계 3. 아웃라인 생성
- LLM에게 토픽 기반 draft outline 생성 → 구조 초기화
- 질문-답변 결과를 반영해 outline refine → key sections, subtopics 생성
- Reference metadata 포함 → citation 기반 토픽 정리
3. 📊 평가 지표 및 실험 결과
3.1 FreshWiki 데이터셋
3.2 정량 평가 결과
| 모델 | Organization ↑ | Coverage ↑ | Unique Sources |
| ---------------------- | -------------- | ------------- | ------------------------------------------------ |
| baseline (oRAG) | 기준 | 기준 | – |
| STORM | +25% absolute | +10% absolute | 99.8 |
| STORM w/o perspectives | 낮음 | 낮음 | 54.4 |
| STORM w/o conversation | 더 낮음 | 더 낮음 | 39.6 ([DigitalOcean][2], [arXiv][6], [arXiv][4]) |
해석: 관점 기반 질문과 multi-turn 질문이 아웃라인 품질 및 정보 수집에 핵심 역할
3.3 Human 평가 (NAACL 발표에 따르면)
| 항목 | baseline avg | STORM avg | p-value | |
| ------------ | ------------ | --------- | ----------------- | ------------ |
| Organization | 3.25 | 4.00 | 0.005 (의미 있음) | |
| Coverage | 3.58 | 4.00 | 0.084 (경향 있음) | |
| Interest | 3.63 → 4.03 | – | 0.077 | ([arXiv][4]) |
4. 수식적 정의 및 지표
4.1 Outline Quality Metrics
-
Recall_on_sections = ∣gold headers∣∣STORM-generated section headers∩gold headers∣
-
Precision_on_sections = ∣STORM headers∣∣STORM headers∩gold headers∣
-
** 참조된 고유 URL 수** = collection of unique trusted sources per outline
Ablation 실험에서 STORM은 99.83개의 URL 획득, 반면 관점 없이 54.36, 대화 없이 39.56 ([arXiv][4])
4.2 Human 평가 척도
- 5-point Likert-scale: 1(매우 나쁨) → 5(매우 좋음)
- 각 항목별 평균과 preference 표집
5. 📈 분석 및 시사점
- 관점 기반 질문: 질문의 “질”을 높이고 정보 다양성 향상
- 대화 시뮬레이션: follow-up 질문을 통해 깊이있는 리서치 가능
- 아웃라인 + citation: 문서 구조의 신뢰성과 체계성 확보
- 자동화 한계: Source bias 및 fact mismatch 여전히 존재 (editor feedback 지적) ([ACL Anthology][7])
6. 🔮 향후 제안 및 확장 가능성
- Source Bias Mitigation: 다양한 출처 균형 추출, fact-check module 추가
- Fact linking & consistency: 다응답 간 충돌 식별 및 정제 (엔티티 일치)
- Human-in-the-loop: interactive 편집자 검증/수정 파이프라인 추가
- End-to-end 자동화: 아웃라인에서 기사 확장까지 LLM으로 연결
✅ 요약 정리
- STORM은 LLM과 검색 기반 리서치, 대화 시뮬레이션을 결합해 위키 수준의 아웃라인 생성 pre-writing 작업을 자동화하는 시스템입니다.
- ablation과 human eval 결과, 관점 기반 질문 및 multi-turn Q&A가 아웃라인의 구조성과 정보 수집 품질을 크게 향상합니다.
- 그러나 source bias, 사실 부정합 문제는 여전히 남아 있으며, 교정 및 편집 루프 통합이 향후 주요 과제로 제시됩니다.