1. ✨ 문제의식 및 기여

1.1 기존 한계

LLM 기반 문서 생성은 부분적 요약이나 문장 확장에 집중, 전면적인 사전 작성(pre-writing) 및 리서치 과정은 미흡
Outlining 및 정보 수집이 부실하여 계층적인 구조가 약하고 전이적 플로우가 부족함

1.2 제안: STORM

목표: "위키 수준의 긴 문서를 처음부터 작성"을 위한 pre-writing 자동화
핵심 구성:
1. 관점 탐색: 유사 문서에서 다양한 관점(History, Applications 등) 식별
2. 대화 시뮬레이션 기반 Q&A: 각 관점에 대해 LLM이 전문가에게 질의하며 in-depth 질문 생성
3. 정보 통합 & 아웃라인 작성: 수집된 답변 기반 계층적 outline 생성

2. 🧠 시스템 구성 (STORM)

단계 1. 관점( perspectives ) 탐색

유사 주제의 위키 문서 table-of-contents(TOC) 추출 → 특징 관점 열거
예: Opening ceremony 관련 문서들에서 Planning, Significance 관점 추출 ([DigitalOcean][2], [ACL Anthology][3])

단계 2. 질문 생성 & Q&A (Multi-perspective conversation)

각 관점마다 Writer vs Expert 간 simulated multi-turn 대화:
- Writer: “해당 관점 기준으로 중요 질문을 만들어 달라”
- Expert: 검색 + 문장 합성을 통해 답변
이 구조는 단순 “ask 30 questions”보다 심층적 질문 유도 ([arXiv][4], [RD World Online][5], [ACL Anthology][3])

단계 3. 아웃라인 생성

LLM에게 토픽 기반 draft outline 생성 → 구조 초기화
질문-답변 결과를 반영해 outline refine → key sections, subtopics 생성
Reference metadata 포함 → citation 기반 토픽 정리

3. 📊 평가 지표 및 실험 결과

3.1 FreshWiki 데이터셋

최근 인기도 및 품질 높은 Wikipedia 문서 100여 개 선정
human 평가 기준:
- Organization (구조성)
- Coverage (포괄성)
- Verifiability (출처 근거)

3.2 정량 평가 결과

| 모델 | Organization ↑ | Coverage ↑ | Unique Sources | | ---------------------- | -------------- | ------------- | ------------------------------------------------ | | baseline (oRAG) | 기준 | 기준 | – | | STORM | +25% absolute | +10% absolute | 99.8 | | STORM w/o perspectives | 낮음 | 낮음 | 54.4 | | STORM w/o conversation | 더 낮음 | 더 낮음 | 39.6 ([DigitalOcean][2], [arXiv][6], [arXiv][4]) |

해석: 관점 기반 질문과 multi-turn 질문이 아웃라인 품질 및 정보 수집에 핵심 역할

3.3 Human 평가 (NAACL 발표에 따르면)

| 항목 | baseline avg | STORM avg | p-value | | | ------------ | ------------ | --------- | ----------------- | ------------ | | Organization | 3.25 | 4.00 | 0.005 (의미 있음) | | | Coverage | 3.58 | 4.00 | 0.084 (경향 있음) | | | Interest | 3.63 → 4.03 | – | 0.077 | ([arXiv][4]) |

4. 수식적 정의 및 지표

4.1 Outline Quality Metrics

Recall_on_sections = $\frac{|\text{STORM-generated section headers} \cap \text{gold headers}|}{|\text{gold headers}|}$
Precision_on_sections = $\frac{|\text{STORM headers} \cap \text{gold headers}|}{|\text{STORM headers}|}$
** 참조된 고유 URL 수** = collection of unique trusted sources per outline

Ablation 실험에서 STORM은 99.83개의 URL 획득, 반면 관점 없이 54.36, 대화 없이 39.56 ([arXiv][4])

4.2 Human 평가 척도

5-point Likert-scale: 1(매우 나쁨) → 5(매우 좋음)
각 항목별 평균과 preference 표집

5. 📈 분석 및 시사점

관점 기반 질문: 질문의 “질”을 높이고 정보 다양성 향상
대화 시뮬레이션: follow-up 질문을 통해 깊이있는 리서치 가능
아웃라인 + citation: 문서 구조의 신뢰성과 체계성 확보
자동화 한계: Source bias 및 fact mismatch 여전히 존재 (editor feedback 지적) ([ACL Anthology][7])

6. 🔮 향후 제안 및 확장 가능성

Source Bias Mitigation: 다양한 출처 균형 추출, fact-check module 추가
Fact linking & consistency: 다응답 간 충돌 식별 및 정제 (엔티티 일치)
Human-in-the-loop: interactive 편집자 검증/수정 파이프라인 추가
End-to-end 자동화: 아웃라인에서 기사 확장까지 LLM으로 연결

✅ 요약 정리

STORM은 LLM과 검색 기반 리서치, 대화 시뮬레이션을 결합해 위키 수준의 아웃라인 생성 pre-writing 작업을 자동화하는 시스템입니다.
ablation과 human eval 결과, 관점 기반 질문 및 multi-turn Q&A가 아웃라인의 구조성과 정보 수집 품질을 크게 향상합니다.
그러나 source bias, 사실 부정합 문제는 여전히 남아 있으며, 교정 및 편집 루프 통합이 향후 주요 과제로 제시됩니다.

JONG HYUN LEE

Contact Info

STORM — Synthesis of Topic Outlines through Retrieval and Multi‑perspective Question Asking