측정 없이 GEO는 가능한가: 학술 프레임워크와 5단계 측정 방법론

박영일
5월 22일
12분 분량

In brief

GEO(Generative Engine Optimization)는 AI 답변 안에서 브랜드가 어떻게 보이고, 어떤 출처와 함께 인용되는지를 관리하는 영역입니다. 하지만 AI 응답은 같은 쿼리에서도 관측 시점에 따라 크게 달라질 수 있기 때문에, 단일 시점·단일 플랫폼 측정만으로는 실태를 정확히 진단하기 어렵습니다.
따라서 GEO 측정은 학술 연구에서 제안된 가시성 지표(PAWC 등)를 참고하되, 실무에서는 Presence · Prominence · Sentiment · Source Ecosystem의 네 계층으로 설계하는 것이 적절합니다. 또한 다중 샘플링, 다중 플랫폼, 주 단위 시계열 측정을 기본으로 삼아야 합니다.
측정만으로 GEO가 완성되지는 않습니다. 측정 결과가 Quotation·Statistics·Cite Sources·Fluency와 같은 검증된 최적화 기법으로 연결될 때, GEO는 비로소 브랜드 가시성을 움직이는 실질적인 도구가 됩니다.

1편에서 우리는 "AI가 답하는 시대, 브랜드는 그 답 안에 있어야 한다"고 말했습니다. 이번 2편은 그 "있음(visibility)"을 어떻게 측정할 것인가에 대한 글입니다.

결론부터: 측정 없이는 GEO도 없다

GEO(Generative Engine Optimization)를 시작하려는 기업이 가장 먼저 묻는 질문은 보통 이렇습니다.

"AI가 답변할 때 우리 브랜드가 잘 나오게 하려면 무엇을 바꿔야 합니까?"

순서가 잘못된 질문입니다. 측정 체계 없이 시작하는 GEO는 GA4 없이 운영하는 SEO와 같습니다.

무엇이 효과 있었는지, 어떤 콘텐츠가 인용을 만들어냈는지, 경쟁사 대비 어디서 밀리는지 알 수 없기 때문입니다.

더 본질적인 문제가 있습니다. AI가 생성한 답변은 같은 질문에 대해 매번 다르게 나타납니다.

Ahrefs의 AI Overview 변동성 분석에 따르면, 동일 쿼리에 대한 AI Overview 콘텐츠는 관측 시점 간 약 70%의 확률로 변경되며, 업데이트가 발생할 때 인용 URL의 약 45.5%가 새로운 출처로 교체됩니다.[1]

단일 시점의 스냅샷으로 "우리 브랜드가 AI에 인용된다/안 된다"를 판단하는 것은 통계적으로 의미가 없습니다.

따라서 이 글은 GEO 측정에 관한 다음 네 가지 질문에 답합니다.

무엇을 측정해야 하는가 — 학술 연구가 정의한 가시성(visibility) 지표
학술 지표를 어떻게 실무 측정 모델로 옮길 것인가 — 4계층 측정 프레임워크
어떻게 측정해야 하는가 — 변동성 높은 AI 응답을 다루는 방법론
측정 결과를 어떤 액션으로 연결할 것인가 — 학술 실험으로 검증된 최적화 기법

1. GEO 측정이 어려운 세 가지 구조적 이유

본격적인 프레임워크에 들어가기 전, GEO 측정이 왜 어려운지부터 정리할 필요가 있습니다. SEO 측정 도구가 곧바로 적용되지 않는 데에는 세 가지 구조적 이유가 있습니다.

1) 답변은 단일 결과물이 아니라 확률적 분포다

전통 검색은 한 번의 쿼리에 대해 거의 결정론적(deterministic)인 결과를 돌려줍니다. 같은 키워드를 두 번 검색해도 1위 페이지는 거의 동일합니다. 그러나 AI 답변은 확률적(probabilistic) 입니다.

동일 쿼리에 대한 AI Overview 콘텐츠는 관측 시점 간 약 70% 확률로 변경되며, 업데이트 시 인용 URL의 약 45.5%가 새 출처로 교체됩니다.[1]
같은 쿼리에 대해 연속해서 호출했을 때 약 30%의 브랜드만이 동일하게 노출됩니다.[1]
AI 가시성 측정은 더 이상 "1회 측정"이 아니라 샘플링 기반의 통계적 측정입니다.

2) 플랫폼 간 인용 출처가 거의 겹치지 않는다

ChatGPT에서 잘 인용되는 브랜드가 Claude나 Gemini에서도 잘 인용된다는 보장은 없습니다. 오히려 그 반대에 가깝습니다.

ChatGPT와 Perplexity가 동일한 쿼리에 대해 공통으로 인용하는 도메인은 전체의 약 11%에 불과합니다.[2]
Ahrefs의 15,000개 프롬프트 분석에 따르면, ChatGPT·Gemini·Copilot이 인용한 링크 중 평균 12%만이 Google 상위 10위 결과와 일치했습니다.[3]
같은 브랜드가 플랫폼에 따라 최대 615배까지 다른 인용량을 보인다는 Superlines 분석도 있습니다.[4]

즉, 단일 플랫폼만 트래킹하는 것은 GEO의 일부만 보는 것과 같습니다.

3) AI 인용과 SEO 순위는 더 이상 같은 것을 측정하지 않는다

가장 충격적인 데이터는 SEO와 GEO의 분리입니다.

BrightEdge가 12개월간 추적한 결과, Google AI Overviews(이하 AIO)에 인용된 출처의 약 17%만이 동일한 쿼리의 오가닉 검색 상위 10위에 함께 포함되었습니다. 즉, AIO 인용의 약 83%는 오가닉 검색 1페이지 밖에서 발생합니다.[5]
AI Overviews 도입 이후 오가닉 검색의 클릭률(CTR)은 약 30% 하락한 반면, 같은 기간 노출 수는 49% 증가했습니다.[6]
Similarweb 데이터에 따르면, 뉴스 관련 Google 검색에서 제로클릭 비율은 AI Overviews 출시 시점인 2024년 5월 56%에서 2025년 5월 69%로 상승했습니다.[7]

요컨대, Google 상위 노출이 AI 인용을 보장하지는 않습니다. 측정도 별도로 설계되어야 합니다.

2. GEO 측정의 학술적 기반: Princeton GEO-bench 프레임워크

GEO 측정에 대한 가장 권위 있는 학술 자료는 2024년 KDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)에 발표된 Aggarwal et al.의 논문 "GEO: Generative Engine Optimization"입니다.[8] Princeton University, Georgia Tech, The Allen Institute for AI, IIT Delhi 연구진이 공동 발표한 이 논문은 "GEO"라는 용어를 학술적으로 정립한 최초의 연구입니다.

논문의 핵심 기여는 두 가지입니다. 첫째, 생성형 엔진(Generative Engine, GE)이라는 시스템을 형식적으로 정의했습니다. 둘째, GE 응답 안에서 한 출처의 가시성(Visibility)을 측정하는 학술 지표 체계를 제안했습니다. 객관 지표 두 가지(Word Count Impression, Position-Adjusted Word Count)와 주관 지표 하나(Subjective Impression)로 구성됩니다.

※ 표기 안내: 본 글에서는 학술 지표명을 영문으로 표기하고 옆에 짧은 한국어 풀이를 병기합니다. "가시성(Visibility)"은 AI 답변에서 브랜드가 인식·인용되는 상태 전반을 가리키는 상위 개념이며, 아래의 노출량(Impression)과 체감 영향도(Subjective Impression)는 그 가시성을 측정하는 학술 지표입니다.

2.1 Word Count Impression (WC) — 단어수 기반 노출량

가장 직관적인 지표입니다. 응답 전체 단어 수에서 특정 출처를 인용한 문장들의 단어 수가 차지하는 비율입니다.

분자는 자사 출처가 인용된 문장들의 단어 수 합계, 분모는 응답 전체 문장의 단어 수 합계를 의미합니다.

원리는 단순합니다. 한 응답 안에서 자사 출처가 더 많은 문장을 차지할수록 노출량이 높습니다. "한 번 스쳐 지나가는 언급"과 "여러 문장에서 반복되는 인용"은 전혀 다른 영향력을 가지기 때문입니다.

2.2 Position-Adjusted Word Count (PAWC) — 위치 가중 노출량

WC는 인용이 답변의 어디에 나오는지는 고려하지 않습니다. 답변 첫 문장에 등장하는 인용과 마지막 문장에 등장하는 인용을 동일하게 취급하는 셈입니다. 이를 보정한 지표가 PAWC입니다.

인용 문장이 응답의 어디에 위치하는지(앞쪽인지 뒤쪽인지)에 따라 지수적으로 감쇠하는 가중치를 곱하는 구조입니다. 앞쪽 문장일수록 노출량 점수가 높아집니다. 실무에서 자주 쓰이는 Average Position(평균 노출 위치) 지표는 이 PAWC를 단순화한 형태로 이해할 수 있습니다.

2.3 Subjective Impression — 사용자 체감 영향도 (7개 하위 차원)

객관적 지표만으로는 한계가 있습니다. 같은 단어 수라도 "핵심적인 인용"과 "부수적인 인용"은 사용자에게 다르게 받아들여집니다. 이를 위해 논문은 다음 7개 차원으로 구성된 주관적 가시성 점수를 제안합니다.

차원	측정 내용
Relevance	인용된 내용이 사용자 쿼리에 얼마나 관련 있는가?
Influence	응답 전체가 해당 인용에 얼마나 의존하는가?
Uniqueness	인용이 제공하는 정보가 얼마나 고유한가?
Position	인용이 응답 안에서 얼마나 두드러진 위치에 있는가?
Count	사용자가 체감하는 인용의 양
Click Probability	사용자가 해당 인용을 클릭할 가능성
Diversity	인용된 내용의 다양성

이 7개 차원은 GPT-4 기반의 G-Eval 방법론으로 평가됩니다.[9] 실무에서는 모든 차원을 직접 측정하기 어렵지만, "우리는 어떤 차원의 가시성을 우선 추적할 것인가" 를 결정하는 체크리스트로 활용할 수 있습니다.

2.4 실험 결과 — 어떤 최적화가 실제로 효과 있었는가

논문은 1만 개 쿼리로 구성된 GEO-bench 벤치마크에서 9가지 최적화 기법을 테스트했습니다. PAWC 기준 주요 결과는 다음과 같습니다.

아래 수치는 논문에서 보고된 PAWC 평균 개선값 기준이며, 적용 도메인과 평가 방식에 따라 효과 폭은 달라질 수 있습니다.

최적화 기법	PAWC 개선	비고
Quotation Addition (권위 있는 인용구 삽입)	+40.6%	가장 높은 개선폭
Statistics Addition (정량 통계 추가)	+30.6%	Law/Government/Opinion 도메인 특히 효과
Cite Sources (외부 출처 명시)	+27.5%	SERP 5위권 사이트에서 최대 +115% 개선
Fluency Optimization (가독성 개선)	+28.0%	Business/Science/Health 도메인에서 효과
Easy-to-Understand (가독성 개선)	+14.0%	—
Authoritative (권위 있는 어조)	+10.4%	Debate/History 도메인에서 효과
Technical Terms (전문 용어 추가)	+17.6%	—
Unique Words (고유 표현 추가)	+6.2%	통계적 유의성 낮음
Keyword Stuffing (키워드 반복)	−8.3%	부정적 효과

이 표가 의미하는 바는 명확합니다. SEO 시대의 핵심 전술이었던 키워드 스터핑은 GEO에서는 오히려 가시성을 떨어뜨립니다. 반면 학술적·통계적 근거를 갖춘 콘텐츠, 외부 출처를 명시한 콘텐츠, 유창하게 정제된 콘텐츠는 LLM이 우선 인용합니다.

또 하나 주목할 발견은 랭킹 5위권 사이트가 가장 큰 수혜를 본다는 점입니다. Princeton 논문은 Cite Sources(외부 출처 명시) 기법을 적용했을 때 오가닉 검색 5위 사이트의 노출량은 최대 115%까지 상승했다고 보고합니다.[8] SEO 순위가 절대적이지 않은 환경에서 GEO 기법이 가시성 재분배의 기회를 만들 수 있다는 의미입니다.

3. 실무용 4계층 측정 프레임워크

학술 지표를 비즈니스 현장에 그대로 가져오기는 어렵습니다. 실무용으로 정리하면 GEO 측정은 다음 4개 계층(Layer)으로 구성됩니다. 1편에서 소개한 4가지 지표(Citation Share, Share of Mentions, Sentiment, Source Influence)는 이 4계층 위에서 다음과 같이 펼쳐집니다.

Layer 1. Presence — 등장하는가

가장 기초적인 질문입니다. 우리 브랜드가 AI 답변에 존재하느냐의 차원입니다.

핵심 지표

Coverage: 사전에 정의한 프롬프트 세트(N개) 중 브랜드가 언급된 응답의 비율
Citation Rate: 응답에 단순 언급뿐 아니라 클릭 가능한 인용 링크가 포함된 비율

두 지표를 분리하는 이유는 명확합니다. 텍스트 안에 브랜드명이 등장하는 것과, 사용자가 클릭해서 자사 사이트로 이동할 수 있는 인용 링크가 포함되는 것은 비즈니스 임팩트가 다릅니다. Perplexity와 Gemini는 인용 링크가 명시적이지만, ChatGPT는 웹 검색이 활성화되지 않으면 인용 없는 언급에 그치는 경우가 많습니다.

또한 Layer 1의 Coverage와 다음 Layer 2의 Share of Mentions는 자주 혼동되지만 측정 단위가 다릅니다. Coverage는 "몇 개의 응답에서 브랜드가 한 번이라도 등장했는가?"를 보는 응답 단위 지표입니다. 반면 Share of Mentions(SoM)는 전체 브랜드 언급 횟수 중 자사 브랜드가 차지하는 비율을 보는 언급 단위 지표입니다.

예시로 살펴보면,

100개 프롬프트 중 A 브랜드가 80개 응답에 등장 → A의 Coverage = 80%
같은 100개 응답 안에서 모든 브랜드 언급이 총 250번, 그중 A 브랜드 언급이 120번 → A의 Share of Mentions = 48%
리스트형 응답에서 A 브랜드의 평균 위치가 1.5위 → Average Position = 1.5
같은 카테고리의 B 브랜드는 Coverage 60%, SoM 12%, Average Position 4.2위라면 → A와 B는 "등장 여부"에서는 비슷해 보이지만, "중심성"에서는 큰 차이가 있는 상태.

두 지표를 함께 봐야 "언급의 폭(Coverage)"과 "언급의 밀도(SoM)"가 동시에 진단됩니다.

Layer 2. Prominence — 얼마나 중요하게 등장하는가

브랜드가 등장은 했지만, "지나가는 언급"인지 "응답의 중심"인지를 구분합니다. 이 계층의 지표가 가장 학술 프레임워크에 가깝습니다.

핵심 지표

Share of Mentions : 동일 응답 안에서 전체 브랜드 언급 중 자사 비중으로 실무에서는 AI 답변 내 브랜드 중심성을 판단하는 핵심 가시성 지표로 활용됩니다.
Average Position: 응답이 리스트 형태일 때 자사 브랜드가 평균 몇 번째로 노출되는가 (1번째 추천인가 5번째인가). 학술의 PAWC 지표를 단순화한 형태입니다.

예시로 이해해 보겠습니다. 한 사용자가 ChatGPT에 "30대 여성을 위한 무기자차 선크림 추천해줘"라고 물었다고 가정합시다.

A 브랜드가 응답에서 3번 언급되며 가장 먼저 소개되었다면, A 브랜드의 SoM은 높고 Average Position은 1에 가깝습니다.
B 브랜드가 같은 응답에서 1번만, "그 외에도 B, C가 있다" 식으로 마지막에 언급되었다면, Coverage 기준으로는 두 브랜드 모두 "노출됨"이지만 Prominence 관점에서 두 브랜드는 전혀 다른 위치에 있습니다.

Layer 3. Sentiment & Context — 어떤 맥락으로 등장하는가

같은 노출이라도 AI가 우리 브랜드를 어떻게 묘사하는지가 다릅니다. 이 계층은 GEO에서 특히 위험 관리와 직결됩니다.

핵심 지표

Sentiment Score: 긍정 / 중립 / 부정
Contextual Associations: AI가 자사 브랜드를 어떤 의미적 클러스터와 연결하는가?
Use-Case Alignment: AI가 자사 브랜드를 추천하는 시나리오가 실제 자사의 타겟 시나리오와 일치하는가?

자동차 카테고리로 예시를 들어 보겠습니다. AI가 자사 SUV를 묘사할 때, "패밀리 카로 좋다"고 추천하는 것과 "오프로드용으로 좋다"고 추천하는 것은 감성 점수상 둘 다 긍정이지만 브랜드 포지셔닝 관점에서는 전혀 다른 신호입니다. 만약 자사의 브랜드 포지셔닝은 "도심형 프리미엄"인데 AI는 "가성비 가족용"으로 묘사한다면, 가시성은 있지만 브랜드 자산은 의도와 다르게 형성되고 있는 셈입니다.

화장품 카테고리에서도 마찬가지입니다. AI가 자사 스킨케어 제품을 "민감성 피부에 적합"이라고 묘사하는지, "20대 트러블 피부용"이라고 묘사하는지, 또는 "건성 피부 안티에이징"으로 묘사하는지에 따라 브랜드가 잡고 있는 시장 위치가 결정됩니다. 단순한 Sentiment Score 측정으로는 잡히지 않는 신호입니다.

Layer 4. Source Ecosystem — 누가 AI 답변을 만드는가

가장 자주 간과되지만 가장 전략적인 계층입니다. AI는 자사 홈페이지보다 제3자 출처를 더 자주 인용하기 때문입니다.

핵심 지표

Share of Domains: 자사 카테고리 응답에서 자주 인용되는 도메인 분포
Share of URLs: 어떤 개별 페이지가 반복 인용되는가?
Share of Industries: 어떤 산업군의 출처(News & Publishing, Government 등)가 영향력 있는가?
Share of Authors: 어떤 작성자/매체가 영향력 있는 정보원인가?

이 데이터가 있어야 다음 질문에 답할 수 있습니다. "우리는 자사 홈페이지를 개선해야 하는가, 영향력 있는 외부 매체에 게재되어야 하는가, 아니면 커뮤니티에서의 언급을 관리해야 하는가?"

실제 데이터를 보면 후자가 결정적입니다. Edelman의 GEOsight 발표에 따르면 AI 생성 답변 내 브랜드 가시성의 약 90%가 earned content(언론·전문가 보도·제3자 콘텐츠)에서 발생합니다.[10] paid placement(유료 광고 콘텐츠)만으로는 AI 가시성을 만들기 어렵다는 의미입니다. 즉, GEO는 PR과 콘텐츠 전략의 영역과 깊이 연결되어 있습니다.

또한 카테고리에 따라 영향력 있는 출처 산업군이 다릅니다. 자동차는 전문 매체와 자동차 커뮤니티의 가중치가 높고, 화장품은 리뷰 사이트와 인플루언서 콘텐츠의 가중치가 높으며, 금융은 공공·언론의 가중치가 높습니다. Share of Industries 지표가 자사 카테고리의 출처 구조를 진단하는 출발점입니다.

인사이트 | Reddit은 AI 인용 생태계에서 영향력이 빠르게 커진 대표적인 UGC 출처입니다. 2025년 Statista·Semrush 분석에서는 Reddit이 AI 인용의 약 40.1%를 차지하며 주요 출처를 앞선 것으로 나타났고, Semrush의 Reddit 포스트 분석에서도 Perplexity·ChatGPT Search·Google AI Mode에서 모두 상위 인용 출처로 확인되었습니다. 다만 Reddit-Perplexity 분쟁 사례처럼 AI 인용 출처 생태계는 플랫폼 간 계약·정책 변화에 따라 빠르게 재편될 수 있으므로, GEO 측정에서는 Reddit·Quora·Stack Exchange 같은 UGC 커뮤니티를 별도 관찰 축으로 두고, 소셜 리스닝 데이터와 함께 주 단위 시계열로 출처 변화를 추적할 필요가 있습니다.

4. 측정 방법론: 어떻게 측정할 것인가

지표를 정의하는 것과 실제로 측정하는 것은 다른 문제입니다. AI 답변의 확률적 특성을 다루기 위해 다음 5단계 방법론이 필요합니다.

4.1 Canonical Prompt Set 설계

측정의 단위는 개별 질문이 아니라 고정된 프롬프트 세트입니다. 다음 원칙을 따릅니다.

규모: 측정 대상 브랜드/카테고리 당 15~25개 프롬프트가 적정 (지나치게 많으면 노이즈 증가)
*예시1) 자동차 회사 A의 GEO 측정 → A 자동차 관련 핵심 질문 15~25개 (Discovery 5개, Comparison 5개, Purchase 5개, Concerns 5개씩)
의도(intent)별 분포: Discovery(탐색) / Comparison(비교) / Purchase(구매) / Concerns(우려) 네 가지 의도를 균형 있게 포함 (또는 기업이 중요하게 관리하고 있는 구매 여정 별 분포)
고정성: 프롬프트 세트는 최소 분기 단위로 안정적으로 유지 — 그래야 시계열 비교가 가능
쿼리의 전략적 활용: 쿼리는 기본이 되는 시드 쿼리(Seed Query) 와 이를 변형해 데이터를 풍부하게 해주는 베리에이션 쿼리(Variation Query) 로 구분됩니다. 이 둘을 어떻게 계층화(hierarchy)하고 그룹화하느냐에 따라 측정 후 데이터 시각화의 직관성과 분석의 깊이가 달라집니다. 또한 각 쿼리에 부여하는 태그(Intent / Category / Competitor 등)가 정교할수록 "Comparison 쿼리에서 자사가 특히 약하다" 같은 의사결정용 슬라이스가 가능해집니다.

4.2 다중 샘플링

같은 프롬프트에 대해 최소 5회 이상 응답을 수집합니다. 응답이 약 70% 확률로 변동하는 환경에서 1회 측정은 통계적으로 무의미합니다.[1]

Princeton 논문도 동일한 원칙을 따릅니다. 모든 실험에서 한 쿼리당 5개의 응답을 temperature=0.7(응답의 다양성을 조절하는 LLM 파라미터로, 일반 사용자가 쓰는 기본값)로 샘플링해 통계적 노이즈를 줄였습니다.[8]

4.3 Multi-Platform 트래킹

ChatGPT-Perplexity 인용 도메인 중복이 11%[2]에 불과한 환경에서 단일 플랫폼 측정은 제한된 시각에 불과합니다. 최소 4개 플랫폼을 동시 추적해야 합니다.

플랫폼	설명
ChatGPT (OpenAI)	위키피디아 등 백과사전형 권위 도메인 인용 비중이 상대적으로 높음. 웹 검색 모드 활성화 시에만 명시적 출처 인용
Claude (Anthropic)	학술·전문가 콘텐츠 가중치가 높음. web search 활성화 시 신뢰도 높은 출처를 선별 인용. B2B 전문가 시장에서 빠르게 채택 중
Perplexity (Perplexity AI)	실시간 웹 인용을 기본 설계로 함. 최신 출처 가중치 높음 (인용 콘텐츠 50%가 13주 이내 발행물[12])
Gemini (Google)	Google 검색 인덱스 기반으로 인용. 위키피디아·언론·공식 사이트 비중 높음. 한국에서도 점유율 확대 중

이 4개 플랫폼을 매일 수동으로 모니터링하는 것은 현실적이지 않습니다. 동일 프롬프트를 4개 플랫폼에 각각 5회씩, 매주, 5~7개 경쟁사와 함께 추적하려면 자동화된 GEO 측정 플랫폼이 필요한데, 디센트릭이 한국에서 단독 운영하는 Trajaan이 이 영역의 대표 솔루션입니다.

4.4 시계열 측정 주기 — 주단위가 기본, 일단위는 조건부

AI 답변의 인용 출처는 월간 약 50%가 교체됩니다.[13] 단일 시점 측정으로는 추세를 잡을 수 없다는 의미입니다. 측정 주기는 다음과 같이 설계하는 것을 권장합니다.

디폴트: 주단위. 세 가지 이유가 있습니다.

노이즈 평탄화: AI 응답이 같은 쿼리에서 약 70% 빈도로 변동하는 환경에서 일단위 데이터는 일별 출렁임이 그대로 노출됩니다. 주단위는 5~7일 평균값으로 단기 변동을 흡수해 추세 판단이 훨씬 안정적입니다.
운영 의사결정 주기와의 정합성: 주간 마케팅 미팅, 월간 리뷰 사이클과 맞춰 주단위 리포트가 실제로 의사결정에 사용됩니다.
시계열 비교의 견고함: "지난주 대비"라는 단위가 인용 출처 churn 50% (인용 출처 교체율 50%) 환경에서 유의미한 비교 단위가 됩니다.

일단위는 다음 세 조건 중 하나에 해당할 때 권장됩니다.

위기 모니터링 단계 — 부정 이슈가 발생했거나 그럴 가능성이 있을 때, AI 답변의 부정 맥락 확산을 시간 단위로 캐치해야 합니다.
변동성이 큰 카테고리 — 트렌드 사이클이 짧은 카테고리(화장품 신제품, 가전 신모델 출시 직후, 자동차 신차 런칭 시점 등)에서는 일주일이 너무 긴 측정 단위일 수 있습니다.
신규 캠페인 또는 콘텐츠 런칭 직후 30일 — 효과 측정의 정밀도가 필요한 단계입니다.

월단위는 장기 추세 보조 용도에 한정됩니다. GEO 측정의 기본 운영 단위는 주단위가 적절합니다. 월단위 측정은 분기·연간 추세 리뷰에는 활용할 수 있지만, 인용 출처가 월간 약 50% 교체되는 환경에서 실무 의사결정용 기본 주기로는 다소 느릴 수 있습니다.

4.5 Competitive Framing

자사 단독 측정은 의미가 없습니다. 항상 5~7개의 고정된 경쟁사와 함께 측정해 Share of Voice를 산출합니다. 이때 경쟁사는 시장에서 실제로 맞붙는 기업으로 선정해야 하며, 자사보다 압도적으로 큰 글로벌 리더는 비교 대상에서 제외하는 것이 일반적입니다.

5. 측정에서 액션으로: 검증된 4가지 최적화 기법

측정만으로 GEO가 완성되지는 않습니다. 측정 결과를 바탕으로 콘텐츠를 어떻게 바꿔야 하는가에 대해서도, 다행히 학술 실험으로 검증된 답이 있습니다. Princeton 논문이 통계적 유의성을 갖고 확인한 4가지 기법은 다음과 같습니다.[8]

Quotation Addition — 권위 있는 있는 인용구 삽입(전문가, 학술 연구, 정부 기관)의 인용구를 본문에 명시적으로 삽입. PAWC 기준 약 40.6% 개선. People & Society, Explanation, History 도메인에서 특히 강력합니다.
Statistics Addition — 정성적 서술을 정량적 통계로 치환. PAWC 기준 약 32.6% 개선. Law/Government/Opinion 도메인에서 가장 효과적이며, 자동차 안전성·연비 비교, 화장품 임상 데이터, 금융 상품 수익률 비교처럼 정량 데이터를 기반으로 결정하는 카테고리 전반에서 효과적입니다.
Cite Sources — 본문 안에서 외부 출처를 명시적으로 인용. PAWC 기준 약 27.5% 개선. 특히 오가닉 검색 5위권 사이트에서 최대 +115% 노출량 향상.
Fluency Optimization — 문장 구조와 가독성 개선. PAWC 기준 약 28.0% 개선. 키워드 밀도가 아닌 읽기 쉬움이 인용 가능성을 높입니다.

반대로 검증된 안티패턴은 Keyword Stuffing입니다. PAWC 기준 약 −8.3%로, SEO에서 회색지대였던 기법이 GEO에서는 명확하게 마이너스로 작동합니다.[8]

그리고 도메인 의존성을 잊지 않아야 합니다. 같은 기법이라도 콘텐츠 도메인에 따라 효과가 달라집니다.

예시,

정량 스펙이 핵심인 카테고리(제약·바이오·금융)는 Statistics (정량 통계) + Cite Sources (외부 출처 명시)
경험과 전문가·인플루언서 추천이 핵심인 카테고리(화장품·뷰티·라이프스타일)는 Quotation(권위 있는 인용구) + Cite Sources(외부 출처 명시)
트렌드와 화제성이 핵심인 카테고리(엔터테인먼트·문화)는 Quotation(권위 있는 인용구) + Fluency(가독성)

6. 정리: GEO 측정 체크리스트

마무리하면서 1편과 이번 2편의 내용을 실무 체크리스트로 만들면 아래와 같습니다.

단계	점검 사항
프롬프트 세트	자사 카테고리에 대해 15~25개의 고정 프롬프트가 의도별(Discovery/Comparison/Purchase/Concerns)로 균형 있게 설계되어 있는가? 시드 쿼리와 베리에이션 쿼리가 계층화·그룹화되어 있고, 분석용 태그(Intent / Category / Competitor 등)가 부여되어 있는가?
플랫폼 커버리지	최소 ChatGPT, Claude, Perplexity, Gemini 네 플랫폼을 추적하는가?
샘플링	동일 프롬프트당 최소 5회 응답을 수집해 변동성을 통제하는가
시계열 주기	디폴트 주단위로 운영하며, 위기 모니터링·신제품 런칭·고변동성 카테고리에 한해 일단위로 강화하는가
4계층 지표	Presence(Coverage·Citation Rate) Prominence(Share of Mentions·Average Position) Sentiment & Context(Sentiment Score) Source Ecosystem(Share of Domains·URLs·Industries·Authors) 네 계층을 균형 있게 측정하는가?
경쟁 기준	5~7개의 고정 경쟁사와 함께 Share of Voice를 산출하는가
액션 연결	측정 데이터를 Princeton 논문의 검증된 4가지 기법(Quotation / Statistics / Cite Sources / Fluency)으로 연결하는 워크플로우가 있는가?

측정은 끝이 아니라 시작이다.

GEO 측정의 목적은 단순히 브랜드가 AI 답변에 몇 번 등장했는지를 확인하는 데서 끝나지 않습니다. 측정 결과는 결국 AI가 우리 브랜드를 어떤 카테고리, 어떤 문제 해결 방식, 어떤 고객 상황과 연결해 이해하고 있는지를 파악하고, 그 이해가 자사 브랜드 전략과 일치하도록 콘텐츠와 외부 출처 생태계를 정비하는 작업으로 이어져야 합니다.

측정과 실행은 한 사이클입니다. 측정 없는 실행은 감(感)에 의존한 콘텐츠 생산이 되고, 실행 없는 측정은 진단으로만 끝나는 보고서가 됩니다. GEO를 시작하는 기업은 두 가지를 처음부터 묶어서 설계해야 합니다.

마무리하며,

검색의 무대는 이미 링크에서 답변으로 옮겨갔습니다. 그 답변 안에서 우리 브랜드가 어떤 자리를 차지하고 있는지, 측정 없이는 누구도 알 수 없습니다.

AI 검색 안에서 자사 브랜드의 현재 위치가 궁금하시다면, 디센트릭이 제공하는 검색 인텔리전스 플랫폼 Trajaan을 통해 ChatGPT, Claude, Perplexity, Gemini를 포함한 주요 GenAI의 인용 패턴을 글로벌 스케일로 진단해 드립니다. 문의하기

참고 자료

[1] Ahrefs, "AI Overviews Change Every 2 Days (But Never Change Their Mind)"

[2] GEO White Paper, August 2025

[3] Ahrefs, "Only 12% of AI Cited URLs Rank in Google's Top 10 for the Original Prompt", August 2025

[4] Superlines, AI Search Statistics 2026

[5] BrightEdge, "AI Overviews at the One-Year Mark", 2026

[6] BrightEdge, AI Overviews Impact Analysis, 2025

[7] Similarweb, "Zero-Click Search Analysis", 2025

[8] Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K., & Deshpande, A. (2024). "GEO: Generative Engine Optimization." KDD 2024

[9] Liu, Y. et al. (2023). "G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment." arXiv:2303.16634.

[10] Edelman, "GEOsight: A New Solution for Brand Visibility in AI Search", 2026

[11] Profound, Platform Citation Analysis, 2025

[12] Industry Analysis, 2026

[13] Similarweb, "AI Citation Analysis Framework", November 2025

[14] Statista, "AI's Primary Information Source in June 2025: Reddit Leads"

[15] Semrush, "We Analyzed 248K Reddit Posts: What Drives Visibility in AI Search", November 2025

[16] CMSWire, "Reddit's Rise in AI Citations: What Marketers Must Know About AEO Strategy", April 2026

박영일 이사 : yipark@spsamhwa.com

측정 없이 GEO는 가능한가: 학술 프레임워크와 5단계 측정 방법론

결론부터: 측정 없이는 GEO도 없다

1. GEO 측정이 어려운 세 가지 구조적 이유

최근 게시물

댓글