Google이 발표한 최초의 네이티브 멀티모달 임베딩 모델이 음성 에이전트 아키텍처에 미치는 영향을 분석합니다.
2026년 3월 10일 발표된 Gemini Embedding 2는 텍스트, 이미지, 비디오, 오디오, PDF를 하나의 통합 임베딩 공간에 매핑하는 Google 최초의 네이티브 멀티모달 임베딩 모델입니다. Voice Agent 관점에서 가장 주목할 점은 중간 STT 변환 없이 오디오를 직접 임베딩할 수 있다는 것입니다.
기존 파이프라인: 음성 → STT(Whisper 등) → 텍스트 청킹 → 텍스트 임베딩 → 벡터DB
새 파이프라인: 음성 → 오디오 청킹 → 바로 임베딩 → 벡터DB
STT 단계가 제거됨으로써 레이턴시 감소, 부수언어 정보(톤·강세·화자 정체성) 보존, 비음성 오디오 처리 가능이라는 세 가지 이점이 생깁니다.
모든 입력 제약이 "한 청크 단위"에 최적화되어 있어, 장시간 오디오는 반드시 청킹 전략이 필요합니다. 오디오 80초 제한은 콜센터 통화(수 분~수십 분)를 감안했을 때 VAD 기반 분할이 사실상 필수적입니다.
핵심 변화는 STT 단계의 제거입니다. 이는 레이턴시와 비용뿐 아니라 텍스트 변환 과정에서 손실되던 부수언어 정보(억양, 감정, 강세, 화자 특성)가 임베딩에 보존될 수 있음을 의미합니다.
다만, 오디오 청킹의 난이도는 텍스트 청킹보다 높습니다. 텍스트는 문장/문단 단위로 자르면 의미가 보존되지만, 오디오는 발화 중간에 잘리면 임베딩 품질이 크게 떨어질 수 있습니다.
아래는 Google이 공개한 Gemini Embedding 2의 멀티모달 벤치마크 비교 테이블입니다. 기존 멀티모달 임베딩(multimodalembedding@001), Amazon Nova 2, Voyage Multimodal 3.5와 비교됩니다.
주목할 점은 Speech-Text 카테고리입니다. MSEB(mrr@10) 73.9, MSEB ASR(mrr@10) 70.4를 기록했는데, 비교 대상인 Amazon Nova 2와 Voyage Multimodal 3.5 모두 이 태스크를 지원하지 않거나 점수가 공개되지 않았습니다. 현재 이 영역에서 비교 가능한 상용 임베딩 모델이 사실상 없다는 뜻이며, Voice Agent RAG에 있어 독보적인 포지션을 갖고 있습니다.
텍스트-텍스트 영역에서도 MTEB Multilingual 69.9, MTEB Code 84.0으로 기존 gemini-embedding-001 대비 의미 있는 향상을 보이며, 이미지·비디오 크로스모달 검색에서는 경쟁 모델을 10~15포인트 이상 앞서고 있습니다.
Gemini Embedding 2는 "임베딩 모델"이라는 카테고리 안에서 오디오를 1급 시민으로 끌어올린 최초의 상용 모델입니다. Voice Agent RAG 파이프라인에서 STT라는 구조적 병목을 제거할 수 있는 가능성을 열어주며, 특히 Speech-Text 크로스모달 검색에서 현재 비교 대상이 없는 독보적인 포지션에 있습니다.
다만 오디오 80초 제한, Public Preview 상태, API 의존성(폐쇄망 미지원) 등 프로덕션 적용까지는 검증이 필요합니다. 현 시점에서는 PoC 수준의 파일럿을 통해 기존 STT+텍스트 임베딩 파이프라인 대비 검색 품질·레이턴시·비용을 비교 평가하는 것을 권장합니다.