글로벌 음성 AI 기업, ‘Eleven v3’ 기반 70개 이상 언어 지원
AI 에이전트 초저지연 다국어 응대로 제작·상담 효율성 극대화
‘3C 프레임워크’ 통한 책임 있는 기술 활용·장기 투자 전략 강조

마티 스타니셰프스키(Mati Staniszewski) 공동 창업자 겸 CEO가 ‘일레븐랩스의 시작과 미래’를 주제로 발표하고 있다. 사진=이지경제
마티 스타니셰프스키(Mati Staniszewski) 공동 창업자 겸 CEO가 ‘일레븐랩스의 시작과 미래’를 주제로 발표하고 있다. 사진=이지경제

영국 본사의 AI 오디오 연구 및 개발 전문기업 일레븐랩스(ElevenLabs)가 한국 시장 공식 진출을 선언했다. 21일 서울 강남 JW메리어트호텔에서 열린 기자간담회에서 마티 스타니셰프스키(Mati Staniszewski) 공동 창업자 겸 CEO는 ‘일레븐랩스의 시작과 미래’를 주제로 전통적인 더빙 방식의 한계를 극복하기 위해 설립된 회사의 비전과 기술력, 한국 시장 전략을 상세히 공개했다.

스타니셰프스키 CEO는 “일레븐랩스는 기술에 목소리를 부여하고 세상의 지식과 이야기, 에이전트에 생명을 불어넣는 음성 AI 크리에이티브 기업”이라며 “현재 5000만명 이상의 월간 활성 사용자, 66억 달러 약 9조7264억원의 기업 가치 평가액을 기록하고 있으며 포춘 500대 기업 중 75%를 포함해 EST, 크래프톤, 네이버 등의 국내 고객사를 보유한 AI 유망 기업”이라고 회사를 소개했다.

일레븐랩스는 음성 특화 언어모델과 설루션으로 전통 더빙 방식의 한계를 극복하는 기술을 제공한다. 국내에서는 네이버와 LG유플러스가 투자했으며 크래프톤, 이스트소프트, MBC C&I, SBS 등을 고객사로 확보하고 있다. 현재 70개 이상 언어와 7000개 이상의 보이스를 지원하며 세계 개발자와 크리에이터들이 활발히 활용하고 있다.

스타니셰프스키 CEO는 “일레븐랩스의 기반 모델은 음성 합성, 오디오, 제어 가능성, 인간과 유사한 상호작용에 대한 최첨단 연구를 바탕으로 만들어졌다”며 “TTS, STT, AI 더빙, 보이스 클로닝, 사운드 효과, 음성 분리, 일레븐 뮤직, 에이전트 오케스트레이션 등이 일레븐랩스의 독보적인 제품 경쟁력”이라고 설명했다.

회사는 연구 성과를 누구나 접근 가능한 API 레이어를 통해 제공하는 API 파운데이션을 운영하고 있다. 또 AI 기반의 통합 협업형 크리에이티브 플랫폼과 핵심 연구를 실시간 자연스러운 음성과 깊이 있는 추론, 동적인 상호작용으로 구현해 AI 에이전트를 구동하는 에이전트 플랫폼 등 다양한 서비스 모델을 운영하고 있다.

이날 간담회에서 가장 주목받은 것은 ‘상용 수준의 AI 에이전트 플랫폼’이다. 이 플랫폼은 0.5초 미만의 초저지연 속도로 인간 수준의 자연스러움을 제공하며 7000개 이상의 보이스와 32개 언어를 지원해 완벽한 경험을 제공한다. CRM, 고객지원, 결제, 전화 시스템 등 다양한 워크플로우를 연결하여 문제를 해결하고 전환율 향상과 매출 창출을 지원한다. 여기에 실시간 분석, 평가, 추적하는 모니터링 기능과 주요 보안 및 규제 기준을 준수하는 엔터프라이즈급 보안 및 안정성을 갖추고 있다.

스타니셰프스키 CEO는 실제 도입 사례를 소개하며 “약 3000만명 이상의 고객을 보유한 대형 디지털은행이 일레븐랩스의 AI 에이전트 플랫폼을 도입한 결과, 에이전트 처리 시간이 85% 단축되고 신용카드 관련 문의의 50%를 AI가 처리하며 기획부터 전면 런칭까지 2개월 미만으로 진행되는 성과를 이뤘다”고 설명했다.

그는 “타사의 엔드투엔드 방식은 감사 및 관측이 어렵고 엔터프라이즈의 요구사항을 충족하는 데 한계가 있다”고 말했다. 이어 “일레븐랩스의 경우엔 모델 고도화로 스트리밍 ASR/TTS의 지연시간이 크게 감소하고 LLM 추론 속도도 대폭 향상돼 지연시간 개선 효과가 뚜렷하다”며 기술적 차별성도 강조했다.

AI 오디오의 미래에 대해서도 그는 명확한 비전을 제시했다. 그는 “웨어러블에서부터 자동차에 이르기까지 모든 디바이스가 우리가 무엇을 말하는지, 어떻게 말하는지를 이해할 수 있는 것이 AI 오디오의 미래”라며 “이는 일레븐랩스의 보안성 높은 클라우드 기반 보이스 인텔리전스로 구현된다”고 강조했다. 이어서 “궁극적으로 AI 오디오의 미래는 언어의 장벽을 완전히 허물어 모든 음성과 콘텐츠가 실시간 번역과 완벽한 더빙을 통해 전 세계 어디서나 접근 가능하게 만들 것”이라고 전망했다. 그는 “미래는 오디오를 넘어 이미지와 영상까지 아우르는 완전한 옴니 크리에이티브 경험이 제공될 것이고 맥락을 이해하고 감정에 반응하는 에이전트가 모든 접점에서 일관되고 매끄러운 상호작용을 가능하게 할 것”이라 예측했다.

한국어 처리의 기술적 난제에 대한 질문에 스타니셰프스키 CEO는 “한국어는 기술적으로 대단히 까다로운 언어”라고 인정했다. 그는 “발음 자체의 복잡성뿐만 아니라 문장의 맥락에 따라 내용이 달라지는 경우가 많아 고품질 음성 구현을 위해 상당한 시간을 투자했다”며 “특히 사투리 인식에는 한계가 있었지만 발음과 억양, 문장 맥락 파악 등을 충족할 수 있는 고도화된 모델을 제작했다”고 설명했다.

보이스피싱 등 기술 악용 가능성에 대해서는 강한 책임감을 표명했다. 스타니셰프스키 CEO는 “기술이 악용되는 것을 제대로 방지해야겠다는 책임감을 느끼고 있다”며 “현재 중재와 조율을 진행 중이고 악용될 여지가 있다고 판단되면 즉시 탐지하는 시스템을 운영하고 있다”고 밝혔다. 그는 “이를 위해 보안 관련 기업들과 협력해 관련 툴을 개발하고 있다”고 덧붙였다.

홍상원 일레븐랩스 한국지사장이 한국 시장의 전략적 중요성에 대해 설명했다. 사진=이지경제
홍상원 일레븐랩스 한국지사장이 한국 시장의 전략적 중요성에 대해 설명했다. 사진=이지경제

이어진 홍상원 일레븐랩스 한국지사장의 발표에서는 한국 시장의 전략적 중요성이 부각됐다. 홍 지사장은 “대기업의 65.1%가 이미 AI를 도입했고 근로자의 63.5%가 생성형 AI를 일상적으로 활용하는데 이는 글로벌 평균의 2배가 넘는 수치”라고 말했다. 이어 “정부는 2026년 AI 분야에 10조1000억원이라는 전례 없는 예산을 편성하며 AI 3대 강국 도약을 선언했으며 99.98%의 모바일 인터넷 보급률, 세계 1위 5G 인프라 등이 일레븐랩스가 한국시장에 주목하는 이유”라고 설명했다.

그는 “무엇보다 한국은 혁신을 가장 빠르게 수용하는 시장”이라며 “23%의 얼리어답터 비율, K-Pop과 K-Drama로 입증된 글로벌 콘텐츠 파워, 세계에서 가장 까다로운 서비스 기준이 한국 시장을 최적의 시장으로 만들고 있다”고 전했다.

홍상원 지사장은 한국 시장에 집중할 두 가지 핵심 영역으로 K-콘텐츠의 진정한 글로벌화와 고객 경험의 완전한 재창조를 제시했다. K-콘텐츠의 글로벌화에 관해 그는 “K-콘텐츠가 세계를 사로잡았지만 언어 장벽은 여전했다”며 “우리의 Eleven v3는 이 장벽을 완전히 제거하고 70개 이상 언어를 지원하면서 웃음, 한숨, 감탄사, 숨소리까지 그대로 전달한다”고 소개했다, 이와 함께 “화자 자동 분리, 타임라인 편집, API를 통한 대량 처리로 더빙 시간을 극적으로 단축해 제작 효율성도 획기적으로 개선된다”고 덧붙였다.

고객 경험의 재창조에 대해서 그는 “500밀리초 이하 응답속도의 초저지연 음성 에이전트가 24시간 다국어로 응대하며 이는 인간과 AI의 시너지로 AI가 반복 문의의 70%를 처리하는 동안 상담사는 진짜 공감과 창의성이 필요한 복잡한 케이스에 집중할 수 있다”고 설명했다.

일레븐랩스는 AI 음성 기술의 책임 있는 사용을 위해 딥페이크 악용, 저작권 침해, 출처 불명, 불공정 이용 등의 우려를 방지하는 ‘3C 프레임워크’도 발표했다, Consent, Control, Compensation으로 구성된 이 프레임워크는 시작부터 철저한 검증 단계를 거치고 완벽한 추적과 차단 시스템을 운영하며 공정한 수익 창출 생태계를 구축하는 것을 골자로 한다.

홍 지사장은 “한국이 아시아 보이스 AI의 허브가 되는 그날까지 일레븐랩스가 한국 고객들과 함께하겠다”며 한국 시장에 대한 장기적 투자 의지를 밝혔다. 음성 AI 분야 글로벌 리더의 한국 진출이 국내 AI 생태계와 K-콘텐츠 산업에 어떤 변화를 가져올지 주목된다.

저작권자 © 이지경제 무단전재 및 재배포 금지