알리바바의 딥 리서치 에이전트
새로운 시대의 개척자

글로벌연합대학 버지니아대학교
인공지능융합연구소장 이현우 교수
2025년 9월, 인공지능(AI) 업계는 새로운 소식 하나에 뜨겁게 달아올랐다. 거대 기술 기업 알리바바가 ‘통이 딥리서치(Tongyi DeepResearch)’라는 이름의 완전 오픈소스 웹 에이전트를 세상에 공개했기 때문이다. 일반적으로 웹 탐색과 심층 연구는 수천억, 심지어 수조 개의 매개변수를 사용하는 초대형 모델의 전유물로 여겨져 왔다. 하지만 알리바바는 이 통념을 깨고, 단 300억 매개변수 중 30억 개만을 활성화하는 혁신적인 구조를 통해 오픈AI의 최고 성능 모델과 견줄 만한 성과를 달성했다고 발표했다. 이는 단순히 기술적 진보를 넘어, AI 개발의 새로운 패러다임을 제시하는 중요한 사건으로 평가받고 있다.
작은 거인의 등장
통이 딥리서치의 등장은 마치 다윗과 골리앗의 싸움을 연상시킨다. 수조 개의 매개변수로 무장한 거대 AI 모델들이 웹 공간을 장악하고 있을 때, 통이 딥리서치는 훨씬 효율적이고 경량화된 구조를 들고 나왔다. 이 모델의 핵심은 바로 ‘전문가 혼합(Mixture of Experts, MoE)’ 구조다. 300억 개의 매개변수 중 특정 작업에 가장 적합한 30억 개만을 선택적으로 활성화하여 필요한 연산량을 획기적으로 줄였다. 이처럼 효율성을 극대화한 설계 덕분에, 통이 딥리서치는 방대한 웹을 탐색하며 복잡한 연구를 수행하고 정확한 보고서를 작성하는 능력을 발휘할 수 있게 되었다.
이 경량화된 모델이 거대 모델에 필적하는 성능을 낼 수 있다는 알리바바의 주장은 많은 이들의 호기심을 자극했다. 특히, 오픈소스라는 점은 전 세계 개발자 커뮤니티의 폭발적인 관심을 불러일으켰다. 누구나 이 모델을 다운로드하고 수정하며 상업적으로 활용할 수 있게 되면서, 웹 에이전트 기술의 문턱이 대폭 낮아졌다. 이는 마치 올해 초 적은 비용으로 오픈AI 모델과 유사한 성능을 냈던 ‘딥시크(DeepSeek)’의 등장에 비견될 만한 사건으로 평가받고 있다. 통이 딥리서치는 거대 자본과 인프라가 있어야만 개발 가능한 것으로 여겨졌던 심층 연구 AI 분야에 새로운 바람을 불어넣고 있다.
성능 벤치마크, 놀라운 결과
알리바바가 공개한 벤치마크 결과는 통이 딥리서치의 성능을 명확하게 입증했다. 특히, ‘인류의 마지막 시험(Humanity’s Last Exam, HLE)’ 벤치마크에서 이 모델은 32.9점을 기록하며 오픈AI의 ‘o3’을 제치고 1위를 차지하는 기염을 토했다. 이는 인간의 지식과 추론 능력을 종합적으로 평가하는 HLE 테스트에서 통이 딥리서치가 최상위권의 성능을 보였음을 의미한다.
물론 모든 분야에서 1위를 차지한 것은 아니다. 인터넷 탐색 능력을 평가하는 ‘브라우즈컴프(BrowseComp)’에서는 43.4점으로 o3의 49.7점에 근접했으며, 중국어 버전인 ‘브라우즈컴프-ZH’에서는 46.7점으로 2위를 기록했다. 그러나 다른 분야에서는 모두 최고의 성능을 달성했다. 도구 사용 능력 측정 테스트인 ‘x벤치-딥서치(xbench-DeepSearch)’에서 75.0점, 웹 탐색 능력 테스트 ‘웹워커QA(WebWalkerQA)’에서 72.2점, RAG(Retrieval-Augmented Generation) 역량 테스트 ‘프레임즈(FRAMES)’에서 90.6점을 기록했다. 특히 법률 연구 분야에서는 판례 인용 정확도 64.26, 핵심 논점 정확도 88.28로 오픈AI와 앤트로픽의 딥리서치를 모두 앞서는 결과를 보였다.
이러한 수치들은 통이 딥리서치가 특정 분야에만 강점을 가진 것이 아니라, 광범위한 영역에서 매우 뛰어난 성능을 발휘한다는 것을 증명한다. 특히 웹 탐색, 문서 분석, 정보 통합 등 복잡한 연구 과제에 특화된 능력은 기존의 경량 모델들과는 확연히 다른 차원의 경쟁력을 보여준다.
‘통이 딥리서치’의 탄생 비화
통이 딥리서치가 어떻게 이처럼 놀라운 성능을 달성할 수 있었는지를 이해하려면, 그 개발 과정에 주목할 필요가 있다. 이 모델은 인간의 라벨링 데이터 없이 완전 자동화된 학습 파이프라인을 통해 개발된 웹 기반 AI 에이전트다. 연구진은 라이브 웹 API 사용에 따른 비용과 변동성을 최소화하기 위해 독특한 방법을 택했다. 바로 위키피디아 지식 기반을 복제한 안정적인 시뮬레이션 환경에서 시행착오(trial-and-error) 방식으로 학습하도록 설계한 것이다. 이 시뮬레이션 환경은 실제 웹과 유사한 행동을 수행하게 함으로써 모델의 실제 환경 적응력을 높였다.
또한, 맞춤형 도구 샌드박스를 사용하여 에이전트가 코드를 작성하고 실행하는 과정을 안정적으로 만들었다. 데이터 큐레이션 엔진은 모델의 성능에 따라 학습 데이터를 동적으로 조정하며 점점 더 난이도 높은 합성 데이터를 생성했다. 이 과정은 모델이 스스로 한계를 극복하며 진화할 수 있는 자율적인 학습 메커니즘을 제공한다.
통이 딥리서치는 ‘에이전트파운더-30B(AgentFounder-30B)’와 ‘웹세일러-V2-30B-A3B(WebSailor-V2-30B-A3B)’라는 두 가지 에이전트 모델을 기반으로 한다. 에이전트파운더는 새로운 ‘지속 사전 훈련(Continual Pre-training)’ 방식을 통해 에이전트의 행동 능력을 사전 학습하고, 웹세일러는 이중 시뮬레이션 환경에서 강화 학습(RL)을 적용하여 사후 학습을 최적화한다. 이 두 모델의 시너지는 통이 딥리서치가 초대형 상용 모델과 맞먹는 성능을 발휘하는 기반이 되었다.
에이전트의 사고 방식과 활용
통이 딥리서치의 학습 과정은 세 단계로 이루어졌다. 첫 번째 단계인 CPT(지속 사전 훈련)에서는 에이전트파운더가 지식 그래프, 문서, 도구 사용 기록 등을 활용해 방대한 양의 합성 질의응답(QA) 데이터를 만들었다. 두 번째 단계인 SFT(지도 미세조정)에서는 이 데이터를 기반으로 모델의 기초 능력을 다졌다. 마지막 세 번째 단계인 RL(강화 학습)에서는 GRPO(그룹 상대 정책 최적화) 알고리즘을 활용해 토큰 단위 학습, 저품질 데이터 필터링 등을 수행하며 모델의 학습을 안정적이고 효율적으로 최적화했다.
이렇게 훈련된 통이 딥리서치는 추론 시 두 가지 모드를 지원하여 다양한 과제에 유연하게 대응한다. ‘리액트(ReAct) 모드’는 ‘사고-행동-관찰(Thought-Action-Observation)’ 루프를 따르며, 별도의 프롬프트 조정 없이도 모델의 기본적인 능력을 시연한다. 이는 에이전트의 성능을 깔끔하고 반복 가능한 환경에서 벤치마킹하는 직관적인 방법을 제공한다.
‘헤비(Heavy) 모드’는 복잡한 다단계 연구 작업에 최적화된 방식이다. 연구 과제를 여러 개의 독립적인 라운드로 나누어 처리하며, 긴 컨텍스트 환경에서도 효율적인 추론과 정보 처리가 가능하게 한다. 각 라운드에서는 집중된 작업 공간을 재구성하여 에이전트가 정보를 더 수집할지, 아니면 답안을 생성할지 스스로 결정한다. 특히 어려운 문제의 경우 여러 에이전트를 병렬로 실행하고, 최종적으로 합성 에이전트가 그 결과들을 통합하여 가장 정확하고 포괄적인 답안을 도출한다.
결론: 오픈소스, 새로운 패러다임을 열다
알리바바의 통이 딥리서치는 단순한 기술적 성취를 넘어 AI 생태계에 중요한 메시지를 던지고 있다. AI 기술이 소수 거대 기업의 전유물이 아니라, 누구나 접근하고 기여할 수 있는 공공재가 될 수 있음을 보여준 것이다. ‘훨씬 큰 모델을 능가하는 경량 AI’라는 평가를 받으며, 이 모델은 오픈소스 커뮤니티와 전문가들 사이에서 빠르게 화제로 떠올랐다.
통이 딥리서치는 AI 개발의 비용과 진입 장벽을 낮추면서도 높은 성능을 유지하는 혁신적인 방법을 제시했다. 특히 자동화된 학습 파이프라인과 시뮬레이션 환경에서의 훈련 방식은 실제 웹 환경의 변동성에 구애받지 않고 모델을 효율적으로 개발할 수 있는 새로운 가능성을 열었다. 허깅페이스, 깃허브, 모델스코프를 통해 공개된 이 모델은 앞으로 수많은 개발자들의 손에서 더욱 발전하고 다양하게 활용될 것이다. 알리바바의 이번 행보는 AI 기술이 더욱 개방적이고 협력적인 방향으로 나아가는 중요한 전환점이 될 것으로 보인다.
편집위원 이현우 교수
heir201933@gmail.com