메타ai뉴스 이현우교수 칼럼
충격! 한국형 AI 대표회사들 ‘수능점수 20점에서 2점’ 이러다간 세계 골찌!!

메타AI뉴스 논설위원
인공지능융합연구소장 이현우 교수
“한국어만 잘하는 바보를 만들었다” 새로운 변화가 필요하다
2025년 12월 15일, 대한민국 AI 산업계는 뼈아픈 성적표를 받아들었다. 서강대 김종락 교수 연구팀이 발표한 ‘국가대표 AI 모델 수능 수학 평가’ 결과는 단순한 충격을 넘어 참담함 그 자체였다. 정부가 ‘독자 AI 파운데이션 모델 사업’의 정예팀으로 선정한 국내 5대 기업의 대형언어모델(LLM)들이, 우리가 그토록 자부했던 ‘한국형 AI’의 허상을 적나라하게 드러냈기 때문이다.
구글의 ‘제미나이 3’가 92점, 오픈AI의 ‘GPT-5.1’이 80점을 기록하며 인간 최상위권의 추론 능력을 뽐낼 때, 국내 모델들은 대부분 20점대라는 낙제점을 기록했다. 심지어 모 기업의 모델은 2점이라는 믿기 힘든 점수를 받았다. 이는 ‘찍어서 맞춰도 나올 수 없는’ 점수이며, 사실상 문제를 전혀 이해하지 못했다는 뜻이다.
우리는 그동안 “한국어는 한국 모델이 제일 잘한다”는 논리에 취해 있었다. 하지만 수학은 만국 공통어다. 미적분과 기하학 문제 앞에서 ‘한국적 맥락’은 핑계가 될 수 없다. 이번 결과는 한국 AI가 ‘말(Language)’은 유창하게 할지 몰라도, ‘생각(Logic)’은 멈춰 있다는 사실을 증명했다. 필자는 이번 사태를 냉철하게 팩트체크하고, 미국·중국·일본·프랑스의 사례를 심층 분석하여 한국 AI가 살아남기 위한 20가지 구체적인 생존 전략을 제안하고자 한다.
글로벌 팩트체크 – 그들은 ‘논리’를, 우리는 ‘눈치’를 가르쳤다
웹 리서치와 다국어 자료(영어, 중국어)를 분석해 보면, 이러한 격차는 이미 예견된 일이었다. 2024년 말부터 글로벌 AI 경쟁의 축은 ‘생성(Generation)’에서 ‘추론(Reasoning)’으로 급격히 이동했다.
미국의 오픈AI와 구글은 일찌감치 ‘시스템 1(직관적 반응)’에서 ‘시스템 2(논리적 사고)’로 훈련 방식을 전환했다. 그들은 AI에게 정답만 가르친 것이 아니라, 문제를 푸는 ‘생각의 사슬(Chain of Thought, CoT)’을 학습시켰다. 반면, 중국의 딥시크(DeepSeek)와 같은 모델들은 미국의 반도체 제재라는 악조건 속에서도 ‘STEM(과학·기술·공학·수학)’ 데이터 비중을 극한으로 높여 모델의 논리적 밀도를 강화했다.
그러나 한국은 어떠했는가? 우리는 ‘한국어 벤치마크’ 점수 올리기에만 급급했다. 높임말을 잘 쓰는지, 한국의 문화적 뉘앙스를 아는지에 집착하느라, 정작 AI의 지능 지수(IQ)에 해당하는 논리 추론 훈련을 소홀히 했다. ‘한국어 잘하는 바보’를 양산한 셈이다. 이제 우리는 이 처참한 성적표를 인정하고, 완전히 새로운 판을 짜야 한다.
본론 2: 위기 극복을 위한 20가지 대전환 전략
필자는 영어권의 최신 논문, 중국의 기술 백서, 일본과 프랑스의 국가 AI 전략 보고서를 종합하여, 지금 당장 실행해야 할 20가지 해법을 제시한다.
첫째, 데이터와 학습 전략의 혁명적 변화 (Data & Training)
가장 시급한 것은 ① 수학 및 코딩 데이터 비중의 50% 이상 확대다. 언어 데이터는 이미 충분하다. 중국 모델들이 언어 능력보다 논리 능력에서 앞서는 이유는 학습 데이터의 과반수를 수학 문제와 코딩으로 채웠기 때문이다. 또한, ② 한국형 ‘CoT(생각의 사슬)’ 데이터를 국산화해야 한다. 단순히 “정답은 3번”이 아니라, 왜 3번인지 설명하는 논리 과정을 담은 데이터를 대규모로 구축해야 한다.
데이터가 부족하다면 ③ 합성 데이터(Synthetic Data) 공장을 가동해야 한다. 앤트로픽의 사례처럼, AI가 생성하고 인간 전문가가 검수하는 방식으로 고품질 논리 데이터를 자체 생산해야 한다. 학습 방식도 바꿔야 한다. 무작위 학습이 아닌, ④ 교과서 중심의 ‘커리큘럼 러닝(Curriculum Learning)’을 도입하여 초등 수학부터 고등 수학까지 단계적으로 지능을 높여야 한다. 아울러 텍스트뿐만 아니라 도표와 그래프를 이해하는 ⑤ 멀티모달 추론 훈련도 필수적이다.
둘째, 모델 아키텍처와 기술적 도약 (Architecture & Tech)
거대하기만 한 모델은 끝났다. 프랑스 미스트랄(Mistral)의 전략을 본받아 ⑥ MoE(전문가 혼합) 구조를 전면 도입해야 한다. 수학 문제는 수학 전문가 모델이, 문학은 문학 모델이 처리하게 하여 효율을 높여야 한다. 또한 챗봇과 별도로, 시간이 걸리더라도 깊게 생각하는 ⑦ 추론 전용 ‘Thinking’ 모델(O1 계열)의 별도 개발이 시급하다.
튜닝 방식도 달라져야 한다. 인간의 말투를 흉내 내는 것이 아니라, ⑧ 정답의 정확성에 보상을 주는 강화학습(Process Supervision)으로 기준을 바꿔야 한다. 매개변수 경쟁보다는 **⑨ 8B~70B 사이즈의 ‘작지만 똑똑한 모델(Small Giant)’에 집중하여 실용성을 확보해야 하며, 딥러닝의 한계를 보완하기 위해 ⑩ 뉴로-심볼릭(Neuro-Symbolic) AI 기술을 결합, 계산이 필요한 영역은 프로그래밍 코드를 호출해 해결하도록 해야 한다.
셋째, 국가 인프라와 정책의 재설계 (Policy & Infra)
일본의 사례는 좋은 참고서다. 일본 정부가 기업 연합에 막대한 자금을 쏟아붓듯, 우리도 ⑪ 국가 주도 ‘AI 컴퓨팅 바우처’를 무제한 공급하여 연구자들이 GPU 걱정 없이 실험하게 해야 한다. 파편화된 기업들의 경쟁을 넘어 ⑫ 일본식 ‘소버린(Sovereign) AI’ 연합체를 구성, ‘한국형 통합 추론 엔진’을 공동 개발해야 한다.
폐쇄적인 전략도 버려야 한다. ⑬ 프랑스식 오픈 소스 생태계 전략을 취하여, 우리 모델의 가중치를 공개하고 전 세계 개발자들이 이를 튜닝하며 성능을 개선하도록 유도해야 한다. 교육 측면에서는 ⑭ AI 리터러시 교육을 개편하여, 학생들에게 논리적 프롬프트 엔지니어링을 가르쳐야 한다. 하드웨어 측면에서는 엔비디아 의존도를 낮추고 ⑮ 국산 NPU에 최적화된 경량 모델 개발로 기술 자립을 이뤄야 한다.
넷째, 평가 시스템과 인재 양성의 재정의 (Evaluation & Talent)
평가가 바뀌어야 기술이 바뀐다. 이번 수능 평가를 일회성 이벤트가 아닌 ⑯ ‘한국형 AI 수능’으로 정례화하고 매달 리더보드를 공개해야 한다. 인재 채용에서도 ⑰ 이공계 융합 인재를 우대하여, 언어학자 중심의 데이터 팀에 수학자와 논리학자를 투입해야 한다.
정부는 R&D 예산 배정 시 ⑱ ‘실패 용인’ 예산을 신설하여 당장 돈이 안 되는 기초 추론 연구를 지원해야 한다. 또한 모든 정부 지원 사업의 평가지표를 한국어 성능이 아닌 ⑲ 글로벌 수학 벤치마크(MATH, GSM8K) 점수로 변경해야 한다. 마지막으로, 기업과 대학이 데이터를 공유하는 ⑳ 산학연 ‘원팀(One-Team)’ 데이터 뱅크를 설립하여 데이터 부족 문제를 해결해야 한다
결론
이러다간 세계 골찌 ‘말만 잘하는 바보’에서 ‘문제 해결사’로 획기적인 대수술이 필요하다
이번 서강대 연구팀의 평가는 한국 AI 산업에 내려진 준엄한 꾸지람이다. 솔라 프로-2가 58점으로 그나마 체면치레를 했지만, 1등과의 격차는 여전히 30점 이상이다. 2점, 20점대라는 점수는 우리가 AI를 바라보는 시각이 얼마나 안일했는지를 보여주는 증거다.
일본은 ‘Physical AI’로 로봇과 실생활의 결합을 시도하고 있고, 중국은 ‘수학적 지능’을 무기로 미국의 기술 장벽을 넘고 있다. 이제 우리도 ‘한국어가 자연스럽다’는 자기 위안에서 벗어나야 한다. AI의 본질은 언어(Language)가 아니라 지능(Intelligence)이다.
지금 제안한 20가지 전략은 단순한 기술적 제언이 아니다. 한국 AI의 체질을 ‘문과형 AI’에서 ‘이과형 AI’로, ‘말 잘하는 비서’에서 ‘문제를 해결하는 해결사’로 바꾸자는 호소다. 2025년 12월의 ‘수학 2점’ 쇼크가 한국 AI 역사에서 가장 치욕적인 순간이 아닌, 위대한 도약의 발판인 ‘스푸트니크 모멘트’로 기록되기를 간절히 바란다.
“지금 당장, 다시 수학책을 펼쳐야 할 때다.”
편집워원 이현우교수
heir201933@gmail.com