메타AI뉴스

AI의 ‘아킬레스건’을 찌르다, 보안의 구멍AI 효율성이 아닌 안전성을 따져야…

메타AI뉴스 이현우 교수 칼럼

AI의 ‘아킬레스건’을 찌르다, 보안의 구멍
AI 효율성이 아닌 안전성을 따져야…

글로벌연합대학 버지니아대학교
인공지능융합연구소장 이현우 교수

2025년 12월 26일, 전 세계 보안 전문가들의 이목이 집중된 국제학술대회 ‘ACSAC 2025’에서 대한민국 KAIST의 젊은 연구진이 쏘아 올린 신호탄은 그야말로 충격적이었습니다. 신승원, 손수엘 교수팀이 발표한 연구는 단순히 기술적 결함을 찾아낸 것을 넘어, 현재 AI 산업계가 맹신하고 있는 ‘효율성’이라는 신화에 묵직한 경종을 울렸기 때문입니다. 그들은 현재 가장 진보된 AI 아키텍처로 꼽히는 ‘전문가 혼합(Mixture of Experts, 이하 MoE)’ 모델이 실상은 해커들에게 활짝 열린 뒷문이 될 수 있음을 세계 최초로 증명했습니다. 오늘 칼럼에서는 이 사건이 갖는 기술적, 지정학적 의미를 짚어보고, 우리가 나아가야 할 구체적인 대응책을 논해보고자 합니다.

효율성의 역설: 수백 명의 전문가 속에 숨어든 ‘스파이’

우선 팩트체크부터 시작해 봅시다. 현재 오픈AI의 GPT-4, 구글의 제미나이(Gemini), 그리고 최근 급부상한 딥시크(DeepSeek)까지, 소위 ‘잘나가는’ AI 모델들은 예외 없이 MoE 구조를 채택하고 있습니다. MoE는 거대한 하나의 두뇌 대신, 수많은 ‘작은 전문가(Expert)’ 모델들을 거느린 형태입니다. 질문이 들어오면 ‘라우터(Router)’가 가장 적합한 전문가를 골라 답변하게 하죠. 이 방식은 연산 비용은 줄이면서 성능은 극대화할 수 있어 AI 모델 대형화의 일등 공신으로 꼽혀왔습니다.
하지만 KAIST 연구진이 발견한 ‘MoEvil(모이빌)’ 공격 기법은 이 구조의 허점을 정확히 찔렀습니다. 연구진은 모델 전체를 해킹할 필요 없이, 오픈소스 생태계에 유통되는 수많은 전문가 모델 중 단 하나만 악의적으로 조작해 심어두면 된다는 것을 입증했습니다. 평소에는 정상적으로 작동하던 AI가, 해커가 심어둔 특정 트리거(Trigger)가 발동되는 순간 돌변합니다. 실험 결과, 유해 응답 발생률은 0%에서 순식간에 80%까지 치솟았으며, 라마(Llama) 기반 모델의 유해성 점수는 0.58에서 79.42로 급증했습니다. 이는 거대 댐이 작은 균열 하나로 무너질 수 있음을 보여주는, 소위 ‘공급망 공격(Supply Chain Attack)’이 AI의 신경망 깊숙한 곳까지 침투했음을 알리는 서막입니다.

세계가 바라보는 시선: 3국 3색의 우려와 경고

이번 사태를 바라보는 글로벌 시각은 각국의 이해관계에 따라 미묘하게, 그러나 심각하게 갈리고 있습니다.
미국의 주요 기술 매체와 보안 커뮤니티는 이를 ‘공급망 보안(Supply Chain Security)’의 관점에서 해석합니다. 뉴욕타임스와 AI 타임즈 등 주요 외신은 이번 연구를 인용하며, 소프트웨어 부품을 검증하듯 AI 모델의 구성 요소도 검증해야 한다고 목소리를 높입니다. 실제 미국 테크 포럼에서는 “Just as we audit software libraries for vulnerabilities, we must now audit individual neural network components.” (소프트웨어 라이브러리의 취약점을 감사하듯, 이제는 개별 신경망 구성 요소를 감사해야 한다)라는 주장이 힘을 얻고 있습니다. 이는 NIST(국립표준기술연구소)가 추진 중인 AI 안전성 표준이 모델의 결과값뿐만 아니라, 그 내부 구성 요소인 ‘전문가’ 모델의 출처까지 검증하는 방향으로 강화될 것임을 시사합니다.

반면, 사회적 통제를 중시하는 중국의 반응은 ‘콘텐츠 안전’에 방점이 찍혀 있습니다. 중국의 보안 전문가들은 “安全第一:必须严格审查开源专家模型的来源,防止恶意代码通过MoE架构渗透.” (안전 제일: 오픈소스 전문가 모델의 출처를 엄격히 심사하여, MoE 구조를 통해 악성 코드가 침투하는 것을 막아야 한다)라고 강조합니다. 알리바바나 딥시크 등 자국 기업들이 MoE를 적극 활용하는 상황에서, 이 취약점이 체제 위협적인 정보를 생성하는 데 악용될 가능성을 국가 안보 차원의 위협으로 간주하는 것입니다.
유럽은 강력한 규제 프레임워크인 ‘EU AI Act’를 무기로 들고나왔습니다.
프랑스와 스페인 등 유럽의 학계는 “La transparence de l’architecture MoE est non négociable.” (MoE 아키텍처의 투명성은 협상의 여지가 없다), “Necesitamos una auditoría forense para cada ‘experto’ en el modelo.” (우리는 모델 내 각 ‘전문가’에 대한 포렌식 감사가 필요하다)라며, 윤리적 기준을 충족하지 못한 전문가 모델이 포함된 AI의 시장 진입 자체를 불허해야 한다고 주장합니다.

제안사항, AI 보안의 새로운 방파제를 쌓으며
KAIST의 연구는 우리에게 숙제를 던졌습니다. 이제는 “어떻게 더 똑똑한 AI를 만들까”가 아니라 “어떻게 믿을 수 있는 AI를 만들까”를 고민해야 할 때입니다. 이에 본 칼럼니스트는 기술, 운영, 정책을 아우르는 20가지의 구체적인 솔루션을 제안합니다.

첫째, 기술적 방어 체계의 혁신이 시급합니다. 가장 먼저 도입해야 할 것은 (1)’전문가 모델 무결성 서명(Expert Digital Signing)’입니다. 마치 공인인증서처럼, 검증된 배포자가 만든 모델인지 확인된 경우에만 시스템이 로드하도록 강제해야 합니다. 또한, (2)’라우팅 감시 시스템’을 통해 특정 전문가에게 비정상적으로 트래픽이 몰리는 것을 실시간으로 탐지하고, (3)’랜덤화된 전문가 활성화’ 기술을 통해 특정 모델에 대한 의존도를 낮춰야 합니다. 라우터 자체가 속지 않도록 (4)’적대적 훈련’을 강화하고, 외부에서 가져온 전문가 모델은 시스템의 핵심 권한에 접근하지 못하도록 (5)’샌드박스(Sandbox)’ 내에 격리해야 합니다. 더 나아가, 주요 가중치 분포를 분석해 독극물 주입 흔적을 찾는 (6)’뉴런 단위 감사’와 여러 전문가의 답변을 교차 검증하는 (7)’출력 일관성 체크’ 시스템이 기본 탑재되어야 할 것입니다.
둘째, 운영 프로세스의 대전환이 필요합니다. 소프트웨어 자재 명세서(SBOM)처럼, AI 모델에도 (8)’AI-SBOM’을 도입하여 사용된 모든 하위 전문가 모델의 출처와 학습 데이터를 투명하게 명시해야 합니다. 기업은 (9)’레드팀(Red Teaming)’을 정례화하여 MoE 특화 공격 시나리오를 방어하고, (10)’오픈소스 클린존’을 운영하여 검증된 모델만 내부 저장소에 들이는 검역 체계를 갖춰야 합니다. 해커의 공격을 유도해 조기에 탐지하는 (11)’허니팟 전문가(Honeypot Expert)’ 배치, 문제 발생 시 즉각 이전 상태로 되돌리는 (12)’버전 롤백 시스템’, 그리고 모델 내부 방어가 뚫리더라도 최종단에서 유해성을 거르는 (13)’API 입출력 필터링’ 강화도 필수적인 운영 수칙입니다.
셋째, 정책과 거버넌스의 재정립입니다. 정부는 MoE 모델에 특화된 (14)’신규 보안 인증제’를 도입하여 개별 구성 요소의 안전성까지 검증해야 합니다. 기업의 (15)’윤리적 AI 가이드라인’은 모델 전체가 아닌 구성 요소 단위로 세분화되어야 하며, 악성 모델의 해시값을 공유하는 (16)’국제 공조 체계’ 구축에 한국이 주도적으로 나서야 합니다. 법적으로는 오픈소스 모델 사용으로 인한 사고 시 (17)’책임 소재’를 명확히 하고, 개발자들에게 모델 재사용의 위험성을 알리는 (18)’보안 교육’을 의무화해야 합니다. 마지막으로, 취약점을 찾아낸 화이트 해커에게 보상하는 (19)’AI 버그 바운티’ 제도를 활성화하고, 장기적으로는 핵심 비즈니스 로직만큼은 외부 소스에 의존하지 않고 (20)’자체 전문가 모델’을 구축하는 것을 권장해야 합니다.

맺음말
KAIST 신승원, 손수엘 교수팀의 이번 성과는 한국 AI 기술력이 세계 최고 수준임을 증명함과 동시에, 우리가 AI 보안이라는 새로운 전장의 최전선에 서 있음을 알려주었습니다. 효율성을 좇아 달려온 AI 개발 경쟁은 이제 신뢰성과 안전성이라는 새로운 국면을 맞이했습니다. “가장 약한 고리가 전체 사슬의 강도를 결정한다”는 보안의 격언은 거대언어모델 시대에도 여전히 유효합니다. 위에서 제안한 20가지 방안들이 단순한 제안에 그치지 않고, 정부와 기업의 실질적인 행동강령으로 이어져 대한민국이 ‘안전한 AI(Secure AI)’의 글로벌 표준을 선도하는 국가로 도약하기를 기대해 봅니다.

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

위로 스크롤