시(詩)와 알고리즘의 역설: 편향을 치유하는 기술, 은유에 흔들리는 보안

글로벌연합대학교 버지니아대학교
인공지능융합연구소장 이현우 교수
최근 인공지능(AI) 생태계는 두 가지 상반된 뉴스로 뜨겁게 달아올랐습니다. 한쪽에서는 국내 대학생들이 거대언어모델(LLM)을 활용해 뉴스의 정치적 편향성을 분석하고 균형 잡힌 시각을 제공하는 서비스 ‘다시 스탠드’를 개발해 희망을 쏘아 올렸습니다. 반면, 다른 한쪽에서는 이탈리아와 미국 연구진이 ‘시적(Poetic) 은유’를 통해 최첨단 AI의 안전장치를 무력화할 수 있다는 충격적인 연구 결과를 내놓았습니다. 이는 AI가 우리 사회의 병폐인 ‘확증 편향’을 치료하는 도구가 될 수도, 동시에 가장 아름다운 방법으로 안전망을 뚫는 창이 될 수도 있음을 보여주는 상징적인 사건입니다.
우선 ‘다시 스탠드’의 등장은 ‘알고리즘에 의한 정보 편향’이라는 현대 사회의 고질병을 기술로 해결하려는 시도라는 점에서 매우 고무적입니다. 기존의 뉴스 추천 알고리즘은 사용자의 체류 시간을 늘리기 위해 입맛에 맞는 정보만 제공하는 ‘필터 버블(Filter Bubble)’을 양산해 왔습니다. 미국의 ‘그라운드뉴스(Ground News)’가 보여주었듯, 이제 사용자들은 단순히 정보를 소비하는 것을 넘어 내가 보는 뉴스가 얼마나 편향되었는지를 객관적으로 인지하고 싶어 합니다. 대학생들이 만든 이 서비스는 진보와 보수의 시각을 AI가 직접 요약·비교함으로써, 기술이 민주주의의 건전한 공론장을 복원하는 데 기여할 수 있다는 가능성을 증명했습니다.
그러나 AI 기술의 진화가 항상 긍정적인 방향으로만 흐르는 것은 아닙니다. 최근 해외 연구진이 발표한 ‘적대적 시(Adversarial Poetry)’ 연구는 AI 보안의 취약점을 적나라하게 드러냈습니다. 연구진은 “위험한 물건을 만드는 법”과 같은 유해한 지시를 아름다운 시적 은유 뒤에 숨기는 방식으로, 최신 모델의 방어벽을 뚫었습니다. 이는 AI가 직설적인 유해 단어는 잘 걸러내지만, 시나 소설처럼 맥락과 은유가 복잡하게 얽힌 ‘고맥락(High-Context)’ 언어 처리에는 여전히 취약함을 시사합니다. 특히 모델의 크기가 클수록 방대한 문학적 데이터를 학습했기에 오히려 이러한 문체 조작에 더 쉽게 속아 넘어간다는 분석은, ‘거대화’만이 능사가 아님을 경고하고 있습니다.
결국 우리는 ‘편향성을 바로잡는 AI’와 ‘은유에 속아 넘어가는 AI’라는 두 가지 과제 앞에 동시에 서 있습니다. 이를 해결하기 위해서는 기술적 접근뿐만 아니라, 제도적, 윤리적, 교육적 차원을 아우르는 포괄적인 전략이 필요합니다.
글로벌 관점에서 본 AI 신뢰성 회복을 위한 제언
미국(기술/윤리), 유럽/프랑스(문화/규제), 중국(관리/통제), 일본(인간 중심) 등 세계 각국의 AI 대응 전략과 최신 연구를 종합하여, 현재 우리가 직면한 편향성과 보안 위협을 해결하기 위한 구체적인 방안을 제안합니다.
- 기술적 솔루션 (Technical Solutions: 미국 및 영미권 연구 중심)
문학적 레드팀(Literary Red Teaming) 운영: 보안 점검 팀(Red Team)에 엔지니어뿐만 아니라 시인, 소설가, 인문학자를 포함해야 합니다. 은유와 반어법을 사용한 고도의 ‘탈옥(Jailbreak)’ 시나리오를 인간 인문학자가 설계하고 방어해야 합니다.
적대적 은유 트레이닝 (Adversarial Metaphor Training): 직설적인 욕설 데이터만 학습시킬 것이 아니라, 문학적 표현으로 위장된 유해 데이터를 집중 학습시켜 AI의 ‘문맥적 유해성’ 탐지 능력을 강화해야 합니다.
관점 다양성 지표 (Viewpoint Diversity Metrics): AI 모델 성능 평가 시 정확도(Accuracy) 외에 ‘답변의 다양성’을 핵심성과지표(KPI)로 설정해야 합니다. (미국 스탠퍼드 HAI 연구소 제안 참조)
의미론적 방화벽 (Semantic Firewall): 단순 키워드 매칭을 넘어, 문장의 숨은 의도(Subtext)를 파악해 차단하는 고도화된 의미 기반 보안 계층을 API 앞단에 배치해야 합니다.
작은 모델의 교차 검증 (Small Model Verification): 연구 결과 작은 모델이 오히려 복잡한 은유적 공격에는 덜 반응했습니다. 이를 역이용해, 거대 모델의 출력물을 가볍고 직관적인 작은 모델이 2차 검증(Cross-check)하는 시스템을 도입해야 합니다.
- 사용자 중심 도구 (User-Centric Tools: 일본 및 서비스 디자인 중심)
뉴스 영양 성분표 (News Nutrition Label): 식품 영양 성분표처럼, 기사나 AI 답변의 정치적 성향, 출처의 신뢰도, 반대 관점의 존재 여부를 시각화하여 사용자에게 보여주는 기능을 의무화해야 합니다. (미국 Ground News 및 일본의 안심 디자인 사례 응용)
개인화된 편향 대시보드: 사용자가 평소 소비하는 정보의 성향을 분석해 “귀하는 최근 80%의 특정 시각에 노출되었습니다”라고 알림을 주어 메타인지(Metacognition)를 돕습니다.
선택적 큐레이션 모드 (Omotenashi AI): 사용자가 ‘팩트 중심’, ‘다양성 중심’, ‘논쟁 중심’ 등 AI의 답변 스타일을 직접 선택할 수 있는 권한을 부여해야 합니다.
집단지성 팩트체크 (Community Notes): 트위터(X)의 커뮤니티 노트처럼, AI가 생성한 편향된 정보에 대해 사용자들이 직접 반박하거나 맥락을 추가할 수 있는 피드백 루프를 구축해야 합니다.
인지 보안(Cognitive Security) 교육: AI가 생성할 수 있는 환각(Hallucination)과 편향의 유형을 교육하고 ‘질문하는 법’을 가르치는 리터러시 교육 프로그램을 제공해야 합니다.
- 제도 및 거버넌스 (Institutional Approaches: 유럽 및 프랑스 모델)
설명 가능한 AI (XAI) 의무화: EU AI법(AI Act)의 기조에 맞춰, AI가 왜 특정 뉴스를 추천했는지, 어떤 데이터를 근거로 판단했는지 설명할 수 있는 투명성 보고서를 발간해야 합니다.
문화적 예외성(Cultural Exception) 존중 데이터셋: 영미권 데이터 편향을 막기 위해, 프랑스가 자국어를 보호하듯 로컬 데이터와 비주류 언어 데이터의 비중을 강제로 할당하는 ‘데이터 쿼터제’를 도입해야 합니다.
알고리즘 외부 감사(External Audit): 기업의 재무제표를 감사하듯, 주요 AI 모델의 정치적 편향성과 보안 취약점을 제3의 독립 기구가 정기적으로 감사하는 제도를 도입해야 합니다.
데이터 출처 투명성 태깅: AI가 답변 생성 시 참고한 데이터가 기업 보도자료인지, 학술 논문인지, 개인 블로그인지 출처의 성격(Type of Source)을 명확히 표기해야 합니다.
동적 컨텍스트 윈도우 확장: 민감한 사회적 이슈를 다룰 때는 AI가 처리하는 맥락의 범위를 강제로 확장하여, 단편적 정보가 아닌 역사적 맥락을 고려해 답변하도록 프로토콜을 강제해야 합니다.
- 윤리 및 사회적 가치 (Ethics & Values: 중국 및 글로벌 연대)
사회적 핵심 가치 정렬 (Value Alignment): (중국의 사회주의 핵심 가치 주입 모델을 비판적으로 수용하여) 우리 사회는 ‘자유민주주의’, ‘인권’, ‘다양성’이라는 헌법적 가치를 AI의 최상위 규칙(Constitution)으로 명시하여 기술적으로 강제해야 합니다. (앤트로픽의 Constitutional AI 확장)
바이어스 바운티 (Bias Bounty): 버그 바운티처럼, AI 모델에서 편향성이나 윤리적 결함, 은유적 탈옥 성공 사례를 찾아내는 화이트 해커에게 포상금을 지급하는 제도를 활성화해야 합니다.
AI 윤리 위원회의 다원화: 기업 내부 윤리위원회에 기술자뿐만 아니라, 시민사회, 종교계, 반대 진영의 인사를 의무적으로 포함해 내부의 ‘집단 사고(Groupthink)’를 방지해야 합니다.
인간 중심의 루프 (Human-in-the-loop) 법제화: 일본의 Society 5.0 비전처럼, 최종적인 판단이나 민감한 뉴스 큐레이션에는 반드시 인간 편집자의 검수가 개입되도록 법적 가이드라인을 마련해야 합니다.
글로벌 AI 안전 거버넌스 연대: 특정 빅테크 기업의 기준이 표준이 되지 않도록, ‘다시 스탠드’와 같은 풀뿌리 혁신 사례를 공유하고 국제적인 AI 안전 표준을 만드는 연대 기구에 적극 참여해야 합니다.
AI는 스스로 진화하고 있으며, 이를 통제하고 올바르게 사용하는 책임은 결국 인간에게 있습니다. 기술의 편향을 기술로 잡되, 그 기술 뒤에 숨은 인간의 의도와 윤리를 끊임없이 의심하고 검증하는 자세만이 AI 시대를 건너는 가장 안전한 다리가 될 것입니다.
편집위원 이현우 교수
heir201933@gmail.com