#AI의 선순환 또는 악순환?
합성 데이터 사용에 따른 장단점 및 모델 붕괴 위험성 탐색”
메타ai뉴스 논설위원
이현우 교수
향후 방향:
- 윤리적 기준 및 규정 마련: AI 연구 및 개발 과정에서 사용되는 데이터의 윤리적 수집 및 사용에 대한 글로벌 기준을 마련해야 합니다. 이는 저작권을 존중하고 데이터의 투명성을 확보하는 데 기여할 것입니다.
- 합성 데이터의 질 관리: AI가 생성한 데이터로 학습을 진행할 때는 데이터의 질을 철저히 관리하고 검증하는 과정이 필요합니다. 이를 통해 모델 붕괴를 방지하고 AI 기술의 건전한 발전을 도모해야 합니다.
- 공개 데이터베이스 구축: 공개적으로 접근 가능한 고품질의 데이터베이스를 구축하여 AI 개발자들이 합법적으로 사용할 수 있게 합니다. 이는 데이터 고갈 문제에 대응하면서도 저작권 침해 문제를 줄일 수 있는 방법입니다.
실천 방안:
- 국제 협약 개발: 국제적으로 인정받는 AI 데이터 윤리 기준을 개발하고, 이를 모든 국가와 기업이 준수하도록 하는 국제 협약을 추진합니다.
- 기술적 검증 시스템 도입: AI가 생성한 데이터의 질과 신뢰성을 자동으로 검증할 수 있는 기술적 시스템을 개발하고 도입합니다. 이 시스템은 데이터의 진실성, 오류 가능성, 조작 여부 등을 식별할 수 있어야 합니다.
- 오픈 소스 데이터 공유 플랫폼 구축: 연구자와 개발자가 자유롭게 고품질 데이터를 공유하고 사용할 수 있는 오픈 소스 플랫폼을 구축합니다. 이 플랫폼을 통해 합법적이고 윤리적인 데이터 사용이 장려됩니다.
이러한 향후 방향과 실천 방안은 AI 기술의 건강한 발전을 도모하며, 윤리적, 법적 문제에 대응하고, 기술의 진보를 이어갈 수 있는 기반을 마련할 것입니다.
구글 내부 사정을 잘 아는 소식통들은 구글 일부 직원들은 오픈AI가 유튜브 영상을 무단으로 사용했다는 사실을 인지했음에도 이를 막지 않았다고 주장했다. 당시 구글도 유튜브 영상을 자체 AI 개발에 사용하고 있었기 때문에, 오픈AI의 행동을 문제 삼을 경우 구글도 함께 저작권 침해로 엮여 문제가 커질 수 있다고 판단했다는 것이다. 이와 관련해 구글 대변인은 구글이 오픈AI의 행태에 대해 전혀 아는 바가 없으며 구글은 “유튜브 콘텐츠의 무단 사용 및 다운로드를 금지하고 있다”는 입장을 밝혔다. 메타 역시 페이스북과 인스타그램 게시물뿐 아니라 소설, 에세이, 뉴스기사 등 저작권이 명확한 데이터들까지 무단으로 사용한 것으로 드러났다. NYT가 확보한 내부 자료에 따르면, 아흐마드 알달 메타 AI 담당 부사장은 임원회의에서 “자신의 팀이 이용 가능한 거의 모든 인터넷 콘텐츠를 사용했다”라고 말했다. 회의에선 인터넷에서 찾은 책, 에세이 등 작품들을 어떻게 허락받지 않고 요약했는지 언급했고, 이런 행위가 소송으로 이어진다 해도 경쟁력 있는 AI 개발을 위해선 더 많은 데이터 확보가 중요하다는 논의도 이뤄졌다. 기업들이 데이터가 생성되는 속도보다 더 빠르게 공개적으로 이용 가능한 온라인 데이터를 사용해 AI 모델을 개발하면서, 이르면 2년 내에 고품질 디지털 데이터가 고갈될 것이란 예측도 있다. 이런 가운데 오픈AI 등 일부 회사들은 데이터 고갈 문제 해결을 위해 AI가 생성한 데이터로 다시 AI를 학습시키는 합성 데이터 활용 방안도 연구 중인 것으로도 전해졌다. 합성 데이터는 사람이 아니라 AI가 생산한 텍스트, 이미지, 소프트웨어 코드를 말한다. 다시 말해 합성 데이터를 통해 AI는 스스로 생성한 데이터로 학습을 하게 된다. 하지만 합성 데이터는 모델의 성능을 갑작스럽게 하락시키는 ‘모델 붕괴’의 위험성도 가지고 있다는 지적이다. AI가 자체 생성한 결과로 AI 모델을 훈련하는 것은 거짓과 조작을 포함할 수 있고 시간이 가면서 기술을 오염시켜 되돌릴 수 없는 결함으로 이어질 수 있다
이 사안은 AI 개발과 데이터 사용의 윤리적, 법적 측면에 있어 중요한 논점을 제기합니다. 이에 따른 향후 방향과 실천 방안은 다음과 같습니다:
향후 방향:
- 저작권과 데이터 사용에 관한 명확한 규정 마련: AI 개발에 사용되는 데이터의 출처와 저작권에 대한 명확한 규정을 설정하여, 모든 기업이 준수해야 합니다. 이는 불법적인 데이터 사용을 방지하고 콘텐츠 제작자의 권리를 보호하는 데 필수적입니다.
*합성 데이터의 윤리적 수집 및 사용에 대한 국제 기준 마련할 수 있는
방법은?
국제 기준을 마련하기 위해서는 다음과 같은 절차가 필요합니다:
- 국제 협력: 다양한 국가와 기관이 참여하는 글로벌 포럼을 개최하여, 합성 데이터 사용에 대한 국제적인 논의를 시작합니다.
- 기존 법률 및 규정 분석: 저작권, 데이터 보호, 개인정보 보호 등 관련된 기존의 법률 및 규정을 분석하여, 합성 데이터 사용에 필요한 새로운 규정을 도출합니다.
- 윤리적 지침 개발: AI 및 데이터 과학자, 법률 전문가, 윤리학자 등 다양한 분야의 전문가가 참여하여 합성 데이터의 윤리적 사용에 관한 지침을 개발합니다.
- 국제적인 합의 도출 및 규정 확립: 모든 이해 관계자의 의견을 수렴하여 국제적으로 합의된 규정을 마련하고, 이를 모든 회원국이나 참여 기업에 적용할 수 있도록 합니다.
*AI가 생성한 데이터의 질과 신뢰성을 어떻게 검증할 수 있는 방법은?
AI가 생성한 데이터의 질과 신뢰성을 검증하기 위한 방법은 다음과 같습니다:
- 자동화된 검증 시스템: AI가 생성한 데이터를 실시간으로 검증할 수 있는 알고리즘과 시스템을 개발합니다. 이 시스템은 데이터의 일관성, 정확성, 그리고 편향성을 평가합니다.
- 피어 리뷰: 학술 분야에서 사용되는 피어 리뷰 방식을 데이터 검증에 적용합니다. 전문가들이 AI가 생성한 데이터를 검토하여, 그 신뢰성과 질을 평가합니다.
- 공개적인 검증: 생성된 데이터를 공개적으로 접근 가능하게 함으로써, 광범위한 커뮤니티가 데이터의 질과 신뢰성을 평가할 수 있도록 합니다.
*공개 데이터베이스 구축에 있어서 주요 장애물은 무엇이며, 이를 어떻게 극복 방법은?
공개 데이터베이스 구축의 주요 장애물과 그 해결책은 다음과 같습니다:
- 저작권 문제: 많은 데이터가 저작권으로 보호되어 있어 공개 데이터베이스에 포함시키기 어렵습니다. 이를 극복하기 위해, 공개 라이선스를 사용하거나 저작권자와 협력하여 데이터 사용에 대한 동의를 얻는 방법이 필요합니다.
- 데이터 품질 관리: 데이터베이스 내의 데이터 품질을 일정 수준 이상으로 유지하는 것이 중요합니다. 이를 위해, 데이터 제출 전 검증 프로세스를 마련하고, 정기적인 품질 점검을 수행합니다.
- 자금 조달: 공개 데이터베이스의 구축 및 유지 관리에는 상당한 비용
이 발생합니다. 이를 해결하기 위해서는 정부 지원, 기부금, 그랜트 등 다양한 자금 조달 방안을 모색해야 합니다. 또한, 데이터베이스의 가치를 인식하고 투자할 의향이 있는 기업 파트너십을 구축하는 것도 유용한 전략이 될 수 있습니다.
이와 같이, 공개 데이터베이스 구축과 관련된 주요 장애물들을 극복하기 위해서는 법적, 기술적, 재정적 문제들을 해결해야 합니다. 이 과정에서 다양한 이해관계자들과의 협력이 필수적이며, 목표는 데이터의 접근성을 높이고 AI 연구 및 개발의 질을 향상시키는 것입니다. 데이터가 공개적으로 이용 가능해질 때, 그것은 연구자들에게 더 많은 기회를 제공하고, AI 분야의 혁신을 촉진할 수 있습니다. 따라서, 공개 데이터베이스의 구축과 유지 관리는 AI 기술의 지속 가능한 발전을 위해 매우 중요한 요소입니다.
#세계메타버스AI연맹
이사장 이현우 교수