메타AI뉴스

#오픈AI, 애플 멀티모달 통합 강화로 새 시대의 AI 비서를 구현하다

오픈AI, 애플 멀티모달 통합 강화로 새 시대의 AI 비서를 구현하다

메타ai뉴스 논설위원 이현우 교수

오픈AI가 ‘GPT-4 터보’를 넘어서는 새로운 멀티모달 모델의 개발로 또 한 번 혁신의 물결을 일으키고 있습니다. 이번에 개발된 모델은 이미지와 음성을 통합하여 이해할 수 있는 능력이 강화되었으며, 속도 또한 향상되어 사용자 경험을 한층 더 높일 것으로 기대됩니다. 특히, 이 모델은 애플의 음성 비서 ‘시리’를 강화하고, 향후 출시될 ‘챗GPT 전용 장치’에도 적용될 예정이라고 합니다.

최근 몇 년 간 AI 기술의 발전은 주로 텍스트 기반의 상호작용에 초점을 맞추어 왔습니다. 하지만 오픈AI는 이번 업데이트를 통해 음성과 이미지를 더욱 효과적으로 결합하여 AI의 사용성을 극대화하려 하고 있습니다. 고객 서비스 AI 상담원이 사용자의 목소리 억양과 감정을 더 잘 파악하고, 학생들이 수학 문제를 푸는 것을 돕거나, 간판이나 메뉴판을 번역하는 등의 실용적인 기능이 강화될 것입니다.

새로운 LMM(Large Multimodal Model)은 기존 모델들과 비교해 더욱 빠른 실행 속도와 향상된 이해력을 자랑합니다. 디 인포메이션에 따르면, 이 모델은 이미 일부 고객에게 시연되었으며, 빠르면 13일에 공식적으로 발표될 예정입니다. 이는 오픈AI가 챗GPT의 음성 대화 및 이미지 인식 기능을 필요로 하는 애플과의 계약을 통해 얻은 결실이며, 이를 통해 AI와 사람 간의 상호작용이 더 자연스럽고 효율적으로 이루어질 수 있게 될 것입니다.

또한, 이번 모델 개발로 인해 다른 프로젝트들이 일정이 뒤로 밀리는 등의 영향도 있었지만, 오픈AI는 기업 고객을 확대하기 위한 전략의 일환으로 챗GPT 사용에 필요한 예약 토큰을 선불로 낼 경우 최대 50% 할인하는 정책을 도입할 것이라고 합니다.

새로운 멀티모달 모델의 개발은 단순한 기술적 진보를 넘어, 사용자 경험을 중심으로 한 사업적 결정의 결과라고 볼 수 있습니다. 오픈AI는 이를 통해 AI 기술의 미래를 새롭게 정의하고, 다양한 분야에서 AI의 활용도를 높여 나갈 것입니다. 이러한 진보가 어떻게 일상생활에 영향을 미칠지 주목됩니다.

새로운 멀티모달 모델과 기존 AI 비서 기술의 주요 차이점은 인터페이스의 다양성과 사용자와의 상호작용 방식에 있습니다. 멀티모달 모델은 텍스트, 음성, 이미지, 비디오 등 다양한 형태의 입력을 동시에 처리할 수 있어, 사용자가 보다 자연스러운 방식으로 정보를 제공하고 필요한 서비스를 받을 수 있습니다. 이는 사용자 경험을 크게 향상시키며, 예를 들어 사용자가 사진을 보여주면서 “이것은 무엇인가요?”라고 물을 때 바로 정보를 제공받을 수 있습니다.

오픈AI의 새로운 LMM(Large Multimodal Model)은 기존 음성 비서 기술, 예를 들어 시리와 비교할 때 다양한 장점을 가지고 있습니다. LMM은 단순한 음성 인식과 응답을 넘어서, 텍스트와 이미지를 포함한 여러 데이터 유형을 이해하고 처리할 수 있는 능력을 갖추고 있습니다. 이는 AI가 보다 복잡한 요청에도 유연하게 대응할 수 있도록 합니다. 반면, 단점으로는 높은 처리 요구사항 때문에 하드웨어적 제약이나 비용 문제가 발생할 수 있으며, 개인정보 보호와 데이터 보안에 대한 우려도 더욱 중요해질 수 있습니다.

이를 통해 사용자 경험에 가져올 수 있는 혁신적 변화는 다음과 같습니다:

  • 상호작용의 자연스러움: 사용자는 자신의 선호하는 모드(음성, 텍스트, 이미지)를 선택하여 AI와 상호작용할 수 있습니다.
  • 정보 접근성 향상: 멀티모달 데이터 처리 능력으로 인해, 사용자는 다양한 형태의 질문이나 요청에 대해 빠르고 정확한 답변을 얻을 수 있습니다.
  • 향상된 문제 해결 능력: 복합적인 문제 상황에서도 여러 유형의 입력을 통합적으로 분석하고, 더 적합한 해결책을 제시할 수 있습니다.

   #세계메타버스AI연맹 이사장 이현우 교수

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

Scroll to Top