IT/미디어/과학기술 분야 법률자문

 

IT/미디어/과학기술
분야 법률자문

 
제목음식 이미지 올리니 조리법 쫙 …'멀티모달 AI' 급부상2023-10-18 16:18
작성자

https://www.mk.co.kr/news/it/10833306 



 



구글과 오픈AI가 텍스트를 넘어 음성, 이미지, 영상 등 다양한 형태의 데이터를 분석하고 생성할 수 있는 이른바 '멀티모달(multimodal)' 인공지능(AI)을 곧 공개한다. 한국 기술기업이 텍스트 중심의 대규모언어모델(LLM) 개발에 집중하는 사이 미국 빅테크가 거대 자본을 앞세워 후발주자와 격차를 더 벌리려는 것이다.

18일(현지시간) 미국 정보기술(IT) 전문매체 디인포메이션에 따르면 구글과 오픈AI는 각각 연내 '멀티모달 AI' 공개를 목표로 하고 있다. 프롬프터에 문장을 입력했을 때 문장만 생성하는 LLM과 달리 멀티모달 AI는 텍스트, 이미지, 음성, 영상 등을 제한 없이 모두 생성한다. 예를 들어 사용자가 음식 이미지를 업로드하면 해당 식재료 내용과 조리법을 생성하고, 숫자가 포함된 문서를 올리면 즉석에서 그래프나 도표를 보여주는 방식이다.

멀티모달 출시를 가장 서두르는 빅테크는 구글이다. 구글은 멀티모달 엔진 '제미니(Gemini)'에 대한 개발을 마치고 일부 기업과 테스트하고 있다. 제미니는 인간 두뇌의 시냅스에 해당하는 파라미터(매개변수)가 약 1조개에 달하는 것으로 알려졌다. 오픈AI가 내놓은 최신 버전 GPT-4의 파라미터가 5000억개로 추산되는 것에 비하면 2배가량 많다.

업계에서는 제미니가 유튜브 영상의 인터넷주소(URL)를 입력하면 자동으로 스크립트를 생성하고 분석해줄 것으로 기대한다. 다만 무료는 아닐 것으로 보인다. 월 구독료는 30달러로 추정된다. 그동안 구글은 오픈AI와 마이크로소프트(MS)를 꺾고자 AI 조직을 통폐합했다. AI 계열인 딥마인드와 구글 내 AI 조직인 브레인을 통폐합해 '구글 딥마인드'로 변경했고, 수장에는 '알파고' 주역인 데미스 허사비스를 앉혔다. 특히 세르게이 브린 구글 창업자가 이를 적극 지원하는 것으로 알려졌다.

이 같은 소식에 오픈AI가 반격에 나섰다. 오픈AI는 올해 3월 GPT-4를 내놓으면서 멀티모달 AI의 초기 버전을 시연했다. 요리 이미지를 올리면 조리법을 생성하고 식재료를 분석했지만, 해당 기능은 데모 시연에 그쳤다. 디인포메이션은 "오픈AI가 'GPT-비전'으로 불리는 기술을 곧 공개할 것으로 보인다"며 "이와 함께 GPT-비전보다 더 강력한 '고비(Gobi)'라는 프로젝트를 운영하고 있어 주목된다"고 전했다.