최근 AI 기술의 발전 속도는 놀라울 정도로 빠르게 진행되고 있습니다. 2024년 5월, 오픈AI와 구글은 각각 최신 생성형 AI 모델을 공개하며 AI 기술의 미래를 선도하고 있습니다. 이번 글에서는 이 두 회사의 혁신적인 기술과 그 영향력에 대해 살펴보겠습니다.
오픈AI의 GPT-4o: 인간과 유사한 시청각 기능 탑재
2024년 5월 13일, 오픈AI는 새로운 생성형 AI 모델인 ‘GPT-4o’를 공개했습니다. 이 모델은 기존의 텍스트 기반 AI에서 한 단계 더 나아가, 인간과 유사한 시청각 기능을 탑재한 것이 특징입니다. 유튜브 생방송 시연에서 GPT-4o는 카메라와 스피커를 통해 사물을 보고 소리를 듣는 능력을 선보였으며, 실시간 대화도 가능했습니다.
GPT-4o의 응답 시간은 최소 232밀리초(ms), 평균 320밀리초로, 이는 인간의 응답 시간과 거의 동일합니다. 이전 모델인 GPT-3.5와 GPT-4에 비해 훨씬 빠른 반응 속도를 자랑합니다. 또한, 대화 도중 끼어들어도 대화가 끊기지 않으며, 다양한 목소리와 감정, 톤으로 반응할 수 있는 능력도 탑재되어 있습니다.
오픈AI의 최고기술책임자(CTO)인 미라 무라티는 GPT-4o의 성능 향상에 대해 "영화 ‘그녀(her)’ 속 AI 사만다와 같은 수준의 인공지능이 현실화되고 있다"고 언급했습니다. 샘 올트먼 오픈AI 최고경영자(CEO)도 GPT-4o의 출시 직후, 자신의 SNS에 영화 'her'를 언급하며 "AI 모델이 인간 수준의 반응 시간과 표현력에 도달했다"는 소감을 밝혔습니다.
오픈AI 유투브 보기
구글의 제미나이: 검색 엔진과 생성형 AI의 결합
이날 시연에서는 '보스턴 비컨힐에서 걸어서 30분 거리에 있고 평점 4.1점 이상인 필라테스 스튜디오'를 찾아달라는 질문에 정확한 답변을 제공하는 모습을 보여주었습니다. 또한, 동영상 검색 기능을 통해 고장 난 턴테이블을 촬영한 후 수리 방법을 찾아주는 데모도 선보였습니다.
구글의 최고경영자(CEO)인 순다르 피차이는 "제미나이 생태계에 상상 가능한 모든 AI 기능을 담았다"고 말하며, "구글 검색이 등장한 이후 25년 만에 가장 큰 변화"라고 자평했습니다. 구글은 연말까지 10억 명 이상의 사용자에게 이 서비스를 제공할 계획입니다.
구글은 제미나이와 음성 모델을 결합한 ‘프로젝트 아스트라’도 공개했습니다. 이 프로젝트는 미래 AI 어시스턴트를 목표로 하며, 사람처럼 보고 들을 수 있고, 음성으로 대화하며, 개인 비서 역할을 수행할 수 있습니다. 구글 지메일, 구글 문서, 캘린더 등의 응용소프트웨어와 연동되어 사용자에게 맞춤형 서비스를 제공합니다.
구글은 '제미나이 라이브'를 수개월 내에 출시하고, 이후 실시간 시각과 청각 기능을 추가하여 프로젝트 아스트라를 완성할 예정입니다. 구글 측은 "제미나이 시대의 개막을 알릴 수 있게 되어 기쁘다"며 "향후에도 제미나이 생태계를 완성하여 AI 혁신을 가속화할 것"이라고 밝혔습니다.
오픈AI와 구글의 최신 AI 기술 발표는 4차 산업혁명 시대의 도래를 더욱 실감하게 합니다. 인간과 유사한 감각과 표현력을 갖춘 AI는 우리의 일상을 더욱 편리하고 풍요롭게 만들어줄 것입니다. 앞으로 이들의 기술 발전이 어떤 혁신을 가져올지 기대됩니다.