Google DeepMind가 공개한 Gemini Ultra 모델이 MMLU, HumanEval, MATH 등 주요 AI 벤치마크에서 OpenAI의 GPT-4 Turbo를 추월하며 업계 최고 성능을 기록했다. AI 성능 경쟁에서 Google이 다시 선두를 탈환한 것으로 평가된다.
벤치마크 결과 비교
- MMLU (지식 평가): Gemini Ultra 90.4% vs GPT-4 Turbo 87.2%
- HumanEval (코딩): Gemini Ultra 74.4% vs GPT-4 Turbo 72.1%
- MATH (수학): Gemini Ultra 53.2% vs GPT-4 Turbo 52.0%
- HellaSwag (상식 추론): Gemini Ultra 95.3% vs GPT-4 Turbo 94.1%
- 멀티모달(이미지+텍스트): Gemini Ultra가 5개 벤치마크 중 4개에서 우위
Gemini Ultra의 기술적 강점
Gemini Ultra는 처음부터 멀티모달로 설계된 것이 핵심 차별점이다. 텍스트, 이미지, 오디오, 비디오, 코드를 네이티브로 처리하며, 100만 토큰 이상의 긴 컨텍스트 윈도우를 지원한다. Google 측은 "단순히 여러 모달리티를 결합한 것이 아니라 통합적으로 이해하는 것"이라고 강조했다.
실제 성능 vs 벤치마크
다만 벤치마크 성능이 실제 사용 경험과 반드시 일치하지는 않는다는 지적도 있다. 독립 연구자들의 블라인드 테스트에서는 GPT-4 Turbo와 Gemini Ultra의 실사용 만족도가 거의 동등한 것으로 나타났다. 특히 한국어를 포함한 비영어권 언어 처리에서는 평가가 엇갈린다.
AI 패권 경쟁 격화
Google과 OpenAI의 벤치마크 경쟁이 격화되는 가운데, Anthropic의 Claude 3, Meta의 Llama 3도 추격하고 있다. 업계에서는 "벤치마크 숫자 경쟁보다 실질적 유용성과 안전성이 더 중요하다"는 목소리가 커지고 있다. 2025년에는 에이전트 능력과 실세계 작업 수행 능력이 새로운 경쟁 축이 될 전망이다.
댓글 0