Google 压箱宝 AI 模型「Gemini」降临！30 项评分直接超越 GPT-4V

多模态 AI 模型可同时理解文字、程式码、声音、图片、影片等内容
32 项 AI 测试中有 30 项评分超越 GPT-4V
分 Ultra、Pro、Nano 大中小三个版本，Nano 小到可以直接装手机上
不仅支援英语还能同时支援多个语种，在不同语种执行效能也能维持一致
大量使用 Google 自家设计的 TPU 训练

原本 Google 传出会延期到明年才发表的全新大型语言模型「Gemini」如期在 12 月初面世！

就如外界预期，Google 呕心沥血推出的 Gemini 是「原生」多模态 AI 模型，可以同时无缝理解、操作包括文字、程式码、声音、图片、影片等多元形式的内容，像是理解图片方面，Google 宣称 Gemini Ultra 可以直接跳过从图片中使用 OCR 理解文字的步骤，就能直接图片内容。

理解能力到底有强？Google 就用了一个图中很简单的例子，拿了两张非常简单的手绘汽车图问 Gemini 哪台比较快，Gemini 回「右边比较快，因为它比较符合空气力学」。

Google 强调，Gemini 最大型的版本 Gemini Ultra 在 32 项 AI 测试中，有 30 项的评分超越了 OpenAI 的 GPT-4V，同时也是在所谓 MMLU（大规模多任务语言理解，包括数学、物理、历史、法律、医学和伦理学等 57 项科目）测试中，第一个达到 90% 水准并超越人类专家的大型自然语言模型。

Google 也表示 Gemini 可以理解、产生 Python、Java、C++ 和 Go 等广受使用的程式语言，同时 Google 也使用 Gemini 推出新一代的 AI 生成程式码系统 AlphaCode 2，解决问题数量几乎是一代的两倍。

为了满足从资料中心等级到行动装置等不同使用环境需求，Gemini 一共推出 Ultra、Pro、Nano 大中小三个版本。最大型的 Ultra 正在进行一系列的安全性测试，将会释出少量试用版给企业客户与开发者，估计明年推出正式版。

Pro 则是即日起就提供给英文版的聊天机器人 Bard 使用，另外将会在 12 月 13 日在 Google Cloud 的 Vertex AI、AI Studio 上提供 API 供人使用；最小的 Nano 则是准备直接给 Pixel 8 Pro 使用。

Bard 接下来在 170 多个国家和地区提供英语版本，将逐渐扩展给不同地区以及支援不同语系，并且预告还会有使用 Ultra 的 Bard Advanced。同时像是 Google 广告、Chrome 和 Duet AI 等产品也会陆续引入 Gemini。而最重要的本家产品搜寻引擎则是已经开跑，导入搜寻生成体验（SGE）延迟少了 40%。

Google 说明 Gemini 使用自家所设计晶片 TPU v4 和 v5e 训练，且反过来 Gemini 在 TPU 上也比之前的 AI 模型表现更佳；Google 也同时发表了新的晶片 TPU v5p 供云端使用。

核稿编辑：Sisley

快加入 INSIDE Google News 按下追踪，给你最新、最 IN 的科技新闻！