- 多模态 AI 模型可同时理解文字、程式码、声音、图片、影片等内容
- 32 项 AI 测试中有 30 项评分超越 GPT-4V
- 分 Ultra、Pro、Nano 大中小三个版本,Nano 小到可以直接装手机上
- 不仅支援英语还能同时支援多个语种,在不同语种执行效能也能维持一致
- 大量使用 Google 自家设计的 TPU 训练
原本 Google 传出会延期到明年才发表的全新大型语言模型「Gemini」如期在 12 月初面世!
就如外界预期,Google 呕心沥血推出的 Gemini 是「原生」多模态 AI 模型,可以同时无缝理解、操作包括文字、程式码、声音、图片、影片等多元形式的内容,像是理解图片方面,Google 宣称 Gemini Ultra 可以直接跳过从图片中使用 OCR 理解文字的步骤,就能直接图片内容。
理解能力到底有强?Google 就用了一个图中很简单的例子, 拿了两张非常简单的手绘汽车图问 …