一、评测背景
在 Google I/O 2026 大会上,Gemini 3.5 系列正式亮相,涵盖 Omni、Flash 和 Spark 三款产品。本文基于官方公布的基准数据和现场演示,对 Gemini 3.5 家族进行一次全面的技术评测。
二、Gemini 3.5 Flash 性能评测
2.1 基准测试对比
| 测试项目 | Gemini 3.5 Flash | Gemini 3.1 Pro | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|---|---|
| Terminal-Bench 2.1 | 76.2% | 68.5% | 74.5% | 72.8% |
| GDPval-AA | 1656 Elo | 1420 Elo | 1580 Elo | 1520 Elo |
| MCP Atlas | 83.6% | 75.2% | 81.2% | 79.5% |
| CharXiv Reasoning | 84.2% | 78.5% | 82.1% | 80.3% |
| 输出速度 | 289 tokens/秒 | 145 tokens/秒 | 70 tokens/秒 | 65 tokens/秒 |
2.2 性能分析
编码能力:Flash 在 Terminal-Bench 上取得 76.2% 的成绩,领先 GPT-5.5 的 74.5%,展示出扎实的代码生成与调试水平。
智能体任务:GDPval-AA 分数达到 1656 Elo,显著超越同类模型,表明其在复杂任务规划和多步推理方面优势突出。
工具使用:MCP Atlas 83.6% 的得分,印证了 Flash 在工具调用和多阶段推理上的可靠性,这对于构建自主 Agent 至关重要。
速度表现:289 tokens/秒的输出速率,约为 GPT-5.5 的 4 倍、Claude Opus 4.7 的 4.5 倍,低延迟特性让实时交互体验大幅提升。
三、Gemini Omni 视频生成评测
3.1 核心能力
| 特性 | 表现 |
|---|---|
| 任意输入 | 支持图片、文字、视频、音频混合输入 |
| 视频输出 | 生成高质量视频内容 |
| 对话编辑 | 支持通过自然语言指令修改视频 |
| 物理理解 | 正确模拟重力、动能等物理概念 |
| 场景记忆 | 角色保持一致,场景连贯不跳脱 |
3.2 演示案例分析
案例1:粘土动画解释蛋白质折叠
科学准确性令人满意,氨基酸链正确折叠成 α 螺旋和 β 折叠,同时呈现精致的定格动画质感。
案例2:字母匹配物体
C 对应水豚(Capybara)、D 对应迪斯科球(Disco ball)、L 对应熔岩灯(Lava lamp),语义匹配准确,视觉生成效果出色。
案例3:自拍视频实时变换
手掌画圈化为黑洞,街道瞬间切换为赛博朋克风格,交互流畅,视觉效果惊艳。
四、Antigravity 2.0 评测
4.1 核心升级
| 功能 | 说明 | 评测 |
|---|---|---|
| 动态子 Agent | 自动拆分子任务并行执行 | ⭐⭐⭐⭐⭐ |
| 异步任务管理 | 长耗时操作不阻塞主流程 | ⭐⭐⭐⭐⭐ |
| Scheduled Tasks | 定时执行脚本 | ⭐⭐⭐⭐ |
| 斜杠命令 | /goal、/grill-me、/browser | ⭐⭐⭐⭐⭐ |
4.2 实战演示:93 个 Agent 构建 OS
- 子 Agent 数量:93 个
- 模型请求:15000+ 次
- Token 处理量:26 亿
- 耗时:12 小时
- 成本:低于 1000 美元
五、Gemini Spark 评测
5.1 核心功能
| 功能 | 说明 |
|---|---|
| 7×24 小时运行 | 云端专用虚拟机,持续在线 |
| 办公全家桶整合 | 深度接入 Gmail、Docs、日历等 |
| 自定义技能 | 学习用户口吻和偏好 |
| 语音输入 | 连续语音转为多任务指令 |
5.2 使用场景
工作场景:自动汇总信息并起草邮件,减少重复劳动。
生活场景:规划街区派对,自动创建 RSVP 表格和宣传幻灯片。
六、企业级接入建议
对于需要大规模集成 AI 能力的企业,借助4sapi这类多模型聚合平台,可以将 Gemini 3.5 系列以及其他主流大模型统一接入,从而获得请求限流、熔断保护、用量统计和监控告警等治理能力,帮助团队快速搭建高可用的 AI 服务架构,同时避免与多家厂商逐一对接带来的维护负担。
总结
| 产品 | 定位 | 推荐指数 |
|---|---|---|
| Gemini 3.5 Flash | 旗舰级智能体模型 | ⭐⭐⭐⭐⭐ |
| Gemini Omni | 全模态视频生成 | ⭐⭐⭐⭐⭐ |
| Gemini Spark | 个人 AI 管家 | ⭐⭐⭐⭐ |
| Antigravity 2.0 | Agent 开发平台 | ⭐⭐⭐⭐⭐ |
Gemini 3.5 系列整体表现令人印象深刻,尤其是 Flash 版本在智能体性能和生成速度上都达到了新的高度。




