历时近半年的迭代,谷歌终于将Gemini从3推进到了3.5版本。不过这一代的首发有些特别——没有Pro,只有Flash,谷歌直接放出了一款Flash级别的模型,并声称它在多个维度上已经超越了自家的Gemini 3.1 Pro。今天就来实测一番,看看这款新模型到底有多能打。
一、Gemini 3.5 Flash 的定位与跑分
在今年5月的Google I/O 2026大会上,谷歌正式发布了Gemini 3.5 Flash,将其定义为“结合前沿智能与行动能力”的新一代模型,主打两大关键词:智能体能力和速度。不同于以往Flash系列“便宜、快但能力弱”的固有印象,这次谷歌把Agent和编码能力直接拉满,称它“目前最强的编程与Agent模型”。
先看几个关键的跑分指标:
在代码能力的Terminal-Bench 2.1测试中,Gemini 3.5 Flash拿下了76.2%,而上一代旗舰Gemini 3.1 Pro仅70.3%。这意味着一个Flash定位的轻量模型,在硬核编码任务上已经压过了自家曾经的旗舰。
更值得关注的是Agent层面的表现。在MCP Atlas这个衡量Agent工具调用和工作流执行能力的基准上,Gemini 3.5 Flash冲到83.6%,不仅超过了自家3.1 Pro,也超越了GPT-5.5的75.3%和Claude Opus 4.7的79.1%。此外,在多工具协作任务Toolathlon上它拿下56.5%,在OSWorld-Verified(桌面操作场景)上达到78.4%,与GPT-5.5的78.7%几乎持平。
在输出速度上,Gemini 3.5 Flash达到289 tokens/秒,是GPT-5.5和Claude Opus 4.7的4倍左右,首字输出延迟约65毫秒。在定价方面,输入每百万token 1.50美元,输出9美元,约为同类前沿模型的一半。
二、实测对比:一个小型Agent任务
测试思路
搭建测试环境,让四个大模型执行同一个小型Agent任务,然后将结果交给裁判模型Gemini 3.1 Pro进行评分。测试模型包括:
- Gemini 3.5 Flash
- DeepSeek-V4 Flash
- DeepSeek-V4 Pro
- GPT-5.5
Agent任务设计
我设计了一个数据分析+前端可视化的自动化任务:
上传Excel文件,自动识别字段、数据类型、行数列数,检查空值/异常值/重复值,自动判断适合柱状图/折线图/饼图的字段,输出一个可直接运行的HTML文件,使用ECharts绘制三张图表,包含数据概览和图表结论。所有结论必须来自Excel本身,不得编造。
实测结果
Gemini 3.5 Flash 的整体完成度比较扎实,生成的页面结构清晰,三张图表均可正常渲染,数据概览部分准确显示了Excel的基本统计信息。虽然页面视觉风格偏向朴素,但在任务理解、代码生成和执行层面没有出现明显偏差,适合日常办公自动化场景直接使用。
DeepSeek-V4 Flash 在视觉表现上较为突出,图表配色和页面布局更注重美观性,在原型设计和快速展示场景中表现出色。
DeepSeek-V4 Pro 在逻辑校验和数据准确性方面展现出了极高的严谨性。生成的HTML在异常值检测、字段类型判断等环节处理得更加细致,代码结构也更规范。
GPT-5.5 的表现则有些出人意料,UI输出较为简陋,在数据分析深度和结论提炼方面明显弱于其他三款模型。反复测试多次结果基本一致。
三、裁判模型打分与解析
由Gemini 3.1 Pro作为裁判,对各模型的输出进行综合评分和详细解析。最终评价可以浓缩为三句话:
- DeepSeek-V4 Pro:凭借无可挑剔的严密逻辑与专业校验位列第一,是追求生产级精准报告的首选。
- Gemini 3.5 Flash 与 DeepSeek-V4 Flash:前者以均衡稳健的完成任务表现位居次席,后者则以更优的视觉审美成为原型设计阶段的实用工具。
- GPT-5.5:因UI输出简陋、数据分析深度有限排在末位。
这次GPT-5.5的表现在这个小规模测试中确实有些意外,但样本量有限,后期待更多实测任务来进一步验证。
四、如何接入Gemini 3.5 Flash及各主流大模型
对国内开发者和技术爱好者来说,直接调用Gemini 3.5 API往往面临网络环境、接口差异和支付渠道等不便。通过一些AI聚合服务平台,可以用统一接口快速接入包括Gemini 3.5 Flash在内的多款主流大模型。
这类聚合平台在开发者与大模型官方API之间搭建了一层中间代理,接收请求后进行格式转换、网络优化、路由分发,最后将结果返回。核心价值在于:一套接口、一套密钥,即可调用GPT-5.5、Claude、Gemini、DeepSeek等多个模型,省去逐个申请API和适配SDK的时间。
星链4SAPI便是这一方向的代表性聚合服务之一,它通过标准化的中转接入方式,帮助用户在一个平台内完成多模型调用管理,尤其适合需要做横评对比测试或希望灵活切换模型的场景。
五、小结与展望
受篇幅限制,这次只进行了单个Agent任务的初步实测。总结来看:
- 追求严谨报告:DeepSeek-V4 Pro 表现最优
- 追求均衡与稳定办公自动化:Gemini 3.5 Flash 表现可靠
- 追求视觉美观与快速原型:DeepSeek-V4 Flash 更具优势
至于 GPT-5.5 在此任务中的表现,确实出乎预期。后续还会设计更复杂的任务场景进行持续实测,届时再与大家分享更多发现。




