谷歌在近日悄然推出了Gemini 2.5 Pro的重大更新版本——Gemini 2.5 Pro Preview 06-05 Thinking,这一举动在AI界掀起了波澜。据悉,新版本在多项基准测试中表现卓越,特别是在推理能力、科学以及编程能力方面,成功超越了OpenAI的o3、DeepSeek R1和Claude Opus 4等强劲对手。
据谷歌官方透露,Gemini 2.5 Pro Preview 06-05 Thinking在编程能力上尤为突出,领跑包括Aider Polyglot在内的高难度编程基准测试。这一成就不仅彰显了谷歌在AI技术领域的深厚积累,也预示着大模型迭代速度的进一步加快。
在价格策略上,新版本延续了先前的定价方案,即每百万token输入(无缓存)费用为1.25美元,输出费用为10美元。尽管这一价格相较于部分竞争对手仍显偏高,但考虑到其卓越的性能表现,仍吸引了大量开发者和用户的关注。
谷歌CEO桑达尔·皮查伊在海外社交媒体上亲自宣布了这一消息,他表示:“我们最新的Gemini 2.5 Pro更新现已发布预览版……我们听取了用户的反馈,并对回答的风格和结构进行了改进。大家可以在AI Studio、Vertex AI平台和Gemini app中进行试用。正式版即将推出!”
在基准测试方面,Gemini 2.5 Pro Preview 06-05 Thinking的表现堪称惊艳。它不仅在文本、视觉、网页开发、编程、数学、创意、多轮对话、指令跟随及长查询等多个类别中拔得头筹,还在综合榜单上以显著优势领先。特别是在WebDevArena测试中,其Elo分数高达1443分,较此前版本有了大幅提升。
尽管新版本在多项测试中表现出色,但在某些特定领域仍有提升空间。例如,在测试数学能力的AIME 2025和测试代码生成的LiveCodeBench上,它并未超过OpenAI的o3和o4-mini。不过,这并不影响其作为当前最强大的AI模型之一的地位。
随着Gemini 2.5 Pro Preview 06-05 Thinking的推出,开发者们已经迫不及待地开始尝试这一新版本。从图像生成到编程应用,新版本都展现出了惊人的能力和创造力。例如,有开发者使用Gemini生成了一张生动的狮子特写照片,还有开发者要求其编写了一个模拟随机车流量单行道上的交通信号灯运作过程的Python程序,结果都令人惊叹不已。
这一系列卓越的表现无疑进一步巩固了谷歌在AI领域的领先地位。随着大模型迭代速度的加快,未来的AI较量将更加激烈和精彩。而Gemini 2.5 Pro Preview 06-05 Thinking的推出,无疑为这一竞争注入了新的活力和动力。
文章采集于互联网