我有自己的看法,我非常喜欢 Vals 之类的评价指数,能够从非常专业的多个私有领域数据去评估模型的“胜任力”。虽然我平时喜欢暴论,但是正经聊天的时候还是得先对一对“认知”,确保对方说的 <榜单> <幻觉率> 之类的术语跟我所理解的大差不差。
从我目前的评测来看,gemini-3-pro-preview (thinking_level=high) 在空间推理,网页内容理解,算法优化等领域,一超多强,遥遥领先。
在 law,health,finance 有相对领先的专业能力。
一些传播很广的批评的声音,存在一些谬误问题。例如 “饼干” “卡兹克” “橘子” 这类账号本身就是做流量和产品的高手,你的 timeline 上全是这几个头部博主的 “demo网页 + 卧槽”,这是非常正常的事情。显然正经开发不会这么浅也不会这样用,但 gemini-3-pro-preview 确实存在肉眼可见的模型迭代升级。
况且大多数网友其实看不到非常细小领域的结合多模态大模型的评测内容,这些内容像信息茧房一样被隔开了,大家都只在关注 coding,只会刷到“卡兹克的卧槽”和“一众博主的提示词”,这在一些人看来本就是粗浅和无聊的。
当然你也可以说我只做 coding,模型只是工具,无法满足我的原场景预期,继续使用已经爽吃了一段时间的 codex 和 claude code 也没啥大问题。
要始终记住 Google 是发了下一代多模态大模型 Gemini,而不是发了一个文心一言。这有本质区别。
从我目前的评测来看,gemini-3-pro-preview (thinking_level=high) 在空间推理,网页内容理解,算法优化等领域,一超多强,遥遥领先。
在 law,health,finance 有相对领先的专业能力。
一些传播很广的批评的声音,存在一些谬误问题。例如 “饼干” “卡兹克” “橘子” 这类账号本身就是做流量和产品的高手,你的 timeline 上全是这几个头部博主的 “demo网页 + 卧槽”,这是非常正常的事情。显然正经开发不会这么浅也不会这样用,但 gemini-3-pro-preview 确实存在肉眼可见的模型迭代升级。
况且大多数网友其实看不到非常细小领域的结合多模态大模型的评测内容,这些内容像信息茧房一样被隔开了,大家都只在关注 coding,只会刷到“卡兹克的卧槽”和“一众博主的提示词”,这在一些人看来本就是粗浅和无聊的。
当然你也可以说我只做 coding,模型只是工具,无法满足我的原场景预期,继续使用已经爽吃了一段时间的 codex 和 claude code 也没啥大问题。
要始终记住 Google 是发了下一代多模态大模型 Gemini,而不是发了一个文心一言。这有本质区别。