我有自己的看法，我非常喜欢 Vals 之类的评价指数，能够从非常专业的多个私有领域数据去评估模型的“胜任力”

16:54 · 2025年11月20日 · 周四

Patrick 舆情发布

我的 bold claim: 所有喜欢刷榜的 llm 都不行。甚至可以说，只要这家公司的主要宣传是在和别的公司比，这个model多半不行...

看到一个奇怪的决策的时候，我会下意识的去反推是什么样的mindset 让他们做出了这样的决定，然后推断他们受到什么压力，被什么因素驱动，是什么样的人，什么样的文化，以此来判断这家公司行不行。

盯着榜单刷，就和 paper counting 一样，会 distort your judgement.

我有自己的看法，我非常喜欢 Vals 之类的评价指数，能够从非常专业的多个私有领域数据去评估模型的“胜任力”。虽然我平时喜欢暴论，但是正经聊天的时候还是得先对一对“认知”，确保对方说的 <榜单> <幻觉率> 之类的术语跟我所理解的大差不差。

从我目前的评测来看，gemini-3-pro-preview (thinking_level=high) 在空间推理，网页内容理解，算法优化等领域，一超多强，遥遥领先。

在 law，health，finance 有相对领先的专业能力。

一些传播很广的批评的声音，存在一些谬误问题。例如 “饼干” “卡兹克” “橘子” 这类账号本身就是做流量和产品的高手，你的 timeline 上全是这几个头部博主的 “demo网页 + 卧槽”，这是非常正常的事情。显然正经开发不会这么浅也不会这样用，但 gemini-3-pro-preview 确实存在肉眼可见的模型迭代升级。

况且大多数网友其实看不到非常细小领域的结合多模态大模型的评测内容，这些内容像信息茧房一样被隔开了，大家都只在关注 coding，只会刷到“卡兹克的卧槽”和“一众博主的提示词”，这在一些人看来本就是粗浅和无聊的。

当然你也可以说我只做 coding，模型只是工具，无法满足我的原场景预期，继续使用已经爽吃了一段时间的 codex 和 claude code 也没啥大问题。

要始终记住 Google 是发了下一代多模态大模型 Gemini，而不是发了一个文心一言。这有本质区别。