QIN2DIM's Tech Channel
我有自己的看法,我非常喜欢 Vals 之类的评价指数,能够从非常专业的多个私有领域数据去评估模型的“胜任力”。虽然我平时喜欢暴论,但是正经聊天的时候还是得先对一对“认知”,确保对方说的 <榜单> <幻觉率> 之类的术语跟我所理解的大差不差。 从我目前的评测来看,gemini-3-pro-preview (thinking_level=high) 在空间推理,网页内容理解,算法优化等领域,一超多强,遥遥领先。 在 law,health,finance 有相对领先的专业能力。 一些传播很广的批评的声音,存在一些谬误问题。例如…