阿里大模型 Qwen3 发布Oilbeater 的自习室Qwen3 发布了,简单看了一下创新的地方: 训练数据:这次使用了 36T 的预训练数据,可以说相当大了, DeepSeek V3 是 14.8T。这些数据覆盖了 100 多种语言,还包含了上一代模型生成的数学和代码内容。另一个点是还包含了从图片识别出来的文本。 预训练:这块目前没看出太多特别的,采用的是 128 选 8 的 MoE 并没有使用 shared expert。 后训练:这里是模型产生混合思考能力的关键步骤,在经过 CoT 的 RL 后又加入了一次 SFT 让模型在通用问题上直接出结果。粗略可以理解为有了个类似…
千问海外版也可使用了
https://chat.qwen.ai/
chat.qwen.ai
Qwen Studio
Qwen Studio is an official platform from Qwen that empowers both everyday users and developers with unified access to Qwen’s series of open-source and proprietary models. It offers comprehensive functionality spanning chatbots, image and video understanding…