OKHK 👀
✨ Thinking ❤️
-
-
-
-
-
- Qwen3 发布了,简单看了一下创新的地方:
训练数据:这次使用了 36T 的预训练数据,可以说相当大了, DeepSeek V3 是 14.8T。这些数据覆盖了 100 多种语言,还包含了上一代模型生成的数学和代码内容。另一个点是还包含了从图片识别出来的文本。
预训练:这块目前没看出太多特别的,采用的是 128 选 8 的 MoE 并没有使用 shared expert。
后训练:这里是模型产生混合思考能力的关键步骤,在经过 CoT 的 RL 后又加入了一次 SFT 让模型在通用问题上直接出结果。粗略可以理解为有了个类似 DeepSeek R1 那样啥都要思考的模型后又加了些指导,让模型不要什么问题都思考。
整体看下来是个在数据上下了大功夫,局部有创新的模型。但是从架构上看也很难有超预期的表现,还是要看实际使用的体验了。
https://qwenlm.github.io/blog/qwen3/ -
- 一觉醒来发生了什么 04月29日
2025年4月29日
🌍资讯快读
1、商务部:降低外贸企业内销成本,推动减免房屋租金、展位费、流量费
https://www.jiemian.com/article/12703112.html
2、国家发改委:建立实施育儿补贴制度
https://www.jiemian.com/article/12703011.html
3、五一期间上海景观照明开启重大活动模式
https://www.thepaper.cn/newsDetail_forward_30735867
4、日韩 “打头阵”与美国贸易谈判
https://www.thepaper.cn/newsDetail_forward_30731937
👬即刻镇小报
1、系统聊聊京东战美团
https://m.okjike.com/originalPosts/680e2c3b65a41e2061540c60
2、当你决定专心致志于某事的那一刻,天意也开始运作
https://m.okjike.com/originalPosts/680ceed6a678f020774c4208
3、一份适合夏季待客的菜单
https://m.okjike.com/originalPosts/680e5004070109da49ef4f79
4、原来爸妈取的名字,真的会影响我们的命运
https://m.okjike.com/originalPosts/680dab66b4b2ebfd5eb1a788
今日即刻镇小报内容来自 @奥特快出海笔记 @米雅miyahoo @ChatV @广屿Ocean ,感谢以上即友的创作与分享。 -
-
-
- #BB 要是短视频App中没有任何官号,没有魔性 TTS / AI 配音,没有各路网红 BGM...
- 这之后别家干不过京东是不是就是 猪狗不如 了🤣