Skip to main content

OKHK 👀

Thinking ❤️
  1. Qwen3 发布了,简单看了一下创新的地方:

    训练数据:这次使用了 36T 的预训练数据,可以说相当大了, DeepSeek V3 是 14.8T。这些数据覆盖了 100 多种语言,还包含了上一代模型生成的数学和代码内容。另一个点是还包含了从图片识别出来的文本。

    预训练:这块目前没看出太多特别的,采用的是 128 选 8 的 MoE 并没有使用 shared expert。

    后训练:这里是模型产生混合思考能力的关键步骤,在经过 CoT 的 RL 后又加入了一次 SFT 让模型在通用问题上直接出结果。粗略可以理解为有了个类似 DeepSeek R1 那样啥都要思考的模型后又加了些指导,让模型不要什么问题都思考。

    整体看下来是个在数据上下了大功夫,局部有创新的模型。但是从架构上看也很难有超预期的表现,还是要看实际使用的体验了。

    https://qwenlm.github.io/blog/qwen3/
  2. 一觉醒来发生了什么 04月29日

    2025年4月29日
    🌍资讯快读
    1、商务部:降低外贸企业内销成本,推动减免房屋租金、展位费、流量费
    https://www.jiemian.com/article/12703112.html
    2、国家发改委:建立实施育儿补贴制度
    https://www.jiemian.com/article/12703011.html
    3、五一期间上海景观照明开启重大活动模式
    https://www.thepaper.cn/newsDetail_forward_30735867
    4、日韩 “打头阵”与美国贸易谈判
    https://www.thepaper.cn/newsDetail_forward_30731937

    👬即刻镇小报
    1、系统聊聊京东战美团
    https://m.okjike.com/originalPosts/680e2c3b65a41e2061540c60
    2、当你决定专心致志于某事的那一刻,天意也开始运作
    https://m.okjike.com/originalPosts/680ceed6a678f020774c4208
    3、一份适合夏季待客的菜单
    https://m.okjike.com/originalPosts/680e5004070109da49ef4f79
    4、原来爸妈取的名字,真的会影响我们的命运
    https://m.okjike.com/originalPosts/680dab66b4b2ebfd5eb1a788

    今日即刻镇小报内容来自 @奥特快出海笔记 @米雅miyahoo @ChatV @广屿Ocean ,感谢以上即友的创作与分享。
  3. #Bing_Wallpaper

    在被誉为标志性建筑的法国卢瓦尔河谷维朗德里城堡中,有一处令人叹为观止的几何花园设计。华丽的对称排列的绿篱精准地构成了复杂而灵感源自花卉的图案,周围环绕着金黄色的沙质小径。每一片郁郁葱葱的绿篱都包裹着缤纷艳丽的花丛和经过精心打造的花坛。对称之美散发出一种优雅气质,与精雕细琢、分层排列的修剪树木交相辉映。一座采用四叶草设计的小喷泉居于花园中心,为整体景观增添了一种宁静之感。色彩以绿色、金黄色和泥土色为主调,营造出鲜明且和谐的氛围。这一场景以高分辨率航拍视角拍摄,突显了文艺复兴时期花园艺术的宏伟与数学般的精确。
OKHK