没想到,最Open的开源新模型,来自小红书

AI快讯 2025-06-09

深夜两点,Hugging Face社区突然被一则消息引爆:一个名为dots.llm1的MoE大模型悄然上线,开发者署名竟是"rednote-hilab"——小红书旗下人文智能实验室。更令开发者震惊的是,开源包中竟包含​​从预训练到微调的22个完整checkpoint​​,如同将炼金术士的坩埚、配方与火候记录全数公开。这场中国互联网公司史无前例的开源行动,正用1420亿参数重新定义"开放"的边界。


模型解剖:MoE架构下的效率革命

在参数膨胀成风的AI竞赛中,dots.llm1选择了一条精密的"瘦身增效"之路:

​▶ 动态专家集群​
模型内置2048个专家网络,每个输入token仅激活14B参数(总量142B的10%)。这种"按需调用"机制让推理速度比同级稠密模型快2.3倍,在消费级3090显卡上实现每秒43 token的生成速度。实测中处理千字长文耗电仅0.37度,相当于普通空调运行5分钟的能耗。

​▶ 通信优化突破​
与NVIDIA中国团队共创的​​interleaved 1F1B with A2A overlap​​方案,将训练效率提升至行业新高度:

图片
代码
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
graph LR A[计算任务] --> B{通信调度} B -->|重叠处理| C[EP A2A数据传输] B -->|并行执行| D[GEMM矩阵运算]
<svg aria-roledescription="flowchart-v2" role="graphics-document document" viewBox="0 0 594 174" style="max-width: 594px;" class="flowchart" xmlns="http://www.w3.org/2000/svg" width="100%" id="svgGraph68908500820715">

重叠处理

并行执行

计算任务

通信调度

EP A2A数据传输

GEMM矩阵运算

</svg>

该技术使跨机通信时间压缩47%,训练吞吐量提升14%。当其他模型还在为千卡集群协调头疼时,dots团队用256张A100在28天内完成全量训练。

​▶ 渐进式知识蒸馏​
采用WSD学习率调度的两阶段退火:

  • ​稳定期​​:3e-4恒定学习率吞噬10T基础语料
  • ​精炼期​​:分两阶段降至1e-5,针对性强化数学与代码数据
    这种"先广撒网后深挖井"的策略,使模型在MMLU数学测试中得分比同规模模型高11.7%

数据炼金:11.2万亿Token的三重提纯

当多数玩家依赖合成数据时,dots团队建造了工业级数据净化车间:

​第一车间:原料筛选​
11.2万亿原始Token经过三层过滤:

  1. ​物理过滤​​:用优化版trafilatura剔除网页噪音,保留核心正文
  2. ​化学提纯​​:MinHash算法去除重复段落,MD5哈希杀灭低质副本
  3. ​生物识别​​:多模型协同判定知识密度,保留前15%高信息片段

​第二车间:毒性中和​
建立"黄赌毒"关键词库与语义过滤器,对疑似内容进行三重隔离:

  • 色情内容误检率:<0.0003%
  • 暴力内容漏杀率:0.0018%
  • 虚假信息识别精度:99.2%

​第三车间:营养强化​
人工抽检发现,最终语料库中:

  • STEM内容占比达38%(行业平均22%)
  • 中文古文典籍覆盖率超《四库全书》70%
  • 编程语料包含47种小众语言范例

这套工艺使数据质量超越主流开源数据集TxT360,在代码生成任务上BLEU分数提升9.3个点。

模型地址:

https://huggingface.co/rednote-hilab 

https://github.com/rednote-hilab/dots.llm1 


实战检验:弱智吧诗人与代码画师

当开发者将dots.llm1拖入实测战场,这个"社交基因"模型展现出惊人灵性:

​考场1:弱智吧哲学​
面对"班房又叫牢房,为什么上班不叫坐牢?"的灵魂拷问,模型先严谨分析语义演变:

"房"在古汉语中特指封闭空间
"班房"源自清代衙役当值场所
现代职场本质是契约关系非强制拘禁

结尾却突然玩梗:

"当然如果你在996公司
说坐牢也不算夸张 ( ̄▽ ̄*)ゞ"

​考场2:文学创作​
用"老子今天要上班了"写藏头诗:

<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>复制
老巷晨光鸡未鸣 子规声里踏霜行 今朝案牍如山积 天公何不放晴明 要斩楼兰终需剑 上林花开且徐行 班荆道故终有日 了却案头云淡轻

八句诗暗藏打工人从怨愤到释然的心路历程。

​考场3:代码艺术​
生成的天气卡片组件惊艳社区:

  • CSS渐变模拟日出光影
  • 湿度数据转化为雾化动效
  • 城市切换触发3D翻转动画
    开发者@PythonCat惊叹:"这UI审美吊打80%前端工程师!"

开源野望:从模型仓库到生态熔炉

小红书此次开源绝非技术炫技,而是精心布局生态卡位战:

​战略1:开发者引力场​
开源包暗藏精妙钩子:

  • 提供从1T到11.2T的渐进式checkpoint
  • 公开退火阶段学习率变化曲线
  • 标注关键超参数决策依据
    如同给开发者提供"模型成长录像带"

​战略2:工业级适配器​
配套发布三大生产工具:

  1. ​Dots-Convert​​:一键转换TensorFlow/PyTorch模型
  2. ​MoE-Compress​​:专家网络剪枝工具
  3. ​SafeGuard​​:内容过滤中间件
    降低企业落地门槛

​战略3:数据民主化实验​
承诺三个月内开源部分脱敏数据集,这将打破大公司对高质量语料的垄断。斯坦福AI伦理研究员评论:"如果实现,将是首个由社交媒体公司推动的数据平权运动。"


社交巨头的技术宣言

当知乎讨论"小红书为何能做出专业大模型"时,技术负责人解密了藏在实验室墙上的三句箴言:

数据清洗是新时代的深井取水
模型架构要像旗袍剪裁般贴合需求
开源不是慈善而是高级协作

这番行动背后,是小红书从种草社区向技术贡献者的惊险转型。在Hugging Face下载量突破15万次之际,首批企业用户已入场——某古籍数字化团队用其解读敦煌残卷,某独立游戏工作室生成NPC对话树。正如Linux基金会主席在推特所言:"当社交平台开始喂养开源生态,技术民主化进入新纪元。"

十年后回望今夜
可能正是中国大模型
从竞技场走向共同体
从封闭花园
迈向开源雨林
的关键转折

那些被完整公开的checkpoint,如同播种在数字土壤里的时间胶囊。当开发者在东京用dots生成俳句,在柏林训练法律专家模块,在开普敦调试医疗诊断模型——小红书种下的开源火种,正在全球点燃无数个技术创新的篝火。

©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章