W06 AI 数据情报 — 集识光年

Key Findings

本周 5 条高商业价值发现

P0 Qwen 发布 Qwen3-Coder-Next：代码 Agent 赛道竞争白热化

阿里 Qwen 团队发布 Qwen3-Coder-Next（80B MoE，3B active），专为 coding agent 和本地开发设计。SWE-Bench Pro 44.3 分，vLLM 和 SGLang 均提供 Day-0 支持，Together AI 已上线推理服务。

商业意义 → 代码 Agent 正成为各大 Lab 的核心赛道。Together 同步发布 Aurora-Spec-Qwen3-Coder-Next-FP8 (2026-02-03) 作为推测解码加速器，说明推理效率是落地关键。数据服务公司应重点关注代码指令数据集（多语言代码 + Agent 工具调用场景）的构建需求。

P0 NVIDIA 发力机器人数据基础设施：Cosmos-Policy + Numb3rs + Isaac GR00T

NVIDIA 发布 RoboCasa-Cosmos-Policy 和 LIBERO-Cosmos-Policy 两个机器人仿真数据集，配合 Isaac GR00T N1.6 基础模型（GitHub ⭐6143）。同时发布 Numb3rs 语音文本规范化数据集。5 个数据集 + 35 个模型，是本周最活跃的 Lab。

商业意义 → NVIDIA 正在构建端到端的机器人学习数据流水线（仿真→数据→模型），对机器人操控数据集、仿真环境数据、语音数据的需求明确且持续。

P1 DeepSeek-OCR-2 下载量爆发：文档理解数据需求飙升

deepseek-ai/DeepSeek-OCR-2 在一周内达到 661,725 次下载、712 次点赞，成为本周下载量最高的中国模型。同期智谱发布 GLM-OCR（被 SGLang 报道），Mistral 发布 OCR 3。

商业意义 → OCR/文档理解赛道出现三方竞速（DeepSeek、Zhipu、Mistral），高质量文档标注数据（复杂版式、多语言文档、表格嵌套）需求将显著增长。

P1 RLHF/偏好学习论文井喷：7 篇论文聚焦奖励模型改进

本周 7 篇 RLHF 相关论文，涵盖法语偏好数据收集（compar:IA）、民主化偏好对齐（DemPO）、Rubric 改进、GenRM 推理质量（R-Align）、LLM 评委去偏（FairJudge）、DPO 过优化防护（PEPO）、视频流匹配（Euphonium）。Qwen 发布 RationaleRM 数据集（2026-02-02），提出 Rationale Consistency 新评估维度。

商业意义 → RLHF 从简单的二元偏好标注向多维度、多语言、可解释方向演进。数据服务公司需要升级标注协议：支持 rubric-based 评估、推理过程标注、多语言偏好数据采集。

P2 阶跃星辰 Step-3.5-Flash 领跑中国开源速度赛道

stepfun-ai/Step-3.5-Flash 228,406 次下载，同时发布竞争编程基准 CF-Div2-Stepfun。Step3-VL-10B（82,755 次下载）聚焦机器人视觉-语言交互。

商业意义 → 阶跃星辰在推理速度和多模态机器人两条线同时发力，编程竞赛数据 + 机器人视觉语言数据是其核心数据诉求。

Demand Signals

从模型发布反推训练数据需求

代码 Agent 数据极强 Qwen3-Coder-Next · Aurora-Spec 系列 · SERA 系列

机器人/具身智能数据极强 Cosmos-Policy×2 · Isaac GR00T · jepa-wms · Step3-VL-10B

文档 OCR 数据强 DeepSeek-OCR-2 · GLM-OCR · Mistral OCR 3

RLHF 偏好数据强 RationaleRM · compar:IA · 7 篇偏好学习论文

多语言语音数据中 WaxalNLP · Numb3rs · Voxtral-Mini-4B

安全/内容审核数据中 Nemotron-Safety-Guard-v3 · Qwen3Guard

合成视觉数据中 CoSyn-point · DreamDojo

Download Movers

本周下载量变化最大的数据集

数据集	下载量	周增长
nvidia/Numb3rs	232	+139.2%
amazon/doc_split	1,566	+25.9%
Qwen/RationaleRM	754	+16.9%
nvidia/LIBERO-Cosmos-Policy	2,173	+7.0%
google/WaxalNLP	7,277	+1.9%

Deep Dive — DataRecipe

本周高价值数据集逆向分析（由 DataRecipe 自动生成）

Qwen/RationaleRM

300 条样本 · 14 个字段 · Hard

6.0/10

分阶段成本估算

设计阶段

Schema 设计 $480 · 标注指南 $768 · 试点测试 $120 · 工具配置 $200

$1,568 87.5%

生产阶段

人工标注 $121 · API $1 · 初审 $12 · 基础设施 $50 · 单价 $0.61/条

$183 10.2%

质量阶段

QA 抽检 20% · 返工 10% · 终验

$40 2.2%

总计（含 15% 风险预留） $2,060

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

本周共分析 3 个数据集 · 总复刻成本 $3,374 · 人工占比 83.9% · 全部 Hard 难度

由 AI Dataset Radar 自动生成 · 每周更新

github.com/liuxiaotong/ai-dataset-radar →

代码 Agent 赛道白热化机器人数据基础设施加速