人类判断基础设施

AI 时代,执行的价值趋近于零。
我们为前沿模型提供 RL 数据闭环与专家判断网络。

代码重构 · RLHF
字节跳动

专家评审与 RL 闭环,代码可读性评分显著提升

抽象推理 · ARC-AGI 2
AGI 基准评测

为 ARC Prize 生产抽象推理数据集,衡量 AI 通用智能水平

极限评测 · HLE
人类最后一次考试

全球顶尖专家出题,评测大模型能力上限的高难度题库

字节跳动 京东 百度 唯品会 万物新生

最新情报

AI Dataset Radar 自动生成的训练数据竞争情报

W06
代码 Agent 赛道白热化,机器人数据基础设施加速
2026-02-02 — 2026-02-09 · 19 数据集 · 25 论文 · 3 深度分析
查看全部周刊 →