开源具身智能篇

引言：从“Demo 叙事”走向“开源生态闭环”

2025 年，具身智能迎来了从实验室走向真实物理世界的关键跨越。如果说过去几年行业的主旋律是“Demo 叙事”——在精心布置的环境中展示机器人流畅的动作，那么 2025 年的开源具身智能则彻底打破了这种局限。

随着众多学术机构与科技企业的集中发力，中国具身智能开源生态已经从单一的模型开源，演进为涵盖“模型—评测—数据—软件栈—硬件本体”的全栈生态闭环。开源不仅降低了具身智能的研发门槛，更通过标准化的评测基准和海量高质量数据集，推动行业直面真实物理世界中的长尾挑战。本篇将全景式梳理 2025 年中国开源具身智能的突破性进展。

一、开源具身基础模型：从单点突破到能力矩阵

在过去一年中，开源具身基础模型不再局限于单一的视觉-语言-动作（VLA）架构。为了推动机器人走出实验室，在真实世界中干活，科研院所与科技企业开始把目光投向如何解决更高精度的空间感知以及和物理世界的真实交互，并以此形成了更加精细化的模型矩阵。

1.1 空间感知模型：让机器人“看清”世界

空间感知是机器人与物理世界交互的前提。2026 年初，蚂蚁灵波正式开源了新一代空间感知模型 LingBot-Depth。该模型采用“掩码深度建模（MDM）”技术，通过在训练中故意遮挡部分深度数据，迫使模型学会补全信息。基于奥比中光 Gemini 330 系列双目 3D 相机采集的数据，LingBot-Depth 展现出了处理透明、反光等复杂场景的卓越能力，践行了“用软件补齐硬件短板”的技术路线。

1.2 动作模型：让机器人“做对”任务

动作模型是具身智能的“执行中枢”，其核心任务是将视觉感知与语言指令转化为机器人在物理世界中的连续动作。过去一年，这一领域呈现出“两条技术路线并行演进”的格局：一条是已趋成熟、依旧占据主力地位的视觉-语言-动作（VLA）模型；另一条则是为破解 VLA“懂语义、却不懂物理”短板而快速崛起的世界动作模型（WAM）/ 视频-动作模型（VA）。中国开源社区在这两条路线上均贡献了具有国际影响力的代表性工作。

1.2.1 VLA 模型：从“能动”迈向“做对”

过去一年，中国开源社区在 VLA 的参数效率、泛化能力与真机性能上密集突破，已使 VLA 从“能动”迈向“做对”，并在多个维度上反超国际领先的闭源与开源基线（如 Physical Intelligence 的 π0 系列）。若沿开源时间线回望，这一进程清晰呈现出从“架构创新”到“极致参数效率”、再到“全栈工程化与量产闭环”的递进脉络。

这一进程的早期标志，是由微软亚洲研究院主导、联合清华大学、中国科学技术大学与中国科学院微电子所共同完成的 CogACT，这是中国开源社区在 VLA 架构创新上的代表性工作之一。面对早期 VLA（如 OpenVLA、Octo）普遍“将动作离散化为 token、直接复用语言模型预测”所带来的精度损失，CogACT 提出了一套**“组件化”架构**，确立了“认知—行动解耦 + 扩散动作专家”的全新范式，深刻影响了此后一代 VLA（包括下文多个国产模型），成为该领域被广泛参照的开源坐标之一。

紧随其后，学术驱动的“小而强”路线进一步贡献了重要的开源力量——清华大学智能产业研究院（AIR）与上海人工智能实验室联合发布了 X-VLA。X-VLA 采用基于流匹配（flow-matching）的简洁架构，专为在异构数据集上实现稳定预训练而设计，是全球首个完成 120 分钟无辅助自主叠衣这一超长程精细任务的全开源模型（公开数据、代码与参数）。尤为难得的是，它仅以 0.9B 的参数量便在五大权威仿真基准上全面刷新纪录，并斩获 IROS 2025 AGIBOT World 挑战赛冠军，证明了“小参数、强泛化”在具身领域的可行性。与之并行的还有智源研究院的 RoboBrain 2.0，作为统一感知-推理-规划的大模型，进一步提升了机器人在复杂长程任务中的自主决策能力；以及成为国内首个通过具身智能国标（EI Bench）测试的 XR-1 模型，标志着开源 VLA 在合规性与可靠性维度的重要里程碑。

在学术界夯实“小而强”路线的同时，科技公司主导的“全栈工程化”路线则在 2025 年下半年至 2026 年初集中爆发。

其中最早落地的是成立于 2023 年底的自变量机器人（X Square Robot），其于 2025 年 9 月正式开源了具身基础大模型 WALL-OSS。WALL-OSS 是一个 4.2B 参数规模的通用基础具身模型。在架构上，它首创“共享注意力 + 专家分流（FFN）”机制，将语言、视觉、动作嵌入统一表示空间，有效规避了 VLM 知识迁移中的“灾难性遗忘”与“模态解耦”难题；在训练范式上，采用“启发阶段（Inspiration Stage）+ 融合阶段（Integration Stage）”的两阶段策略，遵循“先离散、后连续、再联合”的路径，使 VLM 的认知能力得以无损迁移至物理动作。更关键的是其开源的彻底性：自变量一次性放出了预训练模型权重、训练代码、数据集接口与部署文档，开发者仅需 RTX 4090 级别的算力即可完成从训练到部署的全流程，外部团队最快一周内即可在第三方本体上完成适配（通常需 1-2 个月）。其 CTO 王昊将此举的目标概括为“让整个行业以最低的成本，获得最先进、最通用的能力基座”，意在为长期陷于“过拟合演示”怪圈的具身行业“修路”。

几乎在同一时期，极佳视界联合湖北人形机器人创新中心发布并开源了端到端 VLA 具身基础模型 GigaBrain-0，代表了一条“世界模型驱动 VLA”的独特路线。这是国内首个利用“世界模型”生成数据实现真机泛化的视觉-语言-动作基础模型。其核心思路在于：依托自研世界模型平台 GigaWorld 大规模生成 Sim2Real、Real2Real、新视角、视频生成与人类视频迁移等多类合成数据，将真机数据的多样性放大约 10 倍，从而以远低于纯真机采集的成本构建“最全具身数据体系”。在模型侧，GigaBrain-0 同时支持图像、点云、文本与本体状态输入，引入深度输入以增强 3D 空间感知、并通过子目标拆解与末端轨迹输出实现结构化推理，从而在叠衣、整理卷纸、收拾桌面、搬运箱体等柔性、长程、移动操作任务上表现出色。在此基础上，团队进一步推出万小时级数据训练的开源模型 GigaBrain-0.1，并在 RoboChallenge 真机评测中超越 π0.5 等模型，印证了“世界模型为数据引擎”这一路线的规模化潜力。

成立于 2024 年初的千寻智能（Spirit AI） 则在 2026 年 1 月开源了具身基础模型 Spirit v1.5，并以总分 66.09、成功率 50.33% 的成绩登顶 RoboChallenge 真机评测榜单，成为该榜自上线以来首个击败基线模型 π0.5 的国产模型。Spirit v1.5 采用 VLA 统一建模框架，其核心创新在于预训练阶段的数据策略——从高度精选、强控制的“干净数据”转向多样化、开放式、弱控制的数据采集范式：鼓励数采员只围绕任务目标自由行动，从而在自然执行中连续覆盖抓取、插入、整理、双臂协作、异常处理等大量原子技能。消融实验显示，在预训练数据规模一致的前提下，多样化预训练模型在新任务上达到相同性能所需迭代次数减少约 40%，印证了“任务多样性比单一任务的演示数量更为关键”这一判断。千寻同步开源了基模权重、推理代码与使用样例，为学界提供了一条区别于 π 系列的开源技术路径。

紧随其后，以平台型生态见长的蚂蚁灵波推出的 LingBot-VLA 则明确打出了“一脑多机、行业基座”的定位——其目标不是服务于某一款本体，而是做一个能被整个行业复用、跨不同本体与任务迁移的通用动作基座模型。为支撑这一泛化目标，LingBot-VLA 基于 20000+ 小时大规模真机数据进行预训练，覆盖了 9 种主流双臂机器人构型。LingBot-VLA 在技术上的一大核心特色，是与其同期开源的高精度空间感知模型 LingBot-Depth 配合，将深度（Depth）信息融入动作模型，进一步提升任务成功率。在上海交通大学开源的具身评测基准 GM-100（包含 100 项真实操作任务）测试中，LingBot-VLA 在 3 个不同的真实机器人平台上，跨本体泛化平均成功率相较于 π0.5 的 13.0% 提升至 17.3%，刷新了真机评测的成功率纪录。更能体现其“基座”野心的是开源的完整度与社区热度：蚂蚁灵波不仅开源了模型本身，还同步开源了后训练代码，使开发者能以较低的后训练成本将这一通用基座快速适配到自身的本体与任务上；依托这一“低门槛 + 可复用”的特点，LingBot-VLA 在开源社区迅速获得关注，成为同期中国开源具身动作模型中 GitHub Star 数最多的项目之一。

与上述公司“通用底座”路线不同，原力灵机（Dexmal） 走出了一条“具身原生”的差异化路径。2026 年 2 月，原力灵机在其首届技术开放日上发布了 DM0，并将其 2.4B 参数版本全面开源（含代码、模型及 30 个任务的参数与推理代码）。所谓“具身原生”，即模型从零开始训练、深度融合多模态互联网信息与具身场景特有的传感数据，而非由通用 VLM 训练而来。DM0 具备三大核心特征：多源数据预训练、多任务跨机型预训练（预训练阶段系统混合操作、导航、全身控制三类任务，覆盖 8 种构型迥异的机器人硬件，从而获得强跨机型泛化能力），以及空间推理思维链（将环境感知、任务理解、运动规划与精细执行串联成闭环）。在 RoboChallenge 真机评测中，DM0 取得单任务与多任务双项第一、位列全球榜单首位。与模型同期开源的还有模块化具身开发框架 Dexbotic 2.0（详见第四章）。

上述公司与机构的实践共同表明，2025—2026 年的中国开源 VLA 已不再满足于“发布一个能跑的模型”，而是以“完整可复现的全栈方案 + 公开可验证的真机榜单成绩 + 真实产线的落地验证”为标准，并从通用底座向具身原生、从单点模型向全栈矩阵不断拓展，推动具身基础模型走向真正的开放与普惠。

1.2.2 WAM/VA：让机器人“先想象、再行动”

如果说 VLA 解决的是“看懂指令、映射到动作”，那么 2025 年最受瞩目的范式跃迁，则来自世界动作模型（World-Action Model, WAM），亦称视频-动作模型（VA）。其核心思想是：以预训练视频扩散模型为骨干，让模型在同一框架内联合建模“未来视觉画面”与“机器人动作”，从而继承海量互联网视频中蕴含的物理与时空先验，赋予机器人“先在脑海中想象动作发生后的世界、再反推当下该如何行动”的预测式智能。这恰好弥补了 VLA 仅有语义先验、缺乏物理动力学先验的根本短板。这一方向虽起步晚于 VLA，但凭借其在泛化性与数据效率上的显著优势，已成为具身基础模型最具想象空间的前沿赛道，中国开源力量在其中表现尤为活跃。

蚂蚁灵波在 2026 年初发布的 LingBot-VA 是这一范式的代表性开源工作，被称为全球首个自回归“视频-动作”世界模型，模型在预测“下一帧世界状态（Video）”的同时同步生成驱动机器人执行该画面的“动作指令（Action）”，使机器人能像人一样“边推演、边行动”，将世界模型的预测能力转化为物理世界的行动能力。在性能上，LingBot-VA 的真机任务成功率较业界强基线 π0.5 平均提升约 20%；在仿真评测中，其在 RoboTwin 2.0 的评测中首次将成功率提升至 90% 以上，于 LIBERO 达到 98.5% 平均成功率，均刷新了当时纪录。目前其模型权重与推理代码已全面开源。

由生数科技 × 清华大学联合发布的 Motus 是 WAM/VA 路线中另一个极具代表性的中国开源成果。生数科技于 2026 年 2 月正式发布并开源了这一通用基座世界行动模型，它基于原创的 UniDiffuser 统一建模框架，将语言、视频与动作三类模态统一在单一框架内，一次训练即可同时支持 VLA、视频生成、逆动力学、视频-动作联合预测等多种能力，其代码、论文与权重均已完整开源。

作为对照，国际上的同类代表是英伟达的 DreamZero——一个基于预训练视频扩散主干（Wan2.1-I2V-14B）构建的 140 亿参数 WAM。DreamZero 与上述模型在核心思想上高度相近，共同印证了 WAM/VA 正成为继 VLA 之后的下一代主流范式。值得注意的是，在这一前沿赛道上，中国开源社区已形成了 LingBot-VA、Motus 等多点开花的格局，在框架创新与工程效率两个维度上与国际顶尖工作同台竞技，占据了重要位置。

1.3 世界模型：可交互世界建模

需要澄清的是，本报告所谈的“世界模型”实际包含两条技术路径：一是上一节讨论的控制闭环型（WAM/VA，在生成未来画面的同时直接输出机器人动作）；二是本节聚焦的可交互世界建模（Interactive World Modeling）——其核心能力是以用户的控制信号（键盘、鼠标、手柄或动作）为条件，实时生成一个可探索、可交互、前后一致的虚拟世界。与传统仿真器依赖渲染引擎逐帧“搭建”场景不同，它是生成式的：给定当前画面与一个交互指令，模型直接“想象”出环境在该指令作用下会怎么变化，并连续渲出可供智能体“身处其中”的视频流。这一能力以 Google Genie 3 为标杆，在 2025 年下半年至 2026 年初迎来了中国开源力量的集中突破。其背后的动机在于：真机采集复杂、长程任务数据的成本极高且充满不确定性，而一个足够真实、可交互、可泛化的生成式世界，能为具身智能、自动驾驶、游戏与影视等领域提供近乎无限、可重复的交互与训练样本。

昆仑万维（Skywork AI） 是这一方向的开源先行者，其布局早在 Google Genie 3 发布之前便已展开。其于 2025 年 5 月开源的 Matrix-Game（参数规模达 17B）被称为“工业界首个开源的 10B+ 空间智能大模型”，是一个以单张图像为起点、面向游戏世界建模的交互式世界基础模型：用户可通过键盘（W/A/S/D、跳跃、攻击）与鼠标（视角移动）在生成的 Minecraft 场景中自由探索，并首创了面向交互世界生成的 GameWorld Score 评测体系（从视觉质量、时序质量、动作可控性、物理规则理解四个维度量化模型能力）。紧随其后，昆仑万维于 2025 年 8 月的“技术发布周”期间连续开源了 Matrix-Game 2.0 与 Matrix-3D：前者是业内首个在通用场景上实现实时长序列交互式生成的开源世界模型，能以 25 FPS 的速度在城市、野外等多种场景、多种视觉风格下稳定生成分钟级的连续交互视频；后者则从单图出发生成轨迹一致的全景视频并还原出可漫游的三维空间，对标李飞飞 World Labs 的生成效果。

紧随昆仑万维之后，腾讯混元也在可交互世界建模赛道上持续发力，并以“连续迭代 + 全链路开源”的节奏成为另一代表。继 2025 年 7 月开源首个支持物理仿真的 3D 世界生成模型 HunyuanWorld-1.0、同年 10 月推出支持多视图/视频输入的 世界模型 1.1（WorldMirror） 后，腾讯混元于 2025 年 12 月发布并开源了面向实时交互的 混元世界模型 1.5（HY WorldPlay）。与前代依赖离线生成不同，WorldPlay 以自回归扩散模型为核心，用户输入文字或图片即可创建可交互世界，并通过键盘、鼠标或手柄实时操控虚拟相机的移动与转向，生成速度可达 每秒 24 帧，并支持第一/第三视角、场景触发特定事件（如冒烟、爆炸）以及 3D 场景重建。针对世界模型难以兼顾实时性与长时一致性的矛盾，它提出了重构上下文记忆机制（动态重建过往帧信息以维持长期几何一致性）与专门面向长序列自回归视频模型的强化学习后训练框架 WorldCompass。腾讯称其为“业界最系统、最全面”的世界模型框架，覆盖数据、训练与流式推理部署的全链路；在基准测试中，其视觉质量与长期几何一致性指标超过所有对比模型，仅在相机控制旋转精度上略逊于个别模型。目前 HY WorldPlay 已在 GitHub 与 Hugging Face 开源。

进入 2026 年，蚂蚁灵波开源的 LingBot-World 成为这一路线中最受瞩目的开源成果之一。 它于 2026 年 1 月发布，被多家媒体称为业界首个可对标 Google Genie 3 的开源世界模型。其核心 LingBot-World-Base 脱胎于视频生成技术，由一个可扩展数据引擎（Scalable Data Engine）驱动，通过从大规模游戏环境中学习物理规律与因果关系，实现与生成世界的实时交互。在几个关键指标上，LingBot-World 均展现出业界领先水平：在长时序一致性上，它通过多阶段训练与并行化加速策略实现了近 10 分钟的连续稳定无损生成，即便镜头移开长达 60 秒后返回，场景核心物体仍能保持结构与外观一致；在实时交互上，它可实现约 16 FPS 的生成吞吐、端到端交互延迟控制在 1 秒以内，用户可通过键鼠实时操控角色与视角，甚至可用文本指令触发天气、风格等环境变化。目前其模型权重、推理代码与技术报告均已全面开源。值得一提的是，LingBot-World 的开源与谷歌 Project Genie（Genie 3 体验平台）的对外开放几乎同期发生；与谷歌仅向订阅用户提供体验入口不同，LingBot-World 选择将权重与代码完整开源，使开发者首次能以较低门槛获得工业级的可交互世界模型。

从昆仑万维 Matrix 系列、腾讯混元 WorldPlay 到 LingBot-World，可以看到可交互世界建模已成为中国开源力量集中投入的前沿方向，且多家团队都把“长时一致性（空间记忆）”与“实时交互（低延迟、高帧率）”作为核心攻坚点。

二、开源具身模型评测：打破“视觉真实”的幻象

随着模型能力的提升，传统的评测体系已难以反映具身智能在复杂环境中的真实水平。2025 年，中国学术界与产业界联手，针对动作模型的测评构建了覆盖仿真与真机的双维评测基准。

2.1 仿真评测：从基础技能到复杂交互

仿真评测是模型能力验证的“第一道关卡”。相较于成本高昂、难以规模化的真机测试，仿真环境能以极低成本提供可重复、可控变量的大规模评测，是驱动策略迭代的重要基础设施。除了国际通用的 LIBERO（终身学习）、CALVIN（长时序语言条件操作）、SimplerEnv（real-to-sim 评估）等基准外，中国开源社区在 2025 年呈现出“从基础技能评测走向复杂交互与高阶认知评测”的鲜明趋势，构建了一批被国际社区广泛采纳的仿真评测基准。

面向双臂协同操作的 RoboTwin 2.0 是其中最具代表性且影响力最广的工作之一。该项目由上海交通大学、香港大学、上海 AI 实验室等机构联合推出，其早期版本曾获 ECCV 2024 Workshop 最佳论文，1.0 版被 CVPR 2025 选为 Highlight。与一般“静态任务集”不同，RoboTwin 2.0 本质上是一个 “可扩展数据生成器 + 统一评测基准”的一体化框架：它构建了含 147 类、731 个带语义与操作标注物体的 RoboTwin-OD 物体库，并借助多模态大模型（MLLM）与“仿真在环”闭环反馈自动合成任务代码，覆盖 50 个双臂任务与 5 种机器人本体。目前 RoboTwin 已完整开源数据生成器、基准、数据集与代码，并作为 CVPR 2025 双臂协作挑战赛的官方平台，成为国内双臂操作研究的重要公共基设。

在“面向 VLA 与高阶推理”的评测上，复旦大学推出的 VLABench 填补了关键空白。作为首个专门面向 VLA、基于语言指令且含长时程推理任务的机器人操作评测基准，VLABench 不仅考察策略的动作执行精度，更从视觉、语言、规划、常识等多个维度考察 VLM 在具身场景下的多模态推理与零样本任务规划能力，推动评测从“做对动作”向“理解任务逻辑”迈进。

与此同时，仿真评测正从“各团队自建任务集”走向“平台化、服务化”。上海 AI 实验室依托其“书生”具身全栈引擎 Intern-Robotics，于 2025 年 9 月的“具身智能开源周”期间推出了高保真场景下的多模态导航与操作评测基座，面向社区提供开源的评测工具、基线方法、数据集与评测服务：其导航评测聚焦于物理真实环境下的视觉语言导航，操作评测则专注于“长时序带推理的指令遵循”任务；以此为基础的 IROS 2025 挑战赛面向全球开放，评测服务长期为社区提供。进入 2026 年，实验室进一步发布了系统化的具身操作仿真评测基座 EBench（含 26 种任务、按场景/原子技能/时长/精度/移动能力五维标签标注，构建 794 条测试任务以支撑细粒度能力诊断与泛化评估），进一步巩固了仿真评测“社区共建、公平可复现”的基础设施属性。总体看，从双臂协同、长时程组合泛化到高阶语言推理，国内开源仿真评测正在为模型预训练与能力诊断提供越来越低成本、越来越逼近真实的验证环境。

2.2 真机评测：直面物理世界的“统考卷”

无论仿真评测多么逼真，真机评测始终是检验模型能力的最终试金石。长期以来，真机测试面临难以复现、缺乏统一标准、成本高昂等核心痛点，使得各家厂商的“Demo 叙事”之间既无法横向比较，也难以被验证复现。正如图灵奖得主姚期智所呼吁的，具身智能行业亟需“从各说各话走向统一评测”。2025 至 2026 年，两大开源真机评测平台的出现，正在系统性地破解这一行业痛点。

RoboChallenge 是由原力灵机与 Hugging Face 联合发起的全球首个具身智能大规模真机评测平台，致力于构建一个开放、公正、可大规模复现的“真实考场”。自 2025 年 10 月 15 日上线以来，平台已部署了包含 UR5、Franka Panda、ARX5、ALOHA 等四大主流机型在内的 20 台真机集群，构筑起稳定多元的远程物理测试网络，并开源了覆盖 9 大类、共 30 个标准化桌面任务的 Table30 数据集。值得关注的是其“开放共同体”模式：2025 年 11 月，原力灵机联合多家单位共同成立了 RoboChallenge 组委会，推动评测从“分散实验”走向“共识共建”，标志着真机评测迈入标准化新阶段。2026 年 1 月 30 日发布的首份年度报告（点击此处阅读全文），基于过去数月（2025 Q4～2026 Q1）数万次严苛远程真机测试，客观揭示了当前 VLA 模型的能力边界，其核心发现颇具警示意义：基础任务（如“叠碗”“物体移入盒子”）已趋近成熟，俨然成为具身智能的“Hello World”；但涉及多步骤序列决策、长期规划与精细灵巧操作的复杂任务（如“整理纸杯”“制作三明治”）成功率长期处于低位，部分甚至接近零；即便是 Table30 榜首模型，整体成功率也仅在 50% 左右，而在精细操作任务上的成功率更是不足 15%。这些公开沉淀的真机“错题集”，为全行业的模型迭代提供了不可或缺的“公正标尺”与失败样本。

GM-100 由上海交大李永露团队于 2026 年初发布，名称取自“Great March（长征）”，寓意这是一项需要长期投入的“脏活累活”。该测评集由 100 个任务组成，每个任务约含 100 条训练轨迹与 30 条测试轨迹，合计约 13000 条真实操作轨迹。其设计理念是“以数据为中心的具身智能”——团队统计发现，现有数据集的任务仍以“抓取（pick）、握持（hold）、放置（place）”三大类为核心，于是 GM-100 反其道而行，刻意聚焦长尾与精细操作任务（如穿糖葫芦、开抽屉、按台灯开关、整理小物体）。这些任务经过“人物交互原语分析→大模型生成候选→专家筛选优化”的流程构建，刻意呈现出大量“反直觉”现象：人类觉得困难的任务机器人反而能完成，而人类直觉上简单的操作却因机械臂构型、物体材质、摆放位置、指令理解等因素频频失败。评估指标上，GM-100 不止于传统的任务成功率（SR），还引入了部分成功率（PSR）与动作预测误差——前者让多步骤任务的细节完成情况可量化，后者衡量模型在新轨迹上的模仿精度，从而有效遏制了模型“走捷径”“刷榜”的倾向，引导研究者关注真正的泛化与模仿能力。团队已在 Diffusion Policy、π0、π0.5、GR00T 等主流模型上验证了其区分度。更重要的是其“社区共建”理念：GM-100 团队不愿做“爹味很浓”的裁判，而是定位为“搭台者”，开源了全部 100 个任务的详细说明、精确到淘宝链接的物料清单与每个任务约 130 条真实操作数据，并为通过验证的开源模型打上“已验证”标签。这种类似大模型领域 LMArena 的“去权威化、机制驱动”范式，极大降低了复现门槛。据团队透露，GM-100 未来还将把任务库逐步扩展至 300 乃至 1000 项，并推进跨机器人平台评测。

三、开源数据集：构筑具身智能的数据金字塔

3.1 面向空间感知的数据集

配合空间智能领域的发展，国内开源社区释放了大量带有深度信息、点云数据和 3D 语义标注的感知数据集，为机器人理解复杂三维环境提供了丰富的养料。其中最具代表性的是蚂蚁灵波于 2026 年 3 月开源的 LingBot-Depth-Dataset。这是目前开源社区中规模最大的真实场景 RGB-D 数据集，包含 300 万对高质量样本（200 万对来自真实场景采集、100 万对由渲染生成），总规模达 2.71TB，覆盖 6 款主流深度相机。每条样本均同时提供 RGB 图像、传感器原始深度图与真值深度图，可直接用于深度估计与深度补全任务的训练与评估，填补了真实场景空间感知数据的空白。

除纯视觉深度之外，视触觉融合也是当下空间感知数据的一大亮点：它石智航联合新加坡国立大学等六大机构发布的 OmniViTac 是首个大规模跨本体视觉-触觉-动作对齐数据集，在接触丰富类任务上表现优异。国家地方共建人形机器人创新中心联合纬钛机器人开源的白虎-VTouch 则是全球最大规模的跨本体视触觉多模态数据集，为机器人“摸准”物理世界提供了关键支撑。

3.2 面向具身动作模型的数据金字塔

在动作模型领域，行业逐渐形成了清晰的“数据金字塔”结构，各层级均涌现出代表性的开源成果：

层级	数据类型	规模量级	代表性开源项目与工具
第一层	高精度真机遥操数据	十万小时级	RoboMIND：由国家地方共建具身智能机器人创新中心等发布，V1.0 包含 10.7 万条真机轨迹，覆盖 4 种本体、479 项任务与 38 种技能。V2.0 扩充至 31 万+ 轨迹、本体增至 6 种、任务提升至 739 项，新增 1.2 万条带触觉数据，全球下载量突破 600 万。 AgiBot World：由智元机器人等发布，依托 4000㎡数采工厂采集，含超 100 万条真机轨迹，覆盖 100+ 机器人、5 大场景与 1000+ 任务，是全球最大的开源真机数据集之一。 Galaxea Open-World Dataset：由星海图发布，基于 R1 Lite 同构真机采集，含 500 小时真实世界移动操作数据，覆盖家庭、厨房、零售等多类真实环境。 RoboCOIN：由智源研究院等发布，覆盖 15 款异构机器人平台、含 18 万+ 演示轨迹、421 项任务与 16 类场景，是当前本体最多、标注最精细的双臂真机数据集。 LET：由乐聚机器人发布，基于夸父系列全尺寸人形机器人采集，首批开源超 6 万分钟真机数据，覆盖 31 项任务与 117 种原子技能，是国内规模领先的人形真机数据集。睿源真机数据集：由睿尔曼智能发布，基于北京人形机器人数据训练中心十大真实场景采集，模态完整性达 100%，定位全球首个高质量、模态最多的真机数据集。
第二层	低精度被动采集真人数据	百万小时级	以 UMI 手持夹爪、可穿戴外骨骼与第一视角（ego-centric）采集设备为代表，不依赖真机遥操即可低成本、大规模采集人类操作轨迹。 HORA：由枢途科技发布，是业界首个基于真实场景人类视频提取的具身多模态数据集，含 15 万+ 高质量轨迹，首次打通人类演示视频到机器人的端到端数据衔接。 EgoLive：由京东发布，采用定制头戴设备采集，含 1680 小时立体视频（60FPS/2160P）、6.5 万+ 操作片段，覆盖 346 项真实任务，是目前最大规模的开源第一视角交互数据集。 TASTE-Rob：由香港中文大学（深圳）发布，含 100,856 条精准匹配语言指令的第一视角人手-物交互视频，是首个面向可泛化机器人操作的大规模 HOI 数据集（CVPR 2025）。
第三层	互联网数据	千万小时级	依托大规模视频网站与开源视频数据集，提取人类动作与交互先验，用于预训练世界模型与 VLA 模型，海量且近零成本，但缺乏精确动作标签。
第四层	仿真数据	长尾	依托高保真仿真平台（如 Genie Sim 3.0）生成合成数据，覆盖长尾场景与危险任务。 InternData-A1：由上海人工智能实验室发布，含 63 万+ 条仿真轨迹、总时长超 7400 小时，覆盖多种机器人形态与复杂交互场景，被多个核心模型直接采用。 ArtVIP：由北京人形机器人创新中心发布，提供 26 类共 206 种高精度可动铰接物件数字资产，虚拟调试成本降低达 80%。 AgiBot Digital World Dataset：由智元机器人发布，基于自研大型仿真框架自动生成，覆盖家居、商超、办公、餐饮、工业 5 大类场景与 180+ 品类物品、9 种材质、12 种核心技能。 DexGraspNet：由北京大学王鹤课题组发布，是灵巧手抓取仿真数据集，1.0 版含 133 类 5355 个物体的 132 万抓取，3.0 版进一步扩展至 1700 万验证抓取姿态、覆盖 17.4 万+ 物体。

四、开源软件栈：从训练到部署的全链路基础设施

2025 年，开源具身智能的竞争不再局限于模型本身，而是向上下游的完整软件栈全面延伸。围绕“一个模型如何从数据中诞生、在系统上运行、并最终部署到机器人端侧”这一主线，中国开源社区构建起一套层次分明的软件基础设施：从模型训练工具链，到机器人操作系统与运动控制，再到仿真平台与边缘部署，形成了一批具有全球影响力的项目。

4.1 模型训练工具链：从数据生产到模型迭代

具身模型的训练是一条完整的流水线，依次经历“数据采集与遥操作 → 模型开发与微调 → 训练与后训练”三个工序，中国开源社区在每一环节都已涌现出代表性工具。

在流水线最前端的 数据采集与遥操作 环节，遥操作系统是高质量真机数据的核心入口。银河通用联合清华大学弋力团队开源的 OpenWBT（Open Whole-Body Teleoperation）是其中的典型代表：它基于 R2S2 技术，支持通过 Apple Vision Pro 与手柄对宇树 G1、H1 等人形机器人进行全身遥操作，打通了从虚拟仿真到真机的数据采集闭环，并融合了原子技能复用能力，以 Apache 2.0 协议全面开源。这类工具与第三章“数据金字塔”塔尖的真机数据生产直接呼应，是整条工具链得以运转的源头。

进入 VLA 模型开发与微调 环节，开发框架决定了研究者复现、对比与迭代模型的效率。原力灵机开源的 Dexbotic 是一个基于 PyTorch 的一站式 VLA 开发工具箱，它通过统一的数据格式（Dexdata）、自研基础模型 DexboticVLM 以及内置的 π0、CogACT、OFT 等系列预训练模型，覆盖了“预训练—微调—推理—评测”全流程。凭借“以实验为中心”的开发范式，它让研究者能够快速复现与对比主流策略；在五大仿真平台测试中，Dexbotic 使传统 VLA 策略性能最高提升达 46.2%，并在真机叠盘子任务中实现 100% 成功率。

如果说上述工具解决的是“如何高效开发一个 VLA 模型”，那么由香港科技大学团队联合开源社区推出的 starVLA 则试图解决一个更底层的“基础设施”问题：让繁多的 VLA 方法能在公平、透明、可复现的条件下被统一衡量。面对当下 VLA 领域“架构割裂、管线强耦合、评测标准不一”的“巴别塔”困境，starVLA 提出了一套 Backbone–Action Head 的“乐高式”模块化统一架构：它将训练基设、可插拔的基础模型骨干与动作专家解耦为可自由组合的“积木”，使研究者“换一个动作头”或“换一个主干”仅需修改一行配置。更具理论价值的是，作者提出了“广义 VLA（Generalized VLA）”视角，为该领域的系统性研究提供了统一的理论坐标系。凭借“克制而不造轮子”的工程哲学，starVLA 被誉为具身智能的“PyTorch 时刻”，在 GitHub 获得超过 2.9k Star，是国内同类开源项目中热度领先的代表之一。

需要说明的是，上述中国开源工具链并非在真空中生长，而是深度嵌入于全球开源生态之中，其中最重要的“公共底座”是由 Hugging Face 主导的 LeRobot。作为当下全球热度最高的开源具身项目与事实上的“全球具身开发通用底座”，它基于 PyTorch、以“模型 + 数据集 + 工具”三位一体的方式极大降低了具身智能的入门门槛，并依托低成本开源机械臂（如 SO-100 / SO-101）与 Hugging Face Hub 社区形成了强大的生态闭环，截至 2026 年初发布的 v0.5.0 版本已拓展至人形机器人全身控制。对中国开源社区而言，LeRobot 更重要的意义在于它提供了一个全球通用的“参照系”与协作平台：一方面，国内开源成果可以通过对接 LeRobot 标准获得更广的全球能见度；另一方面，中国力量也在持续向这一国际生态贡献代码与模型。例如，宇树科技推出了适配其本体的 unitree_lerobot 训练工程，使 G1 等国产人形机器人得以被 LeRobot 官方完整支持；清华 AIR 的 X-VLA 等国产模型也被官方收录集成；同济子豪兄编写的 LeRobot 中文教程更被 Hugging Face 官方收录（详见第六章）。可以说，中国开源力量正以“参与、适配与反哺”的方式融入全球具身开发的主干生态。

在流水线末端的训练与后训练引擎环节，强化学习正成为继数据和模型架构之后的第三条 Scaling 路径。值得注意的是，尽管当下通用强化学习训练框架已百花齐放（如 verl、AReaL、slime、TRL 等），但它们绝大多数面向纯“大脑”的推理大模型；而具身智能训练独有的“渲染—训练—推理一体化”特性——模型需与 GPU 加速的物理仿真器频繁交互，造成算力与显存的激烈竞争——使这些通用框架难以胜任。正是在这一背景下，由清华大学、北京中关村学院、无问芯穹联合多机构开源的 **RLinf **应运而生，填补了“面向具身智能的大规模 RL 训练系统”这一空白。在技术上，它以独创的 M2Flow（宏观到微观流）机制在同一套代码下支持共享、分离与混合三种执行模式，相较主流框架可获得 120% 以上的训练提速，并同时适配具身“大脑”与“小脑”、兼容 OpenVLA、OpenVLA-OFT、π0、LingBot-VLA 等主流模型。

但 RLinf 更深远的意义在于其开源影响力与生态价值：作为一项“产—学—研”深度联合的成果，它以完整开源的代码、模型权重与系统化文档降低了具身 RL 的研究门槛，为学界探索“具身 RL Scaling Law”提供了统一的实验底座；同时它又面向算力受限的新手用户提供了“开箱即用”的轻量化路径。凭借这一定位，RLinf 在 GitHub 斩获近 4000 Star，迅速成为国内外具身强化学习领域最受关注的开源基础设施之一。

4.2 机器人操作系统、中间件与运动控制

如果说训练工具链决定了“模型有多强”，那么操作系统与中间件则决定了模型“能否稳定运行在真实机器人上”。除了国际主流的 ROS 2，中国开源社区正加速构建自主可控的底层软件生态。

2026 年 3 月，智元机器人正式开源了自研机器人操作系统 灵渠 OS（Alpha 版）。该系统基于量产实践的全尺寸远征 A2 本体打造，核心亮点是其统一通信中间件框架 AimRT，不仅支持 Protobuf 与 ROS2 Message 格式，还兼容原生 ROS2 生态，并提供了一站式的双足运控仿真、训练与部署工具链。

与此同时，由开放原子开源基金会托管的 OpenLoong 持续演进，其软件侧开源内容涵盖具身智能操作系统与全身动力学控制框架——后者采用分层解耦架构，支持跨硬件平台部署与跨中间件调度，为人形机器人灵巧作业与鲁棒行走提供了基础软件服务。此外，M-Robots OS（开源鸿蒙机器人操作系统）也在致力于解决异构硬件的兼容性问题，提升系统的实时性与安全性。由中国科学院软件研究所发起的 AGIROS 智能机器人操作系统，则是国内首个自主可控的智能机器人操作系统开源社区，以“共建、共享、共治”模式联合 60 余家头部企业、高校与科研机构共建；其已发布四个版本、包含 1500+ 基础包，支持多种 CPU 架构与全品类机器人，并与 ROS 2 完全接口兼容，形成了“内核—中间件—AI”一体化的全栈方案，推动国产机器人系统生态规模化发展。

在联系上层应用与底层硬件的机器人中间件层面，面向数据流（dataflow-oriented）的 Dora-RS（Dataflow-Oriented Robotic Architecture）成为近两年受到广泛关注的低延迟机器人中间件。与传统以话题订阅为主的架构不同，Dora-RS 将复杂的机器人应用抽象为以有向图建模的节点（Node）与数据流，底层采用 Rust 语言实现并强调零拷贝（zero-copy）消息传输，同时提供 Rust 与 Python 等多语言、多平台与分布式部署支持，显著降低了跨语言与跨进程通信的性能开销。它极大地简化了基于 AI 的机器人应用开发流程，提升了系统的实时性与可扩展性，已成为具身智能工程化落地的重要基础组件，并在 OpenLoong 等国内社区与青龙机器人硬件平台完成适配与应用展示。

运动控制（尤其是全身控制 WBC）是连接“算法决策”与“硬件执行”的关键一环，也已形成相对独立的开源方向。OpenLoong 的“青龙运控框架”、北京人形“具身天工”的运控框架，以及宇树科技开源的 unitree_rl_gym 强化学习运控环境（支持 Go2、H1、H1_2、G1 等本体在 Isaac Gym/MuJoCo 中训练并部署到真机），共同构成了开发者可直接复用的底层运动控制基础设施。在面向高动态、强鲁棒的人形全身运动控制方向，清华大学交叉信息研究院于 2026 年 1 月开源的 Project Instinct 填补了开源社区在极限运动控制领域的空白。该项目是一个贯穿算法、环境、数据策划与部署的“本能级（instinct-level）”人形机器人全身控制框架，首次实现了人形机器人在不规则地形上执行跑酷、野外徒步等多样化高难度技能，打通了从刚体物理仿真、高维感知处理到端到端强化学习部署的完整链路；其全部代码与核心工具包（InstinctLab 等）均已面向社区开源。

4.3 仿真平台：大模型驱动的数字孪生

仿真平台是解决具身智能数据稀缺和试错成本高的关键，它既是训练工具链的“数据工厂”，也是模型部署前的“演练场”。2026 年初，智元机器人发布了首个由大语言模型驱动的开源仿真平台 Genie Sim 3.0。基于 NVIDIA Isaac Sim 底层基座，Genie Sim 3.0 融合了三维重建与视觉生成技术，能够打造数字孪生级的高保真环境。其最大的突破在于引入了 LLM 驱动机制，开发者只需输入自然语言指令，即可在几分钟内生成万级规模的仿真场景。智元采取了彻底的开源策略，将平台代码、仿真资产、评测工具和数据资源全部对外开放，释放了“不将仿真闭门造车”的强烈信号。

4.4 开发者平台与边缘计算

软件栈的终点是“部署”，即让模型高效运行在机器人端侧。地瓜机器人（D-Robotics） 通过其 RDK（Robot Developer Kit）系列开发套件和一站式开发者平台，成功连接了底层硬件与上层算法。其发布的 RDK X5 拥有 10 TOPS 端侧推理算力与 8 核 ARM A55 处理能力，专为机器人开发者量身打造。更重要的是，RDK X5 以集成火山引擎边缘智能大模型网关为代表，打通了“云—边—端”链路，开发者可通过标准 ROS 接口直接调用云端大模型。这种“硬件+算法+社区”的模式，极大降低了中小创客和个人开发者的入门门槛，加速了多样化智能机器人应用的快速集成。

五、开源硬件本体：软硬协同的生态繁荣

硬件本体的开源与标准化，是具身智能走向规模化应用的物理基础。2025 年，国内本体厂商在商业化取得突破的同时，也积极拥抱开源生态，与上一章的开源软件栈形成“软硬协同”的完整闭环。

在全尺寸人形公版机方向，由开放原子开源基金会孵化的 OpenLoong（青龙） 社区全面开源了“青龙”全尺寸通用人形公版机的硬件设计图纸、核心部件与驱动方案，致力于降低全尺寸人形机器人的研制门槛、打造产业链生态。国家地方共建具身智能机器人创新中心则持续推进“天工开源计划”，在 2026 年发布的“具身天工 3.0”中，完成了具身天工本体、运控框架、世界模型、大模型及训练工具链、数据集等关键成果的整体开源开放。

在社区驱动的全开源原型机方面，上海萝博派对科技（RoboParty）开源的 roboto_origin 代表了另一种“极致开放”的路线。这是一款面向开发者与爱好者的全开源“手搓级”双足人形机器人原型机，完整开放了结构设计、电气方案、训练流程与部署代码，可通过通用供应链完成组装。项目在 GitHub 已收获 1300+ Star、凝聚超过 1500 名开发者，显著降低了人形机器人硬件的研发门槛，推动了开源硬件生态的普及。

在商业厂商的开源反哺方面，宇树科技在 2025 年实现了人形机器人出货量超 5500 台的商业突破，同时持续向社区开源本体 SDK 与运控环境；云深处等四足机器人领军企业也通过提供开放的运动控制接口，支持开发者进行二次开发。硬件本体的逐步开放，让上一章的训练工具链、操作系统与运控算法得以在统一的物理平台上验证与迭代，真正实现了“软件定义机器人”的协同效应。

六、开源具身智能教程与人才培养：打通“理论到工程”的全链路

具身智能是极端强调“系统思维”与“工程落地”的领域。当前的人才供给与产业需求之间存在显著错配：大量教程侧重于算法原理或单一工具，缺乏贯穿“感知-决策-控制-硬件-调试”全链路的系统性实战项目，导致培养出的人才多为“理论能手”，而非能解决复杂工程问题的“系统工程师”。

为填补这一空白，国内高校、企业与开源社区紧密合作，推出了一批高质量的教学项目。根据《2025 EAI 十大教学项目》榜单，当前的开源教程体系呈现出以下三大特征：

系统化与全栈化：
- 香港大学的 Embodied-AI-Guide 凭借 12K+ GitHub Stars 成为全球最具影响力的系统化学习指南；
- 上海交通大学 ScaleLab 编撰的研究方向入门指南为新人清晰梳理了研究体系与发展脉络；
- 北京人形机器人创新中心则紧密配套慧思开物+XR-1 开源项目，构建了从基础开发到真机部署的全流程教程体系。
软硬协同与平台化实训：
- 阿里巴巴达摩院的 乐云具身·SparkEdu 依托端云协同架构，配套开源 3D 打印示教臂，大幅降低了算力与硬件门槛；
- 古月居的 OriginBot 智能机器人套件基于 ROS 生态打造，成为高校教学与企业原型开发的优选；
- 杭州智谷未来则以 ROS 为核心，构建了覆盖仿真调试与真机部署的工程实践教学体系。
前沿算法的工程化落地：
- 宇树科技（Unitree）依托其主流机器人平台，打造了全球使用最广泛的 Unitree RL Training 强化学习实训教程；
- 杭州云深处科技的 四足运控与具身智能开发教程 深入讲解底层逻辑并开源全套代码，全网播放量突破百万；清华 AIR 举办的具身智能强化营采用“理论+仿真+真机”沉浸式教学；
- 同济子豪兄的机器人与具身智能科普教程系列则极大降低了大众的学习门槛，其 LeRobot 教程更被 Hugging Face 官方收录。

这些教学项目通过课程、教程、硬件平台等形式，让学习者从理解抽象算法走向构建全栈系统，形成了“教育-人才-产业”的良性循环。

七、挑战与展望

回顾 2025 年，中国开源具身智能在模型、数据、评测和基础设施等维度均取得了令人瞩目的成就。然而，面向未来，行业仍面临诸多挑战：

泛化能力的瓶颈：尽管模型在特定任务上表现优异，但在面对未见过的场景、材质和光照条件时，鲁棒性仍有待提升，距离“开箱即用”的通用操作仍有不小差距。
空间感知与多模态理解的短板：一方面，当前主流 VLA 模型大多承袭自二维视觉语言模型，对深度、尺度、遮挡关系与三维几何结构的原生理解能力不足，难以在杂乱、动态的真实三维空间中实现精准的定位、抓取与避障；另一方面，视觉在遮挡、暗光与精细接触场景下存在天然盲区，而力觉、触觉与滑移等接触类信息对于柔性物体抓取、力控装配、灵巧操作等任务至关重要，但高质量触觉数据的采集与视、触多模态的对齐融合仍处于早期阶段。如何让模型既能“看懂”物理空间的立体结构、又能“感知”接触中的力与质地，是迈向可靠操作的关键一环。
高质量数据的匮乏：虽然数据规模在扩大，但包含复杂物理交互、力觉反馈和长时序逻辑的高质量真机数据依然稀缺，数据的“规模”与“质量”之间仍存在结构性矛盾。
软硬协同的壁垒：开源算法与不同硬件本体之间的适配成本依然较高，跨本体迁移困难，亟需更加标准化的中间件与接口协议。

展望未来，随着强化学习在具身智能领域的深入应用，以及世界模型与动作模型的进一步融合，具身智能的能力边界有望被持续拓宽。尤为关键的是，伴随数据采集方式的日益丰富——从真机遥操作、第一视角人类示范，到互联网视频的“升维”利用与仿真合成数据的规模化生产，多元数据源正合力填补高质量数据这一长期短板，为模型训练注入持续燃料。更值得期待的是，上述趋势正共同指向一个更深层的变革：真正 “具身原生” 大模型的诞生。

我们有理由相信，在数据、算法与硬件三者的协同演进下，开源社区将继续发挥其“创新引擎”的作用，推动具身智能从“可用”走向“好用”、从“专用”走向“通用”，最终实现通用人工智能在物理世界的全面落地。

参考资料

蚂蚁正式开源 LingBot-Depth，基于掩码深度建模的新一代空间感知模型. (2026). https://modelscope.csdn.net/69796ccaa16c6648a9859206.html
从“认知”到“行动”：CogACT 引领机器人智能操控新范式. (2025). https://mp.weixin.qq.com/s/qBv4_59pQmJ9PXnMfpKmag
AIR 科研｜X-VLA 重磅开源，全面刷新机器人基准性能记录. (2025). https://air.tsinghua.edu.cn/info/1007/2467.htm
开放全栈！超越π0，具身智能基础大模型迎来真·开源，开发者狂喜. (2025). https://www.qbitai.com/2025/09/329142.html
具身开源模型新王！千寻 Spirit v1.5 模型登顶 RoboChallenge，终结 Pi0.5 领跑时代. (2026). https://zhuanlan.zhihu.com/p/1994053773560145309
原力灵机发布全球首个具身原生大模型 DM0，24 亿参数版本全面开源. (2026). https://www.ithome.com/0/920/880.htm
全球首个自回归视频-动作世界模型，LingBot-VA 正式开源！. (2026). https://zhuanlan.zhihu.com/p/2000550423925391894
生数科技：从 Motus 到 MotuBrain——通用世界行动模型双榜第一. (2026). https://news.qq.com/rain/a/20260430A01KGD00
NVIDIA DreamZero：基于视频扩散的世界动作模型. (2025). https://zhuanlan.zhihu.com/p/2015542809814397733
昆仑万维正式开源 Matrix-Game：从图像出发构建可控交互世界. 第一财经. (2025). https://www.yicai.com/news/102611300.html
SkyworkAI/Matrix-Game. GitHub. https://github.com/SkyworkAI/Matrix-Game
腾讯混元最新世界模型开源！支持实时生成交互，突破长期空间记忆. 智东西. (2025). https://m.zhidx.com/p/522165.html；Tencent-Hunyuan/HY-WorldPlay. GitHub. https://github.com/Tencent-Hunyuan/HY-WorldPlay
世界模型 LingBot-World，正式开源！. 魔搭社区. (2026). https://zhuanlan.zhihu.com/p/2000599754195870537；世界模型开源潮“不谋而合”：蚂蚁三连发，谷歌开放体验. 中国日报网. (2026). https://cn.chinadaily.com.cn/a/202601/30/WS697c4bc0a310942cc499d788.html
RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation. (2025). https://robotwin-platform.github.io/ ; arXiv:2506.18088
VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks. 复旦大学可信具身智能研究院. (2024). https://vlabench.github.io/ ；RoboHiMan: A Hierarchical Evaluation Paradigm for Compositional Generalization in Long-Horizon Manipulation. (2025).
具身智能开源周：导航、操作、运动大模型及数据集批量上线. 上海人工智能实验室. (2025). https://www.shlab.org.cn/news/5444209 ；InternRobotics / EBench. https://internrobotics.shlab.org.cn/
上海交大给具身智能发了一张“统考卷”，这会是机器人的 LMArena 吗？. (2026). https://zhuanlan.zhihu.com/p/1999185873640637706
基于数万次真机评测，RoboChallenge 首份年度报告发布. (2026). https://www.qbitai.com/2026/01/374597.html
300 万对样本、2.71T 数据，蚂蚁灵波开源大规模空间感知数据集（LingBot-Depth-Dataset）. (2026). https://zhuanlan.zhihu.com/p/2022954921507529088 ；robbyant/LingBot-Depth-Dataset. ModelScope/Hugging Face. https://huggingface.co/datasets/robbyant/mdm_depth
魔搭社区 (ModelScope) 联合 CCF 智能机器人专委会. (2026). 《2025 EAI 白皮书：十大教学项目与十大数据集》. https://modelscope.cn/learn/6060
RoboMIND 数据集官方发布信息. (2024-2026).
AgiBot World 数据集官方发布信息. (2024).
睿尔曼开源全球首个高质量、模态数量最多的真机数据集. 量子位. (2025-11-24). https://www.qbitai.com/2025/11/355861.html ；项目主页 https://realmanrobot.github.io/real_source_dataset
EgoLive：1680 小时真实任务第一视角数据集. (2026). https://zhuanlan.zhihu.com/p/2032440515615011207 ；数据集地址 https://robotdata-market.jdcloud.com/console/market
TASTE-Rob：面向可泛化机器人操作的超大规模人手交互视频数据集（CVPR 2025）. 香港中文大学（深圳）. (2025). https://taste-rob.github.io/ ；https://arxiv.org/abs/2503.11423
智元推出大型仿真框架 AgiBot Digital World 并开源海量仿真数据集. (2025). https://zhuanlan.zhihu.com/p/26213022118
DexGraspNet: A Large-Scale Robotic Dexterous Grasp Dataset for General Object Grasping. 北京大学（王鹤课题组）. (2023-2025). https://pku-epic.github.io/DexGraspNet/ ；https://arxiv.org/abs/2210.02697
银河通用联合清华开源全身遥操作系统 OpenWBT. (2025). https://www.qbitai.com/2025/06/291904.html
刚刚，Dexbotic 开源！VLA 性能 +46%，机器人叠盘子 100% 成功. 新智元. (2025). https://zhuanlan.zhihu.com/p/81733537638 ；Dexmal/dexbotic. GitHub. https://github.com/dexmal/dexbotic
StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing. 香港科技大学联合开源社区. (2026). https://github.com/starVLA/starVLA ；arXiv:2604.05014 ；https://starvla.github.io/ ；VLA 的 PyTorch 时刻已至！港科大联手社区开源 StarVLA. 机器之心. (2026-05-09). https://zhuanlan.zhihu.com/p/2036453582724142506
LeRobot v0.4.0：全面提升开源机器人的学习能力. (2025). https://huggingface.co/blog/zh/lerobot-release-v040 ；LeRobot v0.5.0: Scaling Every Dimension. (2026). https://huggingface.co/blog/lerobot-release-v050 ；huggingface/lerobot. GitHub. https://github.com/huggingface/lerobot ；TheRobotStudio/SO-ARM100. https://github.com/TheRobotStudio/SO-ARM100
RLinf 开源！首个面向具身智能“渲训推一体化”的大规模强化学习框架. 清华大学/中关村学院/无问芯穹. (2025-2026). https://zhuanlan.zhihu.com/p/1994163320408789692 ；RLinf/RLinf. GitHub. https://github.com/RLinf/RLinf ；arXiv:2509.15965
智元自研机器人操作系统“灵渠 OS”开源上线. IT 之家. (2026). https://cloud.tencent.com/developer/news/3639837
国内五大具身智能机器人企业开源情况汇总（OpenLoong / AimRT）. (2025). https://zhuanlan.zhihu.com/p/1898468293460865377 ；loongOpen/OpenLoong. GitHub. https://github.com/loongOpen/openloong
AGIROS 智能机器人操作系统开源社区. 中国科学院软件研究所. (2025). http://www.is.cas.cn/xwdt2016/rdxw2016/202506/t20250630_7876597.html ；Gitee x AGIROS：与中科院软件所共建国产具身智能基础设施. (2025). https://zhuanlan.zhihu.com/p/1977375926506504643
dora-rs: Dataflow-Oriented Robotic Architecture. https://github.com/dora-rs/dora ；使用 dora-rs 构建高性能机器人应用：从理论到实战. (2025). https://www.cnblogs.com/databank/p/19376737
让机器人拥有本能反应！清华开源：一套代码实现跑酷、野外徒步两种技能（Project Instinct）. 智源社区. (2026). https://hub.baai.ac.cn/view/52110 ；A Scalable Perceptive Parkour Framework for Humanoids. arXiv:2601.07718. https://project-instinct.github.io/
重塑具身智能研发范式：智元机器人发布 Genie Sim 3.0. (2026). https://zhuanlan.zhihu.com/p/1992920959561249481
千元内最好的机器人开发者套件来了：地瓜机器人重磅发布 RDK X5. (2024). https://www.qbitai.com/2024/09/193434.html
roboto_origin: Fully Open-Source DIY Humanoid Robot. RoboParty. https://github.com/Roboparty/roboto_origin ；哈工系闯出人形机器人黑马：成立不到一年，全栈开源 3m/s 原型机. 凤凰网. (2026). https://i.ifeng.com/c/8q2hN71PXlS
做“机器狗”的云深处，靠什么撑起 41 倍市销率？. (2026). https://www.tmtpost.com/8003855.html

开源具身智能篇 ​

引言：从“Demo 叙事”走向“开源生态闭环” ​

一、 开源具身基础模型：从单点突破到能力矩阵 ​

1.1 空间感知模型：让机器人“看清”世界 ​

1.2 动作模型：让机器人“做对”任务 ​

1.2.1 VLA 模型：从“能动”迈向“做对” ​

1.2.2 WAM/VA：让机器人“先想象、再行动” ​

1.3 世界模型：可交互世界建模 ​

二、 开源具身模型评测：打破“视觉真实”的幻象 ​

2.1 仿真评测：从基础技能到复杂交互 ​

2.2 真机评测：直面物理世界的“统考卷” ​

三、 开源数据集：构筑具身智能的数据金字塔 ​

3.1 面向空间感知的数据集 ​

3.2 面向具身动作模型的数据金字塔 ​

四、 开源软件栈：从训练到部署的全链路基础设施 ​

4.1 模型训练工具链：从数据生产到模型迭代 ​

4.2 机器人操作系统、中间件与运动控制 ​

4.3 仿真平台：大模型驱动的数字孪生 ​

4.4 开发者平台与边缘计算 ​

五、 开源硬件本体：软硬协同的生态繁荣 ​

六、 开源具身智能教程与人才培养：打通“理论到工程”的全链路 ​

七、 挑战与展望 ​

参考资料 ​