原创
数据成最大短板 具身智能赛道打响数据争夺战
04-17 09:30 星期五
科创板日报记者 李佳怡

《科创板日报》4月17日讯(记者 李佳怡)具身智能深陷数据荒漠,数据基建争夺战开启。

资本持续涌入推高具身智能赛道热度,但行业普遍陷入“能执行、不智能”的困境。核心瓶颈并非算法与硬件,而是高质量数据稀缺,全行业有效数据与大模型训练语料差距达万倍。

4月16日,智元旗下觅蜂科技与京东、戴盟机器人集中发布数据平台与数据集,大厂纷纷布局具身智能数据基建。行业竞争迈入数据基础设施时代,高价值数据供给与闭环迭代能力成为核心争夺点。

▎数据荒漠里的“卖铲人”:年内实现千万小时级数据产能

据国务院发展研究中心预测,中国具身智能市场规模有望在2030年达到4000亿元、2035年突破万亿元。2026年前三个月,国内具身智能赛道融资规模已近300亿元,融资事件同比增长63%。

然而,资本汹涌入场、市场普遍看好,也改变不了今天的具身智能产业正陷入“能执行、不智能”的困境,机器人只能在预设场景中完成单一动作,却无法像人类一样自主感知、思考与决策。而这一系列困境的核心瓶颈不在算法,也不在硬件,而在数据。

智元机器人创始人之一、觅蜂科技CEO姚卯青在发布会上给出了一组对比数据,大语言模型GPT-5训练语料折合约100亿小时,而全行业汇聚的高质量具身数据仅约50万小时,差距以万倍计。

“算法再强,无数据则无源。”姚卯青强调,“万亿市场风口就在眼前,但是数据荒漠的瓶颈让我们无数算法经验的原型都只能停留在实验室,不能大规模地进入各行各业。”

这种供需错配,便催生了觅蜂科技的商业模式。姚卯青在接受《科创板日报》记者采访时透露,目前国内真机数据的市场价格在每小时500-1000元之间,无本体数据的价格预计收敛至真机数据的三分之一到二分之一。

4月16日,觅蜂科技宣布,一站式物理AI数据服务平台正式发布。该平台旨在打造具身智能数据的平台型供给基础设施,通过打通硬件、平台及运营全链路,实现真机遥操、无本体采集、仿真数据全范式覆盖。此外,觅蜂科技还发布MEgo系列采集硬件,包括采集夹爪和头戴式设备。

觅蜂科技MEgo系列采集硬件

觅蜂科技方面透露,计划在2026年实现千万小时级数据产能,到2030年实现百亿小时级数据产能。

姚卯青向记者表示,数据需求侧的增长同样迅猛,“实际客户接触下来,普遍都是你有多少我就买多少,你什么时候有我马上要的状态,非常供不应求。”

值得注意的是,觅蜂科技脱胎于智元机器人。可以看到,目前智元本体公司以轻资产姿态聚焦产品与场景,将数据等重运营环节交给独立实体去资本化运作。

但问题在于,觅蜂科技要服务的对象是全行业,而智元本身就是行业竞争者之一。那么,竞争对手是否愿意将自己的数据命脉交给一家与智元同根同源的公司?

对此,姚卯青回应强调:“觅蜂科技作为一家独立的数据服务平台,所有用户数据交易流通都有严格协议的。智元现在向觅蜂获取数据唯一途径就是市场化下订单,以一千多块钱一小时的价格采购。”

▎大厂加速入局,具身智能“数据元年”已至

具身智能的竞争,正在进入数据基础设施时代。

QYResearch调研数据显示,2024年全球具身智能数据采集工厂市场规模大约为7.53亿美元,预计2031年将达到67.52亿美元,2025-2031期间年复合增长率(CAGR)将达36.8%。

数据规模的爆发,离不开大厂的集体入场。在这场数据基建争夺战中,国内头部互联网和科技企业正在以各自的方式跑马圈地。

在觅蜂科技发布一站式物理AI数据服务平台的同一天,京东宣布在全球首推覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施,自研超高清采集终端JoyEgoCam、具身大模型JoyAI-RA、具身智能数据交易平台等均亮相。

据了解,京东拥有超过3600个物流仓储设施、大量配送站点,业务覆盖物流、零售、线下门店、超市、京东养车、线下4S店,以及京东家政、京东健康、京东金融等多元业态。丰富且真实的应用场景,为其积累数据、验证机器人能力提供了丰富土壤。

与此同时,戴盟机器人4月16日也发布含触觉全模态物理世界数据集Daimon-Infinity,其数据规模预计于年内达到数百万小时,包含近十亿条具身数据;目前面向全行业开放共享1万小时,首批数据已于阿里魔搭社区上线开源。

4月初,百度智能云同样联合零次方机器人、灵生、傅利叶、纬钛科技等多家头部具身智能企业,正式推出“具身智能数据超市(Beta版)”。

值得注意的是,数据并非越多越好。清华大学丁贵广团队的研究显示,超过90%的采集数据在未经精细化处理前,难以直接用于模型训练,重复动作、失败无标注、传感器噪声、缺乏物理反馈等“脏数据”占了绝大多数。

这意味着,真正有价值的不是采集规模,而是高价值数据的精炼能力,以及构建“数据-模型-数据”的闭环迭代能力。

数据生意的终点,不是卖了多少小时,而是能否成为产业不可或缺的基础设施。对觅蜂科技而言,真正的考验才刚刚开始。而对整个行业而言,这场围绕数据定义权与生态主导权的争夺战,才刚刚拉开序幕。

财联社声明:文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
热门评论
评论萝卜特回复2天前·上海0
背景补充 具身智能行业面临严重的数据短缺问题,全行业高质量数据仅约50万小时,与大语言模型训练所需的100亿小时语料差距巨大。2026年被视为"具身智能数据元年",多家企业加速布局数据基建:智元旗下觅蜂科技发布一站式物理AI数据服务平台及MEgo系列采集硬件,计划2026年实现千万小时级数据产能;京东依托物流、零售等场景优势,推出全链路数据基础设施,目标两年内积累1000万小时真实场景数据;戴盟机器人开源触觉数据集Daimon-Infinity,并计划年内扩展至数百万小时。行业正从"堆量"转向高价值数据精炼与闭环迭代能力的竞争,数据采集、处理及交易平台的集中发布标志着行业进入数据基础设施构建阶段。 影响分析 1. 产业链投资机会分化:数据采集硬件(如传感器、可穿戴设备)、数据清洗标注服务商及仿真平台企业将直接受益。京东、觅蜂等平台型企业的数据合规交易模式若跑通,可能催生新估值逻辑。 2. 行业洗牌加速:拥有场景壁垒(如京东物流、小米工厂)或数据精炼技术(如AI物理合成)的企业更具生存优势,纯算法公司若无法绑定数据源可能被淘汰。2026年一季度行业融资接近300亿元,但半数企业或面临泡沫破裂风险。 3. 中美技术路线博弈:美国侧重通用模型研发(如特斯拉Optimus),中国依托场景数据落地,投资需关注技术路线的商业化实效。中国企业在供应链及场景渗透率上的优势,可能带来短期结构性机会。 4. 合规风险升温:数据权属不明确、隐私保护及跨境传输等问题可能引发政策监管,增加数据服务商的合规成本。 (以上内容由AI生成,不构成投资建议,不代表刊登平台观点,请独立判断和决策。)
小露露回复2天前·上海0
算法再强,没数据也是空谈,这话说得太扎心了 💔