“人形机器人正处在爆发前夜”——专访盖尔机器人实验室中心主任殷鹏教授

2025-05-09
2025年的科技舞台中央,无疑是属于DeepSeek和人形机器人的。一面是生活中的“DeepSeek浓度”节节攀升,一面是“人形机器人元年”的口号刷屏。那么,当DeepSeek与机器人结合,又将如何改写未来的剧本?科幻小说中的通用机器人,会更快走进我们的生活吗?

“很有可能会提前。” 香港城市大学机械工程学系助理教授、盖尔机器人实验室中心主任殷鹏博士认为,“DeepSeek的开源生态带来了一系列的变革,为更多科学家、研究人员提供了深入探索算法的便利,也很大程度上加速了人形机器人的迭代。”
 

这位兼具美国宇航局(NASA)火星着陆项目高级顾问资历的学者,正通过香港城市大学深圳研究院的盖尔实验室(GAIRLAB)不断迭代通用机器人领域,致力于开发适用于复杂室内外环境的通用机器人软硬件交互架构。
 

他所领导的跨学校跨学科领域的MetaSLAM项目,则汇集了六年来在现场机器人学领域的研究成果,致力于推动大规模多机器人系统在定位、建模、感知和决策方面的进步。当被问及中美科技博弈时,他坦言,“这一代人工智能技术竞争,归根结底是对顶尖华人人才的争夺问题。”


殷鹏教授(右一)及团队部分成员



1、您认为中国人形机器人现在处于什么发展阶段?与国际同行相比,我们的技术优势和差距分别是什么

殷鹏教授:我认为整个行业属于非常早期的爆发前夜。以10年前的无人车时代为例,汽车行业不管是否智能,起码可以开,其他C端产品,比如电脑和相机也是一样,至少有一个锚点,不智能也可以用。

但是机器人若不够智能便无法使用,半自动化机器人也仅能维持最低限度的运行,还需要人去监控。这就导致不管是C端还是B端用户,付费意愿没那么强烈,所以现在整体还属于一个非常早的探索阶段。

由于市场前景还不清晰,行业的门槛相对又不是很高,就可能面临陷入同质化的竞争中。但凡事都有两面性,整个行业的竞争红海化加剧,会推动企业去快速思考最优的路径,另外一方面,这也会推动整个行业的迭代速度加快。比如3年前,一套成熟的人形机器人可能要上百万,但有可能2-3年后,价格就会降到10万或者5万以内。

 要看到整个行业实现质的崛起,可能至少会需要看到一个类似于汽车FSD(Full Self-Driving完全自动驾驶)系统这样的突破,也就是能够让人形机器人真正落地,应用在实际生活中的技术发展。但现在这个阶段,距离爆发前夜还有很长的路程,因为学术和业界对于“机器人的FSD”的具体形态尚无定论,还处在探讨争论的阶段。

 

2、DeepSeek的出现,可能为机器人领域带来哪些重大改变?未来可能在哪些关键技术领域实现突破?
 

殷鹏教授:最近有一个比较火的技术叫MCP(Model Context Protocol一种标准化协议,用于连接AI智能体与各种外部工具和数据源),不管是DeepSeek、OpenAI推出的AI agent也好,都是一个上层的大模型,但是通过MCP这样的协议就可以实现底层物理侧的耦合。

这套系统的核心点在于打开了一个新思路:大家不一定要训练自己的模型,接入MCP协议后,以后的大模型大推理就像现在的空气和水一样,成为非常普遍的东西,既是研究的基础设施,也能够诞生新的机会。比如机器人的一系列子服务,不同的功能通过这个类似社区的中介,把不同的功能耦合到一起,再绑定大模型这个物理基座。

对机器人行业的公司来说,这改变了以往的逻辑。比如过去,扫地机器人等形式的机器人都是非常专用的,只有一个功能,所有公司和人力也都扑在一个点上。现在,机器人更强调通用性,至少是特定领域的通用能力,未来开源协议、大语言模型能力的叠加,可能带来更全面的通用性。在具备了一定的推理能力后,机器人可能自动组合自己的系统,进而带来更多新系统。

 

3、您曾在采访中提到,2030 年左右,常规意义的通用机器人基本上就可以进入人们的生活,现在来看,这个时间点会提前吗?
 

殷鹏教授:我认为很有可能会提前。DeepSeek的开源模式带来了一系列的变化,像现在很火的宇树科技也开源了很多底层技术,这就为更多科学家、研究人员提供了深入探索算法的便利性,也很大程度上加速了人形机器人的迭代。

现在,我们也在尽可能开源,吸引更多研究机构、企业和业内人士加入到社群中,实现整体优化。随着各国政府的扶持和科技巨头的持续投入,人形机器人的迭代速度还会更快。

 

4、我们距离人形机器人的真正大规模的量产还有多远?目前成本是阻碍人形机器人量产的一个因素,您认为,未来实现量产的关键是什么?
 

殷鹏教授:机器人的量产是一个供应链问题。一个机器人的开模价格就要几百万,还有生产需要的物料、电机等,大规模的量产有助于降低价格。但目前这个阶段,公布的量产规模一般都是几百或者几千台,所以成本还是偏高。

但未来,如果产量真的达到几万甚至上百万套,价格可能真的如马斯克所言会降到2万美元以内。这个量产的时间周期,完全取决于整个产业链,比如机械臂、电机或者传感器这些硬件,以及市场是否能消化这么大的供应量,最终是一个复合型问题。

 

5、展望未来10年,您认为人形机器人可能给我们的生活带来哪些改变或挑战?
 

殷鹏教授:我们正在经历“ 第五次工业革命 ”,现在所熟知的社会可能发生一些根本上的改变,比如我们所学的东西可能没用了,有些职业可能慢慢被淘汰,例如小时工、蓝领工人的重复性劳动。但肯定远没有程序员被淘汰的速度快,我们现在编程能力说不准是否再过一段时间就被人工智能替代了。

随着技术的进一步发展,当人形机器人可以做家务、提供保姆级的服务,经济价值和意义都不同了。当人机交互深入,在人需要时提供陪伴,人也许会对人形机器人有更多的情感投入,整个社会都需要去适应这些变化。



1、可以简单介绍下MetaSLAM目前的成果吗?这些技术如何应用到人形机器人的发展中?

殷鹏教授:MetaSLAM是我们成立的一个开源社区,主要目的是把当前最前沿的机器人技术,或者说是无人车的技术融合在一起,主要是和定位导航相关的技术。

我们已经持续产出了一系列高水平的成果,比如无人车相关的中国地图、机器人相关的多地协作等。现在,我们也在开始转型,从原本纯定位在无人驾驶相关领域,更多地向机器人的方向去转变。把传统上在机器人领域可能非常方便的技术,与现在最前沿的大语言模型结合,成为统一架构的产品。

MetaSLAM成立时,行业还是以无人驾驶为核心的,或者说是半无人驾驶或者机器人。现在,我们看到的一个明确信号是机器人的市场越来越大。除了服务海外的厂商,我们也已经开始拓展国内的厂商,比如大湾区的制造业工厂等。

 

2、盖尔机器人实验室设计并开发了一套适用于复杂室内外环境交互的通用机器人软硬件架构,这套架构对于目前国内人形机器人的发展有哪些推动作用?
 

殷鹏教授:我们在美国时就已经做了一些核心的技术,比如机器人如何导航、如何决策。我们还做了一套链路工具条,很早就尝试过商业化,随着团队回到香港,这个系统也被我们带回来了,那个时候开始,我们就在考虑把怎样把整个系统发展成和agent、具身智能高度绑定的技术。

我们设计的这套通用机器人软硬件架构,类似于苹果的操作系统一样是一个平台,在这个平台上我们可以搭建各种应用程序。这个平台化系统的一端可以连接数据,另一端可以对接客户的分类需求,我们的产出就是客户所需要对应输出的应用程式的形态。
 

3、您的创业公司主要是做机器人哪个相关领域?数据在其中扮演怎样的角色?
 

殷鹏教授:我们在深圳的创业公司名称为赛柏坦(深圳)科技有限公司,主要是为机器人行业提供数据采集设备+智能平台的全链条解决方案,数据手套的硬件设备在深圳和香港都有基地,主要在大湾区生产。公司主要产品覆盖数据采集、智能标注、模型训练、应用落地,从而构建闭环数据生态。

目前数据手套主要供给生产和制造业工厂的流水线工人,这种手套可以随意弯折,通过表面的电阻传感器可以直接采集数据,以及工人对应的姿态和空间的变化,可支持工业、医疗等场景人体操作捕捉。

我们的策略是利用搜集到的数据,发射到不同平台,来验证跨模态、跨场景的应用能力。这其中就涵盖数据处理平台的应用,通过AI驱动的清洗、分级与标注系统,输出结构化数据集。依托新加坡的跨境数据合规优势与深圳的研发能力,服务北美、欧洲及亚洲顶尖AI企业,推动真实数据驱动智能进化。未来,我们的目标客户是各种机器人平台,比如宇树机器人,也可能是特斯拉或Meta的机器人。
 

4、通过智能穿戴设备收集的数据体量如何?达到什么规模才能更好地接入不同应用场景?
 

殷鹏教授:在机器人数据方面,尤其是真实的数据,现在还没有人能确定一个合适的数据统计规模。我们通过模型测算,估计机器人要达到真人这种水平的通用性,真实数据可能需要达到100亿以上才能看到真正的效果。

对于机器人行业而言,数据量包括两个维度,一个是模型参数的大小,参数大小决定最终的数据量,随着日后数据的多模态模型日益变大,对应的数据量也会增多,和语言模型、视觉模型相比,100亿是一个合理的体量。

另一方面,机器人还需要物理层面的信息,比如接触感,需要尝试从不同角度触摸和进行训练。当我们有能力训练100亿量级的数据时,行业就可能出现类似于像ChatGPT这样的突破,随着机器人深入我们的生活,要求也会越来越精细。
 

来源:香港城市大学内地研究院