编辑|郑玄 早在 2700 年前的古希腊神话中,工匠之神打造的青铜巨人 Talos,已经在克里特岛上巡视、守卫领土。它拥有自主意识,被视为「最早的安保机器人」。 腾讯首席科学家张正友用这个故事作为演讲的开场,人类这种对机械智能体的渴望,从青铜锻造炉一直延续到了今天的实验室。 这种渴望在今年的世界人工智能大会(WAIC)上,尤其强烈。 机器人领域尤其是人形机器人成为了绝对的焦点。世博展览馆二楼 H3 馆尤为震撼,汇聚了包括上海智元、傅利叶、杭州宇树科技、深圳乐聚、北京人形机器人中心等十余家公司的超百台人形机器人。 当人形机器人以前所未有的热度席卷科技圈,几乎所有目光都聚焦于那个越来越像人的「新物种」时,腾讯 Robotics X 实验室却选择了一条看起来不那么「时髦」的路。 图片来源:腾讯 7 月 27 日,在 WAIC 2025 腾讯论坛上,他们正式发布了具身智能开放平台 Tairos,一个代号「钛螺丝」的软件平台。这是这家巨头在长达七年的前沿探索后,对产业阶段、自身定位和未来路径的一次深度思考与战略选择。 01 机器人的「iPhone 时刻」远未到来 「现在的机器人行业大概处在什么阶段?」 面对这个问题,腾讯首席科学家、Robotics X 实验室主任张正友的回答很克制:「我觉得甚至其实还没到『大哥大』时代。」他认为,行业的「iPhone 时刻」远未到来,甚至可能还看不到 iPhone 的影子。 这个判断,是理解腾讯如今所有选择的逻辑基础。 时间拉回 2018 年,Robotics X 实验室刚刚成立。张正友坦言,那时行业一片荒芜,甚至找不到一家成熟的机器人本体厂商可以合作,团队不得不从硬件到软件进行全栈自研。 从多模态四足机器人 Max 到轮腿式机器人 Ollie,再到人居环境机器人原型「小五」,这些一度令人惊艳的硬件原型,更多是实验室为了验证和牵引技术研发而「开的坑」。它们是研究载体,而非产品线上的商品。 2023 年成了分水岭。 大模型的浪潮让具身智能一夜之间从学界、业界走向公众,资本和创业者蜂拥而入,机器人硬件公司疯狂涌现。 腾讯团队在走访了全国超过六十家机器人企业后发现,一个巨大的市场缺口正在显现:大量企业能将硬件本体打磨得非常出色,但在软件和智能上的投入却不足,因为这是一个需要长期、巨大投入的无底洞。 具身智能的落地是一个极其复杂、环环相扣的系统工程。从需要巨大投入的基础模型,到效率低下、成本高昂的场景数据采集,再到缺少流程化工具的训练仿真,以及令人「头大」的真机部署和升级,每一个环节都藏着不少「坑」。 市场的需求变化,让腾讯看到了新的可能性。既然行业的「黑莓时代」才刚刚开始,探索各种可能的硬件形态是所有玩家的必修课。那么,与其过早下注某一种具体的机器人形态,不如退后一步,为所有「探索者」提供通用的「平台」和「开发工具」。 图片来源:腾讯 这便是 Tairos 平台的由来。张正友反复向媒体强调「产品化」与「商业化」的区别。「我们是不赚钱的,『钛螺丝』这个平台不是以赚钱为目的。」 他透露,实验室成立七年来一直不以收入为目标,这是一项着眼于未来的技术储备和战略投资。 在张正友看来,真正的智能,必须是身体与智能的紧密结合、和谐交融。机器人的「心」(智能)必须知道「身」(本体)的状态。 这种「身心合一」的追求,对应他提出的一个关键技术理念——IPDE(Integrated Physical-Digital Embodiment),即「虚实集成智能体」——虚实世界和真实世界的无缝结合。」 机器人可以在数字世界里「想象」或「仿真」一个动作,预判其在真实世界执行的后果。如果想象的结果与真实执行的预期偏差很大,那么机器人就必须修正自己的规划。这种在虚拟中预演、在现实中修正的循环,正是实现「身心合一」的技术路径。 这种哲学思考并非一时兴起,而是张正友长期个人修行的沉淀。他谈到自己正在第四遍翻译《道德经》,「每翻译一遍,重新看一遍,我都有不同的启发。」 而现在,时机成熟了,是时候将这些前沿的科研成果,变成一个可以赋能行业的标准化产品了。 02 解构 Tairos:为机器人注入 「左脑、右脑和小脑」 如果说行业的共识是为机器人打造一个聪慧的「大脑」,那么 Tairos 的目标就是成为那个可以被灵活调用的「外脑」。它的核心设计理念是模块化与完整性。 「每一个厂家可以选取他自己想要的模块,」张正友解释道,「比如他的感知做得很好,那就不需要我们的感知模块。如果规划做得不够好,那就用我们的规划模块。」这种灵活性,大大降低了厂商的研发门槛。 这个「大脑」由三个核心模型和一套云端服务构成,分别扮演着不同的角色。 右脑:多模态感知模型——让机器人看懂 3D 世界这个模型致力于让机器人真正理解自己所处的物理环境。 但张正友指出,这不仅仅是拍张照片然后重建 3D 模型那么简单。「很多 3D 建模是『死』的,所有东西都连在一起,」他解释说,「但机器人需要知道,这个杯子是可以被抓取的,它是一个独立实体。」Tairos 的感知模型致力于构建一个可交互的、语义化的三维世界地图。 此外,它试图摆脱当前主流 VLA(视觉-语言-行为)模型对海量 2D 图像数据的过度依赖。张正友认为,2D 图像缺少 3D 世界的深度信息,导致数据需求量极大。「从 3D 角度看,一个杯子我只需要一个 3D 描述就够了,数据效率会高很多。」 左脑:规划大模型——让机器人理解任务并思考如果说感知是「看懂」,规划就是「理解」和「思考」。这个模型能让机器人理解复杂的指令,并将其拆解成一个个可执行的步骤。 腾讯方面的数据显示,在复杂的长序列人机交互任务中,该模型的成功率达到了 80%,超过了 GPT-4o 等领先的闭源系统。 张正友认为,仅靠文本训练的大模型在物理世界规划上存在天然缺陷。「现实世界很多东西是无法用文字描述的,比如地面的花纹、摩擦力,」他举例说,「动物没有语言,但它们依然能在 3D 世界里很好地生存、觅食。」这说明,对物理世界的深度理解,是比语言更底层的规划基础。 小脑:感知行动联合大模型——打通「看见」到「做到」这是最关键的闭环,负责将「思考」转化为精准、安全的物理行动。近来,一些机器人失控的案例恰恰暴露了这一环节的脆弱,比如一个机器人被悬空吊起后疯狂乱动——张正友分析根本原因在于机器人缺乏对自身状态的感知——它不知道自己双脚已离地,没有了摩擦力,却仍在执行地面行走的动作模式,从而导致失控。 Tairos 的「小脑」模型,正是要将力觉、触觉等多模态感知信息融合进来,形成对物理规律的深度理解,从而让行动更智能、更安全。 除了三大模型,Tairos 还提供了一整套云端仿真平台和开发工具链。通过腾讯游戏级别的 3D 场景生成技术,开发者可以在云端高保真环境中一键验证算法,解决传统仿真工具部署复杂、场景单一的痛点。 03 超越人形热:探索人机共存的更优形态 在 WAIC 论坛现场,搭载了 Tairos 平台的宇树 G1 机器人与张正友的互动,成为了平台能力最直观的证明。 当张正友说「到我身边来」时,机器人自主规划路径并准确地停在他身旁;当被问及「讲台上有什么」时,它能清晰地回答「一个电脑,一束花,两个麦克风」。 整个过程全部由算法驱动,没有任何人为遥控。现场一位工作人员透露,由于是实时演算,机器人每天的回答和表现都可能不一样,充满了算法带来的「惊喜」。 尽管人形机器人是当下的绝对主角,但张正友对此却保持着审慎和开放的态度。他认为,过早地将终极形态锁定在「人形」上,可能会限制行业的想象力。 他给出了三个理由:
对于具身智能的未来,张正友判断将在五个方向上持续发展,并将其总结为「IDEAS」框架 :
虽然不像一些初创公司那样乐观,张正友也对既定方向充满信心。 「我当时规划了 10 年的时间,现在 7 年过去了,我觉得可能再有三年会差不多,」他对未来给出了自己的时间表——让实验室的技术,特别是机器人的感知、规划和行动能力,发展到足够成熟的水平,从而能够支撑起像「养老」这样极具挑战性的、需要与人进行安全复杂交互的场景应用。 至于当前具身智能的「过热」,在他看来,反而是一件好事。「参与的人越来越多,这行业发展才会越来越快。」 而腾讯的角色,就是在这一历史进程中,保持足够的耐心和战略定力,通过开放自身积累七年的核心能力,为整个行业铺好路、拧紧「螺丝」,助力所有同行者一起,更快地抵达那个「iPhone 时刻」。 *头图来源:腾讯Robotics X 官网 本文为极客公园原创文章,转载请联系极客君微信 geekparkGO 极客一问 你如何看待腾讯入局具身智能? 来自 B 站 UP 主!AI 研究室帆哥的高考机械臂,可语音控制书写。 点赞关注极客公园视频号,
|