特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

来源:智能车参考

擎天柱机器人,这次自己登场!

在刚刚结束的特斯拉 2022 AI Day 现场,马斯克押注未来的人形机器人擎天柱(Optimus)—— 一系列新进展得到披露。

先是用手指倒计时开启展示,其后缓步登台,有模有样,还展示了一段马斯克最爱跳的举手摇摆舞。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

马斯克强调,这是擎天柱机器人首次独自登台。

接着就通过视频,展示着这个机器人目前的日常:在特斯拉工厂里搬包裹、浇花、学习各种人类做的事情。

但作为测试版本,这个原型擎天柱还比较粗糙,线圈裸露、胸口有醒目的电机等等。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

所以紧接着第二版本、更美观的擎天柱机器人也登场了 —— 暂时还不会走,却有更具设计的外观,甚至还给配了一个得州牛仔腰带。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

马斯克对特斯拉机器人的进展相当满意,他说虽然很难,但一定会比特斯拉的车更便宜,要服务于人类生活和经济,成本和售价要瞄准 2 万美元(14 万元)的标准去量产和商用。

在最后的问答中,马斯克还给出了时间表:3 年量产,5 年商用。

总之,特斯拉的 AI Day 在经历延期之后,果然不负众望,国内十一假期和国外周五夜晚都没能阻挡热情,数万人在线实时观看。

而且马斯克家的擎天柱机器人一登场,立马就让不少网友感慨:相比之下,XX 家的 XX 就是个遥控玩具而已呀。

擎天柱机器人,究竟有何不同?特斯拉 AI Day 上,又分享了哪些自动驾驶和芯片、超算方面的进展?

智能车参考,带你一文看尽。

 “擎天柱” 机器人亮相

擎天柱首次登场,自己走上台,向观众挥手。

还跳了一段马斯克最喜欢的举手舞。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

动作还比较生涩,但这已经是目前完成度最高的 AI 人形机器人了。

波士顿动力?

马斯克特意强调了擎天柱是第一个没有外部稳定辅助、没有遥控、没有外带电源,完全靠 AI 算法、自身电池电控、高集成的电驱执行器驱动的人形机器人。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

怎么实现?特斯拉在这个项目上有哪些创新?

一一来看。

整体情况

擎天柱机器人身高 170cm 左右,重 73 公斤。整个机器人由一块 2.3 度电池供电。

电控系统,包括充放电的功率半导体模块,都集成在了机器人胸口的电池包中。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

机器人静坐时,功耗为 100w,快步行走时,功耗为 500w。

可以估算,这样的能耗水平和电池容量,可以支撑擎天柱不间断持续工作 1.5-2 小时之间。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

擎天柱全身最大实现 200 度自由活动范围。

负责完成主要任务的手部,有最大 27 度活动范围(腕部)。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

我们看到的这个能走路、挥手、跳舞的擎天柱,是目前的最新版本,没有包覆外壳。

马斯克介绍,今年 4 月擎天柱第一次实现站立行走,到现在也不过半年时间。

下一个完成度较高、包裹 “皮肤” 的机器人,未来几个月内就能下地走路。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

售价吗… 马斯克也给出了一个让人期待的估计:

很可能 20000 美元以内,肯定比汽车便宜。

擎天柱能做到什么?

擎天柱 200 多个自由活动维度,由全身 28 个结构执行器实现。

控制这些执行器的,也是从特斯拉 FSD 自研计算平台衍生而来的 SoC。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

擎天柱机器人能做到什么?

简单的展示中,能够自己搬运物品,完成精细动作比如浇花。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

通过模仿人类的关节和肌肉工作方式,特斯拉为擎天柱开发了 6 种不同的执行机构:

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

甚至可以提起 500 公斤重的钢琴:

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

如何使 6 种、28 个不同的执行机构像人一样协调统一的活动呢?

整体策略:AI 像人学习

机器人有 28 个驱动机构,基础已经具备。

但难点在于执行器级别优先度不明确。

所以需要 AI 模型理解不同任务下各个关节的调动方式。

特斯拉的方式是采集不同这是任务下的人类关节运动模式,提取其中关键参数,比如扭矩分布、关节旋转角度等等,然后合成一个整体的多维向量数据,并灌输给系统。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

如何让擎天柱完成一个具体任务?

总体分为两个步骤。

首先是前面说的将人类的示范动作映射成多维向量,并让系统首先模拟出这个具体任务的关节运动轨迹:

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

紧接着,再通过实时系统将已经生成好的轨迹指令,发送到机器人对应的执行机构上。

但这个过程中,涉及到许多细分技术难题,特斯拉分别介绍了感知识别、行走与平衡、执行策略,以及手部动作几个方面。

感知:特斯拉自动驾驶同源技术方案

擎天柱看到的世界是这样的:

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

目标感知和识别算法的基础,其实就是 FSD 的相应模块。

这一部分如何提高识别的准确度和规划擎天柱前进的路线,其实和自动驾驶算法相同。

“相当于一个低速、两条腿的自动驾驶汽车”。

后面介绍 FSD 时会详细说明。

如何保持平衡

从工程角度看,行走并不是一件简单的事。最重要的是保持平衡。

其次保持整体动作的协调。

机器人上如何实现?

特斯拉开发了一个全新的机器人运动模型。

预设路线规划好,输入给系统后,系统会自动绘制出机器人的下一个落脚点,并且和整个机器人重心联动,保持迈步同时的平衡。

不过 ,这里仍然存在工程上的控制挑战。

如何实现规控

刚刚说的运动规划,是在理想条件下实现的,只存在于系统模拟之中。

擎天柱真正迈出这一步,其实很容易受现实世界复杂环境的干扰而摔倒。

特斯拉的方案是在执行决策中加入修正步骤。

利用传感器数据的真实性,不断修正运动学模型对轨迹的估计。

这张图解释的很清楚:

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

基本运动模型,由本地已经训练好的算法模块(以真实世界模拟为素材)为基础。

这个模型首先对环境进行模拟,预测出下一步行动轨迹。然后由传感器数据预测修正。

最后将修正后的指令发送到执行机构。

手部复杂系统

擎天柱手指单独成一个系统,有 6 个执行机构,每个关节实现最大 11 度的自由运动。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

基本灵活性和人类手掌相当,也能做到每秒 300 度的转动速度,而且关节、指尖触点装有传感器。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

能够承重 20 磅(9 公斤)、使用工具,以及抓取细小物品。

擎天柱明年开始量产,马斯克尽管说它的售价可能不超过 20000 美元,但同时也认为人形机器人的价值其实并没有被大众真实认知。

所以之前马斯克也在推特上说,最先应用擎天柱的场景,可能就是特斯拉自己的超级工厂。

关于这一部分,他画了一张很大的饼。

特斯拉之所以把机器人造成人类模样,主要目的就是取代人类完成几乎所有经济活动中需要的劳动。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

“因为这个世界的所有工具、系统都是为人类的形体特征建造的。”

而马斯克认为,一旦机器人变成主要生产力,人类完全就能实现个人的全面发展。

得到你想要的一切物质财富,学习享受一切你感兴趣的东西。

我们中国群众一点都不陌生,这不就是共 产 主 义吗???

  特斯拉 FSD,和背后的数据闭环

首先登场的是特斯拉 Autopilot 负责人 Ashok Ellaswamy。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

他表示,特斯拉 FSD 自动驾驶车队规模从去年的 2000,到现在已经扩充到了 16 万。

紧接着说道,之所以能达到这个成绩,主要归功于过去一年里工程师们的血汗付出 —— 对 75,000 多个神经网络模型进行训练。

整个特斯拉 FSD 系统由以下部分组成:

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

更准确的说,这是特斯拉典型自动驾驶算法的开发流程。

FSD 的主体算法框架,由车道、障碍物识别算法,以及环境建模算法(可供行驶的空间)组成。

当然,这些都是已经预训练好的框架。

然后将经过自动标注、模拟的训练数据喂给算法,这就形成了完整的迭代过程。

之后将这套算法部署在车端,完成自动驾驶任务。

接下来还详细介绍了特斯拉 Autopilot 系统如何与现实世界进行交互。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

每 50 毫秒可以实时做出一个决策,具体依靠如下的框架,将其概括为 “交互搜索”。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

决策的依据,是现实存在的车道线、以及其他移动的交通参与者。

根据轨迹预测算法,计算出多种可能的运动轨迹,这里需要用到不同的限制条件过滤掉那些明显不安全、不合规的轨迹。

这些规则,其实也是 FSD 系统通过巨量的真实道路数据学习得来的。

而且不仅仅是机械的交通准则,更多是人类老司机处理极端场景时的策略和方法。

后台训练方面,特斯拉目前的计算集群,由 14,000 个 GPU 构成,其中使用 10,000 个 GPU 来训练,4000 个 GPU 则用来标记。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

关于自动标注,以复杂路口的车道线为例,特斯拉每天有超过 50 万个 case 被收集,如果全部使用人工标注,将耗费数个月的时间。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

所以,特斯拉开发了一种新的系统:3D 自动 “打标工厂”。

第一步,数据从 8 个摄像头处获得,并且使用 Transformer 为基础的 BEV 模型从不同传感器的 2D 数据中恢复 3D 场景。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

然后从这些初步处理过的数据中,先进行轨迹预测。

第二步,对于多车道的场景进行重建,这里指的是在系统中重建用于模拟训练的场景。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

最后,则是在新建的模拟场景中,标注出新的数据要素,比如其他目标的轨迹策略、车道线的不同形式等等。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

整个流程不过 30 分钟时间。

标注之外的另一个环节,是模拟。

重建模拟环境,通常需要几个星期的人工。

但特斯拉的 Lanegraph 工具,几分钟内就能完成。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

生成模拟环境,基础还是车辆在路径上采集到的真实信息。

Lanegraph 会基于这些数据,学习到关于某一类道路环境的基本要素(ground truth),包括车道线形式、道路宽度、人行道边界、交通标志信息等等。

然后,Tile creator 模块会根据这些要素,自动生成一个模拟场景。

然后,场景中的物体几何信息,与时间维度的实时状态会被提取出来。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

最后,再使用虚幻引擎将这些特征渲染成高真实度的场景。

有多真实?包括道路标牌信息上的文字、路旁树木形成的斑驳阴影等等都能呈现。

数据闭环最后一步,就是训练和迭代。

这张图展示特斯拉整个数据闭环的过程:

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

其中,值得关注的是 “影子模式”,即车主在使用过程中传回的高价值场景数据。

这也构成了特斯拉最主要的训练数据来源,也是 FSD 快速进步的最主要原因:

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

以识别路口静止车辆这个具体案例来说,真实场景数据远高于模拟场景,一年时间内识别准确率从 85% 左右提升到近 100%。

这次的 AI Day,特斯拉 FSD 讲了很长时间,但和去年相比,颠覆性技术革新并不多。更多的是特斯拉展示已经建成的高度自动化的数据闭环体系,以及这套数据闭环带来的高效迭代速度。

有意思的是,这些技术思路,比如对 Attention 机制、Transformer、语言模型化用等新进展,跟国内更早之前自动驾驶公司毫末智行的 AI Day 上的大同小异 —— 也意味着对于自动驾驶的工程化探索,目前业界到了合流的时候。

最后总结一下:

数据前融合,采用基于 Attention 的 Transformer 进行。这是一个由特斯拉开创、其他自动驾驶玩家纷纷跟进的趋势。

模型优化方面,应用了不少 NLP(自然语言处理)领域的思路。

格外重视的,还云端训练,这就带出了 AI Day 的另一个重要内容:

  特斯拉超算 Dojo 新进展

这一部分,几乎都是黄仁勋和英伟达的受难时间。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

Dojo 由特斯拉自研计算芯片 D1 集成。

具体来看,25 块 D1 集成为一个计算模块。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

一个计算模块,相当于 6 个通用 GPU 性能,而成本和能耗,仅相当于 1 个 GPU。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

另外,去年特斯拉介绍了自建超算的基本模块单位 ExaPOD,集成 120 个训练模块,包含 3000 个 D1 芯片,超过 1 百万个训练节点。算力达到 1.1EFLOP。

当时只是 PPT,最新消息是,明年特斯拉即将在加州 Palo Alto 开建,总共规划了 7 个 ExaPOD 组成计算集群。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

不用说,建成之后肯定是人类有史以来最大的 AI 专用训练、模拟基础设施。

马斯克在问答中也透露,DOJO 不光会特斯拉自己用,也会考虑 AWS 一样的方式对外商用,总之有这样的大杀器,不愁商业模式。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

问答马斯克

最后,作为 AI Day 的互动交流环节,马斯克亲自上阵,尽可能回答了所有问题。

这些问题主要集中在三个方向上:

第一,擎天柱机器人和通用人工智能。

第二,自动驾驶。

第三,马斯克的认知和特斯拉未来。

我们言简意赅传送如下。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

  问:擎天柱机器人现在用的肌腱系统定型了吗?

马斯克:我们现在的方案是为了更快实现工程化制造,即便有很多方案可以选择但也有取舍,但根本上依然保持开放心态,会在不断迭代中改进方案。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

  问:擎天柱机器人会有认知智能吗?比如开开玩笑。

马斯克:肯定能跟人聊聊天,有简短的交谈,但也不要走到终结者那样…… 我们希望擎天柱能够安全、有保障地为人类服务。

现在的擎天柱核心是实用主义的完成任务,以后会推进创造性认知的一面… 擎天柱机器人肯定不是无聊的执行器。

  问:如何保证擎天柱机器人的 “意识” 始终是正确的,不会伤害人类?

马斯克:我们的机器人跟科幻电影的里的还不一样,主要还是你希望做什么它就执行什么,当前还是比较偏执行的机器人。

机器人工程师补充:机器人的 “意识” 一方面可以通过数据训练,二是确保可以远程控制,一旦发现有不对的倾向可以接管。

马斯克补充:或许会有一个终极控制按钮。

  问:擎天柱机器人的开发还跟加速可持续能源的特斯拉使命有关吗?

马斯克:严格讲不是一个路线。擎天柱核心还是希望让世界更美好,能够让人类更美好。

我是真的想看看最酷的最前沿的技术,让世界在 5 年后、10 年后变成什么样…… 我是真的很感兴趣。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

  问:擎天柱机器人正在走向通用人工智能(AGI),你担心吗?

马斯克:我是人工智能的忠实信徒,并且认为需要像监督汽车、飞机和药物一样,确保 AI 的正确使用。应该有一个裁判的角色,保证 AGI 的安全使用。

但实现 AGI,可能需要一个史无前例的超大数据集。不仅是互联网数据,还有诸多线下的数据。于是就需要有更大的超算来训练…… 这样才能实现 AGI。

  问:AGI 的发展预估?

马斯克:AGI 一定会来。比如 5 年、10 年会有很大的改变,但下周可能不会有大的更新… 所以前途是光明的,道路是曲折的,还有很多工作要做。

机器人的本质是传感器和执行器,以及如何控制执行器。

  问:擎天柱机器人啥时候会投入使用?

马斯克:现在就已经在特斯拉工厂测试,搬东西,从一个地方搬到另一个地方。

我希望很快能进入到开放订购的状态。

三五年吧。三年量产、五年随便买,能够当个礼物送人。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

  问:特斯拉 FSD 为什么开始引入语言模型?

工程师:车道和路口啥的,只能通过语言模型的方式,可以实现更好的…… 视觉信息的建模没那么完整的时候,语言模型、语言生成模型可以起到很好的作用。

  问:FSD 的公测推送标准?

工程师:我们会有好几个版本,通过公测推送的不是内部最新的那个版本。

马斯克:内部最新的版本通常都是我来测,我是 FSD 的首席测试。经常给他们 debug。(现场笑)

  问:特斯拉会始终坚持视觉方案?

马斯克:自动驾驶的本质就是生物神经网络,你始终可以参照人类的方式。

  问:FSD 的推进计划?

马斯克:很多国家需要批准才能开始 FSD 测试,但我相信我们已经准备好了。FSD 今年年底还会有大的更新。目标就是一个停车场到目的地停车场的连续自动驾驶。

  问:如果回到 20 岁,你会告诉自己什么?

马斯克:(认真思考了一会儿),我会想办法给 20 岁的自己说点实用的吧。比如尽可能站到人前,和更多聪明人认识,读更多的书。以及不要太羞涩内向…… 偶尔送送玫瑰啥的也很好。

享受每一个时刻。比如我们火箭在小岛研发的时候,该喝一杯的时候就喝一杯,因为那个时刻的感觉转瞬即逝,不会再有了。

特斯拉擎天柱机器人首次自主登台!马斯克:3年量产 5年商用,售价不超过14万

  问:特斯拉何以为特斯拉?独特性在哪里?

马斯克:我们现在是很大的公司了,有不同领域知识的人才,而且我们做的事情几乎都相当成功,因为在做正确的事情。也因为我们的使命是工程师用技术让世界变得更美好。

其实很多硅谷公司都这么想,但能让工程师真正快乐、且发挥才能的,不多。多数就是被画饼进去,然后得不到有效地成长。

但特斯拉不是,这里非常酷,也很辛苦,解决很多艰难的挑战,但如果你是一个天才,不管是哪个方面的,总有你的用武之地。

问答最后,马斯克带动现场参会者感谢了特斯拉工程师们,还讲了一下 AI Day 的意义,说之所以披露大量的细节,就是希望感兴趣的人可以随时挑着看自己感兴趣的东西,加入我们,改变世界。

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

图形验证码
取消
昵称