来源:leyu体育官方APP下载 作者:leyu体育官网入口 发表时间:2023-08-28 03:33:50
鸽了半年,稚晖君的创业首秀——人形机器人「远征 A1」终于亮相了,半年造出来的机器人,能帮我们搬砖、当保姆、搞科研。
万众瞩目之下,「远征A1」踏着步走上了舞台,稳稳站在C位,被团队的工作人员簇拥着一起合照。
今天,他果然没有让我们失望。消失了半年之久的「野生钢铁侠」,一上来就憋了个大的。
「智」,即智慧;「元」意味着人的象形,代表着人的两条腿。英文名AGI+Bot,也是透露出不小的野心。
这半年,ChatGPT引领了LLM的风潮,而智元想做的,就是创造出像人一样灵活的机器人。最终目标就是,让智能机器人成为推动人类生产力最大的动力。
稚晖君引用了大家常讲的一个段子:我们想让AI做的事,是做饭、打扫房间、洗衣服、扔垃圾,然而它们实际在做的事,是聊天、绘画、写作、作曲、打游戏……
所以,怎么样才可以让机器人真正为人类所用,帮我们做家务、帮我们打工赚钱,让我们有时间去娱乐、去写诗作画?
这就需要AI和机器人技术进行深层次的结合。而这样的任务,就涉及到对环境的理解、上下文的推理、物体识别运动规划等等复杂的技术挑战。
这些复杂任务,并不是硬件或软件的问题,而是一个系统的软硬件、算法各方面综合的协同性问题。
接下来,稚晖君介绍了几个月以来,团队在通用人形机器人本体和具身智能两方面分别取得的阶段性进展。
每个做人形机器人的团队,都会被问到这样一个问题:为何需要把机器人做成人形?
稚晖君表示,原因就在于「从第一性原理出发,人形双足机器人是人类环境中最为通用的终极形态!」
我们生活的物理世界中各种场景、设备、任务、工具,都是为人体形态量身定制的。
只有机器人像人,具备类似的身体结构和能力,才可以帮助机器人更好地融入人类的生活和工作环境,并且无需对机器人做任何改造。
如果机器人像人,它就能做到人机交互、情感陪伴,甚至发挥在危险环境中替代人的巨大价值。
当然了,稚晖君表示,针对特定的结构化场景,其他形态的机器人也会带来实际价值。
然而,让机器人模仿人类行为,进行精细的运动控制和协调,是世界性的难题,要求我们在机械设计、运动控制、感知反馈各方面取得技术突破。
著名的莫拉维克悖论告诉我们:让机器人像人类大师一般下棋,是相对容易的,但是要让机器有如1岁孩子般的感知和行动能力,却是相当困难的。
而对于智元来说,若想攻克难题,还需要从机器人本体硬件设计、算法积累去实现突破。
在远征A1本体硬件设计上,全身共有49+自由度,搭载了谐波一体关节、直线推杆、无刷行星伺服、空闲杯电机等驱各类执行器。
这些执行器就像人类关节一样,决定了人做各种动作的灵活性,机器人也是一样。
一个灵敏的机器人,其关节需要涵盖以下特点,做到体积小,重量轻、功率密度足够高、能量利用效率高、高响应带宽等一系列特性。
通过算法控制设计,和各种参数的正向分析,得到了每个关节所需的力矩转数曲线。
有了参数基础之后,基于此自研设计了PowerFlow关节电机,有了一系列创新和优化,采用了径向磁通的外转子电机方案,未来也会有轴向磁通的版本。
为了达到更高功率密度,关节模型组在如此小的提集中,创新性集成了液冷循环散热系统。
搭配一一体化自研的矢量控制驱动器,整体的控制扭矩可以容易地超过350Nm。
另外,我们也看到远征A1并不像人类一样,膝盖向前弯曲,而是采用了「反关节设计」。
稚晖君解释道,这款机器人设计的初衷,就为了应用于各种真实的任务场景中。
因为现在的机器人关节自由度不够高,反关节的设计能拥有更大的空间,更适用于干活。
因为智元的目标是让机器人参与各种生产力场景,另外一个重要的核心零部件,就是「灵巧手」。
这款自研「灵巧手」,拥有12个主动自由度,5个被动自由度,而且所有驱动都是内置的。
因为它用于精密制造,团队在它的指尖集成了基于视觉的指尖传感器,可以分辨操作物的颜色、形状、材质。
同时,通过创新的指尖传感器视觉闭环的设计,降低了对于整机电机的精度需求,因为能实现末端的视觉闭环。
除了以上提到了一些元部件之外,远征A1还搭载了一系列感知元件、算力系统、以及配套的具身智能框架。
机器人不止是足式的,还可以是轮式的底盘,可以自由搭配不同形态,甚至未来还会有轮足款。
说到这里,稚晖君表示,知道大家非常关心哪吒的进展,稍后会给大家展示相关视频。
总之,每个关键部件都能进行单独使用和搭配使用,合是一个机器人,分是无数个AI机械工具。
在6个月的研发时间中,算法已经快速迭代了三版运控算法,从最初的IQP,到CMPC、线性MPC,再到最近使用的非线性的NMPC。
国外顶级机器人团队,比如波士顿动力狗,能够实现跳舞、跑酷等一系列高难度动作。这对于智元来说,也不是高难度的问题。
稚晖君表示,与其他团队不同的是,实现这些能力之前,我们希望让机器人成本控制在20万以内,拥有真正落地可能。
正是大语言模型技术的飞速发展,使得机器人能够自主感知环境、理解任务、动作编排等自主完成一套流程成为可能。
所以,稚晖君表示,「现在,我们不止需要ChatGPT,还需要WorkGPT。」
我们知道,基于超大规模的数据预训练的语言和图像大模型,具备强大的语义理解、逻辑推理、图像识别、代码生成能力。
这些能力对于需要在真实物理世界中执行各种复杂任务的通用机器人,是非常重要的。
但是如何利用多模态大模型的能力,来赋能机器人的细微动作编排呢?这也是目前非常热点的研究方向。
团队实现了自然语言端到端到机器人的映射,可以用自然语言让机器人编排整个任务,还能动态调整任务。
智元对于机器人和大模型结合的基本认知是,即语言和图像大模型对于机器人领域应用最大的价值:
比如,让机器人把桌上垃圾扔到垃圾桶里,不再需要告诉它垃圾是什么、垃圾桶是什么,所有的知识都是预训练GPT模型,具有先验知识。
所以,大模型的出现,能够让机器人更好地把原有的能力泛化到更通用的场景中。
让它把蓝色方块放到红色方块上面,非常简单。但如果让它把蓝色方块放到红色方块下面,就复杂了。
它需要理解重力是什么回事,东西不会飘在空中,怎样通过多级操作完成这个任务?这就是一个典型的多级推理思维链的过程。
稚晖君表示,随着大模型时代的到来,通过利用大模型的通识能力和举一反三的推理能力,我们可以看到走向通用机器人的一道曙光。
大脑提供AI辅助的抽象思维能力,如逻辑推理,思考能力,完成机器人任务级和技能级的调度。
比如规划任务「去看看门口是否有快递」,然后具体完成规划路径,开门关门,抓取释放物体等动作的调度。
如果端侧部署的模型泛化能力不够,还可再配合上云端超脑,在线解锁更复杂的任务调度能力。
就如同人走路,大脑只发出宏观的指令,比如前进后退,需要小脑控制平衡,运动学动力学。
对于机器人来说,小脑主要是进行指令级的控制,设置上身姿态,控制指关节运动,控制头部姿态等。
在技能级这个模型层面,团队定义了一系列的语言操作,叫做Meta Skill。
Meta Skill的发展类似于智能驾驶中从L1到L5的整个过程,如果要实现全场景通用的机器人,也不可能是一步到位的过程。
在语言操作库限定的有限范围内,机器人能轻松实现自主的推理决策,完成端到端的任务编排。
随着语言操作能力库的不断扩充,机器人能够胜任的任务空间能够成指数级的增长。
此外,团队一开始就是奔着商用落地去的,因此方向上主要瞄准工业制造领域,比如3C制造,汽车制造等等,快速推进产业化。
团队除了会向开发者提供整个机器人的开发套件、HDK、SDK外,还会提供基础预训练大模型,AgiROS仿生平台,以及低成本的教育版硬件,供开发者进行二次开发。
稚晖君表示,如此之高的研发效,哪怕放在整个机器人行业里,也是相当炸裂的!
其中,在这半年的时间里,团队挑战了传统思维,打破了各种框架,尝试了许多前所未有的创新方案,每一步都是全新的探索。
这些机器人不再是简单的自主装置,而是拥有自我思考能力的智能伙伴,能够感知和理解我们的世界,与人类进行深入的沟通和合作。
而远征A1的发布,是智元追求卓越的起点,标志着在人工智能机器人领域迈出的重要一步。
鸽了半年,稚晖君的创业首秀——人形机器人「远征 A1」终于亮相了,半年造出来的机器人,能帮我们搬砖、当保姆、搞科研。
万众瞩目之下,「远征A1」踏着步走上了舞台,稳稳站在C位,被团队的工作人员簇拥着一起合照。
今天,他果然没有让我们失望。消失了半年之久的「野生钢铁侠」,一上来就憋了个大的。
「智」,即智慧;「元」意味着人的象形,代表着人的两条腿。英文名AGI+Bot,也是透露出不小的野心。
这半年,ChatGPT引领了LLM的风潮,而智元想做的,就是创造出像人一样灵活的机器人。最终目标就是,让智能机器人成为推动人类生产力最大的动力。
稚晖君引用了大家常讲的一个段子:我们想让AI做的事,是做饭、打扫房间、洗衣服、扔垃圾,然而它们实际在做的事,是聊天、绘画、写作、作曲、打游戏……
所以,怎么样才可以让机器人真正为人类所用,帮我们做家务、帮我们打工赚钱,让我们有时间去娱乐、去写诗作画?
这就需要AI和机器人技术进行深层次的结合。而这样的任务,就涉及到对环境的理解、上下文的推理、物体识别运动规划等等复杂的技术挑战。
这些复杂任务,并不是硬件或软件的问题,而是一个系统的软硬件、算法各方面综合的协同性问题。
接下来,稚晖君介绍了几个月以来,团队在通用人形机器人本体和具身智能两方面分别取得的阶段性进展。
每个做人形机器人的团队,都会被问到这样一个问题:为何需要把机器人做成人形?
稚晖君表示,原因就在于「从第一性原理出发,人形双足机器人是人类环境中最为通用的终极形态!」
我们生活的物理世界中各种场景、设备、任务、工具,都是为人体形态量身定制的。
只有机器人像人,具备类似的身体结构和能力,才可以帮助机器人更好地融入人类的生活和工作环境,并且无需对机器人做任何改造。
如果机器人像人,它就能做到人机交互、情感陪伴,甚至发挥在危险环境中替代人的巨大价值。
当然了,稚晖君表示,针对特定的结构化场景,其他形态的机器人也会带来实际价值。
然而,让机器人模仿人类行为,进行精细的运动控制和协调,是世界性的难题,要求我们在机械设计、运动控制、感知反馈各方面取得技术突破。
著名的莫拉维克悖论告诉我们:让机器人像人类大师一般下棋,是相对容易的,但是要让机器有如1岁孩子般的感知和行动能力,却是相当困难的。
而对于智元来说,若想攻克难题,还需要从机器人本体硬件设计、算法积累去实现突破。
在远征A1本体硬件设计上,全身共有49+自由度,搭载了谐波一体关节、直线推杆、无刷行星伺服、空闲杯电机等驱各类执行器。
这些执行器就像人类关节一样,决定了人做各种动作的灵活性,机器人也是一样。
一个灵敏的机器人,其关节需要涵盖以下特点,做到体积小,重量轻、功率密度足够高、能量利用效率高、高响应带宽等一系列特性。
通过算法控制设计,和各种参数的正向分析,得到了每个关节所需的力矩转数曲线。
有了参数基础之后,基于此自研设计了PowerFlow关节电机,有了一系列创新和优化,采用了径向磁通的外转子电机方案,未来也会有轴向磁通的版本。
为了达到更高功率密度,关节模型组在如此小的提集中,创新性集成了液冷循环散热系统。
搭配一一体化自研的矢量控制驱动器,整体的控制扭矩可以容易地超过350Nm。
另外,我们也看到远征A1并不像人类一样,膝盖向前弯曲,而是采用了「反关节设计」。
稚晖君解释道,这款机器人设计的初衷,就为了应用于各种真实的任务场景中。
因为现在的机器人关节自由度不够高,反关节的设计能拥有更大的空间,更适用于干活。
因为智元的目标是让机器人参与各种生产力场景,另外一个重要的核心零部件,就是「灵巧手」。
这款自研「灵巧手」,拥有12个主动自由度,5个被动自由度,而且所有驱动都是内置的。
因为它用于精密制造,团队在它的指尖集成了基于视觉的指尖传感器,可以分辨操作物的颜色、形状、材质。
同时,通过创新的指尖传感器视觉闭环的设计,降低了对于整机电机的精度需求,因为能实现末端的视觉闭环。
除了以上提到了一些元部件之外,远征A1还搭载了一系列感知元件、算力系统、以及配套的具身智能框架。
机器人不止是足式的,还可以是轮式的底盘,可以自由搭配不同形态,甚至未来还会有轮足款。
说到这里,稚晖君表示,知道大家非常关心哪吒的进展,稍后会给大家展示相关视频。
总之,每个关键部件都能进行单独使用和搭配使用,合是一个机器人,分是无数个AI机械工具。
在6个月的研发时间中,算法已经快速迭代了三版运控算法,从最初的IQP,到CMPC、线性MPC,再到最近使用的非线性的NMPC。
国外顶级机器人团队,比如波士顿动力狗,能够实现跳舞、跑酷等一系列高难度动作。这对于智元来说,也不是高难度的问题。
稚晖君表示,与其他团队不同的是,实现这些能力之前,我们希望让机器人成本控制在20万以内,拥有真正落地可能。
正是大语言模型技术的飞速发展,使得机器人能够自主感知环境、理解任务、动作编排等自主完成一套流程成为可能。
所以,稚晖君表示,「现在,我们不止需要ChatGPT,还需要WorkGPT。」
我们知道,基于超大规模的数据预训练的语言和图像大模型,具备强大的语义理解、逻辑推理、图像识别、代码生成能力。
这些能力对于需要在真实物理世界中执行各种复杂任务的通用机器人,是非常重要的。
但是如何利用多模态大模型的能力,来赋能机器人的细微动作编排呢?这也是目前非常热点的研究方向。
团队实现了自然语言端到端到机器人的映射,可以用自然语言让机器人编排整个任务,还能动态调整任务。
智元对于机器人和大模型结合的基本认知是,即语言和图像大模型对于机器人领域应用最大的价值:
比如,让机器人把桌上垃圾扔到垃圾桶里,不再需要告诉它垃圾是什么、垃圾桶是什么,所有的知识都是预训练GPT模型,具有先验知识。
所以,大模型的出现,能够让机器人更好地把原有的能力泛化到更通用的场景中。
让它把蓝色方块放到红色方块上面,非常简单。但如果让它把蓝色方块放到红色方块下面,就复杂了。
它需要理解重力是什么回事,东西不会飘在空中,怎样通过多级操作完成这个任务?这就是一个典型的多级推理思维链的过程。
稚晖君表示,随着大模型时代的到来,通过利用大模型的通识能力和举一反三的推理能力,我们可以看到走向通用机器人的一道曙光。
大脑提供AI辅助的抽象思维能力,如逻辑推理,思考能力,完成机器人任务级和技能级的调度。
比如规划任务「去看看门口是否有快递」,然后具体完成规划路径,开门关门,抓取释放物体等动作的调度。
如果端侧部署的模型泛化能力不够,还可再配合上云端超脑,在线解锁更复杂的任务调度能力。
就如同人走路,大脑只发出宏观的指令,比如前进后退,需要小脑控制平衡,运动学动力学。
对于机器人来说,小脑主要是进行指令级的控制,设置上身姿态,控制指关节运动,控制头部姿态等。
在技能级这个模型层面,团队定义了一系列的语言操作,叫做Meta Skill。
Meta Skill的发展类似于智能驾驶中从L1到L5的整个过程,如果要实现全场景通用的机器人,也不可能是一步到位的过程。
在语言操作库限定的有限范围内,机器人能轻松实现自主的推理决策,完成端到端的任务编排。
随着语言操作能力库的不断扩充,机器人能够胜任的任务空间能够成指数级的增长。
此外,团队一开始就是奔着商用落地去的,因此方向上主要瞄准工业制造领域,比如3C制造,汽车制造等等,快速推进产业化。
团队除了会向开发者提供整个机器人的开发套件、HDK、SDK外,还会提供基础预训练大模型,AgiROS仿生平台,以及低成本的教育版硬件,供开发者进行二次开发。
稚晖君表示,如此之高的研发效,哪怕放在整个机器人行业里,也是相当炸裂的!
其中,在这半年的时间里,团队挑战了传统思维,打破了各种框架,尝试了许多前所未有的创新方案,每一步都是全新的探索。
这些机器人不再是简单的自主装置,而是拥有自我思考能力的智能伙伴,能够感知和理解我们的世界,与人类进行深入的沟通和合作。
而远征A1的发布,是智元追求卓越的起点,标志着在人工智能机器人领域迈出的重要一步。