机械设备行业周专题：大模型如何赋能人形机器人正式版.docx

资源描述

《机械设备行业周专题：大模型如何赋能人形机器人正式版.docx》由会员分享，可在线阅读，更多相关《机械设备行业周专题：大模型如何赋能人形机器人正式版.docx（12页珍藏版）》请在三一办公上搜索。

1、行业报告一行业周报6L国联证券机械设备行业周专题(12.2512.31)大模型如何赋能人形机器人？人形机器人是实现通用人工智能录有效的途径目前的大模型已经满足智能涌现和自主代理，即能够根据指令按照一系列的思维链完成复杂的内容输出，但功能可见性和现实具象性是目前大模型所欠缺的。我们认为智能机器人将会是实现功能可见性和现实具象性最有9的路径，即人形机器人是实现通用人工智能最有效的载体。“人形机器人在运辑上全面对标人类人形机器人参考人类身体，可在逻辑上全面对标人类，可分为“眼鼻喉、皮肤”、“大脑”、“小脑”、“身体”，分别完成感知输入、感知处理/交互/决策/规划、运动控制、机械执行等功能。我们认为机

2、械结构和外部传感器是完成人形机器人基本操作的基础，决定了人形机器人智能化的下限,而“大脑”、“小脑”决定了智能化上限。”大模型能全面赋能人形机器人“大脑”和“小脏”我们认为在“大脑”方面，在Al大模型的加持下，人形机器人能够根据环境或人的指令，对自己的行为做出决策；同时，通过视觉SLAM、BEV鸟瞰图和TranSfOrmer模型，能够完成高精度建图和导航。我们认为在“小脑”方面，大模型可以有效帮助机器人理解任务内容，然后将任务拆解，熊后编程执行，完成任务，这将使得任务级编程成为可能。科技巨头将率先推动大模型在人形机器人41域的应用我们认为大语言模型到达了“iPhone时刻”，能力延伸至具身智能

3、领域。以ChatGPT为例，大模型大幅提升人机交互水平，同时可替代工程师编写或优化机器人控制代码。以googleRT-2为例，随着大模型从自然语言领域延伸至图形图像领域，我们认为多模态大模型有望开辟机器人“大脑”、“小脑”快速进化的新方法。以googleGemini为例，随着原生多模态模型的不斯发展，端到端神经网络有望实现从视频输入到高精度控制输出。投资建议我们认为在大模型领域比较有竞争力的公司主要集中在国内外大厂，而产业链投资机会主要集中在感知输入、运动控制、算力等领域，主要包括视觉传感器、力矩传感器、触觉传感器、位置传感器、运动控制器、算力公司等。重点推荐伟创电气，视觉传感器环节建议关注奥

4、比中光、凌云光、奥普特、海康威视；力矩传感器环节建议关注柯力传感、东华测试、八方股份；触觉传感器环节建议关注奥迪威、汉威科技、苏试试验、弘信电子；位置传感器领域建议关注奥普光也、汇川技术、禾川科技、伟创电气、雷赛智能；运动控制器领域建议关注固高科技、雷赛智能、维宏股份；算力公司建议关注寒武纪。风险提示：智能化不及预期，成本下降不及预期，行业竞争加剧风险。证券研究报告2024年01月01日投资建议：强于大市(维持)上次珑议：强于大市相对大盘走势作者分析师：张旭执业证书编号：S0590521050001邮箱：ZXUgI联系人：田伊依邮箱：tianyygI相关报告1、机械设备：科技巨头布局XR产业有

5、望带动中国供应链发展2023.12.232,机械设备：Ii合金手机中框有望增厚刀具市场空间2023.12.16联UE为1.MMMNMRmHB正文目录ut t bC bt ut ut ll bft,N ，刁 VN TZ =Z 1 刁 V;- TZ N ，刁-z =FV 1刁 GZT G QH HMH QM GXr HMH QM 一 MH QM WVI m Wry1 .人彩机器人是Al进入现实世界的载体31.1 人形机器人是实现通用人工智能最有效的途径31.2 人形机器人在逻辑上全面对标人类3大模型能全面赋能人形机器人“大脑”和“小2 .脑”42.1 Al大模型的发展使人形机器人具备了“交互&决策

6、”能力42.2 基于大模型的纯视觉自动驾驶感知方案可迁移至人形机器人52.3 Al大模型将提升机器人决策、规划和导航能力62.4 Al大模型有望赋能人形机器人运动控制63 .科技巨头将率先推动大模型在人形机器人领域的应用73.1 ChatGPT横空出世标志着大模型“奇点”来临73.2 大语音模型能力延伸至具身智能领域73.3 多模态大模型开辟机器人大小脑进化的新方法83.4 原生机器人多模态大模型有望实现视频输入和控制输出94 .建议关注产业链及标的105 .风险提示10图表目录1:人形机器人是实现通用人工智能最有效的途径32:人形机器人运辑上全面对标人类43: Al大模型的发展使人形机器人具

7、备了“交互&决策”能力54:特斯拉的他视觉感知方案可直接迁移至人形机器人55:特斯拉自动标注系统提升训练效率66:特斯拉使用Al解决规划问题67:大模型能力可对应智能机器人需求78:人脑与具身智能框架的关系79:大语言模型（LLIo能力延伸至具身智能领域810:机器人动作表达为文本字符串可完成视觉-语言-动作数据协同微调.811:文本标记被去标记为机器人动作从而实现闭环控制912: Genlini在TEXT领域的性能略超GPT-41013: Gemini在MULTM0DAL领域的性能远超GPT-4V1014: 建议关注产业链及标的101 .人形机器人是Al进入现实世界的载体1.1 人形机器人是

8、实现通用人工智能最有效的途径通用人工智能需要满足4个必备条件，分别为智能涌现、自主代理、功能可见以及现实具象的能力.智能涌现是大模型具备强大推理能力的一个基础条件，只有具备了智能涌现这样一个基础表现的现象后，继续增加模型节点数和训练数据量去训练大模型才能够成为一条可行的路径。自主代理印当接收到环境信息或外部的指令后，能够根据环境采取不同的决策，这种自主代理的能力能够使机器更好的去适应环境和完成复杂的任务。功能可见即理解世界和环境中实物的一种能力，目前大模型只是具备了理解抽象世界的能力。现实具象性相对目前的人工智能而言的，目前大模型是在相对抽象的代码世界里完成的，并没有和现实的传感器、执行器等紧

9、密的结合。目前的大模型已经满足智能涌现和自主代理，即能够根据指令按照一系列的思维链完成复杂的内容输出，但功能可见性和现实具象性是目前大模型所欠缺的。我们认为智能机器人将会是实现功能可见性和现实具象性最有效的路径。图表1:人形机器人是实现通用人工智能最有效的途径dm(rr)UR!VLttTttH资料来源：国联证券研究所1.2 人形机器人在迂辑上全面对标人类人形机器人参考人类身体，可在逻辑上全面对标人类。分为“眼鼻喉、皮肤”、“大脑”、“小脑”、“身体”，分别完成感知输入、感知处理/交互/决策/规划、运动控制、机械执行等功能。感知输入主要由外部传感器完成，包括视觉、嗅觉、听觉、触觉传感器等；感知处

10、理/交互/决策/规划主要由CPU/GPU/NPU/DSP.OS、Al算法、SLAM算法等完成；运控控制主要由CPU/MCU、RTOS.运动控制算法完成；机械结构主要由线性执行器、旋转执行器、灵巧手、躯干、内部传感器完成。我们认为机械结构和外部传感器决定了人形机器人智能化的下限，而“大脑”、“小脑”决定了智能化上限。而随着Al大模型的发展，我们认为有望全面升级人形机器人“大脑”和“小脑”.图表2:人形机器人迂辑上全面对标人类资料来源：国联证券研究所整理2 .大模型能全面赋能人形机器人“大脑”和“小脑”2.1 Al大模型的发展使人形机器人具备了“交互&决策”能力Al大模型的发展使人形机器人具备了“

11、交互&决策”能力。2022年底，ChatGPT.Midjourney、StableDiffusion等相继亮相，Al大模型展示出很大潜力，推动了人工智能在各行各业的应用，也掀起了以人形机器人为代表的“具身智能”的发展热潮。NLP大模型如ChatGPTGemini等，具备上下文理解、多轮对话以及文学创造等能力，加速了人和机器人之间的自然语言交互进程；CV计算机视觉大模型的发展增强了分类、目标检测、语义分割、深度估计四大视觉核心任务的完成精确度，大大提升了机器人的环境感知能力；不同于单模态大模型的单一类型数据处理，多模态大模型可以处理文本、图像、视频或音频等多种类型的数据，使得机器人具备各感官融合

12、决策的能力，提升了机器人的推理决策功能。我们认为在Al大模型的加持下，人影机器人有望具备非常强大的交互和决策能力，能够根据环境或人的指令，对自己的行为做出决策。图表3: Al大模型的发展使人形机器人具备了 “交互&决策”能力资料来源：论文 %PaLM-E: An Embodied Multimodal Language Model ，国联证券研究所2.2 基于大模型的纯视觉自动驾驶感知方案可迁移至人形机器人基于大模型的饨视觉自动驾驶感知方案可直接迁移至人形机器人。视觉是最为经济高效的方案，视觉图片的信息密度和信息量是最大的驾驶感知途径（灯光、颜色、图案、物质的类型、材质）（位置、距离、速度）。

13、通过视觉SLAM算法动态构建向量空间（VeCtorSpace）,精准到每个像素点的三维空间，生成BEV鸟瞰图，让车或者机器人在立体的空间中运动。同时在算法中引入了TranSfOrnler模型，使算法精度不断提高。我们认为大模型的发展有望使人形机器人的感知越来越智能。资料来源：特斯拉Al Day,国我证券研究所图表4:椅斯拉的饨视觉感知方案可直接迁移至人形机器人2.3 Al大模型将提升机器人决策、规划和导航能力Al大模型将提升机器人决策、规划和导航能力，以特斯拉为例，大模型持续优化大幅提升FSD的安全性以及规划效率。在特斯拉投资者日披露了FSDbeta的碰撞数据，使用FSDbeta每320万英里

14、行驶中只有1次碰撞，而美国司机平均50英里就有一次碰撞，FSD系统的安全性是美国平均驾驶安全性的5-6倍。而特斯拉自动标注系统能够快速标注海量数据来对FSD算法模型进行训练，在规划算法中引入大模型，提升了规划路径的效率。我们认为大模型有望提升智能汽车和人形机器人的决策、规划和导航能力。图表6:科斯拉使用Al解决规划问题图表5:轿斯拉自动标注系统提升训练效率资料来源：仔斯拉Al Day,国会证券研究所IOmsSOmS2.4 Al大模型有望赋能人形机器人运动控制Al大模型使任务级编程成为可能，有望赋能人形机器人运动控制。当前机器人的通用性普遍较弱，基本上只是针对一个特定的任务或需求设计、制造机器人

15、，如零件组装机器人、扫地机器人等。主要的技术瓶颈有两个：一是机器人的硬件形态限制了机器人的用途；但更重要的原因在于软件层面暂时无法做到任务级编程。所谓任务级编程，指的是根据人下达的指令，实时编写出完成指令对应的程序并执行，使一个机器人能够完成各种任务。我们认为大模型具备较强的自然语言处理等能力，可以有效帮助机器人首先理解任务内容，然后将任务拆解，最后编程执行，完成任务，这将使得任务级编程成为可能。图表7:大模型能力可对应智能机器人需求资料来源：国联证券研究所图表8:人脑与具身智能框架的关系资料来源：智元机器人发布会，国联证券研究所3 .科技巨头将率先推动大模型在人形机器人领域的应用3.1 Ch

16、atGPT横空出世标志着大模型“奇点”来临2022年11月由微软投资的OpenAI率先推出了ChatGPT产品，ChatGPT是OpenAI开发的智能聊天平台，推出仅仅2个月，注册用户已经过亿，引发了此轮AIGC浪潮。当前ChatGPT已经实现商业化，面向公众用户提供Plus会员服务（高级版账号升级），可以提供更好的聊天体验。同时OpenAIAPI与徼软面向开发者提供API调用服务。我们认为OpenAI商业化不但可以缓解日笈庞大的训练和推理所需的算力资源的成本压力，而且是检验产品用户满意度的最好方式，同时也有利于产品不断迭代。3.2 大语音模型能力延伸至具身智能领域我们认为大语言模型（LLM）

17、到达了iPhone时刻”，能力延伸至具身智能领域。大语言模型拥有校高的理解和认知能力，大幅提升人机交互水平，大语言模型同时拥有较高的编程能力，可替代工程师编写或优化机器人控制代码。以OpenAI的ChatGPT为例，当前机器人依赖专业工程师深度编码参与，且需多次迭代机器人执行任务的代码，由工程师编写、迭代升级过程很慢（用户需要编写低级代码）、成本高昂（需要对机器人技术有深入了解的高技能用户）、效率低下（需要多次迭代才能使事情正常工作）。ChatGPT解锁了新的机器人范式，并允许（可能是非技术性的）用户参与循环，向大语言模型（LLM）提供高级反馈，同时监控机器人的性能。通过遵循设计原则，Chat

18、GPT可以为机器人场景生成代码。无需任何微调，我们就利用大模型的知识来控制不同形状的机器人来执行各种任务。在我们的工作中，展示了ChatGPT解决机器人难题的多个示例，以及在操纵、航空和导航领域的复杂机器人部署。图表9:大语言模型(LUi)能力延伸至具身智能领域资料来源：论文（ChatGPTfbrRobotlcs:DesignPrinciplesandModelAbilities,国联证券研究所3.3 多模态大模型开辟机器人大小脑进化的新方法随着大模型从自然语言领域延伸至图形图像领域，我们认为多模态大模型有望开辟机器人“大脑”、“小脑”快速进化的新方法。机器人将拥有庞大的先验知识库、强大的通识

19、理解能力、复杂语义多级推理能力(思维链或思维树)。以google的RT-2模型为例，是一种新型的视觉-语言-动作(VLA)模型，可以从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令，同时保留Internet规模能力。在训练端，机器人动作表达为文本字符串(token),视觉-语言-动作数据协同微调。为了使RT-2轻松兼容大型预训练视觉语言模型，将机器人动作表示为另一种语言，可以将其转换为文本标记并与互联网规模的视觉语言数据集一起训练。对现有的视觉语言模型与机器人数据进行协同微调。机器人数据包括当前图像、语言命令和特定时间步的机器人动作。将机器人动作表示为文本字符串，如下所示。此类

20、字符串的示例可以是机器人动作标记编号的序列：“1128912415101127217”。由于动作被表示为文本字符串，因此可以将它们视为另一种允许我们操作机器人的语言。这种简单的表示使得可以直接微调任何现有的视觉语言模型并将其转变为视觉语言动作模型。图表10:机器人动作表达为文本字符串可完成视觉-语言-动作数据协同微调1V*lMOCMftIfM6KZZ”A1AMetTAAOtXGrlAr*itlnalBotatIenaL资料来源：论文rt-2-new-model-translates-vision-and-language-into-action,国联证券研究,所在推理端，文本标记被去标记为机器

21、人动作，从而实现闭环控制。利用视觉语言模型的骨干和预训练来学习机器人策略，将其泛化、语义理解和推理转移到机器人控制中。图表11:文本标记被去标记为机器人动作从而实现闭环控制资料来.通：论文rt-2-new-mOdeI-translates-vision-and-language-into-action,国联证券研究所3.4 原生机器人多模态大模型有望实现视频输入和控制输出我们认为随着原生多模杰模型的不断发展，端到端神经网络有望实现从视频输入到高精度控制输出。以googIeGemini为例，是一种原生多模态模型，相比GPT的拼接多模态大模型效果更好，因为后者在训练阶段极易遇到瓶颈。谷歌Gemin

22、i此次绕开了文字环节，直接靠视觉和声音来理解世界。我们认为Gemini在机器人感知方面非常适用。从模型架构上来看，Gemini的设计理念是从一开始就考虑如何处理多种形式的数据。这种理念体现了对自然智能的深刻理解，即真正的智能应能够跨越不同数据类型，而不仅仅是文本。从版本分类来看，Gemini的三种版本Ultra、Pro和Nano各有其独特的定位和优化目标。Ultra版本为处理高度复杂的任务而设计，它拥有最强大的计算能力和最深层次的理解能力。Pro版本则致力于在广泛的任务类型上提供优质表现，旨在成为多用途的Al解决方案。Nano版本则专注于效率，适用于那些资源有限但仍需Al能力的设备和应用场景。

23、从性能变现上来看，Gemini展示了超越现有最高水平(SOTA)的性能，这不仅证明了其在技术上的先进性，也展示了其在实际应用中的潜力。特别是在MMLU测试中超越人类专家的成绩，更是突显了其在语言理解和问题解决方面的卓越能力。图表12:Gemini在TEXT领域的性能喀趣GPTY资料来源：google官网.国联证券研究所图表13:Gemini在MULTMODAL领域的性能远超GPT-4V资料来近：google官网.国联证券研究所4 .建议关注产业链及标的我们认为在大模型领域比较有竞争力的公司主要集中在国内外大厂，而产业健投资机会主要集中在感知输入、运动控制、算力等领域，主要包括视觉传感器、力矩传

24、感器、触觉传感器、位置传感器、运动控制器、算力公司等。图表14:建议关注产业链及标的I环节受暴标的I视觉传感器奥比中光、凌云光、奥普特、海康威视力翅传感者柯力传感、东华测试、八方股份触觉传感器奥迪威、汉威科技、苏试试脸、弘信电子位正传感器奥普光电、汇川技术、禾川科技、伟创电气、雷赛智能运动控制国固高科技、雷赛智能、维宏股份算力公司寒武纪资料来源：iFinD,国联证券研究所整理5 .风险提示(1)智能化不及预期。人形机器人智能化依赖大模型发展以及数据超算中心建设，如果未来大模型发展速度较慢，将难以实现人形机器人智能化。(2)成本下降不及预期。目国内外前主流人形机器人成本都比较高，在材料可靠性好、

25、产品技术能力强、能满足人形机器人要求的前提条件下，要降低成本存在一定难度，可能存在成本下降不及预期风险。(3)行业竞争加剧风险。各大汽车主机厂以及创业公司布局人形机器人风口，随着逐步量产后，可能会出出现竞争加剧的风险。分析师声明本报告署名分析弹在此声明：我们具有中国证券业协会授予的证券投资咨询执史资格或相当的专业胜任能力.本报告所表述的所有观点均准确地反映了我们对标的证券和发行人的个人看法。我们所得报酬的任何部分不瞥与，不与，也将不会与本报告中的具体投资建议式,观点有直接或间接联系.评级说明投资建议的评级标准评级说明报告中投资建议所涉及的评级分为股票评级和行业评限（另有说明的除外）评级标准为报

26、告发布日后6到12个月内的相对市场表现，也即：以报告发布日后的6到12个月内的公司股价（或行业指数）相对同期相关证券市场代表性指数的涨跌幅作为基准。其中：A股市场以/深300指数为基准，新三板市场以三板成指（针对协议转让标的）或三板做市指数（针对做市转让标的）为基准：杳港市场以摩根士丹利中国指数为反准；美国市场以纳斯达克母含指敷或标普500指数为基准：舛国市场以柯斯达克指数或林国综合股价指数为基麻。股票评级买入相对同期相关证券市场代表指数涨幅20%以上增持相对同期相关证毋市场代表指数涨幅介于5广20%之间持有相对同期相关证券市场代表指数涨幅介于T0%5%之间卖出相对同期相关证券市场代表相敷茨幅

27、10%以上行业评级强于大市相对同期相关证券市场代表指数旅幅10%以上中性相对同期相关证券市场代表指数涨幅介于T0%10%之间弱于大市相对同期相关证毋市场代表指数跌幅10%以上一徽声明除非另有规定，本报告中的所有材料版权均属国联证券股份有限公司（已获中国江监会许可的证券投资咨询业务资格）及其陆属机构（以下统称“国联证券”）。未经国联证券事先书面授权，不得以任何方式修改、发送或1者复制本报告及其所包含的材料、内容。所有本报告中使用的商标、服务标识及标记均为国联证界的商标、服务标识及标记。本报告是机密的，仅供我们的客户使用，国联证券不因收件人收到本报告而视其为国联证券的客户。本报告中的信息均来源于我

28、们认为可靠的已公开资料，但国联证券对这些信息的准确性及完整性不作任何保证。本报告中的信息、意见等均仅供客户参考，不构成所述证券买奔的出价或,征价遂请我要约。该等信息、意见并未考虑到获取本报告人员的具体投资目的、财务状况以及特定需求，在任何时候均不构成对任何人的个人推荐。客户应当对本报告中的信息和意见进行独立评估，弁应同时考量各自的投资目的、财务状况和特定需求，必要时就法律、商业、财务、税收寻方面咨询专家的意见。对依据或者使用本报告所造成的一切后果，国联证券及/荻其关联人员均不承担任何法律贵任.本报告所戴的意见、评估及预测仅为本报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。过

29、往的表现亦不应作为日后表现的预示和担保。在不同时期，国联证券可能,会发出与本报告所栽意足、评估及预测不一致的研究报告。国联证券的销售人随、交易人员以及其他专业人士可葩会依据不同假设和标维、采用不同的分析方法而口头或,书面发褰与本报告意见及建议不一致的市场评论和/或,交.易观点。国联证券没有将此意见及电议向报告所有接收者进行更新的义务。国联证券的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或珑议不一致的投资决策。特别声明在法律许可的情况下，国联证券可能会持有本报告中提及公司所发行的逐季并迸行交易，也可能为这些公司提供或争取提供投资报行、财务预问和金融产品等各种金融服务.因此，投资者应当考虑到国联证券及其相关人员可能存在彩响本报告观点客观性的潜在利曲冲突，投资者请勿将本报告视为投资或其他决定的唯一参考依据。版权声明未经国联i正券事先书面许可，任何机构或个人不得以任何再大翻版、复制、转我、刊登和引用。否则由此造成的一切不良后果及法律责任有私自翻版、复制、转载、刊登和引用者承担。联系我1北京：北京市东城区安定门外大街208号中粮犬地广场A塔4楼上海：上海市浦东新区世纪大道1198号世圮汇二座25楼无修：江苏省无锡市金融一街8号国联金融大厦12楼深及：广东省深圳市福田区益田路6009号新世界中心大厦45楼电话：0510-85187583

展开阅读全文