高盛(Goldman Sachs)在2026年5月发布的《中国人形机器人中期盘点》报告中指出,通过对14家中国前沿机器人企业的深度调研,具身智能产业正向商业落地迈出坚实步伐。当前,技术栈正加速从单一VLA向集成了预测与规划能力的“VLA/VTLA + 世界模型”多模态架构演进。尽管高质量数据瓶颈与从POC(概念验证)到规模化部署的过渡仍具挑战,但“轮式底盘 + 多指夹爪”等务实形态的率先应用与全栈降本,正合力打破僵局。高盛强调,虽然产业的大规模商业化预计在2027至2029年到来,但这幅长期投资蓝图已具备高度确定性。
核心内容概览
最具身智能模型转向“VLA/VTLA + 世界模型”的具身多模态架构。模型的讨论已超越单一的VLA(视觉-语言-动作)框架,快速向集成“世界模型(World Model)”的执行导向型多模态技术栈演进。世界模型主要作为功能层,通过次态预测和动作验证来提升机器人在现实不确定环境下的规划能力与鲁棒性;同时在触觉交互关键场景中,VTLA(加入触觉)正成为重要优化方向。此外,模型参数规模正从个位数级别向40B-80B的大规模技术栈迈进。
高质量多维现实数据仍是核心瓶颈,数据获取转向“以人为中心”的架构。高质量的真实世界数据仍是实际部署的主要制约因素,行业对于如何构建可扩展的数据获取架构已达成更高共识。以人为中心(Human-centric)和视角色(Ego-centric)的采集因能保留自然运动和高保真交互,成为首选的数据收集方式。行业内正形成两种数据积累路线:一种是在政府支持下建设工厂规模的集中式数据基础设施(如帕西尼),另一种则是通过部署系统、穿戴设备和VR构建分布式的部署闭环(如银河通用等)。商业化落地场景拓宽,但整体处于从POC到大规模量产的过渡阶段。人形机器人的商业化范围正在工业搬运、物流工作流以及部分结构化商业场景中拓宽,短期内最明确的机会集中在分拣、物料搬运、上下料和检测等半结构化流程中。目前的总体进度仍处于概念验证(POC)和试点阶段,而非大规模部署。企业普遍预计,在大规模积累数千万小时的高质量数据并完成模型迭代后,2027-2029年才会迎来真正的大规模商业化落地。降本路径多元化,现阶段“轮式底盘 + 灵巧气动/多指夹爪”成为务实优选。降本进程仍在持续,全尺寸人形机器人玩家主要通过全栈自研控制来压低硬件成本,但产量规模(Scale)仍是驱动成本下降的最核心因素。受限于当前的模型能力和成本压力,多数受访厂商在现阶段更倾向于采用“轮式底盘 + 2至3指夹爪”的形态,认为这种组合目前已能覆盖70%-90%的工业应用场景,而将“双足形态 + 五指灵巧手”视为更长远的未来演进方向。长期投资前景广阔,但投资者需保持对商业化周期的耐心。高盛认为,尽管当前面临高质量数据稀缺、模型仍需多轮迭代以及成本控制等诸多挑战,但多模态AI技术栈的加速演进和 sophisticated 数据采集架构的建立,表明该行业正一步步接近实际的广泛部署,其长期投资前景依然高度向好。不过,从POC到大规模商业化的复杂过渡仍需要时间,投资者在关注一致性质量和成本降幅这两个关键里程碑的同时,仍需保持足够的耐心。在5月18-19日于香港举行的高盛亚洲Communacopia+科技大会以及5月20-22日于深 圳和北京展开的中国AI机器人调研中,我们与14家机器人公司(包括未上市及上市公 司)进行了交流。这些公司代表了中国具身智能、机器人和自动化生态系统的广泛领 域,其中包括:戴盟机器人(未上市)、越疆(2432.HK,未覆盖)、埃斯顿 (002747.SZ,中性/卖出)、星海图(未上市)、银河通用(未上市)、极智嘉 (2590.HK,未覆盖)、逐际动力(未上市)、灵心巧手(未上市)、梅卡曼德(未 上市)、卧安机器人(6600.HK,未覆盖)、帕西尼(未上市)、千寻智能(未上 市)、优必选(9880.HK,未覆盖)和自变量机器人(未上市)。 此次调研为最新行业发展动态提供了年中总结,我们备受鼓舞地看到VLA/VTLA(视觉-语言-动作/视觉-触觉-语言-动作)模型与世界模型快速融合,以提升规划能力和鲁棒 性。尽管达到部署就绪的质量仍需持续迭代,但模型规模正迅速扩大。高质量的真实 世界数据仍是主要瓶颈,这推动行业共识向可扩展、以人为中心的数据采集范式演 进,投资方向包括集中式数据工厂和分布式部署循环(通过UMI和第一人称视角等方 式),并预期数据相关收入将大幅增加。商业化应用范围日益扩大,但目前大多处于 概念验证(POC)阶段(尤其是在工业和物流应用领域),而非大规模部署。大多数 业内人士预计,在部署就绪模型的基础上积累数千万小时的高质量数据后,大规模部 署有望在2027-29年实现。与此同时,成本削减主要通过规模化和全栈研发控制实现。尽管当前面临挑战,我们认为行业的长期投资前景依然非常乐观。我们所讨论的进 展,特别是多模态AI技术栈和复杂数据采集方面的进步,表明行业正朝着实用化、规 模化部署又迈进了几步。然而,我们认为投资者应认识到,这一过程仍需要耐心,因 为企业正在经历从概念验证到大规模商业化的复杂过渡,而其中稳定的质量和成本削 减是关键里程碑节。
模型讨论正从狭隘的VLA(虚拟逻辑自动化)框架转向面向执行的多模态堆栈:具体而言,是快速的VLA-世界模型集成,随后进行VLA优化,例如VTLA(虚拟逻辑自动化),即在物理交互质量至关重要的地方添加触摸功能。世界模型不再被视为独立的模型类别,而是更多地被视为与动作模型并存的功能层:VLA或VTLA负责策略和动作的生成,而世界模型的功能则通过下一状态预测、执行前的动作验证以及在现实世界不确定性下更强大的规划和鲁棒性,改进动作的执行时机、方式和时机。明确将下一步发展方向设定为某种形式的VLA/VTLA+世界模型组合的公司包括:Galaxea、Galbot、Spirit AI和One Robotics。在此背景下,模型规模正在不断扩大,讨论的焦点集中在参数量约为 400 亿至 800 亿的大型堆栈,而非参数量较小的个位数至数十亿参数的预训练系统。业内人士强调,在这些堆栈达到可部署的、一致的质量之前,仍需进行多轮迭代。
高质量、真实世界、多维数据仍然是实际部署的主要瓶颈,但讨论显然已从广泛的“数据配方”之争转向了如何构建可扩展的数据采集架构,以可靠地生成这些数据。在这一转变中,以人为中心和以自我为中心的数据采集方式越来越成为获取高保真数据的首选真实世界数据采集方法,尤其是在企业重视保留自然运动、丰富的接触式交互和跨身体迁移的情况下。在实际投资方面,一些企业已在政府支持下,转向建设工厂规模的专用数据基础设施;其中包括 PaXini,该公司目前在全国运营着五家数据工厂。其他公司,例如 Galaxea、Spirit AI 和 One Robotics,似乎正在通过部署系统、可穿戴设备、虚拟现实和客户端数据采集,构建更加分布式的部署循环。多家公司预计到 2026 年,数据相关收入占比将有所提高,其中包括政府对数据工厂的需求,这种需求依然强劲(优必选预测,2026 年数据工厂的需求将保持强劲或更强)。
商业化正在工业搬运、物流式工作流程以及一系列结构化的商业场景中不断扩展;工业应用仍处于分阶段进行,从概念验证 (POC) 到试点,再到小批量推广,最终才能实现更大规模的部署。近期突出的关键机遇包括:分拣、物料搬运、取放、检测/测试以及其他标准化或半结构化的工作流程。根据多家公司的评论,工业部署必然遵循多步骤转换流程,首先是概念验证(通常需要 3-6 个月,平均 2-3 轮),然后是小批量测试(通常每个工厂订单的规模小于 50 台),以及大约 12 个月的验证,之后最终开始试点部署,订单规模逐渐扩大到每个客户大约 50-100 台。
成本削减仍在继续,各公司正通过围绕架构、组件范围和部署形式做出特定选择来实现这一目标,但规模仍然是节省成本的主要驱动因素。在全人形机器人厂商中,全栈研发控制仍然是最常见的成本控制方法。值得强调的是,我们注意到,出于模型功能限制和成本考虑,许多厂商似乎更倾向于选择轮式机器人,并配备两到三个手指的机械臂,认为这是目前更为合理的选择,可以覆盖70%-90%的工业应用。同时,他们也不排除未来采用双足人形机器人和五指机械臂的可能性。
模型/具身智能堆栈:在模型策略方面,Daimon 并未构建全面的视觉触觉阵列 (VLA) 模型,而是专注于触觉小型模型或可集成到其他 VLA/VTLA 框架中的插件/预训练层。Daimon 的产品并非仅仅是传感器,而是包含触觉传感硬件、数据和触觉小型模型的综合解决方案。Daimon 认为,视觉触觉技术路线更适合模型集成,因为它与 VLA 模型共享相同的图像帧。数据策略:管理层将公司的数据策略定义为建立理解/处理/评估能力,而非单纯的大规模数据收集和操作。Daimon 指出,目前数据量并不匮乏,但高质量、适用的数据却十分有限。因此,Daimon 会根据终端市场的需求定制数据收集类型和流程,而不是提供固定的综合数据包。 Daimon 还开发了独特的触觉传感技术,其单色光视触觉技术路线可实现更高的成本效益、更强的鲁棒性和更低的计算能力需求(以管理为单位)。Daimon 机器人 AI 模型的数据类型遵循远程操作、以人为中心的数据和仿真数据的三层金字塔结构。该公司最独特的数据采集机制是分布式租赁商业模式,其 DM-EXton(可穿戴数据采集设备)通过运营商网点出租,用于居家数据采集(每小时支付数十元人民币)。一旦实现大规模分发,Daimon 的目标是采集数百万小时的数据集。商业化进展:公司拥有DM-Tac(传感器)、DM-Hand(触觉手)和DM-EXton(数据采集可穿戴设备)的完整产品线,构建了硬件、数据和下游集成生态系统。据管理层称,触觉传感器的销售与灵巧手的销售密切相关,但业界尚未就标准化的手指数量或技术路线图达成共识。Daimon预计数据和海外业务的收入将实现高速增长,但公司仍然认为硬件销售将在2-3年内重新成为主要收入来源,而数据将作为高附加值补充。成本降低路径:Daimon的主要触觉传感器DM-Tac W的平均售价为每传感器/指尖1299元人民币,成本降低将主要依靠规模效应,但公司愿意让利一部分客户,以确保客户和生态系统的稳定。模型/具身智能堆栈:Dobot 的技术路线强调“一脑多形态”方法,旨在开发一个能够泛化到 50 多个场景并满足多种机器人形态的工业需求的模型。该高级模型将作为智能中心,用于数据读取、任务分配和协同控制,例如,调度人形机器人进行搬运,四足机器人进行物流。Dobot 拥有自主研发的 VLA(虚拟逻辑架构),同时,其研发管线中也包含一个世界模型,用于模型调优。整体战略从预编程 1.0 过渡到深度学习 2.0,再到人工智能驱动的具身智能 3.0,管理层认为,硬件升级将推动软件能力的进步。数据战略:该公司表示,数据积累将是其庞大用户群的自然产物,而非独立的数据采集工作,而是充分利用其15个主要场景以及通过协作机器人出货量建立起来的广泛客户群。对于Dobot而言,训练主要在真实场景中进行,数据在概念验证(PoC)过程中同步积累,而非完全依赖仿真。管理层认为,其庞大的工业客户群已经积累了大量对真实工业场景的理解,这构成了模型训练和场景泛化的基础。商业化进展:管理层指出,Dobot的具身人工智能相关收入仅占总收入的4%,但2025年同比增长4倍,并将于2026年继续保持高速增长势头。管理层表示,具身人工智能的商业化进程首先是进行工业验证,然后是更广泛的2B终端市场,最后是2C终端市场,并指出下一轮概念验证(PoC)正在顺利进行。出货量方面,2025年的出货量预计为200-300台,今年主要由轮式机器人推动,此外,机器狗和全尺寸人形机器人的出货量预计为300-500台(轮式和双足)。定价/利润率方面,平均售价在20-50万元人民币(平均30万元人民币)的人形机器人已实现45%的毛利率。成本降低路径:Dobot 的硬件基础仍然是其协作机器人平台,管理层认为其手臂和上肢功能是其最强大的可复用资产。公司可以直接复用协作机器人的精度/控制/执行经验,并通过模型和控制升级扩展到双臂协调。公司已构建了一个涵盖机器人手臂、四足机器狗和轮式/双足人形机器人的综合产品矩阵,根据难度等级满足不同的工厂任务需求。Dobot 管理层估计,约 50% 的工业需求可由机器人手臂满足,20-30% 由轮式人形机器人满足,20-30% 由双足人形机器人满足。管理层表示,双足人形机器人是最终的、泛化能力最强的形式(大脑层面任务适应能力最强),但近期出货量更有可能由轮式机器人、机器狗和现有协作机器人平台主导,共同支持具身人工智能的快速发展。营收目标:增长动力依然是:1)国内替代(尤其是高端应用)和2)海外扩张,海外业务占比预计在2026年第一季度将达到约30%,管理层预计这一比例将继续增长。产品组合正转向中/高载荷机器人,这将有助于平均售价/利润率的提升。管理层强调,2026财年业绩指引(营收超过600亿元人民币)将取决于执行情况而非需求,并且公司整体战略在2024年亏损后已发生重大转变:不再过分追求单纯的市场份额/销量,而是优先考虑更优的产品组合、盈利能力和增长质量。成本削减路径:维持2026财年净利润目标约3亿元人民币,其中预计约2亿元人民币来自核心业务。关键成本控制措施包括:1)上游本地化(减速器、芯片仍部分进口);2)更严格地选择低利润项目(对毛利率低于30%的订单更加谨慎);3)提高标准化程度(与之前高度定制化的项目相比);以及4)更严格地控制成本(总运营支出不超过2025财年;通过改善现金流和偿还债务来降低财务支出)。竞争:管理层注意到,中国市场的竞争明显加剧,包括价格竞争,以及更多企业参与投标,库卡(KUKA)现在与发那科(Fanuc)一起成为主要竞争对手。模型/具身智能堆栈:Galaxea 的完整技术堆栈涵盖了具身 AI 基础模型(VLA + 世界模型)、数据以及整个机器人本体设计,管理层强调采用“一脑多体”路线。他们补充说,模型在不同机器人本体间的迁移能力是重点,但目前尚不具备,因为还需要进行训练后的迭代。关于世界模型的进展,Galaxea 于 2026 年 3 月发布了 Fast-WAM,延迟低至 190 毫秒,效率远高于许多其他模型。数据战略:Galaxea 将高质量的真实世界数据定位为公司的核心竞争优势,而非合成数据。该公司是最早采用这一战略的公司之一,一直致力于数据采集设备的创新,例如 UMI 手套(通用操作界面),目前拥有规模最大的高质量数据集之一。其数据是通过与宜庄市政府合作的“边工作边采集”模式收集的,其中以真实机器人远程操作为主(约占80%-90%),此外还包括UMI手套、外骨骼数据采集和以自我为中心的POV视角。Galaxea开源了500小时的内部数据,并获得了开发者的高度认可(管理层将其视为公司数据质量和可用性的证明),今年的数据量已扩展至100万小时。硬件设计:该公司一直引领着众多行业标准的制定,管理层认为,目前轮式机器人加机械臂是更为合理的选择,可以覆盖约90%的工业应用,其VLA(垂直激光辅助)执行速度可达人类速度的80-90%。该公司目前的主要产品R1-Pro和R1 Lite均为轮式机器人,但并未排除未来开发双足人形机器人的可能性。其机器人产品因其成熟度和稳定性而获得海外学术界的认可。模型/具身智能堆栈:Geek+ 强调了在物流模型强度方面采用“场景优先”的数据/思维模式的重要性:利用真实的仓库任务流程和数据循环来指导模型/应用程序的开发。在实践中,复杂的任务被分解成更小、可训练的、具有明确边界的子任务(例如,拣货工作流程:2D 视觉 → 3D 重建 → 分割 → 抓取执行),优先考虑可靠性而非通用性。关于其具身智能子公司(成立于 2025 年 7 月,专注于具身智能的研发及相关产品,包括 AI 驱动的机械臂拣选),管理层强调,行业内的模型/数据/技术路线尚未趋于一致;因此,与进行大量前期投入不同,目前的重点仍然是可部署的、有界限的用例,而不是前沿的具身人工智能。商业化进展:增长仍然主要由现有客户关系加深(约占 80%)和新客户转化(约占 20-30%)驱动,转化率的提升与持续的客户教育密切相关,而非受需求限制(管理层明确指出,市场仍处于相对蓝海状态,存在大量未被满足的需求)。展望未来,管理层认为约 30% 的年增长率(预计在 2025 财年实现)总体上是可持续的,潜在的增长空间来自内部产能(销售、交付、资源分配),而下行风险则来自资源部署的限制,而非需求疲软.模型/具身智能堆栈:LimX 的模型是一个三层系统,系统0为全身运动控制,系统1为人形VLA技能,系统2为具身智能操作系统 (COSA)。该公司的模型理念是将复杂环境分解为可学习的技能,而不是依赖远程控制。关于Oli 和 TRON 2 在崎岖地形上的稳定性,管理层表示,动作模型从现有的视频生成模型出发,提取视频中的运动信息,并将其提炼成一个简化的动作引导模型。数据策略:LimX 希望与客户和开发者共同开发应用场景,而不是内部预先定义。因此,Oli 和 TRON 2的定位是一个研发平台,提供开放的 SDK(软件开发工具包)访问权限和 Python 支持等,涵盖数据采集、清洗、标注、训练和推理等功能,旨在长期培养开发者的粘性。商业化进展:管理层概述了两条路径:(1)面向服务的机器人,超越固定的工业生产线;(2)LimX 硬件加上底层控制,作为第三方人形机器人软件开发的基础平台。LimX 强调模块化和稳定的高自由度控制。灵巧的手部仍然依赖外部供应商。管理层认为两指和三指夹爪可以满足大多数当前的应用场景模型/具身智能堆栈:除了定位为灵巧手机器人之外,Linkerbot 正在构建自己的具身大型模型,该模型可以将 2D 物体/场景转换为 3D 操作。据管理层称,人工智能业务分为两部分:一部分是能够更快实现盈利、无需演示的工作站解决方案,该方案通过算法增强现有硬件;另一部分是着眼于更长远的具身智能发展方向。数据战略:Linkerbot 的目标是构建高附加值的“大师级工匠”技能数据库,而非普通的商品化任务。其专有的 LinkerSkillNet 平台是全球最大的真实世界灵巧操作数据集(包含 500 多种技能),并配备了多模态采集系统,可将人类技能转化为标准化、可重用的机器人手功能。商业化进展:管理层表示,其已在全球高自由度灵巧手市场占据超过80%的份额(排名第一),并且是唯一一家每月量产1000只以上高自由度手(峰值可达4000只)的企业。其客户群涵盖顶尖人形机器人厂商、工业/3C/家电/汽车公司、顶尖科研机构和大学以及数据客户。关于盈利模式,管理层指出,目前软件/技能的盈利主要通过与硬件捆绑销售,收取技能溢价,因为独立的技能商店在国内难以盈利,而美国客户则接受基于结果的租赁模式(约6个月回本)。管理层表示,公司有意避免商品化的搬运/分拣等操作,而是专注于长期高价值技能,并期望在3-5年内实现所有人类精密工作的自动化。产品策略:Linkerbot 的智能手涵盖了所有三种机械臂技术路线——连杆式、腱驱动式和直驱式——共分为 3 个系列/8 款,自由度超过 42 个。据管理层称,智能手硬件成本的 70% 用于关节电机和减速器。管理层还补充道,Linkerbot 的智能手产品比竞争对手便宜 1 万至 2 万元人民币,平均售价比海外产品低 50%,这得益于自主研发的关节模块和电机线圈绕制技术。同时,产品在实验室应用中经受了约 100 万次抓取循环的高耐久性测试,并提供 12 个月的质保。模型/具身智能堆栈:该公司专注于在工业环境中实现快速的感知到决策循环。据管理层称,他们目前的3D视觉系统运行周期约为0.3-0.4秒,涵盖坐标捕获(XYZ)、实时学习和决策输出。实际上,该系统以集成智能层的形式与机器人捆绑销售,而非作为独立的视觉产品。数据战略:Mech-Mind的真实世界3D视觉数据主要来源于实际项目部署,并辅以大学合作。这体现了公司有意选择从真实的工业场景而非集中式数据工厂构建数据集。早期数据集侧重于物流和消费品制造;然而,目前的数据积累更多地集中在新能源汽车和汽车制造领域,这与公司垂直领域的扩张目标相一致。商业化进展:目前,核心客户集中在汽车和电池制造行业(最大客户:特斯拉)。除这些垂直行业外,管理层强调,物流、通用制造业、3C行业和汽车电子行业也实现了相对快速的增长。具体到物流领域,管理层指出,尽管渗透率仍处于低位,但庞大的劳动力基础意味着即使人力替代有限,潜在市场规模仍然可观。更广泛地说,管理层将目标市场定位为全球每年约50万台工业机器人部署的子集,其中约20-30%的机器人可能兼容视觉/智能叠加技术,作为物理人工智能升级的一部分。商业模式:公司的核心定位仍然是工业机器人智能层提供商,目前的交付产品以捆绑式摄像头+传感器+软件套装的形式提供。去年推出的灵巧机械手仍然基于工作站,以全栈式捆绑包的形式交付给客户(包括机械手、传感器、机器人和视觉系统)。其技术差异化主要体现在光学算法的协同设计上,而非硬件定制;公司采用通用FPGA/CPU。因此,公司的价值增值点在于软件/控制,硬件成本优化只是辅助手段,而非主要手段。模型/具身智能堆栈:目标架构是端到端的具身人工智能,从模块化系统转向VLA+世界模型集成(以VLM作为支持层)。OneModel 1.7(5月21日发布)采用潜在的世界动作模型,将世界模型泛化与VLA执行相结合。其他模块包括用于家庭任务的运动中心控制,以及一个能够回忆先前成功执行的“成功记忆”层。数据策略:数据堆栈结合了UMI物理数据(传感器/接口)和视频数据,并由内部真实机器人数据工厂(惠州、前海)、政府支持的部署(例如深圳)以及多种采集方法(真人演示、VR、模仿、以自我为中心的录制)提供支持。管理层强调了家庭场景数据的结构性短缺;前海数据工厂定位为:一个专注于家庭场景的专用数据中心,涵盖现实世界的多模态任务(例如,洗衣、烹饪、洗碗)。商业化进展:近期重点是半结构化服务场景(例如,零售、养老),随后是政府部署用于数据收集/验证,然后是面向消费者的推广(管理层预计约3年)。Onero(公司最新的通用人形机器人产品)瞄准更易于部署的服务用例(例如,店内配送);Acemate(网球机器人)计划于2027年通过亚马逊发布。长期定位:Onero的平均售价约为1万美元(机械爪版本),五指版本价格更高。成本降低途径:Onero仍在迭代中;管理层。目标是从2026年下半年开始扩大部署规模,并将3000美元左右的物料清单成本视为家庭用户采用的关键门槛。其关键的成本降低策略是利用软件算法来弥补硬件精度的限制,同时不断优化核心组件以降低硬件成。模型/具身智能堆栈:管理层强调,除了视觉之外,触觉在物理交互方面也至关重要,并指出触觉能更好地契合基于力的任务,而非以视觉为主的视觉辅助线(VLA)方法。公司计划下个月推出以触觉为主导的视觉辅助线(VTLA)“战术”模型,以补充客户以视觉为中心的堆栈。数据战略:管理层明确指出,以人为本、非远程操作的数据采集方式优于传统的远程操作方式。管理层将核心优势概括为:(i) 跨具身可重用的数据集;(ii) 以人为中心的数据系统作为基础层。公司运营着5个数据采集工厂(天津、宿迁、武汉、自贡、赣州),每个工厂的数据侧重点各不相同,以适应各地区的产业优势。此外,公司还通过与客户合作采集数据(例如京东、比亚迪)。商业化进展:公司一直引领着多项行业标准的制定。目前的商业化重点在于数据和触觉传感器。数据用于:(i) 训练约15个垂直模型,(ii) 向大型模型厂商销售,以及 (iii) 为机器人应用定制数据集。在物流分拣领域,公司表示约1亿至2亿个数据点足以满足部署需求,部署周期最短可达1-2个月(目前已与京东合作,通过项目+同步数据采集的方式推进)。终端市场定位为上游基础设施(数据和传感器层供应),并已确定约15个初始的机器人适用作业类别。成本降低路径:管理层表示,公司目前的规模已推动成本下降,使其能够提供199元/599元/899元(不同档次)的平均售价,而以往的平均售价约为10万元人民币。就不同的触觉传感技术而言,磁电传感因其在成本、精度和鲁棒性(相比成本更高、更易损坏的视触觉方法)之间取得最佳平衡而备受关注。管理层进一步指出,指尖触觉传感器是降低系统整体成本的关键反馈层模型/具身智能栈:Spirit 的核心理念是 VLA 结合世界模型融合(VLA 倾向于理解,世界模型倾向于预测),采用潜在预测(而非逐帧预测)的方式。基于可验证的数据,Spirit v1.5(2026 年 1 月开源)在 RoboChallenge Table30 中以 66.09 分/50.33% 的成功率位居榜首,成为首个超越 Pi0.5 的中国开源具身模型。随着预训练数据量的快速增长和基础模型质量的提升,训练后的时间已大幅缩短。数据战略:Spirit AI 管理层坚信,真实世界交互数据的有效性是具身模型能力的核心变量。公司的商业模式源于为机器人构建大脑的理念,并将数据本身视为核心护城河。 Spirit 的数据工厂专注于商业和家务场景,目前已部署 800 多台机器人,用于持续远程监控数据采集,并向已部署设备的用户收取付费数据反馈。管理层表示,真实机器人数据尤为重要,因为仿真多样性不足,且外包数据质量较低。公司设定了年底累计真实机器人运行小时数达到 100 万小时的目标(明年将达到数千万小时),以期推动模型取得重大突破。商业化进展:目前商业化仍处于产品标准化和训练后效率验证的早期阶段,管理层认为基础模型尚不足以支持大规模商业化;关键制约因素是训练后时间和跨场景泛化能力。公司提及的标杆客户包括宁德时代 (CATL)、京东 (JD) 和博世 (Bosch)。在宁德时代,Spirit AI的人形机器人应用于电池高/低电压、泄漏和电源检测,一台机器人即可替代一个工位(此前需要2-3个班次)。该应用已完成概念验证,并开始小批量采购。管理层表示,真正的规模化商业化只有在产品标准化后才能实现,预计在2028年左右,届时机器人的跨身体和通用任务能力可能会成熟。由于安全性和稳定性要求较高,家用/消费服务领域的应用仍遥遥无期,因此近期重点仍放在工业领域。管理层表示,目前模型在新任务上的成功率约为40-50%,而达到60-70%的阈值后,限制条件才会显著降低。硬件设计/供应链:公司的硬件设计和选型以核心技术(模型训练、数据收集)为先。该公司硬件研发的重点在于降低数据采集成本,提升运动控制的稳定性,并开发更适合泛化训练的末端执行器(机械手/机械爪)。Spirit AI MOZ1 的机身采用 OEM/ODM 机械臂,其减速器/关节/电机大多为国产,芯片则主要来自 NVIDIA。该公司的可穿戴/远程操控数据采集设备已迭代 2-3 代,成本曲线清晰可见,可作为大规模真实世界数据的基础设施。三指机械手/机械爪正在测试中,即将投入实际数据采集;五指机械手由于寿命短、成本高而被排除在外。数据战略:2025年人形机器人需求约为50%工业用途/50%数据工厂用途,管理层预计2026年数据工厂用途的需求将保持强劲或更强,从而支撑收入和数据积累。数据工厂模式:地方政府购买机器人并拥有数据,优必选通过付费/合作安排(补贴+硬件订单+数据访问)获取数据。第三方数据也用于预训练(以增强数据多样性),但公司强调,微调仍然依赖于内部的实体数据。关于视觉技术,管理层表示,其Walker机器人从3D转向主要使用2D/RGB摄像头是出于数据质量的考虑(减少预处理),成本也大幅降低。商业化进展:预计2026年交付量约为1万台(5000台工业用途/5000台商用/家用用途)。汽车行业仍然是最大的工业垂直领域;来自一级汽车零部件供应商、半挂车供应商和3C企业的需求自2025年下半年以来有所回升(主要涉及装卸)。管理层表示,物流企业也表现出新的兴趣(例如,愿意以更高的平均售价试用约200台设备)。商用服务机器人的定位更侧重于能力展示而非盈利,平均售价约为15万至20万元人民币。工业人形机器人的平均售价预计在2026年约为55万至65万元人民币(2025年为70万至80万元人民币),这主要反映了物料清单成本的降低。成本降低路径:管理层认为成本降低主要由规模驱动:物料清单成本从约40万元人民币(2025年初)降至约25万元人民币(2025年底),目前略高于20万元人民币。近期目标约为20万元人民币,长期目标约为10万元人民币(约2027年,每位管理层预计)。主要驱动因素是模块规模化(执行器/减速器约占物料清单的30%);结构件(约占50%)可通过从数控加工(Walker S2)转向模具制造(Walker S3)进一步降低成本。摄像头/传感器(约占7%)和芯片(约占10%)对总成本降低的贡献较小(每位管理层预计)。参考资料:Goldman Sachs-China Humanoid Robot:Mid~year check~in:Several steps closer toward commercial reality-260526