人工智能迎来爆发式发展,被誉为制造业皇冠顶端明珠的机器人作为人工智能与实体经济深度融合的重要领域,正以空前的广度和深度融入人们的生产生活,推动人类社会加速进入智能时代。中国信息通信研究院副总工程师许志远日前表示,以大模型为代表的人工智能技术突破性发展,为实现通用机器人打开了大门。目前硬件解决方案基本收敛,但软件算法仍在快速迭代创新,数据稀缺性是机器人能力泛化的关键制约。
人工智能赋予机器人强大泛化能力
在许志远看来,人工智能技术突破性发展,为实现通用机器人打开了大门,其核心是增强了机器人的认知与交互能力,并赋予机器人在物理世界中执行任务的强大泛化能力。
“能力泛化可以理解为一种迁移学习,即把从过去的经验中学习到的知识、策略和行为应用到新的领域,这使机器人能够在动态和复杂环境中自主进行任务理解,并通过感知、决策规划和运动控制实现任务的闭环,机器人真正成为一个可以与世界交互、存在自主智能的个体。”许志远进一步解释称。
可以看到,这两年投资市场和产业界对机器人的关注热度高涨,具身智能和人形机器人这两个词汇出现的频率很高。而中国和美国是最活跃的两个国家,谷歌、特斯拉、OpenAI等国外头部科技企业纷纷加码机器人领域投入,国内也涌现出银河通用、智元这样的优秀企业,小米、小鹏等也在造人形机器人。
未来仍需聚焦硬件及软件算法创新
据许志远介绍,机器人的概念最早起源于20世纪20年代,经过多年的发展,相关硬件技术趋于成熟,模块化、高度集成等成为重要特点,移动机器人形态基本收敛至人形、四足、轮式等。
在硬件创新方面,机器人主要涵盖执行机构、传感器、芯片、电池和新材料等技术。执行机构作为机器人本体的核心,近两年已从液压驱动转向电驱动,相关旋转和线性运动方案也基本清晰。“未来,随着技术进步和需求聚焦,机器人将进一步与前沿仿生、类脑等技术结合,结合新材料、电子皮肤、仿生设计等技术,实现类人级感知与精巧操作。”
在软件算法方面,目前业界主流的智能机器人解决方案是将大脑和小脑分层,大脑负责交互、感知、决策,基于现有大语言模型(LLM)或视觉语言模型(VLM),小脑负责具体的运动控制,有的是基于传统动力学建模,也有的是基于模仿学习、强化学习等技术。“未来,随着边缘计算增强、交互数据丰富,软件技术可能逐步向端到端大模型驱动的一体化架构演进,以全面实现自学习、自适应和自演化能力,即只需要一个模型便可以驱动多个不同的异构机器人,例如人形、四足等。”
人形机器人需渐进落地
谈及人形机器人距离走入我们生活还有多远这一问题,许志远坦言,工业制造、商业服务、家庭服务将是人形机器人落地的三个主要场景,并且呈现依次渐进落地的关系,1~3年用于汽车制造、商超补货等封闭/半封闭场景的人形机器人将出现,而与我们共处同一环境,可帮助执行家务、助老等任务的人形机器人产品落地可能在5年甚至10年以上。
究其原因,许志远表示,人形机器人在环境适应性、人机交互的自然性和接受度等方面更具优势,是通用机器人追求的终极形态。但人形机器人不一定是完全仿照人来设计的,因为现阶段人形并不一定是商业化落地的最优解,短期内市场上应该还会存在“主体人形”搭配“定制化组件”,例如腿部采用轮式底盘或轮腿组合,上肢采用机械臂,手部为三指灵巧手或夹爪、吸盘等。