【科技成果推介】“多模态+大模型”驱动的具身智能分拣机器人

来源：发布时间：2026-05-08 点击次数：

一、成果背景

在全球人工智能浪潮中，生成式AI技术如GPT、DeepSeek等正推动各领域智能化变革。传统机械臂依赖预设程序，灵活性不足，难以适应复杂动态场景。为突破这一局限，Qstar启明星创新工作室融合“多模态感知”与“大模型决策”技术，提出并实现了一种具身智能分拣机器人系统。通过整合语音、视觉与运动控制，并引入大模型提升环境理解与任务生成能力，旨在解决机械臂在动态场景中自主交互与精准操作的难点，为智慧农业、柔性制造等场景提供更智能、自适应的人机协作方案。

二、成果简介

本项目研发了一款“多模态+大模型”驱动的具身智能分拣机器人系统。系统硬件由麦克风、深度相机、气动夹爪及六轴机械臂构成，分别负责语音指令采集、视觉与深度信息获取、柔性抓取及定位执行。

本系统融合GLM-4-Plus大语言模型与Qwen-VL视觉理解模型，构建了可解析自然语言、识别视觉目标并生成控制指令的智能体。通过Qwen-V多模态大模型实现目标检测与分割，再经手眼标定与坐标映射输出机械臂抓取位姿，最终经TCP/IP通信控制机械臂完成操作。本成果为具身智能系统提供了“多模态感知+大模型决策”的一体化实现范例，在提升机械臂智能性、交互自然性与任务灵活性方面具有明显优势，可为农业分选、物流拣货、柔性装配等场景提供技术参考与应用基础。

图1.系统硬件结构

图2.系统软件UI界面

三、技术亮点

本项目的技术亮点在于构建了“大模型驱动、多模态协同”的智能控制闭环。系统以GLM-4-Plus大语言模型为核心，实现了对复杂自然语言指令的理解与任务规划，赋予了机器人“零样本”任务泛化能力。创新地采用视觉大模型与专用语义分割模型协同的感知方案，通过动态切换机制确保目标识别的鲁棒性与高精度。通过多模态信息融合与精准手眼标定，实现了从语义理解到三维空间位姿的准确映射，最终驱动机械臂完成对不规则物体的柔性抓取，形成了完整的“感知-决策-执行”智能回路。

四、市场前景

本系统解决了传统分拣机器人难以理解模糊指令、适应动态环境的痛点。其核心的“听懂人话、看懂场景、精准执行”能力，在水果分拣、精密元件装配、物流供包等对柔性化、智能化要求高的场景中需求迫切。技术路径贴合工业4.0与AI+机器人融合趋势，具备在智慧农业与柔性制造领域率先实现商业化落地的清晰前景。

五、核心知识产权

本项目已形成系统的核心知识产权。在学术论文方面，发表《Language-Vision Embodied Agents in Robotic Systems for Industrial Sorting》一文，深入阐述了多模态大模型在机器人控制中的融合框架与实现路径，奠定了理论基础。

六、技术成熟度

○概念验证 ○原理样机●工程样机 ○中试○产业化

七、意向合作方式

●联合研发●技术入股 ○转让 ○授权（许可）○面议

成果转移转化中心联系人：张老师联系电话：029-88166098 电子邮箱：zhangyi@xupt.edu.cn

【关闭】