一、成果背景
在全球人工智能浪潮中,生成式AI技术如GPT、DeepSeek等正推动各领域智能化变革。传统机械臂依赖预设程序,灵活性不足,难以适应复杂动态场景。为突破这一局限,Qstar启明星创新工作室融合“多模态感知”与“大模型决策”技术,提出并实现了一种具身智能分拣机器人系统。通过整合语音、视觉与运动控制,并引入大模型提升环境理解与任务生成能力,旨在解决机械臂在动态场景中自主交互与精准操作的难点,为智慧农业、柔性制造等场景提供更智能、自适应的人机协作方案。
二、成果简介
本项目研发了一款“多模态+大模型”驱动的具身智能分拣机器人系统。系统硬件由麦克风、深度相机、气动夹爪及六轴机械臂构成,分别负责语音指令采集、视觉与深度信息获取、柔性抓取及定位执行。
本系统融合GLM-4-Plus大语言模型与Qwen-VL视觉理解模型,构建了可解析自然语言、识别视觉目标并生成控制指令的智能体。通过Qwen-V多模态大模型实现目标检测与分割,再经手眼标定与坐标映射输出机械臂抓取位姿,最终经TCP/IP通信控制机械臂完成操作。本成果为具身智能系统提供了“多模态感知+大模型决策”的一体化实现范例,在提升机械臂智能性、交互自然性与任务灵活性方面具有明显优势,可为农业分选、物流拣货、柔性装配等场景提供技术参考与应用基础。

图1.系统硬件结构

图2.系统软件UI界面
三、技术亮点
本项目的技术亮点在于构建了“大模型驱动、多模态协同”的智能控制闭环。系统以GLM-4-Plus大语言模型为核心,实现了对复杂自然语言指令的理解与任务规划,赋予了机器人“零样本”任务泛化能力。创新地采用视觉大模型与专用语义分割模型协同的感知方案,通过动态切换机制确保目标识别的鲁棒性与高精度。通过多模态信息融合与精准手眼标定,实现了从语义理解到三维空间位姿的准确映射,最终驱动机械臂完成对不规则物体的柔性抓取,形成了完整的“感知-决策-执行”智能回路。
四、市场前景
本系统解决了传统分拣机器人难以理解模糊指令、适应动态环境的痛点。其核心的“听懂人话、看懂场景、精准执行”能力,在水果分拣、精密元件装配、物流供包等对柔性化、智能化要求高的场景中需求迫切。技术路径贴合工业4.0与AI+机器人融合趋势,具备在智慧农业与柔性制造领域率先实现商业化落地的清晰前景。
五、核心知识产权
本项目已形成系统的核心知识产权。在学术论文方面,发表《Language-Vision Embodied Agents in Robotic Systems for Industrial Sorting》一文,深入阐述了多模态大模型在机器人控制中的融合框架与实现路径,奠定了理论基础。
六、技术成熟度
○概念验证 ○原理样机●工程样机 ○中试○产业化
七、意向合作方式
●联合研发●技术入股 ○转让 ○授权(许可)○面议
成果转移转化中心联系人:张老师 联系电话:029-88166098 电子邮箱:zhangyi@xupt.edu.cn