中文科技资讯
业界资讯 互联网 手机资讯 电脑硬件 数码产品 家电产品 APP应用 手机游戏 美通快讯

北大智元联合发布OmniManip:视觉语言模型赋能机器人高精度操作

2025-01-23来源:ITBEAR编辑:瑞雪

在探索具身智能领域的道路上,如何将视觉语言基础模型(VLMs)应用于机器人以实现通用操作,一直是科研人员关注的焦点。这一目标的实现面临两大核心挑战:VLMs缺乏精确的3D理解能力,以及难以输出低层次的机器人动作。

传统的VLMs主要通过对比学习范式训练,以2D图像和文本作为输入,这限制了它们在3D空间中的理解和应用能力。同时,尽管将VLMs在机器人数据上进行微调以构建视觉-语言-动作(VLA)模型被视为一种有潜力的解决方案,但高昂的数据收集成本和模型的泛化能力限制,使得这一方案仍面临诸多挑战。

为了克服这些难题,北京大学与智元机器人团队携手提出了OmniManip架构。这一架构基于以对象为中心的3D交互基元,成功地将VLMs的高层次推理能力转化为机器人的低层次高精度动作。OmniManip通过引入VLM规划和机器人执行的双闭环系统设计,有效解决了大模型幻觉问题和真实环境操作的不确定性,实现了操作性能的显著提升。

OmniManip的关键设计包括基于VLMs的任务解析、以物体为中心的交互基元作为空间约束、闭环VLM规划和闭环机器人执行。利用VLMs强大的常识推理能力,OmniManip能够将任务分解为多个结构化阶段,每个阶段都明确指定了主动物体、被动物体和动作类型。通过3D基座模型生成任务相关物体的3D模型和规范化空间,OmniManip使得VLMs能够直接在该空间中采样3D交互基元,作为动作的空间约束,从而优化求解出主动物体在被动物体规范坐标系下的目标交互姿态。

在闭环VLM规划阶段,OmniManip将目标交互姿态下的主动/被动物体渲染成图像,由VLMs进行评估与重采样,实现VLMs对自身规划结果的闭环调整。而在闭环机器人执行阶段,通过物体6D姿态跟踪器实时更新主动/被动物体的位姿,并将其转换为机械臂末端执行器的操作轨迹,实现闭环执行。

OmniManip具备通用泛化能力,不受特定场景和物体的限制。这一特性使得OmniManip能够被广泛应用于数字资产自动标注/合成管道等领域,实现大规模的机器人轨迹自动采集。目前,研究团队已经开源了泛化操作大规模数据集和对应的仿真评测基准,为相关领域的进一步研究提供了有力支持。

在智元机器人方面,其量产的第1000台通用具身机器人已于本月正式下线。这批机器人中包括731台双足人形机器人(远征A2/灵犀X1)和269台轮式通用机器人(远征A2-D/A2-W)。这一成果不仅展示了智元机器人在机器人量产方面的实力,也进一步验证了OmniManip架构的有效性和实用性。

智元机器人的发展也备受关注。据悉,以“天才少年”身份加入华为的稚晖君已于2022年底宣布离职,并创业成立了智元机器人。2024年9月3日,智元机器人完成了A++++++轮融资,估值已超过70亿元。这一轮融资得到了包括北汽、上汽、比亚迪在内的国内汽车巨头的支持,为智元机器人的未来发展注入了强劲动力。

企业禁用无线网卡攻略:三种方法详解,第二种助企业高效管控风险
对于中大型企业或对数据安全要求高的单位,域智盾终端安全管理系统提供了更智能、更彻底、更可追溯的无线网卡管控方案。在Windows专业版或企业环境中,IT人员可以用系统自带的组策略(Group Policy…

2025-11-15

中国电信AI赋能6G发展:创新技术引领通信变革,拓展产业融合新路径
中电信数智科技有限公司“一种基于6G的天地一体化传输优化及拓扑测绘的方法”获国家发明专利授权,这项专利涵盖卫星与地面网络协同通信、频谱资源共享、高效信号传输等多个核心技术领域,为6G的落地应用铺设了一条“高…

2025-11-12

山海星耀攻克超低轨难题,以硬核技术逐梦空天新蓝海
天虎科技了解到,虽然当前市场上有一些针对超低轨的吸气式推进器,但从气体收集率、推进效率、测试工作环境等维度上,山海星耀的电推进器均具备一定优势。 蔡东升表示,目前该产品是商业航天公司首次实现了“高真空运行环…

2025-11-12

量子安全网络新突破:CV-QKD可插拔模块开启高效规模化部署新篇
CUbIQ Technologies:开发了 CV-QKD 收发模块和量子安全架构HPE Juniper网络:将模块集成到其路由平台中,实现量子安全 MACsec 加密Coherent 高意:提供 400…

2025-11-12

企业宽带选不对,带宽再大也白费!这些关键因素决定实际网速
• 网速(用户感知):即实际访问体验,取决于 3 个核心因素 —— 带宽只是基础,更重要的是网络质量、路由优化和并发处理能力。 真正专业的服务商,会从企业实际业务场景出发提供解决方案,而非一味推销高带宽产品…

2025-11-12

物联网防逆流方案:10秒动态调节,光伏发电余电不上网更高效
防逆流柔性调节通过加装物联网网关与双向计量电表,监测市电总进线处的功率和逆变器实时的发电功率,通过网关内置的智能算法,以*快10秒为一个检测周期,持续跟踪负荷变化,动态调节逆变器的有功功率输出,既达到防逆流…

2025-11-11

Kinera Verdandi薇儿丹蒂TWS新品登场,双模连接续航持久,共赴听觉盛宴
在发布会前夕,Kinera广发“邀请函”,邀请耳机玩家来到现场先行一步体验这支旗舰TWS新品:现场共安排了两款配色的样机供试玩,分别是寰宇黑和阙夜紫,我自己就比较喜欢寰宇黑这个配色,低调奢华、质感非凡。 虽说…

2025-11-11

可编程网络中控系统:控制为核心基石,附属功能助力效能提升
AI算法在中控系统中的应用,并非为了追求技术噱头,而是通过分析设备运行状态数据,实现控制指令的预判与自适应调整——如根据会议室人数自动调节空调温度、根据室外光照强度自动调整室内照明亮度,让控制更智能、更贴合实…

2025-11-10

2025新质互联网:从“连接万物”到“智联万物”的智能化跃迁蓝图
该报告系统阐述了以IPv6+技术体系为底座、面向智能化时代的新一代互联网——"新质互联网"的内涵、架构与发展路径,指出其正从"连接万物"向"智联万物"跃迁,致力于构建可靠、高效、安全、智能、绿色的新型网络基础…

2025-11-10