2026-03-12 · AI 每日简报
Hugo 归档版,来源于 RobotDaily 当日 Markdown 简报。
RobotDaily 2026-03-12:共 8 篇,含 具身智能 3 篇,表征学习 3 篇,强化学习 2 篇。
偏应用导向精选,按方向整理成短卡片式 Markdown 归档。
具身智能(3 篇)
1. Learning Adaptive Force Control for Contact-Rich Sample Scraping with Heterogeneous Materials
提出自适应力控框架,结合阻抗控制与强化学习,解决异质材料刮取任务,仿真到现实迁移效果显著。
- 作者:Cenk Cetin, Shreyas Pouli, Gabriella Pizzuto
- 标签:
自适应力控强化学习仿真到现实机器人操作 - 中文摘要:全球挑战加速了科学发现的需求,推动了AI驱动机器人技术的发展。在以人为中心的实验室中部署机器人化学家是自主发现的关键,因为复杂任务仍需人类科学家的灵巧性。机器人操作面临处理多样化化学物质(颗粒、粉末或粘性液体)的挑战。例如,人类使用刮刀从瓶壁刮取材料,自动化此过程需在受限环境中执行精细运动。我们提出自适应控制框架,结合低级笛卡尔阻抗控制器实现稳定交互,高级强化学习代理动态调整末端接触力。代理通过感知反馈获取材料位置。我们构建了包含Franka Research 3机器人、刮刀和异质材料的仿真环境,样本建模为球体集合,每个球体分配唯一脱附力阈值,通过Perlin噪声生成。代理在仿真中学习自适应策略,并成功迁移至真实机器人。在五种材料设置中评估,方法平均优于固定力矩基线10.9%。
- 链接:DOI | arXiv | PDF
2. Learning Bimanual Cloth Manipulation with Vision-based Tactile Sensing via Single Robotic Arm
提出单臂双手机器人布料操作框架,结合视觉触觉感知与合成数据生成,实现高精度布料展开,降低硬件成本。
- 作者:Dongmyoung Lee, Wei Chen, Xiaoshuai Chen, Rui Zong 等另外1人
- 标签:
布料操作视觉触觉单臂双手机器人合成数据生成 - 中文摘要:机器人布料操作因织物的高维状态空间、可变形性及频繁遮挡而具有挑战性。双臂系统虽能缓解部分问题,但增加了硬件和控制复杂度。本文提出Touch G.O.G.,一种紧凑的视觉触觉夹爪及感知控制框架,用于单臂双手机器人布料操作。该框架包含三个关键组件:(1)新型夹爪设计及控制策略,实现单臂夹爪内布料滑动;(2)基于视觉基础模型的Vision Transformer管道,用于布料部分分类(PC-Net)和边缘位姿估计(PE-Net),使用真实和合成触觉图像;(3)编码器-解码器合成数据生成器(SD-Net),通过生成高保真触觉图像减少人工标注。实验显示边缘、角落、内部区域及抓取失败区分准确率达96%,边缘定位亚毫米级,方向误差4.5°。真实世界结果表明,仅用单臂即可可靠展开皱褶布料。这些结果突显Touch G.O.G.作为可变形物体操作的紧凑且经济有效的解决方案。
- 链接:DOI | arXiv | PDF
3. FAR-Dex: Few-shot Data Augmentation and Adaptive Residual Policy Refinement for Dexterous Manipulation
通过少样本数据增强与自适应残差优化,解决灵巧操作数据稀缺问题,显著提升真实任务成功率与泛化能力。
- 作者:Yushan Bai, Fulin Chen, Hongzheng Sun, Yuchuang Tong 等另外2人
- 标签:
灵巧操作少样本学习数据增强分层框架 - 中文摘要:通过多指手与机械臂的协作实现类人灵巧操作是机器人领域的长期挑战,主要由于高质量演示稀缺和高维动作空间复杂。为此,提出FAR-Dex,一个结合少样本数据增强与自适应残差优化的分层框架,实现灵巧任务中稳健精确的臂手协调。首先,FAR-DexGen利用IsaacLab模拟器从少量演示生成多样且物理约束的轨迹,为策略训练提供数据基础。其次,FAR-DexRes引入自适应残差模块,通过结合多步轨迹片段与观测特征优化策略,提升操作场景的准确性和鲁棒性。仿真与真实实验表明,FAR-Dex相比最先进方法数据质量提升13.4%,任务成功率提高7%,并在真实任务中实现超过80%的成功率,具备强位置泛化能力。
- 链接:DOI | arXiv | PDF
表征学习(3 篇)
1. UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark
提出跨光谱交通认知网络,结合光热模态与交通规则知识,提升恶劣环境下的理解能力,并发布首个光热红外交通问答基准。
- 作者:Yu Zhang, Zhicheng Zhao, Ze Luo, Chenglong Li 等另外1人
- 标签:
无人机交通场景理解跨光谱融合视觉问答 - 中文摘要:无人机交通场景理解对智能交通系统至关重要,但现有方法依赖光学图像,在夜间和雾天等恶劣光照下性能严重下降。此外,现有视觉问答模型仅限于基础感知任务,缺乏评估复杂交通行为的领域特定监管知识。为此,我们提出跨光谱交通认知网络(CTCNet),设计原型引导知识嵌入模块,利用外部交通规则记忆中的高层语义原型将领域知识锚定到视觉表示中,使模型能理解复杂行为并区分细粒度交通违规。同时,开发质量感知光谱补偿模块,利用光学和热成像模态的互补特性进行双向上下文交换,有效补偿退化特征。此外,构建首个大规模光热红外认知无人机交通理解基准Traffic-VQA,包含8,180对对齐图像和130万问答对,涵盖31种类型。实验表明CTCNet在认知和感知场景中显著优于现有方法。
- 链接:DOI | arXiv | PDF
2. MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction
利用地理空间一致性构建自监督信号,显著降低在线建图标注成本,提升特征表示质量。
- 作者:Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller
- 标签:
在线高精地图自监督学习地理空间对比BEV 表征 - 中文摘要:自动驾驶依赖高精地图感知环境,但离线建图成本高昂。在线矢量建图仅需训练时标注,而自监督学习可进一步减少标签需求。本文提出 MapGCLR,通过在对比损失中强制重叠鸟瞰图(BEV)特征网格的地理空间一致性,优化在线矢量建图模型的 latent BEV 特征表示。为确保对比对具有地理重叠,我们分析数据集中轨迹的重叠关系,并按可调多轨迹要求生成子数据集划分。模型在减少的单轨迹标注数据上进行监督训练,并在符合多轨迹要求的更大无标签数据上进行自监督训练,形成半监督框架。该方法在矢量地图感知性能(定量)及 BEV 特征空间 PCA 可视化分割效果(定性)上均优于纯监督基线。
- 链接:DOI | arXiv | PDF
3. Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment
首创多模态潜在回放机制,显著降低遗忘率并提升连续任务适应效率,具高落地价值。
- 作者:Fanqi Yu, Matteo Tiezzi, Tommaso Apicella, Cigdem Beyan 等另外1人
- 标签:
终身学习模仿学习多模态表征潜在回放 - 中文摘要:本文提出一种终身模仿学习框架,在真实内存与数据约束下实现序列任务的持续策略优化。该方法摒弃传统经验回放,完全在多模态潜在空间操作,存储并复用视觉、语言及机器人状态的紧凑表征以支持未来学习。为进一步稳定适应过程,引入增量特征调整机制,通过角度间隔约束正则化任务嵌入的演化,保持任务间区分性。该方法在 LIBERO 基准上确立新状态,AUC 提升 10-17 个点,遗忘率较此前领先方法降低高达 65%。消融实验证实各组件有效性,显示优于替代策略的一致增益。
- 链接:DOI | arXiv | PDF
强化学习(2 篇)
1. UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery
提出基于MARL的无人机医疗配送框架,通过PPO实现动态资源分配与任务优先级管理,适用于紧急场景。
- 作者:Islam Guven, Mehmet Parlak
- 标签:
多智能体强化学习无人机配送医疗物流PPO - 中文摘要:无人机(UAV)在紧急医疗物资配送中发挥重要作用,但需协调机制以优先处理请求、分配有限资源并适应不确定条件。本文提出多智能体强化学习(MARL)框架,用于协调随机医疗配送场景中的无人机编队,其中请求的紧急程度、位置和截止时间各异。问题建模为部分可观测马尔可夫决策过程(POMDP),无人机在通信和定位限制下保持对需求的感知。框架采用近端策略优化(PPO)作为主要算法,评估异步扩展、经典演员-评论家方法及架构修改,以分析可扩展性与性能权衡。模型基于OpenStreetMap的真实地理数据验证,提供决策支持层以优先处理医疗任务、实时重分配资源并协助医护人员管理紧急物流。实验表明,经典PPO在协调性能上优于异步和顺序学习策略,突显了强化学习在自适应、可扩展无人机辅助医疗物流中的潜力。
- 链接:DOI | arXiv | PDF
2. Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning
显式建模接触动力学使机器人无需人工规则即可在杂乱环境中自主涌现非抓持操作,显著提升实机成功率与部署实用性。
- 作者:Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen 等另外7人
- 标签:
非抓持操作动力学感知世界模型强化学习 - 中文摘要:利用环境接触的非抓持灵巧操作可突破传统抓持局限,但在杂乱场景中因多物体耦合动力学难以实现。现有方法缺乏显式动力学建模,导致非抓持操作性能不足。本文提出动力学感知策略学习框架,通过显式世界模型学习接触诱导的物体动力学表征,并以此条件化强化学习,无需手工设计接触启发式或复杂奖励函数即可涌现非抓持灵巧性。仿真与实机实验表明,该方法在未见杂乱场景成功率上超抓持操作、遥操作及 prior 表征策略 25% 以上;实机在 10 个杂乱场景成功率约 50%,杂货店部署验证了稳健的 sim-to-real 迁移能力。
- 链接:DOI | arXiv | PDF
Indigo Floyd's Latent Garden