2026-03-16 · AI 每日简报
Hugo 归档版,来源于 RobotDaily 当日 Markdown 简报。
RobotDaily 2026-03-16:共 7 篇,含 具身智能 2 篇,表征学习 3 篇,强化学习 2 篇。
偏应用导向精选,按方向整理成短卡片式 Markdown 归档。
具身智能(2 篇)
1. PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization
通过直接偏好优化整合全身控制器,提升生成运动的物理真实性与任务一致性,支持零样本迁移至真实机器人。
- 作者:Yangsong Zhang, Anujith Muraleedharan, Rikhat Akizhanov, Abdul Ahad Butt 等另外4人
- 标签:
人形机器人运动生成偏好优化物理仿真 - 中文摘要:近期文本条件人体运动生成的进展主要得益于在大规模运动数据上训练的扩散模型。基于此,近期方法尝试通过应用全身控制器(WBC)将扩散生成的运动转换为可执行轨迹,从而将这些模型迁移到角色动画和真实机器人控制中。虽然WBC轨迹符合物理规律,但可能与原始运动存在显著偏差。为解决此问题,我们提出PhysMoDPO,一种直接偏好优化框架。与依赖手工设计的物理感知启发式方法(如足部滑动惩罚)的先前工作不同,我们将WBC集成到训练流程中,优化扩散模型,使WBC的输出既符合物理规律又符合原始文本指令。为训练PhysMoDPO,我们部署了基于物理和特定任务的奖励,并用它们为合成轨迹分配偏好。我们在文本到运动和空间控制任务上的广泛实验表明,PhysMoDPO在模拟机器人上的物理真实性和任务相关指标上均有持续改进。此外,我们证明PhysMoDPO在模拟中的零样本运动迁移和G1人形机器人的真实部署中均带来显著改进。
- 链接:DOI | arXiv | PDF
2. HandelBot: Real-World Piano Playing via Fast Adaptation of Dexterous Robot Policies
通过仿真策略与快速适应结合,解决毫米级精度任务的数据瓶颈,实现高效双钢琴演奏。
- 作者:Amber Xie, Haozhi Qi, Dorsa Sadigh
- 标签:
灵巧操作仿真迁移残差强化学习双臂协作 - 中文摘要:掌握多指手的灵巧操作是机器人领域长期挑战。尽管潜力巨大,但高质量数据收集仍是高精度任务的主要瓶颈。强化学习和仿真到现实迁移虽提供替代方案,但迁移策略常在毫米级精度任务(如双钢琴演奏)中失败。本文提出HandelBot框架,结合仿真策略与快速适应的两阶段流程:首先通过物理实验调整侧向指关节以修正空间对齐;其次利用残差强化学习自主学习细粒度修正动作。在五首曲目的硬件实验中,HandelBot成功实现精确双钢琴演奏,性能比直接仿真部署提升1.8倍,仅需30分钟物理交互数据。
- 链接:DOI | arXiv | PDF
表征学习(3 篇)
1. Representation Learning for Spatiotemporal Physical Systems
提出通过物理参数估计评估表征学习,发现潜在空间预测方法优于像素级预测,为物理系统建模提供新思路。
- 作者:Helen Qu, Rudy Morel, Michael McCabe, Alberto Bietti 等另外3人
- 标签:
表征学习物理系统自监督学习JEPAs - 中文摘要:针对时空物理系统的机器学习方法主要关注下一帧预测,旨在学习系统演化的精确模拟器。然而,这些模拟器训练成本高,且在自回归展开中易受累积误差等问题影响。本文从不同角度出发,关注预测下一帧下游的科学任务,如系统物理参数估计。这些任务的准确性为模型表征的物理相关性提供了独特的量化视角。我们评估了通用自监督方法在物理 grounded 表征学习中的有效性,发现并非所有物理建模方法都优于通用自监督方法,且在潜在空间学习的方法(如联合嵌入预测架构 JEPAs)表现优于像素级预测目标。
- 链接:DOI | arXiv | PDF
2. Separable neural architectures as a primitive for unified predictive and generative intelligence
SNA 通过结构归纳偏置统一预测与生成任务,在物理模拟和语言建模中兼具高效性与泛化性。
- 作者:Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine 等另外1人
- 标签:
可分离架构结构归纳偏置混沌系统建模生成式智能 - 中文摘要:智能系统在物理、语言和感知中常表现出可分解结构,但通常由未显式利用此结构的整体神经架构建模。可分离神经架构(SNA)通过形式化统一加性、二次和张量分解神经模型的表示类来解决此问题。通过约束交互阶和张量秩,SNA 施加结构归纳偏置,将高维映射分解为低元组件。可分离性不必是系统本身的属性,常在表达系统的坐标或表示中涌现。关键在于,这种坐标感知形式揭示了混沌时空动力学与语言自回归之间的结构类比。通过将连续物理状态视为平滑、可分离嵌入,SNA 实现混沌系统的分布建模,缓解确定性算子的非物理漂移,同时适用于离散序列。该方法在四个领域展示了组合多功能性:强化学习自主航点导航、多功能微结构逆生成、湍流分布建模和神经语言建模。结果确立 SNA 为领域无关的预测与生成智能原语,能统一确定性和分布表示。
- 链接:DOI | arXiv | PDF
3. VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation
提出双轴变换构建视角不变表征,显著提升跨视角位姿估计精度,适用于自动驾驶全局定位。
- 作者:Juhye Park, Wooju Lee, Dasol Hong, Changki Sung 等另外3人
- 标签:
跨视角位姿估计视角不变表征极坐标变换全局定位 - 中文摘要:精确的全局定位对自动驾驶和机器人至关重要,但基于GNSS的方法常因遮挡和多径效应而性能下降。跨视角位姿估计作为一种新兴替代方案,预测地面图像相对于地理参考卫星图像的3自由度相机位姿。然而,现有方法难以弥合地面与卫星视角间的显著差距,主要由于空间对应关系有限。我们提出一种新颖的跨视角位姿估计方法,通过双轴变换构建视角不变表征(VIRD)。VIRD首先对卫星视角应用极坐标变换以建立水平对应关系,然后在地面和极坐标变换后的卫星特征上使用上下文增强的位置注意力来解决垂直错位,显式缓解视角差距。引入视角重建损失以进一步增强视角不变性,鼓励推导出的表征重建原始和跨视角图像。在KITTI和VIGOR数据集上的实验表明,VIRD在无方向先验的情况下优于最先进方法,在KITTI上分别将中位位置和方向误差降低50.7%和76.5%,在VIGOR上分别降低18.0%和46.8%。
- 链接:DOI | arXiv | PDF
强化学习(2 篇)
1. Efficient Real-World Autonomous Racing via Attenuated Residual Policy Optimization
提出 α-RPO 方法,将残差策略转化为独立网络,显著降低部署延迟并提升真机赛车性能,极具工程落地价值。
- 作者:Raphael Trumpp, Denis Hoornaert, Mirco Theile, Marco Caccamo
- 标签:
残差策略自动驾驶赛车特权学习PPO - 中文摘要:残差策略学习(RPL)利用深度强化学习优化静态基础策略,在自动驾驶赛车等挑战性场景中表现优异,但部署时增加了系统复杂度和推理延迟。本文提出衰减残差策略优化(α-RPO),通过逐步衰减作为引导的基础策略,生成独立的神经策略。该机制支持特权学习,允许基础策略使用部署时无需的传感器模态。α-RPO 无缝集成 PPO,动态补偿基础控制器的衰减影响。在 1:10 比例赛车框架上的评估显示,该方法在仿真及零样本真机迁移中,既降低了系统复杂度,又提升了驾驶性能,验证了其在机器人部署中的实用性。
- 链接:DOI | arXiv | PDF
2. Beyond Imitation: Reinforcement Learning Fine-Tuning for Adaptive Diffusion Navigation Policies
提出无需价值网络的 GRPO 微调框架,显著提升扩散导航策略在未知场景中的成功率与安全性,实现高效实机迁移。
- 作者:Junhe Sheng, Ruofei Bai, Kuan Xu, Ruimeng Liu 等另外4人
- 标签:
扩散策略强化学习微调GRPO机器人导航 - 中文摘要:基于扩散模型的机器人导航策略虽能从视觉观测直接生成多模态轨迹并具备强零样本泛化能力,但受限于离线数据集覆盖范围,在未见过场景中易因分布偏移导致轨迹误差累积及安全故障。针对扩散模型迭代去噪结构阻碍梯度回传及额外价值网络训练不稳定等问题,本文提出一种适配扩散导航的强化学习微调框架。该方法利用扩散模型的多轨迹采样机制,采用组相对策略优化(GRPO)估算相对优势,无需独立价值网络。通过冻结视觉编码器并选择性更新高层解码器与动作头,结合在线环境反馈增强安全行为。在 Isaac Sim 的 PointGoal 任务中,未见场景成功率从 52.0% 提升至 58.7%,SPL 从 0.49 增至 0.54,碰撞频率降低。实验表明该策略可零样本迁移至真实四足机器人,并在几何分布外环境中保持稳定,展现了更强的适应性与安全泛化能力。
- 链接:DOI | arXiv | PDF
Indigo Floyd's Latent Garden