幸运5app 破解自动驾驶测试「跷跷板」贫乏：一个模子遍历从保守到激进的扞拒活动

澳洲幸运5官方网站

开奖: 第一名; 前二; 前三; 组选; 双面盘; 总和; 顺子; 对子; 开奖; 幸运5app

热点资讯

幸运5app 094期易顶天陈列三预测奖号：个位号码分析

澳洲幸运5app 希拉里顶级锁华杀局有多狠? 特朗普3天全砸

澳洲幸运5app下载北京航空航天大学最佳的5个专科报国与

你的位置：澳洲幸运5官方网站 > 开奖 > 幸运5app 破解自动驾驶测试「跷跷板」贫乏：一个模子遍历从保守到激进的扞拒活动

幸运5app 破解自动驾驶测试「跷跷板」贫乏：一个模子遍历从保守到激进的扞拒活动

发布日期：2026-02-28 12:11 点击次数：197

幸运5app 破解自动驾驶测试「跷跷板」贫乏：一个模子遍历从保守到激进的扞拒活动

自动驾驶系统的落地离不开大范畴的安全测试。为了经管信得过路测中"长尾散布"和"稀疏性"贫乏，扞拒性场景生成成为了一种高效的仿真测试妙技。

关系词，现存的要津濒临经典"跷跷板"贫乏：要么生成的场景极具袭击性但物理上不信得过，要么过于保守而失去了测试价值，难以波及系统的长尾失效范畴。

更环节的是，传统要津频频只可学习一个固定的量度点，一朝侦查完成其活动模式即被固化。若需调整测试的难度或者适配不同的被测算法，频频需要再行侦查模子，放弃了测试后果和活泼性。

针对这些问题，近日被ICLR 2026接管的职责SAGE（Steerable Adversarial scenario GEnerator）建议了一种全新的范式：将可控扞拒生成重构为多概念偏好对都问题。SAGE 模仿了 LLM 中多概念偏好对都的想想，通过测试时权重插值，已毕了在无需再行侦查的情况下，推理阶段对生成场景的"袭击性"和"信得过性"进行一语气、及时的操控。

为什么需要"可操控"的生成？

在自动驾驶扞拒测试领域，测度团队频频但愿生成的扞拒轨迹既能诱发失效，又得当东谈主类驾驶习尚和物理划定。关系词现存的主流要津频频将多个概念线性加权优化，存在两点局限：

1. 概念突破导致模式坍塌：袭击性与信得过性概念内容上是梯度突破的。传统的线性标量法频频导致模子坍塌到极点解，容易堕入为了袭击而无视物理划定的局部最优。

2. 枯竭推理时活泼性：在闭环侦查中 Agent 的智力是动态进化的。初期需要浅薄的场景教授，后期需要极点的场景压力测试。固定模子无法欢悦动态课程学习的需求。

△ 图 1：现存扞拒生成要津的局限性（左）与 SAGE 框架（右）。中枢要津

SAGE 的中枢想想是不再试图侦查一个完整的单一模子，而是特征空间侦查偏好流形，并通过权重插值查询中间状况。

阶段一：离线对都——档次化分组偏好优化

为了让模子学会露出"什么是好的扞拒场景"，测度团队诓骗预侦查的领路生成模子看成基座，ag真人app官方网站入口进行偏好优化微调。

为了经管多概念突破的问题，团队建议了一种离线对都算法HGPO（Hierarchical Group-based Preference Optimization）。不同于传统的 DPO，HGPO 通过分层谋略将硬支配与软支配解耦，并取舍分组采样：

1. 分层谋略：将舆图合规性视为硬支配，袭击性和拟东谈主化视为"软偏好"。

2. 分组采样：

a. 可行性优先：任何得当舆图支配的轨迹优于违纪轨迹。

b. 可行域内择优：在得当支配的围聚中，比拟奖励得分上下。

分层谋略幸免了模子在优化历程中为追求高文告而扯后腿可行性，澳洲幸运5app下载培育了样本后果。通过 HGPO，测度团队区别得到两个民众模子：一个最大化袭击性，一个最大化信得过性和合规性。

{jz:field.toptypename/}

阶段二：在线可控——测试时权重会通

在微调完成后，SAGE 不需要在推理时再行侦查。违抗，凯旋在权重空间勾通这两个偏好"端点"的旅途上进行线性插值：

用户只需要调整偏好所有就能得到一个新的混杂模子，生成处于两者作风之间的场景。通过一次离线侦查即可得到隐敝从"保守"到"激进"的一语气生成谱系，不异完整的 Pareto 前沿。

为什么权重插值是有用的？

直观上，对两个神经采集的参数凯旋求平均会扯后腿模子的非线性结构导致性能坍塌。为什么在 SAGE 中这种作念法不仅有用，以致比凯旋混杂输出结果更好？

测度团队引入了线性模式连通性（Linear Mode Connectivity， LMC）表面来解释这一征象。

由于两个民众都是从归拢个预侦查模子微调而来的，它们位于参数空间中归拢个 low-loss basin。LMC 表面指出，勾通这两个民众的线性旅途上，模子仍是保抓低 loss。测度团队进一步讲明：当 reward landscape 在插值旅途上呈现凹性，权重插值就优于输出混杂。

△ 图 2：LMC 告诫凭证以及权重空间的偏好向量支配。实验考据

测度团队在 Waymo Open Motion Dataset （WOMD）上进行了无数的实验与询查。

开环生成性能

在生成质地上 SAGE 展现出了权臣的上风。SAGE 在保证高袭击得胜率的同期，大幅裁汰了舆图和物理违纪率，况兼生成的轨迹愈加连贯、得当领路学支配。

△ 图 3：SAGE 支配的扞拒车辆好像践诺变谈加塞等得当东谈主类逻辑的高风险博弈活动。

△ 图 4：SAGE 生成多类扞拒活动。

可控性上，在测试时仅治愈偏好所有即可已毕在 Pareto 前沿上一语气支配生成的活动模式。

△ 图 5： ( a ) SAGE 生成的 Pareto 前沿权臣优于其他要津。 ( b ) 碰撞率和信得过性一语气且单调可控。

△ 图 6：通过治愈扞拒性权重，SAGE 产生的轨迹从当然驾驶活动过渡到扞拒活动。闭环侦查着力：更鲁棒的自动驾驶政策

测度团队将 SAGE 集成到闭环强化学习侦查中，诓骗其可操控性谋略了双轴课程学习政策，同期支配扞拒强度和频率。

△ 表 3：不同扞拒侦查要津得到的驾驶政策性能对比。

基于 SAGE 侦查的 Agent 在安全性、任务完成度和舒限制上均取得了最好均衡。这种"顺序渐进"的扞拒侦查格式有用缓解了祸害性淡忘，让 Agent 既能处理极点 Corner Case，又不会在平时驾驶中变得过度保守。

追溯

SAGE 将可控扞拒场景生成视为测试时偏好对都问题。通过引入偏好优化和权重空间插值，已毕了零资本测试时操控，仅需一个标量即可遍历从"保守"到"激进"的活动谱系。

SAGE 不仅为自动驾驶的安全考据提供了可控测试用具，也为怎样活泼支配生成模子的活动提供了一个通用的框架。翌日测度团队将探索将这一范式彭胀到更复杂的场景和更种种化的概念。

论文题目：

ICLR 2026 | SAGE：测试时偏好对都已毕自动驾驶"可操控"扞拒场景生成

作家：

Tong Nie， Yuewen Mei， Yihong Tang， Junlin He， Jie Sun， Haotian Shi， Wei Ma， Jian Sun

单元：

香港理工大学，同济大学，麦吉尔大学

论文会聚：

https://openreview.net/forum?id=lYNsZdKn5R

一键三连「点赞」「转发」「预防心」

宽饶在驳倒区留住你的想法！

— 完 —

咱们正在招聘又名眼疾手快、调养 AI 的学术剪辑实习生 � �

感兴味的小伙伴宽饶调养 � � 了解笃定

� � 点亮星标 � �

科技前沿理解逐日见

上一篇：澳洲幸运5app下载 020期沈文星大乐透预测奖号：邻孤传分析

下一篇：澳洲幸运5 张婧仪好意思的很高等, 张婧仪高清无水印壁纸