Xinzhiyuan编辑的报告:LRST [Xinzhiyuan大学] Zhijiang和Harbin Technology Institute(enzhen)已使用与VLM结合的扩散模型共同启动了SAFEMVDRIVE,以允许基于Muttivew Real domains的安全视频结合使用。在保持图像和现实的质量的同时,这种方法大大增加了驾驶场景的风险。生成的方案用于自主端 – 到端驱动系统的最终压力测量,这可能会使模型的碰撞速率增加50倍。最近,“ Dache Intelligent Refining Farm”“ Dache Intelligent Refining Farm”专栏对NOA辅助驾驶能力进行了关键的安全方案测试,以大规模生产的自动驾驶系统进行。结果表明,在高风险的情况下,例如弗伦特车辆的事故到达道路上,没有系统完全避免测试事故,例如突然的障碍物AF发现故障后,车辆突然排气。这种关键安全方案在实际道路上并不常见,但是一旦发生,它可能会导致受害者和严重的交通事故。为了提高在这些情况下自动驾驶系统的可靠性,必须在各种风险和高度安全的情况下进行广泛的测试。但是,这种极端情况实际上很难收集。它发生在低频,这很危险,很难拿到很多东西。在模拟环境中,可以大量创建类似的场景,但是现有模拟器基于现实基于现实的现实和现实之间仍然存在差距,这使得很难将极限系统的限制测试用于以前的Exreal世界。为此,Zhijiang大学的研究人员和Harbin理工学院(深圳深圳)提出了Safemvdrive,这对于DOM来说是必不可少的视频生成框架现实世界的艾因。通过将VLM关键车辆选择器与两个阶段的生成管理相结合,并可以在真实域中生产关键的保真度安全视频,并可用于对自动驾驶系统的End -End -End安全测试进行最终测试。纸质地址:https://arxiv.org/abs/2505.17727地址:https://zhoujiawei3.github.io/safemvdrive/code/code地址:https://github.com/github.com/zhoujjaweiiii3/ https://huggingface.co/datasets/jiaweizhou/safemvdrive要执行多个高质量多重和真实领域的关键阶段,即真实域,Theresearchers首先将安全轨迹模拟与多视觉视频生成模型相结合,并使用真实的域视频限制了他们的测试。但是,实际上,我们发现有两个主要挑战。一种是选择安全的车辆。大多数ExiSting方法基于简单的启发式规则(例如选择最近的车辆),对场景的关系缺乏视觉理解,倾向于选择不正确的客观车辆,并且对生成的场景的安全性不足。第二个是多视频视频生成模型的概括问题。现有模型很少暴露于极端场景中的数据,例如在培训过程中碰撞和附近的相互作用,从而导致在这些情况下的生产质量量显着降低。为此,研究团队提出了两项重要的创新。 VLM关键车辆的选择者:GPO调整的视觉语言模型的引入,从多个角度渗透了真实图像流量的相互作用,并准确地确定了最危险的冲突车辆所相信的最有可能的。双阶段轨迹生成:创建一个符合物理定律的碰撞轨迹,并使之成为一个轨迹”Safemvidrive可以产生高忠诚视频,多个视力,安全驾驶,极大地改善极端场景,并为自主性演技系统的极端压力测试提供更困难的测试数据,同时保持图像的质量,同时保持特定的多头视觉图像镜头的效果。当前安装在相机上的多个摄像头的逃避效果突然被阻塞,自行车向右稍微旋转以避免后车辆,自行车向左侧旋转,以防止后车辆突然加速,自行车突然将鸡蛋播放,以避免使用型号,以避免使用自然的范围。 SISafeMvDrive的碰撞轨迹和MultiveW(Naive)视频生成模型产生的轨迹的组合结合在一起,认为视频和场景的真实性和质量。第一列自然轨迹生成的视频更为常见,而第二列碰撞轨迹产生的视频已变形,没有变形。该框架生成的视频是对Safemvdrive的中心目标的一般描述,以及从特定的初始场景中进行的许多真正域安全性的关键驾驶视频。完整方法由三个主要模块组成:VLM车辆选择器:关键的多重视力安全运动阻塞。在建立极端驾驶场景时,第一步是确定哪种汽车对自行车的威胁表示威胁。传统方法通常取决于非视觉信息,即数据集中的注释,并与启发式规则相结合(例如CLO)。最塞车)。这样的简单规则通常不涵盖复杂的交通情况,并且由于丢失了数据集的记录,因此S的车载无法与自然轨迹相撞。如下图所示,右翼图显示了非视觉信息,即数据集的注释。这表明安全失去了在关键车辆信息判断中很重要的障碍的注释。研究人员在第一个场景的多个视觉图像中使用视觉信息,以提供更有效的安全性,并能够了解VLM中的场景。首先,研究人员使用碰撞轨迹模拟自动生成“早期场景 – 有关安全性的批评者”,为数据集,VLM调整为GRPO算法的末端,最后,获得了基于VLM的车辆选择器。 GDouble舞台职业能源:“碰撞”的现有关键安全轨迹方法主要注定要创造碰撞通风孔,但是是目的的发电机,研究人员提出了一种策略,以产生两个阶段逃避轨迹,以产生逃避场景,而现有视频发电机可以实现,同时保留关键的安全能力。第一阶段是碰撞轨迹模拟。基于从单个场景开始的可控制的传播轨迹生成模型,测试损失指南可有效地在车辆和自行车之间碰撞。研究人员设计了三种类型的损失。冲突的损失:碰撞前的时间崩溃加权,最大程度地减少两个车间之间的距离,这需要冲突的车辆快速接近自行车并在碰撞后以零设置损失,以避免不自然的“粘附行为”的行为。不会造成碰撞损失:压制自行车和其他车辆,除了冲突车辆以避免碰撞。道路上的损失:惩罚轨迹输入不运动的区域并保持交通的合理性。第二阶段是避免轨迹的转换。假设第1阶段中的所有非自行车轨迹保持不变,只有自行车轨迹进行更新,并且自行车避开没有碰撞损失和道路损失的车辆,从而将原始的碰撞场景变成了不安全的消除情况。该方法不仅保留了对车辆的威胁行为,而且保证了产生结果的可靠性和身体合理性。最后,使用专注的逃避轨迹来增强多个视频生成器,以获取安全且在视觉上现实的驾驶视频。多个视频生成:高保真度“风险情况”的现实世界综合。在Safemvdrive的最后一步中,ESS研究团队采用了Luchiview视频生成模块,将“可避免”的安全密钥从真正的预定性的双阶段的双阶段转换出来。主要视频。具体来说,我选择了Unimlvg作为我的后备网络。该模型不仅支持对自行车和周围车辆运动轨道的明确控制,而且还可以长期保持稳定的视频质量。在转换过程中,生成的回避轨道以frage-friede控制信号(3D限制框,高清地图,相机参数)进行编码,并在Entriesto中使用初始框架和天气和天气描述在Entriesto中编码视频生成器。 Safemvdrive使用自动位移生成方法,因为关键的安全场景持续了很长时间。每个视频的最后帧是以下段的起始框架,与时间窗口相对应的控制信号用于指导后代。这种迭代最终在多个“危险”的真实域视频中转换了避免碰撞的完整途径,以及实验结果研究团队的安全性和绘画现实的重要性评估了生成的视频的现实主义和安全性以及针对骑自行车的选择的精度。下表显示了高保真风险场景的批处理生成。 Safemvdrive生成多个真实的域视频。同时,高度安全方案的覆盖范围和多样性大大改善。从碰撞率指标的角度来看,它生成的场景比多个视频生成模型(起源)中的开源数据集更加困难。在保持高碰撞率的同时,图像质量和现实类似于真实的视频。这比将碰撞轨迹仿真生成的轨迹与MultiveW(NAIVE)视频生成模型结合在一起而生成的视频要好得多。下图阻止了高度安全的车辆。在面对车辆选择的任务中,VLM关键车辆选择器有效地分析了现场,并因此选择了适当的安全车辆通过多个视觉图像进行IC比率。如下表所示,选择器DE VLM键车辆提供了精确和去除。考虑到确定的目标车辆符合实际流量的逻辑,并且比参考方法要好得多。这确保了高效率和丰富的对车辆模拟的场景,这对于以后生成的安全性至关重要。作者简介本文由Zhijiang大学和Harbin理工学院(深圳)研究团队共同完成。以下是一些作者的简要介绍。周·尤维(Yawei)是哈尔滨理工学院(Shinzhen)的硕士学生,他的研究地址是自主驾驶的内容和世界模型的一代。哈尔滨理工学院(深圳深圳)的博士生卢琳尼(Lu Linye)主要集中于人工智能的安全,涵盖了自主驾驶和大型langUAGE模型。 Zhijiang大学“沉没人才计划”的研究人员Li Yu已经在软件和人工智能软件测试方面工作了很长时间。参考:https://arxiv.org/abs/2505.17727
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。