美国唐人社-父女乱伦文学 轨迹可控视频生成新范式,复旦微软破解视频生成难题,精确适度纵情物体通达

父女乱伦文学 轨迹可控视频生成新范式,复旦微软破解视频生成难题,精确适度纵情物体通达

发布日期:2025-07-06 11:03  点击次数:88

父女乱伦文学 轨迹可控视频生成新范式,复旦微软破解视频生成难题,精确适度纵情物体通达

轨迹可控的视频生成来了父女乱伦文学,支撑三种不同级别的轨迹适度条目——折柳为掩码、畛域框和稀罕框。

比年来,视频生成时刻快速发展 , 权贵培植了视频的视觉质地与时刻连贯性。在此基础上,(trajectory-controllable video generation)骄傲了好多职责,使得通过明确界说的旅途精确适度生成视频中的物体通达轨迹成为可能。

但是,现存才略在处理复杂的物体通达轨迹和多物体轨迹适度方面仍靠近挑战,导致生成的视频物体转移轨迹不够精确,或者合座视觉质地较低。此外,这些才略平凡仅支撑单一花样的轨迹适度,死心了其在不同诈骗场景中的天真性。不仅如斯,当今尚无特意针对轨迹可控视频生成的公开数据集或评价基准,退却了该领域的更进一步的潜入讨论与系统性评估。

为了惩处这些挑战,讨论东说念主员建议了 MagicMotion,一种立异的图像到视频生成框架,共同第一作家为复旦大学讨论生李全昊、邢桢,通信作家为复旦大学吴祖煊副老师。

一本大道香蕉视频大在线

在给定一张输入图像和对应物体轨迹的情况下,MagicMotion 大概精确地适度物体沿着指定轨迹通达,同期保捏视频的视觉质地。

此外,本文构建了 MagicData,一个大鸿沟的轨迹适度视频数据集,并配备了一套自动化的标注与筛选经由,以培植数据质地和处理服从。

本文还引入了 MagicBench,一个专为轨迹适度视频生成想象的笼统评测基准,旨在评估在适度不同数目物体通达情况下的视频质地及轨迹适度精度。

开阔实验标明,MagicMotion 在多个重要标的上均越过现存才略,展现出超卓的性能。

才略先容

MagicMotion 基于 CogVideoX5B-I2V 这一图像到视频生成模子,并引入了独特的轨迹适度集中(Trajectory ControlNet)。该想象大概高效地将不同类型的轨迹信息编码到视频生成模子中,已毕轨迹可控的视频生成。如图所示,本文使用 3D VAE 编码器将轨迹图编码到隐空间,然后将其与编码后的视频拼接,算作轨迹适度集中的输入。轨迹适度集中由通盘预教诲的 DiT 模块的可教诲副本构建而成,用于编码用户提供的轨迹信息。每个轨迹适度集中模块的输出随后理解过一个零运动荡的卷积层进行处理,并添加到基础模子中对应的 DiT 模块,以提供轨迹指示。

MagicMotion 摄取了从密集轨迹适度到稀罕轨迹适度的渐进式教诲过程,其中每个阶段皆用前一阶段的权重来运动荡其模子。这使得大概已毕从密集到稀罕的三种类型的轨迹适度。本文发现,与使用稀罕条目从新首先教诲比较,这种渐进式教诲战略有助于模子获取更好的性能。具体来说,本文在各个阶段摄取以下轨迹条目:阶段 1 使用分割掩码,阶段 2 使用畛域框,阶段 3 使用稀罕畛域框,其中少于 10 帧有畛域框标注。此外,本文老是将轨迹条目的第一帧缔造为分割掩码,以指定应该转移的远景对象。

此外,MagicMotion 还建议了隐分割亏空(latent segment loss),它在模子教诲过程中引入分割掩码信息,增强了模子对物体细粒度局面的感知材干。讨论者使用轻量级分割头凯旋在隐空间中臆测出分割掩码,从而在引入极小蓄意支出的情况下,无需进行解码操作,匡助模子在生成视频的同期在潜在空间中施行物体分割任务,从而更好地浮现物体的细粒度局面。

讨论者还建议了一个全新的自动数据处理经由,包括两个主要阶段:数据整理经由(Curation Pipeline)和数据筛选经由(Filtering Pipeline)。数据整理经由慎重从大鸿沟的视频 - 文本数据连合构造轨迹信息,而数据筛选经由则确保在教诲前移除不适合的视频。

实验与收尾

MagicMotion 的每个阶段皆在 MagicData 上教诲一个轮次。教诲过程包括三个阶段。阶段 1 从零首先教诲轨迹适度集中(Trajectory ControlNet)。在阶段 2 中,使用阶段 1 的权重进一步优化轨迹适度集中(Trajectory ControlNet),同期从零首先教诲分割头(Segment Head)。临了,在阶段 3 中,轨迹适度集中(Trajectory ControlNet)和分割头(Segment Head)皆使用阶段 2 的权重不时教诲。讨论者摄取 AdamW 算作优化器,通盘教诲实验均在 4 张 NVIDIA A100-80G GPU 上进行,学习率设为 1e-5。

讨论者将 MagicMotion 与 7 种流行的轨迹可控图像到视频(I2V)才略进行了对比,在 MagicBench 和 DAVIS 上对通盘才略进行评估。

收尾如下表所示,MagicMotion 在 MagicBench 和 DAVIS 上的通盘标的上皆优于以往的通盘才略,这标明它大概生成更高质地的视频并已毕更精确的轨迹适度。

此外,本文凭证受控对象的数目评估了每种才略在 MagicBench 上的性能。如下图所示,MagicMotion 才略在通盘受控物体数目的类别中皆获取了最好收尾,进一步发挥了该才略的优厚性。

定性对比收尾

如下图所示,Tora 大概精确适度通达轨迹,但难以精确保捏物体的局面。DragAnything 、ImageConductor 和 MotionI2V 在 保捏主体一致性方面存在费劲,导致后续帧中出现昭着的形变。同期,DragNUWA、LeviTor 和 SG-I2V 生成的收尾频繁出现视频质地下面和细节不一致的问题。比较之下,MagicMotion 大概使转移的物体平滑地沿指定轨迹通达,同期保捏高质地的视频生成恶果。

论文地址:https://arxiv.org/abs/2503.16421

论文主页:https://quanhaol.github.io/magicmotion-site/

代码贯穿:https://github.com/quanhaol/MagicMotion

一键三连「点赞」「转发」「防范心」

接待在指摘区留住你的思法!

—  完  —

学术投稿请于职责日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿推行‍

附上论文 / 样子主页贯穿,以及关系式样哦

咱们会(尽量)实时恢复你

� �   点亮星标 � �

科技前沿发扬逐日见父女乱伦文学



相关资讯
热点资讯
  • 友情链接:

Powered by 美国唐人社 @2013-2022 RSS地图 HTML地图

Copyright © 2013-2024 版权所有