ag百家乐怎样杀猪

ag百家乐刷水攻略    你的位置:ag百家乐怎样杀猪 > ag百家乐刷水攻略 >

AG百家乐技巧打法 AI一次性生成63秒《猫和老鼠》动画片,无剪辑无拼接剧情100%全新

发布日期:2025-03-27 11:58    点击次数:52

AI 也能生成传神的《》动画片了!长度不错达到 63 秒AG百家乐技巧打法,剧情也不错再行生成。

当地时辰 4 月 8 日,来自英伟达、好意思国斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校、得克萨斯大学奥斯汀分校的研究东谈主员,基于测试时磨真金不怕火(TTT,Test-Time Training)生成了多个《猫和老鼠》的动画视频。

他们在预磨真金不怕火的 Transformer 模子中添加了测试时磨真金不怕火层并对其进行微调,借此生成了具有强时辰一致性的《猫和老鼠》一分钟动画片。

研究东谈主员暗示,每个视频皆是由模子一次性凯旋生成的,莫得经过剪辑、拼接或后贬责,每个故事也皆是全新创作的。

那么,上述视频到底是怎么生成的?研究东谈主员暗示,如今的 Transformer 模子在生成一分钟视频方面仍然濒临挑战,因为自恰当力层在贬责长高下文时服从低下。诸如 Mamba 层之类的替代决策在贬责复杂的多场景故事时解析欠安,因为它们的瞒哄情景解析力较弱。

为此,他们使用了测试时磨真金不怕火层,其瞒哄情景本人不错是神经网罗,从而具备更强的抒发智力。当在预磨真金不怕火的 Transformer 中加入测试时磨真金不怕火层,使其大概凭证文分内镜剧本生成一分钟的视频。

研究中,他们从一个预磨真金不怕火的扩散 Transformer(CogVideo-X 5B)脱手,蓝本其只不错 16 帧每秒的速率生成 3 秒的短片断,或以 8 帧每秒的速率生成 6 秒的短片断。

然则,研究东谈主员添加了从新开动化的测试时磨真金不怕火层,并对该模子进行微调,以便凭证文分内镜剧本生成一分钟的视频。

他们将自恰当力层限度在 3 秒的片断内,以便将研究资本保合手在可控限制内。悉数这个词磨真金不怕火历程运行在 256 个英伟达 H100 上,畸形于铺张了 50 小时的磨真金不怕火时长。

为了快速进行迭代,研究东谈主员基于约 7 小时的《猫和老鼠》动画片,并辅以东谈主工标注的分镜剧本,整理了一个文本到视频的数据集。

手脚主见考证,本次研究中的数据集侧重于复杂、多场景、长镜头且充满动态动作的叙事。而关于视觉和物理信得过感方面,此前东谈主们照旧获取权贵进展,是以本次研究未作重心强调。

从宏不雅层面来看,本次要领仅仅在预磨真金不怕火的扩散 Transformer(Diffusion Transformer)上添加了测试时磨真金不怕火层,并在带有文本细心的长视频上进行微调。

他们给与了事前添加测试时磨真金不怕火层、然后再进行微调的要领,这种要领原则上适用于任何骨干架构。

研究中,他们选定扩散 Transformer 手脚初步演示,因为它是视频生成中最流行的架构。由于在视频上预磨真金不怕火扩散 Transformer 的资本过高,是以研究东谈主员从 CogVideo-X 5B 的预磨真金不怕火查验点脱手。

他们将视频野心为包含多个场景,每个场景包含一个或多个 3 秒的片断,并给与 3 秒片断手脚文本与视频配对的最小单元,之是以这么作念的原因有三个:

第一,原始预磨真金不怕火的 CogVideo-X 的最大生成长度为 3 秒。第二,在《猫和老鼠》的剧集结,大多量场景的时长至少为 3 秒。第三,以 3 秒为一段构建多阶段数据集最为便捷。

在推理阶段,研究东谈主员按照以下三种表情中的任何一种,以详备进度递加的法律解说来编写长视频的文本领导。

• 表情 1:用 5-8 句话疏漏详尽情节。

• 表情 2:用大要 20 句话详备形容情节,每句话大致对应 3 秒的片断。

• 表情 3:分镜剧本。每一个 3 秒钟的片断皆由一段 3 到 5 句话来形容,内容包含配景豪情和镜头挪动等细节。一个或多个段落构成的剧本组,会被严格地界定为属于某些场景,况兼要使用要津词“<场景脱手>”和“< 场景收尾 >”。

在微和谐推理中,文分内词器的践诺输入永久给与表情 3,表情之间的退换由 Claude 3.7 Sonnet 按 1→2→3 的法律解说彭胀。

为了生成时辰较长的视频,研究东谈主员针对每个 3 秒的片断皆孤独使用交流的设施。

具体而言,给定一个包含 n 段落的表情 3 的分镜剧本,最初生成 n 个序列片断,每个片断皆包含从相应段隐私要的文本标记以及后续的视频标记。

然后,将悉数 n 个序列片断贯穿在一谈,从而酿成输入序列,ag百家乐刷水攻略这时序列中包含交错摆设的文本 tokens 和视频 tokens。

关于 CogVideo-X 来说,它给与自恰当力层来针对每段最长 3 秒的视频进行全局序列贬责。然则,面对长视频时,其所给与的全局恰当力机制会权贵缩小服从。

为了幸免增多自恰当力层的高下文长度,研究东谈主员将其贬责限制限度在每个 3 秒片断内,使各 n 个序列片断大概孤独进行恰当力计算。

由于测试时磨真金不怕火层大概高效地贬责长高下文序列,因此他们给与全局阵势来贬责悉数这个词输入序列。

解雇大言语模子的尺度作念法,研究东谈主员将调动架构的高下文长度分为五个阶段,并将其扩展至一分钟。

具体来说,他们先在《猫和老鼠》的 3 秒片断上针对悉数这个词预磨真金不怕火模子进行微调。

在此阶段,新的参数畸形是测试时磨真金不怕火层和门控机制中的的参数,会被赋予更高的学习率。

接下来,研究东谈主员分歧对 9 秒、18 秒、30 秒以及最终的 63 秒的视频进行微调。

为了幸免模子在预磨真金不怕火历程中淡忘过多的寰宇常识,研究东谈主员仅对测试时磨真金不怕火层、门控层和自恰当力层进行微调,且在这四个阶段中使用较低的学习率。

在原始视频的录取上,他们选定了从 1940 年至 1948 年间刊行的 81 集《猫和老鼠》,每集时长约 5 分钟,悉数集数加起来时长约 7 小时。

然后,研究东谈主员在原始视频上运行一个视频超分辨率模子,从而为数据集生成视觉后果更强的视频,这些视频的分辨率均为 720×480。

接着,他们让东谈主工标注员将每个片断分解为场景,然后从每个场景中索要 3 秒长的片断。

接下来,研究东谈主员让东谈主工标注员为每个 3 秒的片断撰写一段详备的形容,然后凯旋针对这些片断进行微调。

为了创建数据,研究东谈主员将一语气的 3 秒片断拼接成 9 秒、18 秒、30 秒和 63 秒的视频,并附上相应的文本细心,悉数磨真金不怕火视频的标注均给与上文的表情 3。

关于 GPU 而言,要想高效地达成测试磨真金不怕火层-多层感知器(TTT-MLP,Test-Time Training-Multi-Layer Perceptron),就需要进行稀奇野心,以便诳骗其内存脉络结构。

英伟达 GPU 架构中的中枢计算单元是流式多贬责器(SMs,Streaming Multiprocessors),其功能类比于 CPU 中的单个中枢。

GPU 上的悉数流式多贬责器分享一个相对较慢但容量较大的全局内存(即 HBM,High Bandwidth Memory),然后每个流式多贬责器皆有一个快速但容量较小的片上内存(即 SMEM,Shared Memory)。

GPU 上 SMEM 与 HBM 之间的通常数据传输会权贵缩小举座服从。而 Mamba 和自恰当力层通过诳骗内核交融本领,不错减少这类数据的传输。

其中枢念念想是将输入和开动情景加载到每个 SMEM 中,全皆在片上进行计算,况兼只将最终输出写回 HBM。

关系词,TTT-MLP 的瞒哄情景即双层 MLP 函数 f 的权重矩阵 W(1) 和 W(2),由于体积过大无法存储于单个流式多贬责器的分享内存中。

为了减少每个流式多贬责器所需的内存,研究东谈主员使用张量并行机制,将 W(1) 和 W(2) 在流式多贬责器之间进行分片。

由于大型多层感知器层不错被分片并跨多个 GPU 的高带宽存储器上进行磨真金不怕火,因此研究东谈主员将相通的念念路用于多个流式多贬责器的分享内存中,将每个流式多贬责器视为一个 GPU 的类比。

研究东谈主员诳骗英伟达 Hopper GPU 架构的分散式分享内存特质,达成了流式多贬责器间的全局归约操作,进而权贵培植了服从。

手脚一种通用原则,若是一个模子架构 f 不错通过尺度张量并行机制在 GPU 之间进行分片,那么当 f 用作瞒哄情景时,相通的分片战术也不错用于流式多贬责器之间。

不外,本次研究的 TTT-MLP 内核受限于寄存器溢出和异步指示的次优排序。改日,通过缩小寄存器压力以及建树编译器感知更强的异步操作决策,其彭胀服从或能得到进一步培植。总的来说,本次要领有望用于生成更长、更复杂视频,也许下一代儿童将能看上由 AI 生成的动画一语气剧?现在看来,这一设计并非莫得达成的可能。

参考贵府:

https://test-time-training.github.io/video-dit/

https://x.com/arankomatsuzaki/status/1909336661743550555

运营/排版:何晨龙



上一篇:ag真人百家乐真假 王毅东谈主还没走, 普京就要派至交访好意思, 提前签署的总统令算是下马威

下一篇:没有了

Powered by ag百家乐怎样杀猪 @2013-2022 RSS地图 HTML地图

top