Stability AI开发者平台开始提供影片生成模型API服务

Stability AI在其开发者平台新增Stable Video Diffusion基础模型,提供影片生成服务。Stable Video Diffusion API能在平均41秒内,生成包括25影格(Frame)由模型生成的画面,还有24个由FILM(Frame Interpolation for Large Motion)内插产生的影格画面,形成一段连续的2秒影片。

Stable Video Diffusion是Stability AI才刚推出的新模型,以扩散模型为基础,可接受使用者文字指令生成影片。该模型采用原本用於2D图像生成的潜在扩散模型(Latent Diffusion Model,LDM),加入时间层,并使用小型、高品质的资料集加以训练而成。

Stability AI当初发布两个版本的Stable Video Diffusion模型,分别是能够生成14影格与25影格的影片,而现在最新释出的API服务,则是采用25影格的版本。Stable Video Diffusion API可应用在广告、行销、电视、和游戏各领域,供开发者以程式化的方式存取影片生成模型。

官方指出,Stable Video Diffusion的重点在於效能和安全性,除了加入24影格的FILM内插画面,使影片看起来更加顺畅之外,还采用浮水印安全措施。透过新API,开发人员可以使用该模型的所有功能,包括控制运动强度、支援各种布局与解析度,以1024×576、768×768和576×1024解析度生成影片,并相容於jpg和png等影像格式。另外,开发者也可以运用种子相关(Seed-based)基础,选择重复或随机生成影片,最终的影片输出为MP4格式,以满足发布於各种应用和平台的需求。

FILM内插是一种影像处理技术,目的是要在两个既有的影格中间,生成一个或是多个中间影格,该技术主要用於提高影片的影格数,使运动看起来更加流畅,或是用於制作慢动作特效。FILM内插特别适合处理画面中物体移动较快的场景,因为该演算法能够估算物体在连续影格中的运动路径,并根据估算生成新影格,如此不只可增强视觉效果,也可在维持影片品质的前提下,让动作更加顺畅。

当前的影像生成模型大都以扩散模型作为基础,包括Meta的影片生成模型Emu Video。不过,Google最新的VideoPoet模型则采用不同策略,藉由扩展多模态大型语言模型的能力来生成影片,Google指出,因为大型语言模型在多种模态上优秀的学习能力,因此单一模型就能执行各种影片生成任务,包括文字转影片、图片转影片、影片风格化,影片补绘与扩绘,甚至是影片转音讯等。

surfshark能看油管吗

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x