Stability AI开发者平台开始提供影片生成模型API服务

Stability AI在其开发者平台新增Stable Video Diffusion基础模型，提供影片生成服务。Stable Video Diffusion API能在平均41秒内，生成包括25影格（Frame）由模型生成的画面，还有24个由FILM（Frame Interpolation for Large Motion）内插产生的影格画面，形成一段连续的2秒影片。

Stable Video Diffusion是Stability AI才刚推出的新模型，以扩散模型为基础，可接受使用者文字指令生成影片。该模型采用原本用於2D图像生成的潜在扩散模型（Latent Diffusion Model，LDM），加入时间层，并使用小型、高品质的资料集加以训练而成。

Stability AI当初发布两个版本的Stable Video Diffusion模型，分别是能够生成14影格与25影格的影片，而现在最新释出的API服务，则是采用25影格的版本。Stable Video Diffusion API可应用在广告、行销、电视、和游戏各领域，供开发者以程式化的方式存取影片生成模型。

官方指出，Stable Video Diffusion的重点在於效能和安全性，除了加入24影格的FILM内插画面，使影片看起来更加顺畅之外，还采用浮水印安全措施。透过新API，开发人员可以使用该模型的所有功能，包括控制运动强度、支援各种布局与解析度，以1024×576、768×768和576×1024解析度生成影片，并相容於jpg和png等影像格式。另外，开发者也可以运用种子相关（Seed-based）基础，选择重复或随机生成影片，最终的影片输出为MP4格式，以满足发布於各种应用和平台的需求。

FILM内插是一种影像处理技术，目的是要在两个既有的影格中间，生成一个或是多个中间影格，该技术主要用於提高影片的影格数，使运动看起来更加流畅，或是用於制作慢动作特效。FILM内插特别适合处理画面中物体移动较快的场景，因为该演算法能够估算物体在连续影格中的运动路径，并根据估算生成新影格，如此不只可增强视觉效果，也可在维持影片品质的前提下，让动作更加顺畅。

当前的影像生成模型大都以扩散模型作为基础，包括Meta的影片生成模型Emu Video。不过，Google最新的VideoPoet模型则采用不同策略，藉由扩展多模态大型语言模型的能力来生成影片，Google指出，因为大型语言模型在多种模态上优秀的学习能力，因此单一模型就能执行各种影片生成任务，包括文字转影片、图片转影片、影片风格化，影片补绘与扩绘，甚至是影片转音讯等。