未来“文生视频”多模态应用的发展路径-股票-壹米财经

摘要：市场认为人工智能概念已逐渐进入成熟期，但没有杀手级应用。事实上，大型模型、计算能力和数据仍处于通用人工智能发展的早期阶段。从全球巨头的行动来看，“合纵连横”也开始出现。在本报告中，我们深入分析了未来“文生视频”多模态应用的发展路径。可以看出，人工智能应用的发展仍处于早期阶段。因此，计算能力需求远未达到顶峰，人工智能生态的整合正在进行中。

(1)文生视频是多模态AIGC圣杯，优化迭代速度慢。视频是多帧图像的组合，但文生视频在文生图片的基础上增加了时间维度，技术难以实现。即使是像Meta和谷歌这样的硅谷人工智能巨头，在文生视频上也进展缓慢，分别推出了Make-A-Video和Phenaki尚未公测。

(2)文生视频底层模型和技术仍在优化，最优模型尚未筛选。文生视频技术的主要发展过程是基于GAN和VAE、三个阶段是基于Transformer模型和扩散模型。目前主流文生视频模型主要依靠Transformer模型和扩散模型。1)基于Transformer的代表Phenaki突破了视频制作时间限制，但效果相对粗糙，缺乏细节。2)基于扩散模型的代表Make-A-Video专注于提高视频质量，但其视频持续时间在4s以内。

(3)文生视频效果不同，整体质量低。目前文生视频公测应用较少，只有RunwayGen-2、ZeroScopePika Labs和其他少数人有以下共同问题：1）复杂角色动作生成帧连续性差；2）非日常场景的视频架构连续性一般；3）多主题视频生成缺乏逻辑连续性。

(4)目前文生视频的商业化程度较低，可以从图片生成来看其商业前景。1)根据七麦数据，图片生成应用于多模式大模型，收费能力强，应用数量最高。2)目前唯一收费的文生视频应用（Runway Gen-二、商业模式与图片生成趋同，即主要按生成量定价。

对人像生成细分领域持乐观态度，但收入持续增长能力仍有待验证。1)Lensa AI推出肖像生成功能后，去年12月前12日创收2930万美元，但2023年7月全球收入下降100万美元；2)妙鸭相机上线很受欢迎，半月收入估计超过29万美元。新模板和新游戏必须在未来推出，以保持收入增长。

对计算能力储备大厂在多模态生成领域的发展持乐观态度。1)文生图应用Midjourney日活达1500万，年收入超过1亿美元。其多版无限套餐和高速GPU服务反映了市场对计算能力的巨大需求。2)目前国内文生图多为计次付费，没有无限套餐，或者计算能力有限。我们认为，有计算能力储备的云服务制造商在开发视频生成应用方面具有自然优势。

对业务协调发展持乐观态度，对文生视频与文生图、图生视频的联系持乐观态度。人工智能对产品价值的拉动表现为:1)促活拉新:Adobe、Microsoft 365 在原软件的基础上，Copilot分别推出AI工具；2)提高产品价格：Office 基于GPT-4的Copilot Copilot加入API应用后，Office目前四种商业版的整体订阅价格上涨了53-240%。我们对文生视频能够与原产品合作、降本增效的公司持乐观态度，如游戏、影视制作等领域的公司。

投资建议：

1)计算能力:AIGC蓬勃发展的基石，包括中际旭创、天府通信、新易盛、太辰光、德科立；计算设备:盛科通信、恒为科技、锐捷网络、寒武纪、美格智能、紫光股份、工业富联、中兴通信等。；计算能力租赁:中贝通信、云赛智联等。；

2)模型层:万兴科技、金山办公、科大讯飞等。

3)应用层:看好游戏迭代创新、凯英网络、神州泰岳、盛天网络、游族网络等。