日前, 在北京市超高清视听(计算视听)创新应用示范区揭牌仪式上,北大信研院和国研能汇发布了全国首个文生视频Agent-VisionConnect,标志着研发文生视频核心技术实现了从零到一、从无到有的历史性跨越,以人工智能高质量发展和高水平应用培育经济发展新动能。
据悉,国研能汇孵化自北京大学信息技术高等研究院崔斌教授课题组,专注于提供卓越的AIGC复杂长视频生成解决方案。近三年来,该公司在AI顶刊顶会发表学术论文数十篇,内容涉及基于Diffusion Model的文生图、文生视频等核心技术,在生成式图像技术方面达到国际领先水平。
该技术构建了一个基于多模态大语言模型(MLLM)的Agent架构,采用MLLM作为全局规划器,运用其强大的思维链推理能力,将复杂长视频的生成过程分解为多个更简单的生成任务,来增强文本到视频扩散模型的组合性。利用该架构,可将用户文字意图转化为视频的时空布局规划,通过算法确保多场景主体、背景一致,将生成的视频片段组合成长视频。该技术可最长生成30秒视频,同时具备提示词简单、长视频时空一致性强、细节丰富、动作自然等特性。( 黄婷)