快手旗下 可灵 AI 今日正式发布「主体库」(Subject Library),为 O1多模态视频模型添加“长期记忆”能力。用户上传单张角色图,系统即可生成3D 视角补全、多光线变体,并支持跨场景「@角色名」一键调用,官方宣称「主体一致性>96%,彻底告别 AI 变脸」。
从单图到3D 记忆——主体库三步流程
1. 上传:支持 JPG/PNG/RAW,自动抠图、对齐、色彩归一
2. 补全:AI 生成侧脸、背面、局部细节,提供3组方案供选择
3. 调用:提示词输入「@角色名」即可在任意镜头、光照、风格下保持同一面孔与服饰细节
AI 智能描述——让模型读懂你的创意
– 系统自动提取「发色+服饰+风格」并生成60字以内关键词,用户可二次编辑
– 实验显示,使用智能描述后,复杂场景一次生成成功率提升27%,平均节省12分钟手动调参
可灵AI推出O1模型一体化生成平台,实现跨模态内容一致性生成
近期,可灵AI正式推出O1模型平台,该平台以统一的生成架构打通文本、图像与视频内容创作流程。其核心技术在于构建共享的潜在特征空间,使“文本生成视频”、“图像生成视频”及“首尾帧控制视频”等功能能够基于同一套底层表示进行内容生成,从而实现角色、风格与场景在多段视频中的高度一致。
核心特性与性能指标
- 角色一致性表现优异,同一角色在多个视频片段中身份漂移值低于0.03
- 支持最高48帧/秒、1080p分辨率的视频输出,单条视频最长可达5分钟
- 自2024年上线以来,可灵AI已完成超过30次版本迭代,累计生成视频数量突破2亿条
行业应用与影响
该技术正推动视频内容生产进入“一致性驱动”新阶段,已在多个行业展开应用:
- 影视制作:制片方可预先在主体库中固定角色形象,快速生成动态故事板,显著减少实地拍摄与后期调整成本
- 电商营销:商家上传模特图片后,可批量生成多语言产品展示视频,制作成本可降至传统方式的十分之一
- 虚拟IP运营:IP方将虚拟形象存入系统后,粉丝通过@角色指令即可生成二次创作视频,有效解决形象失真问题
服务方案与定价
- 免费版:支持存储5个主体,每月提供50次生成调用
- 专业版:29元/月,主体数量无限制,赠送600次调用额度并支持5分钟高清视频生成
- 企业API:按调用次数计费,每次0.005元,支持私有化部署与品牌定制需求
未来发展方向
可灵AI透露,将于2025年第一季度推出“多人主体协同”与“实时风格化”功能。新功能将支持同一画面中最多3个角色的形象锁定,并可实时切换卡通、复古、赛博朋克等整体视觉风格,进一步满足影视剧集、广告制作及游戏动画等专业内容生产流程的需求。
行业观察
当多数企业仍在聚焦提升单条视频的分辨率与帧率时,可灵AI将竞争维度转向“跨镜头一致性”,这相当于为创作者提供了“数字记忆”能力。一旦主体库技术成为行业通用标准,AI视频生成将实现从“技术演示”到“生产工具”的关键跨越,短视频、广告乃至长视频的工业化生产流程均可能被重新定义。我们将持续关注其多人协同功能的开放进展与企业级服务的定价策略演变。