新OmniHuman-1 OmniHuman-1是字节跳动推出的一个端到端的多模态条件驱动人类视频生成框架,能够基于单张人类图像和不同类型的运动信号(如音频、视频或音频与视频的组合)生成极为逼真的人类视频。
新Ola全模态大模型 Ola 是由清华大学、腾讯混元研究院、新加坡南洋理工大学开发的开源全模态大模型,支持文本、图像、视频和音频理解,采用渐进式模态对齐策略,在多模态 AI 任务上表现卓越,媲美 GPT-4o,提供流式语音交互体验,推动全模态 AI 研究发展。