发布于 2024年2月15日
Sora by OpenAI
从文本创造视频
Sora 文本转视频演示
提示:一个时尚女性走在东京街道上,街道上充满温暖的霓虹灯和活泼的城市标志。她穿着黑色皮夹克、长红裙和黑色靴子,手拿黑色手提包。她戴着太阳镜和红色口红。她自信而随意地走着。街道潮湿而具有反射效果,创造出五彩斑斓灯光的镜像效果。许多行人走来走去。
提示:几只巨大的长毛象走过一个雪地上的草地,它们长长的毛发随风轻轻摆动,远处有被雪覆盖的树木和壮观的雪山,午后的阳光透过薄云,创造出温暖的光晕,低角度的摄像机拍摄使得这些大型哺乳动物在美丽的摄影中更加引人注目,景深效果。
提示:加利福尼亚州淘金热期间的历史镜头。
提示:摄像机跟随一辆白色的复古 SUV,车顶有一个黑色的行李架,它在陡峭的山坡上的土路上飞驰,路上的尘土被它的轮胎激起,阳光照在 SUV 上,为场景投下温暖的光晕。这条土路轻轻地弯曲延伸,视野中没有其他车辆。路两旁是红杉树,散布着绿色植被。从后方看,车辆轻松地沿着弯道行驶,给人一种在崎岖地形中驾驶的感觉。这条土路被陡峭的山丘和山脉所环绕,上方是晴朗的蓝天和飘渺的云彩。
OpenAI 的 Sora 是什么?
Sora 是 OpenAI 开发的一款创新型 AI 模型,能够直接根据文本指令创造逼真且富有想象力的视频场景。
它专注于理解和模拟运动中的物理世界,帮助解决现实世界的互动问题。 Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵循用户的提示。Sora 的能力
- 能够生成具有多个角色和特定动作的复杂场景。
- 根据用户提示,准确描述主题和背景。
- 理解在生成场景中所请求元素的物理存在。
如何获取 Sora 的访问权限?
目前,Sora 的访问权限仅限于一小部分测试者。OpenAI 已向红队研究人员、视觉艺术家、设计师和电影制作人授予访问权限,以评估潜在的危害、收集创意反馈,并提升 Sora 模型的能力。然而,目前还没有公共 API 或更广泛的可用性。OpenAI 网站上展示的能力展示了这个文本到视频生成模型的潜力,但实际的手动访问仍然限于内部测试和某些外部试点群体。OpenAI 指出,他们可能会在未来将 Sora 集成到商业产品中时考虑更广泛的访问权限,但任何公共访问的时间表仍然未定。目前,创新的 Sora 模型仅对 OpenAI 以外的少数测试用户启用。更广泛的公共访问可能取决于 OpenAI 自己的使用政策和风险容忍度,因为这项技术继续发展。
Sora API
根据 OpenAI 介绍 Sora 的博客文章,Sora 模型目前没有公开可用的 API。
这意味着目前访问 Sora 仅限于特定的测试用户,对公众开放是有限的。这主要是出于对潜在风险的考虑。
该帖子还提到了将来可能在 OpenAI 的产品中部署 Sora 的计划。这表明从长远来看,OpenAI 可能会通过商业产品向用户开放 Sora 的使用权限,但目前没有公共 API 或其他访问渠道可用。
总而言之,Sora 模型目前没有任何形式的公共 API 启用,仅限于内部测试和选定用户。OpenAI 是否决定开放 API 访问可能取决于他们未来的商业计划。如果需要对这段英文解释进行任何补充,请告诉我!
我可以在 ChatGPT 上使用 Sora 吗?
Sora 目前还不能在 ChatGPT 系统或其他 OpenAI 产品中使用。由于访问权限仅限于选定的测试组,因此尚未启用与公共工具如 ChatGPT 的集成。
Sora 与扩散模型的对比
Sora 与以前的扩散模型在生成长达 1 分钟的视频方面表现出色,这是因为它在视频的一致性上具有卓越的表现。以前的模型,如 DALL-E,仅专注于图像,而 Sora 展示了将书面提示动态渲染为持久身份和上下文的多视角视频序列的能力。
这代表了从静态图像扩散技术的重大飞跃。通过考虑跨帧的时间一致性,Sora 解决了其他生成视频方法的核心挑战 - 在动态环境中保持身份和物理合理性。研究团队归功于基于变压器的架构,使其能够更好地整合空间和时间,以及新颖的基于补丁的训练,解锁了 Sora 在视频能力上的强大潜力。
虽然图像质量和保真度持续快速进展,但 Sora 在连贯的、连续的生成视频方面取得了进步,这是其他扩散实现所缺乏的。它的运动建模和物理意识为长时间视频应用展示了独特的前景。展望未来,Sora 似乎为探索扩散方法在复制我们周围可见世界的核心原则方面的潜力奠定了基础。
Sora 与 Midjourney 的对比
虽然 Sora 和 Midjourney 都展示了引人注目的文本到图像/视频生成能力,但它们目前的方法使得直接比较不太可能。Midjourney 已经专注于为其图像扩散模型提供广泛的公共访问权限,从而建立了一个强大的艺术社区。然而,对 Sora 的访问目前仍然受到内部测试的严格限制,限制了我们对其方法论优势和劣势的了解。我们尚未观察到 Midjourney 为每个用户在提示和风格方面赋予的细微控制和定制水平。而视频本身比单个图像具有内在的复杂性。也就是说,Sora 在平滑过渡和视角方面的明显专长似乎与 Midjourney 的核心竞争力有所不同。最终,由于缺乏公共 Sora 访问权限,对创意平台如 Midjourney 进行全面的基准测试目前尚不可行。在 OpenAI 开放正式访问或提供更多透明度之前,评估 Sora 的技术在多大程度上可能增强、扩展或超越像 Midjourney 这样的解决方案将不得不等待。就目前而言,两者都指向 AI 创意的未来,但比较输出将需要 Sora 首先提供更开放的可用性。
Sora 与 DALL·E 3 的对比
Sora 是 OpenAI 推出的最大型号,能够生成高保真度的长达一分钟的视频。它是一个生成模型,训练于各种持续时间、分辨率和宽高比的视频和图像数据上,使用基于变压器的架构,操作视频和图像潜在代码的时空补丁。Sora 的开发是扩展视频生成模型努力的一部分,这被认为是建立物理世界的通用模拟器的有希望的途径。
Sora 和 DALL-E 3 之间的关系主要在于它们对生成建模的共同方法以及它们在模拟物理世界方面的应用。DALL-E 3 以从文本描述生成图像而闻名,使用与 Sora 相似的方法,利用大规模生成模型。Sora 将此能力扩展到视频生成,允许创建动态视觉内容。这两个模型都展示了使用生成模型创建多样化和复杂媒体输出的潜力,为 AI 驱动的内容创建做出贡献。
Sora 当前的局限性
- 在准确模拟复杂物理学方面存在困难。
- 有时会误解空间细节和特定事件序列。
- 在创造合理运动和准确模拟对象和角色之间的互动方面存在问题。
安全措施
- 与红队合作评估潜在危害或风险。
- 开发用于识别误导性内容的检测工具。
- 应用 DALL·E 3 的现有安全方法,包括文本和图像分类器,以确保遵守使用政策。
未来计划
- 使 Sora 可以供红队研究人员、视觉艺术家、设计师和电影制作人使用,以获取反馈。
- 计划在未来部署中纳入 C2PA 元数据。
- 与全球政策制定者、教育工作者和艺术家合作,了解潜在积极用例和关切。