Опубликовано 15 февраля 2024 года
Sora от OpenAI
Создание видео из текста
Демонстрации модели текста в видео Sora
Запрос: Стильная женщина идет по улице Токио, озаренной теплым светом неонов и анимированными городскими вывесками. Она носит черную кожаную куртку, длинное красное платье и черные ботинки, а также черную сумку. На ней солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица влажная и отражает цветные огни, создавая эффект зеркала. Вокруг множество пешеходов.
Запрос: Несколько гигантских шерстистых мамонтов идут по снежной луговине, их длинная шерстистая шерсть легко колышется на ветру, вдали снежные деревья и драматичные снежные горы, полуденный свет с редкими облаками создает теплый свет, низкая точка съемки потрясающе захватывает большое млекопитающее с красивой фотографией, глубина поля.
Запрос: Исторические кадры Калифорнии во время золотой лихорадки.
Запрос: Камера следует за белым винтажным внедорожником с черным багажником на крыше, когда он ускоряется по крутой грунтовой дороге, окруженной соснами на крутом горном склоне, пыль поднимается от его шин, солнечный свет светит на внедорожник, когда он мчится по грунтовой дороге, создавая теплое сияние на сцене. Грунтовая дорога мягко изгибается вдаль, в поле зрения нет других машин или транспортных средств. Деревья по обе стороны дороги - секвойи, с разбросанными посреди зелеными пятнами. Машина видна сзади, легко следуя за поворотом, создавая впечатление, что она находится в грубом проезде по грубому рельефу. Сама грунтовая дорога окружена крутыми холмами и горами, сверху ясное голубое небо с редкими облаками.
Что такое модель Sora от OpenAI?
Sora - это инновационная модель ИИ, разработанная OpenAI, способная создавать реалистичные и фантазийные видеосцены непосредственно из текстовых инструкций.
Она фокусируется на понимании и моделировании физического мира в движении, помогая решать проблемы взаимодействия в реальном мире. Sora может генерировать видео длительностью до минуты, сохраняя визуальное качество и соответствуя запросам пользователей.Возможности Sora
- Генерирует сложные сцены с несколькими персонажами и конкретными движениями.
- Точно детализирует объекты и фоны на основе запросов пользователей.
- Понимает физическое существование запрашиваемых элементов в создаваемых сценах.
Как получить доступ к Sora и использовать Sora?
Пока вы не можете войти в Sora AI.
Доступ к Sora в настоящее время ограничен только выбранной группой тестировщиков. OpenAI предоставила доступ исследователям красной команды, визуальным художникам, дизайнерам и кинематографистам для оценки потенциального вреда, сбора творческой обратной связи и развития возможностей модели Sora. Однако в настоящее время нет публичного API или более широкой доступности. Возможности, продемонстрированные на сайте OpenAI, демонстрируют потенциал этой модели генерации текста в видео, но фактический доступ остается ограниченным внутренним тестированием и определенными внешними пилотными группами. OpenAI отмечает, что они могут рассмотреть возможность более широкого доступа при интеграции Sora в коммерческие продукты в будущем, но сроки для любого публичного доступа все еще не определены. На данный момент инновационная модель Sora доступна только небольшому набору тестовых пользователей за пределами OpenAI. Более широкий общественный доступ, вероятно, будет зависеть от собственных политик использования OpenAI и их готовности к риску, поскольку эта технология продолжает развиваться.
API OpenAI Sora
Согласно блогу OpenAI, представляющему Sora, модель Sora в настоящее время не имеет общедоступного API.
Это означает, что доступ к Sora в настоящее время ограничен определенными тестовыми пользователями и не открыт для широкой общественности. Это в основном связано с учетом потенциальных рисков.
В сообщении также упоминается планы потенциально развернуть Sora в продуктах OpenAI в будущем. Это предполагает, что в долгосрочной перспективе OpenAI может открыть доступ к Sora для пользователей через коммерческие продукты, но в настоящее время нет общедоступного API или другого канала доступа.
В заключение, модель Sora в настоящее время не имеет никакой формы общедоступного API и ограничена внутренним тестированием и выбранными пользователями. То, решит ли OpenAI открыть доступ к API, вероятно, зависит от их будущих коммерческих планов. Пожалуйста, дайте мне знать, если это английское объяснение требует дополнительного уточнения!
Цены на Sora и цены на API Sora
Было много любопытства о том, сколько OpenAI будет взимать за доступ к своей модели Sora после ее выпуска в общественное пользование. После изучения возможностей Sora на основе опубликованных исследований OpenAI, я предсказываю, что они будут использовать многоуровневый подход к ценообразованию на основе таких факторов, как разрешение вывода. Для видео полного HD качества, которое требует наибольших вычислительных ресурсов, цены могут начинаться от 10 долларов за минуту генерации; более высокие цены также не исключаются. Мое предположение заключается в том, что первоначальный спрос будет наиболее сильным со стороны развлекательных секторов, таких как кино, стриминговые шоу и разработка игр, которые могут наиболее эффективно использовать видео ИИ-ассистента. Но стоимость определит, насколько широко профессиональные творцы за пределами этих отраслей смогут использовать Sora также.
Пока мы ждем официального объявления цен OpenAI, многое гадают о последствиях этой прорывной, но дорогой модели для различных областей.
Могу ли я использовать Sora AI на ChatGPT?
Sora пока не доступна в системе ChatGPT или других продуктах OpenAI. Поскольку доступ ограничен выбранными тестовыми группами, интеграция с общедоступными инструментами, такими как ChatGPT, не была включена.
Sora против Diffusion
Sora выделяется среди предыдущих моделей диффузии для генерации текста в видео благодаря своей впечатляющей согласованности на протяжении более длинных видео в 1 минуту. Там, где предыдущие модели, такие как DALL-E, сосредоточились исключительно на изображениях, Sora демонстрирует способность динамически рендерить сохраняющиеся идентичности и контекст через десятки сгенерированных кадров. Модель демонстрирует замечательное мастерство в переводе письменных запросов не только в отдельные сцены, но и в плавно переходящие, мультиперспективные видеопоследовательности.
Это представляет собой значительный скачок от статических техник диффузии изображений. Учитывая временную согласованность через кадры, Sora решает основную проблему, которая мучила другие генеративные видеоподходы – поддержание идентичности и физической правдоподобности в динамичном контексте. Исследовательская группа приписывает трансформаторной архитектуре, позволяющей лучше интегрировать пространство и время, а также новой патч-ориентированной подготовке ключ к раскрытию мощных видеовозможностей Sora.
Хотя качество и достоверность изображений продолжают видеть быстрый прогресс, Sora делает шаги в согласованном, непрерывном генерировании видео, отсутствующем в других реализациях диффузии. Ее моделирование движения и физическая осведомленность показывают уникальные перспективы для приложений видео длительной формы. Взглянув вперед, Sora, по-видимому, настраивает дальнейшее исследование того, насколько способными могут стать методы диффузии при воспроизведении основных аспектов видимого мира вокруг нас.
Sora против Midjourney
Хотя Sora и Midjourney оба демонстрируют убедительные возможности генерации текста в изображение/видео, их подходы в настоящее время не позволяют провести прямое сравнение. Midjourney сосредоточился на обеспечении широкого общественного доступа к своей модели диффузии изображений, создавая при этом сильное художественное сообщество. Однако доступ к Sora по-прежнему ограничен внутренним тестированием, ограничивая видимость в сильных и слабых сторонах ее методологий. Мы еще не наблюдали уровень тонкой настройки и настройки, который Midjourney предоставляет каждому пользователю по запросам и стилям. И видео представляет собой врожденную сложность по сравнению с отдельными изображениями. Тем не менее, кажущаяся компетентность Sora в согласованном видео длительной формы с сглаживанием и перспективами, по-видимому, отличается от основных компетенций Midjourney на сегодняшний день. В конечном итоге, отсутствие общедоступного доступа Sora означает, что надежное сравнение с творческими платформами, такими как Midjourney, еще не представляется возможным. Оценка того, насколько техники Sora могут улучшить, расширить или превзойти решения, подобные Midjourney, придется подождать, пока OpenAI не откроет формальный доступ или предоставит больше прозрачности. На данный момент оба указывают на будущее творчества ИИ, но для сравнения результатов потребуется более открытая доступность от Sora.
Sora против DALL·E 3
Sora является крупнейшей моделью OpenAI, способной генерировать видео высокой четкости длительностью до минуты. Это генеративная модель, обученная на видео и изображениях различной продолжительности, разрешения и соотношения сторон, использующая трансформаторную архитектуру, работающую с пространственно-временными патчами видео и скрытыми кодами изображений. Развитие Sora является частью более широких усилий по масштабированию моделей генерации видео, что считается перспективным путем к созданию универсальных симуляторов физического мира.
Отношение между Sora и DALL-E 3 в первую очередь заключается в их общем подходе к генеративному моделированию и их использовании для симуляции аспектов физического мира. DALL-E 3, известный генерацией изображений из текстовых описаний, использует подобный подход к Sora с точки зрения использования масштабных генеративных моделей. Sora расширяет эту возможность до генерации видео, позволяя создавать динамический визуальный контент. Обе модели демонстрируют потенциал использования генеративных моделей для создания разнообразных и сложных медиавыходов, способствуя развитию создания контента с помощью ИИ.
Альтернатива модели Sora от OpenAI?
Нет, пока нет. Она превосходит другие продукты по качеству видео, такие как Runway, Pika, Stable video.
Sora против Pika, Runway, Stable Video Diffusion
Модель | Дата выпуска | Легкость использования | Особенности | Цена |
---|---|---|---|---|
OpenAI Sora | Февраль 2024 | Неизвестно | Мощная, универсальная | Пока не открыта |
Pika | Январь 2023 | Легко | Удобная для пользователя, разнообразие стилей и эффектов | Подписка |
Runway | 2023 | Сложно | Мощная, универсальная | Подписка |
Stable Video Diffusion | 2023 | Сложно | Стабилизация и улучшение видео | Самостоятельный хостинг / Подписка |
Различные точки
- OpenAI Sora - самая мощная модель генерации текста в видео, но она все еще находится в разработке и может быть сложной в использовании.
- Pika - более удобная для пользователя альтернатива Sora, которую можно использовать для генерации видео в различных стилях и эффектах.
- Runway и Stable Video Diffusion - платформы для редактирования видео, предлагающие различные инструменты для создания и редактирования видео, включая генерацию текста в видео.
Текущие ограничения Sora
- Имеет трудности с точным моделированием сложной физики.
- Иногда неправильно интерпретирует пространственные детали и конкретные последовательности событий.
- Проблемы с созданием правдоподобного движения и точным моделированием взаимодействий между объектами и персонажами.
Меры безопасности
- Сотрудничество с исследователями красной команды для оценки потенциального вреда или рисков.
- Разработка инструментов обнаружения вводящего в заблуждение контента.
- Применение существующих методов безопасности от DALL·E 3, включая текстовые и изображательные классификаторы для обеспечения соответствия политикам использования.
Будущие планы
- Предоставление доступа к Sora исследователям красной команды, визуальным художникам, дизайнерам и кинематографистам для получения обратной связи.
- Намерение включить метаданные C2PA в будущие развертывания.
- Взаимодействие с законодателями, педагогами и художниками по всему миру для понимания потенциальных положительных случаев использования и проблем.