2024年2月15日投稿
OpenAI の Sora AI
テキストからビデオを作成
Soraテキスト・トゥ・ビデオデモ
プロンプト:スタイリッシュな女性が、暖かい輝くネオンとアニメーションの街頭サインで満たされた東京の通りを歩いています。彼女は黒のレザージャケット、長い赤いドレス、黒いブーツを着用し、黒いハンドバッグを持っています。彼女はサングラスと赤い口紅を付け、自信を持ってカジュアルに歩いています。通りは湿っており、カラフルな光の鏡効果を作り出しています。多くの歩行者が歩いています。
プロンプト:雪の中を歩く、いくつかの巨大なウールマンモス。長い毛皮が風に軽く吹かれながら、雪に覆われた木々や壮大な雪山が遠くに見える、午後の光の中で温かい光を放ちます。低いカメラの視点は、美しい写真、被写界深度を備えた大きな毛むくじゃらの哺乳動物を驚くほどに捉えています。
プロンプト:カリフォルニアのゴールドラッシュ時代の歴史的な映像。
プロンプト:カメラは白いビンテージSUVを追いかけ、急なダートロードを走っています。周囲は松の木で、険しい山の斜面にあります。タイヤからはほこりが舞い上がり、日光がSUVに当たり温かい光を放っています。ダートロードは遠くに緩やかに曲がっており、他の車両は見えません。道の両側にはレッドウッドがあり、緑が点在しています。車は後方から曲がり角をスムーズに進んでおり、険しい地形を駆け抜けているかのようです。ダートロード自体は険しい丘や山に囲まれ、上空には青空と薄い雲が広がっています。
OpenAIのSoraとは何か?
Soraは、OpenAIによって開発された革新的なAIモデルで、テキスト指示から現実的かつ想像力豊かなビデオシーンを直接作成することができます。
動く物理世界の理解とシミュレーションに焦点を当て、現実世界の相互作用問題の解決に役立ちます。 Soraは最大1分間のビデオを生成し、視覚品質を維持し、ユーザープロンプトに応じます。Soraの能力
- 複数のキャラクターや特定の動きを含む複雑なシーンを生成します。
- ユーザープロンプトに基づいて被写体と背景の詳細を正確に描写します。
- 生成されたシーン内で要求された要素の物理的存在を理解します。
Soraへのアクセス方法
Soraへのアクセスは現在、選ばれたテスターグループにのみ制限されています。OpenAIは、潜在的な危害を評価し、創造的なフィードバックを収集し、Soraモデルの機能を進化させるために、レッドチームの研究者、視覚アーティスト、デザイナー、映画製作者にアクセスを許可しています。しかし、現時点では公開APIや広範な利用可能性はありません。OpenAIのサイトで紹介されている機能は、このテキスト・トゥ・ビデオ生成モデルの可能性を示していますが、実際の手に取ってのアクセスは社内テストと特定の外部パイロットグループに限られています。OpenAIは、将来的にSoraを商業製品に統合する際にはより広範なアクセスを検討するかもしれませんが、公開アクセスのタイムラインはまだ未定です。現在、革新的なSoraモデルはOpenAI外の小さなテストユーザーセットでのみ有効化されています。より広範な一般公開は、この技術が進化するにつれて、OpenAI自身の利用ポリシーとリスク許容度に依存する可能性があります。
Sora API
OpenAIのブログ記事によると、Soraモデルには現在公開APIがありません。
つまり、Soraへのアクセスは特定のテストユーザーに限定されており、一般公開はされていません。これは主に潜在的なリスクを考慮してのことです。
この記事では、将来的にSoraをOpenAIの製品に展開する計画も言及されています。これは、長期的には、OpenAIが商業製品を通じてユーザーにSoraのアクセスを開放する可能性があることを示唆していますが、現在は公開APIやその他のアクセスチャネルはありません。
要約すると、Soraモデルには現在、公開APIが有効化されておらず、社内テストと選ばれたユーザーに限定されています。OpenAIがAPIアクセスを開放するかどうかは、将来的な商業計画に依存する可能性があります。この英語の説明に追加の明確化が必要であれば、お知らせください!
ChatGPTでSoraを使用できますか?
Soraは、現在のところChatGPTシステムやその他のOpenAI製品内で使用できません。アクセスが特定のテストグループに限られているため、公共ツールへの統合はまだ有効化されていません。
Sora VS 拡散
Soraは、1分間の長いビデオにわたる印象的な一貫性で、以前のテキスト・トゥ・ビデオ生成拡散モデルから一歩踏み出しています。DALL-Eなどの以前のモデルは画像のみに焦点を当てていましたが、Soraは書かれたプロンプトを単独のシーンだけでなく、スムーズに遷移する多視点ビデオシークエンスに翻訳する能力を示しています。
これは静止画像拡散技術からの重要な進歩を表しています。フレーム間の時間的一貫性を考慮することで、Soraは他の生成的ビデオアプローチを悩ませてきたコアチャレンジ – 動的コンテキストでのアイデンティティと物理的な妥当性の維持 – に対処しています。トランスフォーマーベースのアーキテクチャが空間と時間を越えたより良い統合を可能にし、新しいパッチベースのトレーニングがSoraの堅牢なビデオ能力の解除に貢献していると、研究チームは述べています。
画像の品質と忠実度は急速に進歩していますが、Soraは他の拡散実装にはない、連続的で一貫性のある生成ビデオの面で前進しています。その動きのモデリングと物理的な認識は、長形式ビデオアプリケーションに対するユニークな約束を示しています。将来的には、拡散方法が私たちの周りの可視世界のコアテネットをどのように複製することができるかについて、さらなる探求を設定しています。
Sora VS ミッドジャーニー
SoraとMidjourneyはどちらも魅力的なテキスト・トゥ・イメージ/ビデオ生成能力を示していますが、それらのアプローチは現在直接比較することを妨げています。Midjourneyは、そのイメージ拡散モデルへの広範な公開アクセスを可能にし、強力な芸術コミュニティを築いています。しかし、Soraへのアクセスは社内テストに狭く制限されており、その方法論の強みと弱みを見ることが制限されています。Midjourneyがプロンプトとスタイルにわたって各ユーザーに提供する細かい制御とカスタマイズのレベルをまだ観察していません。そして、ビデオは個々の画像よりも固有の複雑さを持っています。とはいえ、Soraがスムージングや視点による長形式ビデオで明らかに優れているようです。Midjourneyの核となる能力とは異なるものです。結局のところ、Soraへの公開アクセスがないため、創造的なプラットフォームとしてMidjourneyとの堅牢なベンチマーキングはまだ実現可能ではありません。Soraの技術がMidjourneyのようなソリューションをどの程度強化、拡張、または超越するかを評価することは、OpenAIが正式なアクセスを開放するか、より透明性を提供するまで待たなければなりません。現在、両方はAIの創造性の未来を指していますが、出力を比較するにはまずSoraからのよりオープンな利用可能性が必要です。
Sora VS DALL·E 3
Soraは、最大1分間の高忠実度ビデオを生成できるOpenAIの最大のモデルです。様々な期間、解像度、アスペクト比のビデオおよび画像データでトレーニングされた生成モデルであり、ビデオおよび画像の潜在コードの時空間パッチ上で動作するトランスフォーマーアーキテクチャを使用しています。Soraの開発は、物理世界の一般目的のシミュレーターを構築するための有望な道として見られているビデオ生成モデルのスケールアップへの幅広い取り組みの一部です。
SoraとDALL-E 3の関係は、主に生成モデリングへの共通のアプローチと、物理世界の側面をシミュレートするためのその使用にあります。テキスト記述から画像を生成することで知られるDALL-E 3は、ビデオ生成にこの能力を拡張するSoraと同様のアプローチを使用しています。両モデルは、多様で複雑なメディア出力の作成において生成モデルの潜在能力を示しており、AI駆動のコンテンツ作成の進歩に貢献しています。
Soraの現在の制限
- 複雑な物理を正確にシミュレートすることに苦戦しています。
- 時々、空間の詳細や特定のイベントシーケンスを誤解釈します。
- 妥当な動きを作成し、物体やキャラクター間の相互作用を正確にモデリングすることに問題があります。
安全対策
- 潜在的な危害やリスクを評価するためのレッドチームとの協力。
- 誤解を招くコンテンツの検出ツールの開発。
- DALL·E 3からの既存の安全対策の適用、使用ポリシーへの遵守を保証するためのテキストおよび画像分類器の使用。
将来の計画
- レッドチーマー、視覚アーティスト、デザイナー、映画製作者にSoraを提供してフィードバックを得る。
- 将来の展開でC2PAメタデータを組み込むことを意図。
- 政策立案者、教育者、アーティストと世界的に連携し、潜在的なポジティブな使用ケースや懸念を理解する。