發布日期：2024年2月15日

Sora by OpenAI
從文字創建影像

Sora 文字轉影像展示

提示：一位時尚女士穿著黑色皮夾克、長紅裙和黑靴，在滿是溫暖霓虹燈和動感城市招牌的東京街道上走著。她背著黑色手袋，戴著太陽鏡和紅唇膏，走路時既自信又隨意。街道潮濕且有反射效果，營造出五光十色燈光的鏡像效果。許多行人在街上走動。

提示：幾隻巨大的長毛象在雪地上行走，牠們的長毛在風中輕輕搖曳，遠處有雪覆蓋的樹木和壯觀的雪山，午後的光線和飄渺的雲朵營造出溫暖的光環，低角度的鏡頭令人印象深刻，完美捕捉到這些大型毛茸茸哺乳動物的美麗影像，景深效果極佳。

提示：加州淘金時期的歷史影片。

提示：鏡頭跟隨一輛白色復古越野車，它在松樹環繞的陡峭山坡上的土路上加速行駛，車輪揚起塵土，陽光照在越野車上，營造出溫暖的光環。土路蜿蜒向遠方延伸，四周沒有其他汽車或車輛。路兩旁是紅杉樹，間或點綴著綠色植被。從後方看車輛輕鬆沿著彎道行駛，彷彿正在崎嶇地形中進行一次崎嶇的駕駛。土路本身被陡峭的山丘和山脈所包圍，在其上方是潔淨的藍天和飄渺的雲彩。

什麼是 OpenAI 的 Sora？

Sora 是由 OpenAI 開發的創新 AI 模型，能夠直接從文字指令創造出逼真且富有想像力的視頻場景。

它專注於理解和模擬動態的物理世界，幫助解決現實世界互動問題。 Sora 能生成長達一分鐘的視頻，保持視覺質量並遵循用戶的提示。

Sora 的能力

生成包含多個角色和特定動作的複雜場景。
根據用戶提示準確細節化主題和背景。
理解生成場景中所請求元素的物理存在。

如何獲取 Sora？

目前，Sora 的訪問權限僅限於一小群測試者。OpenAI 已向紅隊研究員、視覺藝術家、設計師和電影製作者提供訪問權限，以評估潛在危害、收集創意反饋並推進 Sora 模型的能力。然而，目前尚無公開 API 或更廣泛的可用性。OpenAI 網站上展示的能力展示了這款文字轉影像生成模型的潛力，但實際的實操訪問權限仍限於內部測試和某些外部試點群體。OpenAI 指出，他們可能會考慮在將來將 Sora 納入商業產品時提供更廣泛的訪問權限，但任何公開訪問的時間表目前仍不確定。目前，創新的 Sora 模型僅為 OpenAI 以外的一小部分測試用戶啟用。更廣泛的公眾訪問權限可能取決於 OpenAI 自己的使用政策和風險容忍度，隨著這項技術的持續發展。

Sora API

根據 OpenAI 發布的介紹 Sora 的博客文章，目前 Sora 模型還沒有公開的 API 可用。

這意味著訪問 Sora 目前僅限於特定的測試用戶，並未向一般公眾開放。這主要是出於考慮潛在風險。

該帖子還提到未來可能在 OpenAI 的產品中部署 Sora。這表明從長遠來看，OpenAI 可能會通過商業產品為用戶開放 Sora 的使用權，但目前還沒有公開的 API 或其他訪問渠道。

總之，目前 Sora 模型尚未啟用任何形式的公開 API，並且限於內部測試和特定用戶。OpenAI 是否決定開放 API 訪問權可能取決於他們未來的商業計劃。如果需要對這個英文解釋進行任何補充說明，請告知！

我可以在 ChatGPT 上使用 Sora 嗎？

Sora 目前尚未能在 ChatGPT 系統或其他 OpenAI 產品中使用。由於訪問權限仍然限於選定的測試群體，因此尚未啟用與公共工具如 ChatGPT 的整合。

Sora 與擴散模型的比較

Sora 與先前的擴散模型相比，在持續更長的 1 分鐘影片上表現出令人印象深刻的連貫性。以前的模型如 DALL-E 僅專注於圖像，而 Sora 展示了將文字提示動態地轉換成不僅是獨立場景，而且是平滑過渡、多角度視頻序列的能力。

這代表了從靜態圖像擴散技術的顯著飛躍。通過在幀之間保持時間一致性，Sora 解決了其他生成視頻方法所面臨的核心挑戰——在動態背景中維持身份和物理可信度。研究團隊歸功於基於變換器的架構，使得在空間和時間上更好地整合，以及新穎的基於補丁的訓練，為 Sora 的強大視頻能力打開了大門。

儘管圖像質量和忠實度持續快速進展，但 Sora 在連續、連貫生成視頻方面取得了進展，這在其他擴散實現中所欠缺。其動作建模和物理意識為長時間視頻應用展示了獨特的前景。展望未來，Sora 似乎為探索擴散方法在複製我們周圍可見世界的核心原則上的潛力奠定了基礎。

Sora 與 Midjourney 的比較

儘管 Sora 和 Midjourney 都展示了引人注目的文字轉圖像/視頻生成能力，但它們目前的方法尚不允許直接比較。Midjourney 專注於使其圖像擴散模型獲得廣泛的公共訪問權，並在此過程中建立了強大的藝術社群。然而，Sora 的訪問仍然嚴格限制於內部測試，限制了我們對其方法優劣的可見性。我們尚未觀察到 Midjourney 為每個用戶在提示和風格方面賦予的細緻控制和自定義程度。而且，視頻與單獨圖像相比，具有內在的複雜性。話雖如此，Sora 在連貫的長格式視頻以及平滑化和視角方面的明顯專長似乎與 Midjourney 當前的核心競爭力有所區別。最終，由於缺乏公開的 Sora 訪問權，對創意平台如 Midjourney 的嚴謹評估尚不可行。在 OpenAI 開放正式訪問或提供更多透明度之前，評估 Sora 的技術可能如何增強、延伸或取代像 Midjourney 這樣的解決方案還需要等待。目前，兩者都指向了 AI 創造力的未來，但要比較輸出，首先需要 Sora 提供更開放的可用性。

Sora 與 DALL·E 3 的比較

Sora 是 OpenAI 開發的最大型模型，能夠生成長達一分鐘的高保真視頻。它是一種生成模型，訓練於不同持續時間、解析度和長寬比的視頻和圖像數據，使用的是在視頻和圖像潛在代碼的時空補丁上操作的變換器架構。Sora 的開發是擴大視頻生成模型規模的更廣泛努力的一部分，被視為朝向建構物理世界的通用模擬器邁進的有希望的道路。

Sora 與 DALL-E 3 之間的關係主要在於它們對生成建模的共同方法以及它們在模擬物理世界方面的應用。DALL-E 3 以從文字描述生成圖像而聞名，使用了類似於 Sora 的大規模生成模型的方法。Sora 將這一能力擴展到視頻生成，允許創造動態視覺內容。兩種模型都展示了使用生成模型創建多樣化和複雜媒體輸出的潛力，為 AI 驅動的內容創建的進步做出了貢獻。

Sora 目前的局限性

在準確模擬複雜物理現象方面存在困難。
有時會誤解空間細節和特定事件序列。
在創建合理的動作和準確建模物體與角色之間的互動方面存在問題。

安全措施

與紅隊合作，評估潛在的危害或風險。
開發用於檢測誤導性內容的工具。
應用 DALL·E 3 的現有安全方法，包括文本和圖像分類器，以確保遵守使用政策。

未來計劃

使 Sora 對紅隊研究員、視覺藝術家、設計師和電影製作者開放，以獲得反饋。
計劃在未來部署中納入 C2PA 元數據。
與全球政策制定者、教育者和藝術家合作，了解潛在的正面使用案例和關切。

Sora by OpenAI 從文字創建影像