게시일: 2024년 2월 15일

OpenAI의 Sora AI
텍스트에서 비디오로

Sora 텍스트-비디오 데모

프롬프트: 멋진 여성이 따뜻하게 빛나는 네온과 애니메이션 도시 간판으로 가득 찬 도쿄 거리를 걷습니다. 그녀는 검은 가죽 재킷, 긴 빨간 드레스와 검은 부츠를 입고 검은색 핸드백을 들고 있습니다. 그녀는 선글라스와 빨간 립스틱을 착용하고 있으며 자신 있고 여유롭게 걷습니다. 거리는 젖어 있어서 색색의 빛들이 거울 효과를 낳습니다. 많은 보행자들이 다니고 있습니다.

프롬프트: 거대한 울리 맘모스 몇 마리가 눈 덮인 초원을 걸어가고 있습니다. 그들의 긴 울푹둹한 모피는 바람에 가볍게 휘날리고 있으며, 뒤에는 눈 덮인 나무들과 장엄한 눈 덮인 산들이 있습니다. 낮은 카메라 시점은 아름다운 사진, 심도감을 캡처하여 거대한 털북숭이 동물을 표현합니다.

프롬프트: 캘리포니아 금광시대의 역사적인 영상입니다.

프롬프트: 카메라는 흰색 빈티지 SUV가 소나무로 둘러싸인 가파른 흙길을 빠르게 달려가는 모습을 뒤에서 따라갑니다. 타이어에서는 먼지가 튀고 햇빛이 SUV에 비추어 따뜻한 빛을 더합니다. 흙길은 부드럽게 멀리로 이어져 다른 차량이 보이지 않습니다. 옆의 나무들은 레드우드이며, 곳곳에 푸른색이 섞여 있습니다. 자동차는 쉽게 굽이진 길을 따라가는 모습을 보여주며 험준한 지형을 운전하는 것처럼 보입니다. 흙길 자체는 가파른 언덕과 산으로 둘러싸여 있으며 위에는 푸른 하늘과 솜털 구름이 있습니다.

OpenAI의 Sora 모델은 무엇인가요?

Sora는 OpenAI에서 개발한 혁신적인 AI 모델로, 텍스트 지시에 따라 사실적이고 상상력 넘치는 비디오 장면을 직접 만들 수 있습니다.

그것은 움직이는 물리적 세계를 이해하고 시뮬레이션하는 데 중점을 두며, 실제 세계 상호작용 문제 해결에 도움을 줍니다. Sora는 사용자 프롬프트에 충실하면서 시각적 품질을 유지하며 최대 1분 길이의 비디오를 생성할 수 있습니다.

Sora의 기능

다양한 캐릭터와 특정 동작을 포함한 복잡한 장면을 생성합니다.
사용자 프롬프트를 기반으로 주제와 배경을 정확하게 묘사합니다.
생성된 장면 내에서 요청된 요소의 물리적 존재를 이해합니다.

Sora에 액세스하고 Sora를 사용하는 방법은?

Sora AI에 아직 로그인할 수 없습니다.

Sora에 대한 접근은 현재 OpenAI가 잠재적 위험을 평가하고, 창의적 피드백을 수집하고, Sora 모델 기능을 발전시키기 위해 red team 연구원들, 시각 예술가들, 디자이너들, 영화 제작자들에게만 제한적으로 부여되었습니다. 현재로서는 공개 API나 널리 사용할 수 있는 방법은 없습니다. OpenAI 사이트에서 공개된 기능은 이 텍스트-비디오 생성 모델의 잠재력을 보여주지만, 실제 손에 쥘 수 있는 접근은 내부 테스트와 특정 외부 파일럿 그룹으로 제한되어 있습니다. OpenAI는 Sora를 미래의 상업적 제품에 통합할 때 더 넓은 접근을 고려할 수도 있지만, 현재로서는 공개 접근의 시기는 아직 정해지지 않았습니다. 현재로서는 혁신적인 Sora 모델은 OpenAI 외부의 소수의 테스트 사용자에게만 활성화되어 있습니다. 더 넓은 공개 접근은 OpenAI의 사용 정책과 위험 감수도에 따라 달라질 것입니다.

OpenAI Sora API

OpenAI의 블로그 게시물에 따르면, 현재 Sora 모델은 공개 API를 제공하지 않고 있습니다.

이는 현재 Sora에 대한 접근이 특정 테스트 사용자들에게만 제한되어 있으며 일반 대중에게는 공개되지 않았다는 것을 의미합니다. 이는 잠재적 위험을 고려한 것입니다.

게시물에는 또한 OpenAI의 제품에서 Sora를 향후 배치할 계획에 대해서도 언급되어 있습니다. 이는 장기적으로 OpenAI가 상업적 제품을 통해 사용자들에게 Sora에 대한 접근을 열 수 있음을 시사하지만, 현재는 공개 API나 다른 접근 채널이 없습니다.

요약하자면, 현재 Sora 모델은 공개 API를 가지고 있지 않으며, 내부 테스팅과 선정된 사용자들에게만 제한되어 있습니다. OpenAI가 API 접근을 열기로 결정하는 것은 그들의 미래 상업 계획에 달려 있습니다. 이 영문 설명이 추가적인 설명이 필요한 경우 알려주세요!

ChatGPT에서 Sora AI를 사용할 수 있나요?

Sora는 아직 ChatGPT 시스템이나 다른 OpenAI 제품에서 사용할 수 없습니다. 접근이 선택된 테스트 그룹에게만 제한되어 있기 때문에, ChatGPT와 같은 공개 도구와의 통합은 활성화되지 않았습니다.

Sora VS Diffusion

Sora는 이전의 텍스트에서 비디오 생성을 위한 확산 모델들과 달리 1분 길이의 긴 비디오에서 인상적인 일관성으로 두각을 나타냅니다. DALL-E와 같은 이전 모델들이 이미지에만 집중한 반면, Sora는 수십 개의 생성된 프레임을 통해 지속적인 정체성과 맥락을 동적으로 렌더링하는 능력을 보여줍니다. 이 모델은 단독 장면뿐만 아니라 부드럽게 전환되는 다중 관점 비디오 시퀀스로 텍스트 프롬프트를 변환하는 데 놀라운 능력을 보여줍니다.

이는 정적 이미지 확산 기술에서 중요한 도약을 나타냅니다. 프레임 간의 시간적 일관성을 고려함으로써, Sora는 동적 맥락에서 정체성과 물리적 타당성을 유지하는 다른 생성적 비디오 접근 방식이 직면한 핵심 도전을 해결합니다. 연구 팀은 공간과 시간을 더 잘 통합하는 변압기 기반 아키텍처와 Sora의 강력한 비디오 기능을 잠금 해제하는 새로운 패치 기반 훈련에 대한 공로를 인정합니다.

이미지 품질과 충실도가 계속해서 빠르게 발전하는 가운데, Sora는 다른 확산 구현에서 부족한 일관되고 연속적인 생성된 비디오에서 발전을 이루었습니다. 그것의 동작 모델링과 물리적 인식은 장기적인 비디오 애플리케이션을 위한 독특한 약속을 보여줍니다. 앞으로 Sora는 우리 주변의 가시적인 세계의 핵심 원칙을 복제하는 데 있어 확산 방법이 얼마나 능력이 있을지에 대한 탐색을 준비하는 것처럼 보입니다.

Sora VS Midjourney

Sora와 Midjourney는 모두 텍스트에서 이미지/비디오 생성 기능을 강력하게 선보이고 있지만, 그들의 접근 방식은 현재 직접 비교를 배제합니다. Midjourney는 광범위한 대중 접근을 가능하게 하는 이미지 확산 모델에 집중하며, 이 과정에서 강력한 예술 커뮤니티를 구축했습니다. 그러나 Sora에 대한 접근은 내부 테스팅을 위해 좁게 제한되어 있어, 그 방법론의 장단점에 대한 가시성이 제한됩니다. 우리는 아직 Midjourney가 프롬프트와 스타일에 걸쳐 각 사용자에게 권한을 부여하는 미세 조정 제어 수준을 관찰하지 못했습니다. 그리고 비디오는 개별 이미지보다 본질적으로 복잡합니다. 그럼에도 불구하고, Sora의 부드러운 전환과 관점에서 보여주는 일관된 장기 비디오에서의 능숙함은 오늘날 Midjourney의 핵심 역량과 다른 것으로 보입니다. 결국, 공개 Sora 접근 부족은 Midjourney와 같은 창의적인 플랫폼에 대한 견고한 벤치마킹을 아직 실현할 수 없게 합니다. Sora의 기술이 Midjourney와 같은 솔루션을 향상시키거나 확장하거나 초과할 수 있는 정도를 평가하는 것은 OpenAI가 정식 접근을 열거나 더 많은 투명성을 제공할 때까지 기다려야 합니다. 지금으로서는, 둘 다 AI 창의성의 미래를 향한 것이지만, Sora의 더 개방된 이용 가능성이 필요합니다.

Sora VS DALL·E 3

Sora는 1분 길이의 고해상도 비디오를 생성할 수 있는 OpenAI의 가장 큰 모델입니다. 다양한 지속 시간, 해상도 및 화면 비율의 비디오 및 이미지 데이터에 대해 훈련된 생성 모델로, 비디오 및 이미지 잠재 코드의 공간시간 패치에 작용하는 변압기 아키텍처를 사용합니다. Sora의 개발은 비디오 생성 모델을 확장하는 더 넓은 노력의 일부로, 물리적 세계의 일반적인 시뮬레이터를 구축하는 데 희망적인 경로로 간주됩니다.

Sora와 DALL-E 3의 관계는 주로 그들의 생성 모델링에 대한 공유된 접근 방식과 물리적 세계의 측면을 시뮬레이션하는 데 사용되는 점에 있습니다. 텍스트 설명에서 이미지를 생성하는 것으로 알려진 DALL-E 3은 Sora와 비슷한 접근 방식을 사용하여 대규모 생성 모델을 활용합니다. Sora는 이 능력을 비디오 생성으로 확장하여 동적 시각 콘텐츠를 만드는 데 도움이 됩니다. 두 모델 모두 다양하고 복잡한 미디어 출력을 생성하기 위해 생성 모델을 사용하는 잠재력을 보여주며, AI 기반 콘텐츠 생성의 발전에 기여합니다.

Sora의 현재 제한 사항

복잡한 물리학을 정확하게 시뮬레이션하는 데 어려움이 있습니다.
때때로 공간적 세부 사항과 특정 이벤트 시퀀스를 잘못 해석합니다.
설득력 있는 동작을 만들고, 물체와 캐릭터 간의 상호 작용을 정확하게 모델링하는 데 문제가 있습니다.

안전 조치

잠재적인 해악이나 위험을 평가하기 위해 레드 팀과 협력합니다.
오도하는 콘텐츠를 탐지하는 도구 개발.
DALL·E 3에서 사용되는 기존 안전 방법 적용, 텍스트 및 이미지 분류기를 사용하여 사용 정책 준수를 보장합니다.

미래 계획

레드 팀, 시각 예술가, 디자이너, 영화 제작자들에게 피드백을 받기 위해 Sora에 대한 접근을 허용합니다.
향후 배치에서 C2PA 메타데이터를 통합할 계획입니다.
정책 입안자, 교육자, 예술가들과 전 세계적으로 연계하여 잠재적으로 긍정적인 사용 사례와 우려 사항을 이해하려 합니다.

Sora AI 모델에 대한 추가 정보

공식 Sora 웹사이트 Sora 연구 논문

OpenAI의 Sora AI 텍스트에서 비디오로