Movatterモバイル変換

[0]ホーム

Naar inhoud springen

Sora (tekst-naar-video-model)

Koppelingen bewerken

Uit Wikipedia, de vrije encyclopedie

Sora

Ontwerper(s)

Open AI

Ontwikkelaar(s)

OpenAI

Uitgebracht

15 februari 2024

Categorie

tekst-naar-video-model

Website

openai.com/sora

Portaal

Informatica

Sora is een tekst-naar-video-model van de in de VS gevestigde onderzoeksorganisatie voorkunstmatige intelligentie (AI),OpenAI. Het kan video's genereren op basis van beschrijvendeaanwijzingen en bestaande video's vooruit of achteruit in de tijd uitbreiden.

Geschiedenis

[bewerken |brontekst bewerken]

Voor de release van Sora bestonden er verschillende andere, minder realistische modellen voor het genereren van tekst naar video, waaronder Make-A-Video vanMeta, Gen-2 van Runway en Lumiere vanGoogle.OpenAI, het bedrijf achter Sora, had in september 2023 DALL·E 3 uitgebracht, versie 3 van zijn tekst-naar-beeldmodellen met de naamDALL-E.

Het team dat Sora ontwikkelde vernoemde het naarhet Japanse woord voor lucht om zijn "onbegrensde creatieve potentieel" aan te duiden.

Op 15 februari 2024 gaf OpenAI voor het eerst een voorproefje van Sora door meerdere clips vrij te geven vanhigh-definition video's die het had gemaakt, waaronder eenSUV die over een bergweg rijdt, een animatie van een 'kort donzig monster' naast een kaars, twee mensen die doorTokio lopen in de sneeuw, en nep-historische beelden van degoudkoorts in Californië. OpenAI verklaarde dat het video's van maximaal een minuut kon genereren. Het bedrijf deelde vervolgens een technisch rapport, waarin de methoden werden belicht die werden gebruikt om het model te trainen.Sam Altman, CEO van OpenAI, plaatste ook een reeks tweets waarmee hij reageerde op prompts vanTwitter-gebruikers met door Sora gegenereerde video's van de prompts.

OpenAI heeft verklaard dat het van plan is Sora voor het publiek beschikbaar te maken, maar dat dit niet snel zal gebeuren; er is niet aangegeven wanneer. Het bedrijf bood beperkte toegang tot een klein ‘red team’, inclusief experts op het gebied van misleiding en vooroordelen, om vijandige tests op het model uit te voeren. Het bedrijf deelde Sora ook met een kleine groep creatieve professionals, waaronder videomakers en kunstenaars, om feedback te vragen over het nut ervan op creatief gebied.

Sora 2 werd onthuld op 30 september 2025. Bij de release werd ook eeniOS-app gelanceerd. Alle video's die door het model worden gegenereerd, bevatten een zichtbaar, bewegend watermerk om misbruik van de tool te voorkomen. De vorige versie van Sora gebruikte ook een veiligheidswatermerk om het publiek onderscheid te laten maken tussen echte en fictieve content. Op 7 oktober 2025 meldde 404 Media dat programma's van derden die het verplichte watermerk succesvol uit Sora 2-video's verwijderen, wijdverspreid waren geworden.

Standaard gebruikt de generator auteursrechtelijk beschermd materiaal in zijn video's, tenzij auteursrechthouders actief aangeven dat hun content niet mag worden opgenomen.

Mogelijkheden en beperkingen

[bewerken |brontekst bewerken]

De technologie achter Sora is een aanpassing van de technologie achter DALL·E 3. Volgens OpenAI is Sora een diffusietransformator – een ruisonderdrukkend latent diffusiemodel met één transformer als ruisonderdrukking. Een video wordt gegenereerd in de latente ruimte door 3D-"patches" te verwijderen, en wordt vervolgens door een video-decompressor naar de standaardruimte getransformeerd. Herondertiteling wordt gebruikt om de trainingsgegevens uit te breiden, door een video-naar-tekstmodel te gebruiken om gedetailleerde ondertiteling voor video's te maken.

OpenAI heeft het model getraind met behulp van openbaar beschikbare video's en auteursrechtelijk beschermde video's waarvoor een licentie is verleend, maar heeft het aantal of de exacte bron van de video's niet onthuld. Bij de release erkende OpenAI enkele van Sora's tekortkomingen, waaronder het feit dat het moeite had om complexe natuurkunde te simuleren,oorzakelijkheid te begrijpen en links van rechts te onderscheiden. OpenAI verklaarde ook dat Sora, in overeenstemming met de bestaande veiligheidspraktijken van het bedrijf, tekstaanwijzingen voor seksuele, gewelddadige, haatdragende beelden of beelden van beroemdheden zal beperken, evenals inhoud met reeds bestaandintellectueel eigendom.

Tim Brooks, een onderzoeker bij Sora, verklaarde dat het model alleen op basis van zijn dataset ontdekte hoe3D-afbeeldingen konden worden gemaakt, terwijl Bill Peebles, een andere Sora-onderzoeker, zei dat het model automatisch verschillende videostandpunten creëerde zonder dat dit werd gevraagd. Volgens OpenAI worden door Sora gegenereerde video's getagd met C2PA-metadata om aan te geven dat ze door AI zijn gegenereerd.

Ontvangst

[bewerken |brontekst bewerken]

Will Douglas Heaven van deMIT Technology Review noemde de demonstratievideo's "indrukwekkend", maar merkte op dat ze zijn uitgekozen en mogelijk niet representatief zijn voor Sora's typische output. De Amerikaanse academicus Oren Etzioni uitte zijn bezorgdheid over het vermogen van de technologie om onlinedesinformatie te creëren voor politieke campagnes.

VoorWired schreef Steven Levy op dezelfde manier dat het het potentieel had om "een treinramp met verkeerde informatie" te worden en meende dat de previewclips "indrukwekkend" maar "niet perfect" waren en dat het "een opkomend begrip van filmische grammatica liet zien" vanwege de ongevraagde schotwisselingen. Levy voegde eraan toe: "Het zal heel lang duren voordat tekst-naar-video het daadwerkelijke filmmaken bedreigt."

Lisa Lacy vanCNET noemde de voorbeeldvideo's "opmerkelijk realistisch - behalve misschien wanneer een menselijk gezicht van dichtbij verschijnt of wanneer zeedieren zwemmen".

Bron

Dit artikel of een eerdere versie ervan is een (gedeeltelijke) vertaling van het artikelSora (text-to-video model) op de Engelstalige Wikipedia, dat onder de licentieCreative Commons Naamsvermelding/Gelijk delen valt. Zie debewerkingsgeschiedenis aldaar.

Overgenomen van "https://nl.wikipedia.org/w/index.php?title=Sora_(tekst-naar-video-model)&oldid=69996771"

Categorieën:

[8]ページ先頭