Ik denk dat er geen twijfel over bestaat dat het IT-trefwoord dat de laatste tijd sterk in populariteit toeneemt, 'generatieve AI' is. En hoewel generatieve AI tot voor kort alleen maar vreemde dingen kon genereren en slechts een graptool was, lijkt het erop dat het de laatste tijd snel groeit.
Sinds ik ChatGPT onlangs voor het eerst heb gebruikt, zijn mijn redacteur NAO en ik allebei ondergedompeld in de wereld van generatieve AI, als een droge spons die water opneemt.
↓Dit is een artikel dat ik onlangs over ChatGPT schreef.
En vandaag, 2024 december 12, heeft OpenAI, de maker van ChatGPT, een nieuwe generatie AI-tools voor video aangekondigd, genaamd "Sora".
Klik hier voor OpenAI's "Sora."
Ik was er ook in geïnteresseerd en heb het meteen uitgeprobeerd. Ik had het gevoel dat dit een uitkomst zou kunnen zijn en ik wil het graag recenseren.
Het is goddelijk! Resultaten van de videogeneratie "Sora"
De onderstaande video is gegenereerd met behulp van "Sora". Ik denk niet dat het meer dan 5 minuten werk kostte.
Door slechts een heel eenvoudige opdracht te geven, konden we een video als deze maken.
- De handen van een vrouw die op een toetsenbord typt.
- Het gebaar van het oppakken en neerzetten van een kopje koffie.
Dit zijn de enige twee gegeven commando's.
De 5 seconden durende versie is bijna een exacte kopie. Ik ben zeer tevreden met de eerste resultaten, ze zijn erg goed.
De camera probeert bovendien de bewegingen van het onderwerp te volgen, wat een heel natuurlijk effect geeft.
- Handen van een vrouw die op een toetsenbord typt
- Het gebaar van het oppakken en neerzetten van een kopje koffie
- Vrouw verlaat haar stoel
In de 10 seconden durende versie maakt de robot alleen de beweging alsof hij de kop koffie probeert op te pakken, maar pakt hij de kop niet daadwerkelijk op. Hij deed ook geen enkele poging om van zijn stoel op te staan. Heb ik te veel opdrachten gegeven? De bewegingen zijn onzeker en stoppen net boven perfectie. Is dit een moeilijk onderdeel van een algoritme voor de lange termijn? Daar maak ik mij momenteel zorgen over.
Maar terwijl ik dacht dat het CG was, is het live-action. dit.
Ik vraag me af of hij foto's maakt?
De 10 seconden versie doet echter wel zijn best om mijn commando's te reproduceren, dus het is absoluut een generatieve AI. Het is verbazingwekkend.
ChatGPT+ kan video's genereren van maximaal 5 seconden lang, terwijl Pro video's kan genereren van maximaal 20 seconden lang.
Momenteel is "Sora" een functie die niet is opgenomen in de gratis versie van ChatGPT. Met ChatGPT+ kunt u tot 5 720-seconden, 50p-afbeeldingen per maand genereren, terwijl u met Pro tot 20 1080-seconden, 500p-afbeeldingen kunt genereren. afbeeldingen per maand. Het is zo geworden.
Het aantal keren dat het gegenereerd kan worden is prima, maar ik vond het wel een beetje vreemd dat de lengte van de video's die gemaakt kunnen worden beperkt is tot 5 seconden.
Kan ik TikTok gebruiken? Als ik het gebruik, kan ik in mijn omgeving video's van maximaal 10 seconden maken. Is het een proefversie? Ik hoop dat het zo blijft.
Video's bewerken met de tijdlijn
"Sora" van ChatGPT heeft een eenvoudige tijdlijn.
Als u op een willekeurige positie op de tijdlijn een opdracht maakt, wordt de resulterende video verplaatst in overeenstemming met de opdracht op die tijdpositie.
Met de 5 seconden-versie kunt u maximaal één actie uitvoeren, maar met de 1 seconden-versie van de Pro-versie kunt u een kort verhaal maken. *Eerlijk gezegd is 20 yen per maand niet haalbaar, maar aangezien het een open AI is, denk ik dat de lagere versie op een dag ook die specificaties zal hebben. En dat zal in de niet al te verre toekomst zijn.

Hierboven ziet u een tijdlijn van 10 seconden, waarbij we opdrachten aan drie verschillende plaatsen gaven om te testen hoe deze zouden worden weerspiegeld in de timing van de tijdlijn.
Imperatief:
- Een monnik die een vorm van Chinese vechtkunst (Tai Chi) beoefent.
- Plotseling werden ik van achteren aangevallen door drie vijanden.
- De monnik verslaat zijn tegenstander echter met indrukwekkende trappen en klappen en neemt vervolgens een houding aan.
↓Hier zijn de resultaten.
Wat is hier zo vreemd aan? De monnik danst wild, en halverwege de video doet de monnik een soort vliegende trap en ontketent iets dat lijkt op een hadouken uit Street Fighter II... Ik kon het niet laten om te lachen.
Natuurlijk is het nog maar net uitgebracht, dus er zijn nog beperkingen.
Ik wilde eigenlijk geen virale video maken...
Ik wil echter graag de vooruitgang in de technologie toejuichen, waardoor dit met live-action in plaats van CG kan worden gedaan.
Ondersteunt verschillende commando-methoden
Naast tekstopdrachten ondersteunt ChatGPT's "Sora" ookU kunt ook stilstaande beelden of video's uploaden en hen op basis daarvan een video laten maken.
Als u niet goed bent in het schrijven van gebiedende zinnen, is deze methode wellicht geschikt voor u.

We hebben de hulp ingeroepen van onze redactiemedewerker NAO om te kijken wat voor soort video we van haar stilstaande beelden konden maken. Eerdere generaties AI voor video's hebben tot rampzalige resultaten geleid, zoals verdraaide gewrichten...
Dat is heel natuurlijk. Er was geen sprake van beeldvervorming en de textuur leek wel alsof deze met een echte videocamera was opgenomen. Het hoofdschudden is geïmproviseerd, maar klinkt natuurlijk en moeiteloos. We hebben nog een patroon gemaakt, dit keer met een bewegende camera in een dynamischere video. De ogen waren echter te hard, als van een vos, dus hebben we het op haar verzoek geschrapt.
Ik heb ook geprobeerd om van een stilstaand beeld een video te maken.
↓De originele foto is hier.

Het commando is
- De camera draait langzaam om de foto te maken.
Alleen. En de resulterende video staat hieronder:
Het resultaat was een heel natuurlijke uitstraling. Er verschijnt een onbekende laptop naast je Macbook Air, maar dat is op zich logisch.
Het genereren van video's op basis van foto's lijkt goede resultaten op te leveren, wellicht omdat de ingezonden foto's een schat aan informatie bevatten. Dat is erg nuttig.
De resultaten zijn echter zo goed dat u zelfs foto's van uw gezin kunt gebruiken om er video's van te maken. Vervolgens kunt u met professionele videobewerkingssoftware een videorol maken.
Over 'conversie' gesproken: deze app lijkt videoconversie heel snel te verwerken.Een video van 5 seconden duurt minder dan een minuut.Dat is verbazingwekkend.
Ik denk dat het belangrijk is om niet, zoals bij de videogeneratie-apps van andere bedrijven, minutenlang naar het draaiende wiel te hoeven staren, als het gaat om vallen en opstaan.

Het filmpje van de monnik was eerder wat komisch, dus besloot ik de gebiedende wijs te verbeteren en ze langer te maken om te zien wat voor resultaten dat zou opleveren.
Hier is het commando:
- Een monnik (de hoofdpersoon) beoefent langzaam een vorm van Chinese vechtkunst (tai chi).
De achtergrond lijkt op een soort tempel. De monnik heeft een baard en een kaal hoofd. De camera draait om hem heen en laat zijn blik over hem heen glijden.
De lucht was gevuld met onweerswolken en regen, het weer was slecht en af en toe klonk er een donderslag. - Opeens kwamen er drie vijanden van buiten het scherm op me af. De monnik (het hoofdpersonage) wankelt nadat hij een klap van een vijand heeft gekregen, en de regen valt harder dan ooit.
- De monnik (het hoofdpersonage) verslaat echter één vijand met een enkele geweldige trap en poseert met gemak. De overige twee vijanden vluchten. En plotseling klaart de lucht op.


↓Hieronder ziet u een video van de gegenereerde resultaten.
Dit is vrijwel een mislukking. Doordat armen in mouwen veranderen en vlees beschadigd raakt, voel je wel de beperkingen van de technologie. Het had geen zin om gedetailleerde instructies te geven.
Ik denk niet dat het al op een niveau is dat het gebruikt kan worden in actiescènes met veel snelle bewegingen.
De textuur is echter goed.
Ik denk dat een meer statische video (zoals het toetsenbord dat ik je eerst liet zien) beter reproduceerbaar zou zijn.



En wat gebeurt er als dezelfde intensieve handeling met een machine wordt uitgevoerd? Met dit in gedachten besloot ik een video van een achtbaan te maken.
Hieronder staat de opdracht.
- Een achtbaan in Cosmo World in Yokohama Minato Mirai. Ik kijk omhoog naar de schreeuwende passagiers beneden.
Ik denk dat het een behoorlijk goede video heeft opgeleverd.
Er zijn wel wat haperingen, maar die storen mij niet zo heel erg. Ik denk dat het vooral afhangt van wat je maakt.
Ik vind de dynamiek van de camera ook leuk. Is de kwaliteit ervan geschikt voor videoproductie?
De open AI "Sora" is geschikt voor deze mensen
Ik heb geprobeerd om "Sora" te gebruiken, maar waar moet ik het eigenlijk gebruiken? Dat is het probleem. Het belangrijkste punt is hoe wij de limiet van 5 seconden ervaren. Als dat het geval is, voorspel ik dat dit in de volgende categorieën zal vallen:
1. Mensen die een groot aantal video's over Makuake etc. nodig hebben.
We konden bevestigen dat, zolang er stilstaande beelden werden gemaakt, er op een vrij natuurlijke manier video's konden worden gegenereerd. Ik wil mijn product laten zien in een crowdfundingvideo, maar ik heb er geen budget voor. Ik denk dat het wel geschikt zou kunnen zijn voor dat soort mensen.
2. Mensen die een virale video op TikTok willen maken
In mijn ervaring produceerde het deze keer onbedoelde video's, zoals een video van een monnik in opleiding.
Afhankelijk van de opdracht die je gebruikt, is het daadwerkelijk mogelijk om een grappige video te maken, en uit wat ik heb getest, lijkt het erop dat je maximaal 10 seconden kunt gebruiken (waarschijnlijk met een limiet op het aantal keren dat je het kunt gebruiken), dus waarom niet Probeer het eens en maak een grappig filmpje met de gegenereerde video?
3. Als gratis materiaal voor YouTube-video's
Wanneer u een YouTube-programma maakt, heeft u soms veel videomateriaal nodig.
Sora is goed in het maken van emotionele video's, dus ik denk dat de kans groot is dat YouTubers het in de toekomst ook gaan gebruiken.
Zwakke punten van de open AI "Sora"
Nadat ik "Sora" had gespeeld, had ik het gevoel dat het een groot potentieel had, maar ook dat er nog steeds een aantal gebieden zijn waar het verbeterd moet worden. Daarover wil ik hier graag schrijven.
1. Niet gelokaliseerd in het Japans
Dit is net uitgebracht, dus ik denk dat het snel opgelost zal zijn, maar omdat het niet in het Japans is gelokaliseerd, werd ik, die geen Engels leesbegrip heb, gedwongen om te werken zonder te begrijpen wat er geschreven stond. Het was pijnlijk. Wij verzoeken u om zo spoedig mogelijk een oplossing te vinden.
2. Er zijn beperkingen aan de reproduceerbaarheid van opdrachtverklaringen.
Zelfs als je instructies geeft met relatief eenvoudige opdrachten, betekent dit niet automatisch dat je ook goede resultaten krijgt.
Er lijkt een grens te zijn, vooral als het gaat om actiescènes met veel beweging.
3. Kan alleen worden gebruikt vanaf ChatGPT+
Met de "Pro"-versie die OpenAI onlangs aankondigde, lijkt het erop dat de plannen in de toekomst verder worden onderverdeeld.
Zelfs de goedkoopste + kost ongeveer 3,000 yen, dus ik ben een beetje bang om te zien hoe ze hun strategie in de toekomst gaan ontwikkelen.
Wanneer zal "Sora" beschikbaar zijn in de gratis versie van ChatGPT? (De auteur voorspelt volgend jaar.)
Media- en gebruikersrecensies
Hieronder vindt u enkele recensies van media en gebruikers die "Sora" daadwerkelijk hebben gebruikt.
- Sora is relatief goed in het creëren van realistische en CG-achtige texturen, maar lijkt minder goed in het maken van video's die op Japanse anime lijken. Ongeacht de stemming, was er een tendens dat de beelden minder consistent werden naarmate ze langer werden.
bron:IT-media- Fouten in de weergave van fysieke eigenschappen (bijvoorbeeld moeite met het weergeven van brekend glas)
Fouten in composities met complexe bewegingen van meerdere onderwerpen (bijvoorbeeld bewegende objecten die veranderen in dieren of mensen)
bron:WIEL- OpenAI heeft zijn geavanceerde AI-videomodel "Sora" aangekondigd. De kwaliteit van de beelden wordt omschreven als 'krankzinnig'.
bron:X- Wat mij het meest heeft geïmponeerd, is de nieuwe en uitstekende UI/UX storyboardfunctie. Ik denk dat dit in de toekomst de standaardaanpak voor het genereren van video's zal worden. Andere goede kenmerken zijn de gedetailleerde lay-out van de knoppen en de manier waarop Explorer wordt gebruikt. Ik vind het indrukwekkend.
bron:X- Tot slot wil ik nog even kort ingaan op een ander kenmerk: blending. Je kunt blenden zien als het geven van twee scènes aan Sora en hem een nieuwe scène laten maken die consistent is met beide scènes.
bron:nota
De recensies zijn verdeeld, maar aangezien het spel nog maar net is uitgebracht, ben ik optimistisch dat de negatieve meningen op termijn zullen verdwijnen.
Wat mij zorgen baart, is dat de afhandeling van het portretrecht onduidelijk wordt. Met CG zou het geen probleem zijn, maar het genereren van een live-action personage met behulp van AI lijkt een overtreding van bepaalde wetten te zijn. De kwaliteit is nog niet op dat niveau en het is dus lastig te beoordelen. We moeten er echter rekening mee houden dat zoiets in de toekomst wel kan gebeuren.
Samenvatting: Maak meerdere korte video's en zet ze samen met behulp van Premiere etc.
Hoewel er wat kwaliteitsverschillen zijn, is Sora een open AI-videogeneratie-app die absoluut een grote stap voorwaarts is.
Als iemand die in de videoproductie werkt, heb ik het gevoel dat AI van de videogeneratie in de toekomst een prominente rol zal gaan spelen in de wereld van videoproductie.
Het verrassende is dat er een tijdlijn is.
Als de lengtebeperking zou worden opgeheven en functies als knippen, overvloeien en ondertiteling toevoegen zouden worden toegevoegd, denk ik dat dit een werkelijk nuttige app voor videobewerking zou worden.
U kunt nu al meerdere korte video's van 5 seconden maken en deze vervolgens in Adobe Premiere of een vergelijkbaar programma aan elkaar koppelen tot één enkele sequentie.
dat klopt. Op dit moment is het al een bruikbaar hulpmiddel.
Ter referentie heb ik hieronder een opvallende video gemaakt voor de homepage van de blog.
Het zijn drie clips die aan elkaar zijn geplakt in Adobe Premiere. ↓
Je kunt op deze manier een lange reeks maken.
Deze methode kun je ook voor werk gebruiken.
Deze app is echter duidelijk geschikt voor sommige mensen en niet voor anderen, maar kan wel bruikbaar zijn voor video's die meer statisch van aard zijn. Als dit zich zo blijft ontwikkelen, denk ik dat er een tijdperk aanbreekt waarin oude idolen nieuw leven wordt ingeblazen en waarin iedereen zijn eigen virtuele idolen kan creëren.
In de toekomst van videoproductie is het misschien niet langer nodig om met een camera te filmen en beelden te maken.