În doar 20 de ore și doar cu ajutorul inteligenței artificiale am imaginat o lume în care specia evoluată este flamingo, în timp ce oamenii sunt o specie pe cale de dispariție.

Cum am făcut un scurtmetraj cu AIFoto: Generata cu Runway ML și Adobe Firefly (Editata de Adi Iacob)

Cum am ajuns să creez această lume distopică? Explic în continuare cum a fost competiția pentru care l-am făcut, cum am realizat scurtmetrajul, ce impedimente am întâmpinat, care a fost fluxul de lucru și ce instrumente am folosit. Dar mai întâi, aruncă o privire la scurtmetraj:

De curând am participat la Runway Gen:48 AI, un concurs de scurtmetraje realizate în totalitate cu ajutorul inteligenței artificiale.

Runway ML este una dintre companiile care a creat un instrument care te ajută să generezi video dintr-o imagine. Fiecare astfel de generare costă, în mod normal, un număr de credite care pot fi cumpărate din platformă: în jur de 3 credite pentru fiecare secundă de video generată, iar fiecare credit costă în jur de 0,1 dolari.

Pe timpul concursului, fiecare participant primea în cont 300.000 de credite și avea la dispoziție 48 de ore să realizeze un scurtmetraj între 1 și 10 minute. Tema nu a fost anunțată dinainte, ci chiar în ziua startului.

Și, surpriză: la ediția de anul acesta nu a existat o temă anume, ci a fost la libera alegere. Totuși, concurenții aveau de respectat câteva reguli: fiecare scurtmetraj trebuia să integreze dintr-o listă predefinită câte un personaj, o locație și un obiect.

Fiecare listă avea în jur de 12 opțiuni. De exemplu, din lista de personaje puteam alege:

  • un om de știință nebun,
  • un spirit răzbunător,
  • o creatură neînțeleasă,
  • un câine alintat.

Din lista de locații puteam alege între o grădină, un muzeu de artă sau o cabană în pădure, iar din lista de obiecte puteam alege o mașină de călătorit în timp, un televizor vechi sau un glob de cristal.

Tema și personajele

Ca temă am ales una din problemele actuale ale omenirii - încălzirea globală, însă am vrut să expun povestea dintr-un alt unghi decât cel uman. De aici am pornit pe ideea de a imagina o societate în care specia evoluată este flamingo, în timp ce oamenii sunt o specie pe cale de dispariție.

Din lista obligatorie de personaje, locuri și obiecte am ales să integrez:

  • personaj - un mentor înțelept
  • loc - un muzeu de artă
  • obiect - un televizor vechi

Scenariul

Am început să scriu povestea în jurul acestor elemente. Pe scurt, povestea începe cu amintirile unui flamingo - pe nume Fii - de când era tânăr. Primele imagini stabilesc cum arăta mediul în care trăia - casa, holul, camera personajului. Peste imagini se aude vocea mamei lui Fii care îl cheamă la masă: ”Fii, hai la masă dragule, e deja târziu”.

În timp ce ia masa cu familia, lui Fii îi atrag atenția știrile care se aud de la televizorul din bucătărie. Pe micul ecran se vede cum un oraș de flamingo este inundat. Știrea este prezentată în contextul în care inundația este un alt efect al încălzirii globale cauzate de poluare, pe lângă incendii de vegetație, risipă alimentară și producție excesivă de tehnologie.

În universul din film, o consecință explicită a încălzirii globale este că oamenii devin specie pe cale de dispariție.

Toate astea trezesc amintiri în mintea lui Fii. Prima este momentul în care, copil fiind, a văzut oameni pentru prima dată atunci când, de ziua surorii lui, părinții l-au dus în vizită la “Human Zoo”.

Mai departe, Fii își amintește cum profesorul de biologie - domnul Qaile - le prezenta, la școală, documentare despre oameni și alte specii în pericol de dispariție din cauza semenilor săi flamingo. Pe lângă jobul de profesor, domnul Q era un cunoscut activist de mediu care mai târziu îl atrage pe Fii în acțiuni de salvare a speciei umane. Cu timpul, profesorul îi devine mentor, iar Fii devine și el activist.

Anii trec și lucrurile se înrăutățesc. Următoarea scenă prezintă declarația unui politician care spune că poluarea este rea pentru mediu, dar bună pentru economie. Ulterior, pe ecran apare un alt politician care afirmă că încălzirea globală e doar o păcăleală și că ”nu este prea târziu”.

Aceste imagini introduc alte amintiri din memoria lui Fii: cele de când a devenit matur și a început să participe la protestele anti-poluare. Fii povestește cum se desfășurau aceste proteste. Toate aceste amintiri sunt completate de muzica alertă de pe fundal și de imagini cu efectele poluării asupra planetei.

Muzica se oprește brusc și ecranul devine negru. Din liniște, apare exteriorul unui muzeu de istorie naturală, urmat de cadre cu interiorul clădirii. Ultima imagine este cu Fii în postura de bunic alături de un pui de flamingo - nepotul său - căruia Fii povestește toate aceste amintiri. Ei se află la secția de specii eradicate, din muzeu, în fața unor oameni deveniți exponate.

FIlmul se termină cu întrebarea nepotului: ”Și ce s-a întâmplat bunicule?”

Ultima replică a lui Fii: “Era prea târziu”.

Instrumentele de lucru

Regulile spuneau că este obligatoriu să folosești platforma Runway ML ca să generezi video din imagini, însă nu și pentru generarea de imagini sau voci pe bază de text.

Ca să văd de ce este în stare AI-ul lor, am ales să generez aproape tot - imagini sursă, voci și video din imagini cu ajutorul platformei Runway. Doar unele dintre imaginile sursă le-am generat cu ajutorul Adobe Firefly.

Pe lângă asta, tot pe timpul concursului, o altă companie - Epidemic Sound - a oferit acces gratuit la platforma lor de muzică și efecte de sunet (licențiate).

Ok, deci avem cu ce genera imagini și voci, din imagini avem cu ce genera video, avem și o platformă pentru muzică, mai aveam nevoie de o idee și o modalitate de a edita toate astea într-un material video final.

Am ales să folosesc Premiere Pro și Photoshop din suita Adobe pentru că acolo mă mișc cel mai rapid, însă există mai multe variante gratuite și pentru asta. Ca o paranteză, aș pune pe locul doi Davinci Resolve, un program semi-gratuit de editare oferit de compania Blackmagic. Spun semi-gratuit pentru că software-ul are o varianta open în care poți face extrem de multe lucruri la fel ca și în Premiere Pro - însă exportul poate fi făcut doar în rezoluția 1920 x 1080; există și o variantă plătită care oferă mai multe instrumente și opțiuni de export în rezoluții 4K.

Tot în lista instrumentelor de editare aș adăuga CapCut - în care editează majoritatea TikTok-ărilor și ShotCut - un soft de editare video open source.

Provocările pre-producției

Primul impediment a fost că generarea imaginilor pe baza de text nu funcționează cum îmi imaginam inițial.

Deși platforma este perfect capabilă să genereze imagini cu o persoană în diferite ipostaze și imagini cu unul sau mai mulți flamingo, tehnologia nu a fost antrenată să genereze o creatură cu corp de om și cap de flamingo așa cum îmi imaginam eu în poveste.

Am ales să mă complic și am început să generez oamenii în ipostazele de care aveam nevoie. Separat, am generat capete de flamingo în pozițiile potrivite.

Mai departe am deschis Photoshop și, cu răbdare, am așezat fiecare cap de flamingo, pe fiecare corp uman, pentru fiecare scena din film.

Acesta a fost unul dintre cel mai cronofage procese pentru că uneori a trebuit să re-generez imagini pe baza de text cu flamingo pentru a se potrivi ipostazelor de care aveam nevoie. Aici Firefly s-a dovedit foarte util pentru că genera imagini pe bază de text, cu capetele de flamingo, în ipostaze sau unghiuri mult mai convenabile.

Mai departe, am început să generez, pe baza imaginilor, videoclipuri de câte 4 secunde. Și aici a fost un proces destul de greoi pentru că, de multe ori, AI-ul nu reușea să înțeleagă ce este, de fapt, în imagine. Pe lângă problemele obișnuite ale algoritmilor AI cum ar fi cele cu mișcarea mâinilor sau a gurii, uneori AI-ul separa ciocul de flamingo de restul capului sau obțineam mișcări prea bruște/nenaturale ale capetelor.

Tot cu răbdare am început să bibilesc fiecare imagine în parte cu instrumentele de pe platformă. Mai exact, softul permite separarea în straturi a imaginii și animarea individuală a acestora. De exemplu, am separat mâinile într-un strat și am setat parametrii să realizeze o mișcare verticală, în timp ce într-un alt strat am separat capul și am realizat o mișcare pe plan orizontal. Am reușit să obțin, astfel mișcări, mai naturale pe de-o parte, dar nu atât de animate pe de altă parte.

Post-producție

După ce am fost mulțumit de majoritatea segmentelor video de câte 4 secunde, le-am înșirat pe toate în programul de editare și am început să generez voci pe bază de text.

Simplu spus, Runway oferă mai multe tipuri de voci masculine și feminine din care poți alege cum vrei să sune personajele. Există și variante mult mai complexe. Unele îți permit să creezi propriile voci pe baza unor fragmente de înregistrări, iar altele îți permit să încarci un text citit cu ce intonație dorești, iar algoritmul se ocupă de schimbatul vocii păstrând intonația; un exemplu ar fi Eleven Labs.

Ce merită menționat în cazul meu este faptul că intonația putea fi schimbată în funcție de semnele de punctuație folosite.

Vrei o ca o replică să sune mai agresiv, folosește unul sau mai multe semne de exclamare. Vrei o pauză dramatică între cuvinte, folosește puncte de suspensie și tot așa. Uneori, funcționează din prima, alteori este nevoie de mai multe încercări.

Cu vocile terminate, le-am așezat peste bucățile video de câte 4 secunde. Mai departe, am ajustat fiecare cadru la lungimea necesară. Pe unele le-am scurtat, pe altele am folosit un efect de încetinire a videoclipului pentru a se potrivi cu povestea spusă de voci.

Următorul pas a fost să aleg muzica de pe Epidemic Sound. În cazul meu am avut nevoie de o melodie care să exprime suspans pentru prima parte a scurt-metrajului (partea cu amintirile personajului principal) și o melodie care să înceapă ușor și apoi să devină mai agresivă pentru a doua parte a filmului (sevențele cu proteste).

Peste stratul de voci și cel de muzică a am așezat componenta de sound-design. O etapă ignorată de mulți, care însă ajută privitorul să se conecteze mai adânc cu povestea. Mai exact, am început să identific ce sunete s-ar auzi în mod natural în scene.

Câteva exemple:

  • filmul începe cu imaginea exterioară a casei pe timp de noapte - am adăugat sunet de vânt.
  • familia mănâncă la masă - am adăugat sunete de tacâmuri care se lovesc de farfurii și zgomote de mestecat
  • în cadru apare un incendiu de pădure - am adăugat sunete de foc
  • cadrul prezintă imagini aeriene cu inundația dintr-un cartier de case - am folosit sunete de elicopter

La fel ca la script și compunerea de imagini, sound-designul se bazează pe imaginație. Același cadru poate exprima lucruri diferite cu ajutorul sunetului.

Culoarea predominantă a scurtmetrajului este, evident, roz (personajele fiind flamingo). La final, am trecut prin toate cadrele, am fost atent la gama de culori prezente în majoritatea imaginilor și am făcut o colorizare unitară pentru ca filmul final să nu pară făcut din imagini separate.

În total, am petrecut în jur de 20 de ore pentru a realiza produsul final. Timpul putea fi scurtat în diferite moduri, însă per total am vrut să testez mai multe posibilități oferite de inteligența artificială.

Detalii pe scurt

Runway și-a organizat competiția de creatori de scurtmetraje de 48 de ore în weekendul 3-5 februarie, unde scurtmetrajele trebuiau realizate după următoarele criterii:

  • toată lumea avea la dispoziție disponibile 48 de ore.
  • înscrierile pot fi individuale sau în echipă.
  • competiția a fost la nivel global
  • cel puțin 75% din film a trebuit să fie realizat folosind un instrument AI, iar tot ce ține de generarea de conținut video a trebuit generat cu ajutorul platformei Runway. Instrumentele externe pot fi utilizate pentru imagini sau videoclipuri sursă (de exemplu fotografii personale, videoclipuri personale, aplicația Midjourney, DALL-E, Adobe Firefly, Stable Diffusion, etc)
  • Durata filmului putea fi de minim 1 minut și maxim 10 minute.
  • juriul a analizat toate materialele trimise pe parcursul a 3 zile, din care o listă scurtă a fost publicată ulteriori. Ordinea finală a fost realizată cu ajutorul voturilor publicului.

Ce am folosit:

  • Generare de imagini pe bază de text: Runway și Adobe Firefly
  • Corectare de imagini: Photoshop
  • Generare de video pe bază de imagini: Runway ml
  • Muzică și sound effects: Epidemic Sound
  • Generare de voci pe bază de text: Runway
  • Montaj video: Premiere Pro

Este important de subliniat faptul că ce am explicat reprezintă o posibilă abordare a procesului creativ. Există multe alte moduri în care s-ar putea aborda o astfel de sarcina.

Echipa: Adi Iacob, Cristina Lazăr, Ovidiu Popica