Google a început implementarea accesului privat la modelele sale generative AI Veo și Imagen 3, disponibile pentru utilizatorii pachetului Vertex AI Google Cloud. De astăzi, clienții pot utiliza Veo pentru a genera videoclipuri pornind de la texte sau imagini, iar începând de săptămâna viitoare, Imagen 3, modelul de ultimă generație pentru transformarea textului în imagini, va fi disponibil pentru aceiași utilizatori.
Veo: Primul model de tip imagine-în-video oferit de un furnizor major de cloud
Google se laudă că este primul furnizor cloud la scară largă care oferă un model AI capabil să transforme imagini în videoclipuri. Spre comparație, modelul Sora al OpenAI este accesibil momentan doar pentru artiști, cercetători și academicieni selectați, dar compania promite noi demonstrații de produse începând cu 5 decembrie.
Veo produce clipuri video 1080p, cu o durată de peste un minut, care sunt „consistente și coerente”, conform Google. Instrumentul funcționează atât pe baza comenzilor text, cât și a imaginilor, acestea putând fi generate fie de AI, fie de creatori umani.
Totuși, demonstrațiile furnizate de Google evidențiază unele limitări ale modelului. Într-un exemplu cu prăjituri marshmallows la foc de tabără, procesul de prăjire nu este redat realist – dulciurile nu capătă nuanțe aurii sau nu se ard. De asemenea, artefactele vizuale, cum ar fi detalii greșite ale mâinilor în alte clipuri, rămân o provocare.