OpenAI a anunțat marți o nouă funcționalitate majoră: utilizatorii ChatGPT pot acum genera imagini direct în interfața de chat, fără a mai comuta între modele sau platforme diferite. Noua capacitate vine în cadrul extinderii modelului GPT-4o, consolidând direcția companiei de a crea un model „omni”, capabil să gestioneze simultan sarcini textuale, vizuale și audio.
Sfârșitul DALL·E 3: GPT-4o preia complet funcționalitatea de generare a imaginilor
Această integrare marchează eliminarea modelului DALL·E 3 ca entitate separată. Lansat în septembrie 2023, DALL·E 3 a fost inițial apreciat pentru acuratețea sa în interpretarea comenzilor textuale, însă a fost rapid depășit de alternative precum MidJourney v6, Stable Diffusion 3.5 (SD 3.5), Flux sau Recraft.
GPT-4o, însă, aduce o abordare unificată: un singur model gestionează atât generarea de text, cât și crearea de imagini, folosindu-și baza de cunoștințe încorporată și contextul conversației pentru a produce vizualuri mai relevante și precise.
O demonstrație vizuală a capabilităților GPT-4o
Într-un videoclip demonstrativ, Sam Altman, CEO-ul OpenAI, a prezentat exemple variate ale noii funcționalități: pagini de manga explicând teoria relativității în engleză și mandarină, cărți de joc personalizate pe baza unor fotografii reale, monede comemorative combinate din imagini multiple, dar și o ilustrație detaliată bazată pe un prompt lung și complex.


























