100%-os pontosság az AI alapú képalkotásban, bemutatkozik a Nano Banana
- Dobránszky Zoltán
- 1 nappal ezelőtt
- 4 perc olvasás
Már hetek óta lázban tartotta az AI közösséget az új generatív képszerkesztő, a Nano Banana. Pár napja fedték fel, hogy a név a Google Gemini 2.5 Flash Image-t takarja. Ez a szoftver olyan kulcs funkciókat tud, amik eddig meggátolták az ilyen szoftverek professszionális környezetben való használatát de úgy tűnik ennek most vége. Bemutatom a generatív képgenerálás új szupersztárját.
Először is, hol található a szoftver. A Google AI eszközök között, erre a linkre kattintva: https://aistudio.google.com/ Itt ki kell választanunk a jobb oldalon a lenyílóból a Nano Banana-t és meg is vagyunk. Lehetséges képeket feltölteni, generálás limitációval nem találkoztam. Egyedüli probléma az elkészült képek kis felbontása de Gigapixel AI-al pillanatok alatt felskálázhatjuk őket. Erről a programról ebben a cikkben írtam.
Nézzünk akkor pár gyakorlati példát, ahol egyből kijön a model ereje. Biztos nálatok is sokszor felmerült, hogy valaminek a színét le kéne cserélni, át kéne festeni. Ez Photoshopban rettentően bonyolult, pláne ha összetett alakzatról van szó, nem professzionális géppel készült a kép, stb. Most a példánkban egy autót fogunk átfényezni és elhelyezni egy logót rajta.

Ebből a két feltöltött képből kértem, hogy fesse át a kocsit fehérre és tegye rá a 3D alakzatot a motorháztetőre és az első ajtóra. Ez lett a végeredmény:

Látható, hogy minden részletet megőrzött az eredetiből, pontosan azt a képet festette fel a kocsira amit megadtam neki, semmit sem hallucinált be, minden autó ugyanaz a háttérben, egyezik a rendszám, pixel pontos a végeredmény. Az autó oldalán lévő képet érdemes megnézni, mennyire tökéletesen illeszkedik bele a fényviszonyokba.
Ezután azt kértem, hogy az autó egy angol veteránautó találkozón látszódjon, egy nagy kastély előtt, íme:

Ezt is tökéletesen oldotta meg. Az autón a fényezést érdemes megnézni, követi a szabadtéri fényviszonyokat. Az ablakain átnézve is stimmel a háttér.
Második példánk A Várkert Bazárba kalauzol minket. Ingatlanfejlesztőknél előfordul, hogy le kell dózerolni egy meglévő épületet és meg kell nézni mi lenne ha épp nem lenne semmi az épület helyén. Tessék:


A promt simán annyi volt, hogy szedje le a fő épületet a képről. Fotorealisztikus végeredmény, azonnal küldhető az ügyfélhez.
A vicc kedvéért áthelyeztem a Várkert Bazárt a Central Parkba is.

Egy másik épületnél nemcsak dózert, hanem cserét is kértem. Épület tervezésnél ez mindennapos feladat és nagyon munkaigényes megcsinálni. Ez volt az eredeti két feltöltött kép:

Ebből pedig ez lett:

Újfent 100%-ig megtartotta az eredeti környezetet és beleszerkesztett egy stílusában tökéletesen olyan házat amit megadtam neki. Az ablakok, a tető, a színek, a felhasznált anyagok mind stimmelnek.
Majd ezután azt kértem tőle, legyen az épület 3 szintes, tüntesse el azt a belógó bokrot a jobb oldalról és legyen egy Racing Green Porsche 911 is a ház előtt, íme:

Feliratokkal is elképesztő dolgokat tud a Nano Banana, itt van egy példa, ahol egy francia fehérjepor márkáját és a termék nevét kértem, hogy írja át erre a csomagoláson: "Skytec Amino" (tudom, hogy Scitec az eredeti :) Kértem, hogy őrízze meg a betűtipust is:

Érdemes megnézni az Amino O betűjét, hogy leköveti a csomagolás deformációját is.
A következő példában színkorrekciót (color gradinget) csinálunk. Ezt is jellemzően eddig nem voltak képesek az eddigi AI modellek megcsinálni, mert folyton belenyúltak az eredeti képbe, eltűnt ez vagy az vagy megjelentek új dolgok. Nem a Gemini-nél. Itt az alap kép:

Ezt a szép magasparti kilátást szerettem volna ha "megfényeli" Amelie Csodálatos Élete hatásúra. Azt is mondtam neki, hogy legyen naplemente. Plusz kértem, hogy egy padot is tegyen oda a fűre.

Ezután jött a már szokásos, legyen a kép egy Monet festmény, amit kb mindenki kipróbál. Pár részlet a végeredményből:

Utolsó példánkban pedig az Epic Consulting logó alapján kértünk egy terméket, majd ebből egy weboldalt. A termék egy HiFi hangszóró lett, ami követi a logó színvilágát, komolyságát. Azt már megemlíteni sem érdemes, hogy pixelpontosan jelenítette meg a képen a logónkat:

A weboldalon pedig még a hangszóró hátulját is láthatjuk a Tech Specs résznél, azon felül, hogy kitalálta az összes szöveget hozzá azonnal, pedig azt nem is kértem tőle.

Ez alapján látható, hogy a Gemini 2.5 Flash ezekben a feladatokban egyedülálló szintet képvisel az AI képgenerálók között. Soha sem látott konzisztencia akár több iteráción keresztül, 100% pixelpontosság. Ettől függetlenül még van pár olyan feladat amivel egyáltalán nem tud megbírkózni, például nem tud kivágni és átlátszó háttér elé tenni elemeket, nem tud átméretezni és kitölteni, nincsenek layerek, képarányok, stb. Tehát nem lett instant Photoshop killer. Persze ahogy a dolgok haladnak, pár éven belül már szinte egyáltalán nem lesz szükség sem Photoshopra sem grafikusra úgy ahogy ma azt megszokhattuk. Vagy lesz grafikus de merőben más workflow-t fog használni mint most.