Hogyan működnek a mesterséges intelligencia alapú képgenerátorok?

dr. Miklós Péter Dátum Legutoljára frissítve: 2023.10.03

Olvasási idő: 4 perc


Ez a tartalom 291 napja jelent meg, lehetséges, hogy az itt szereplő információk már nem aktuálisak. Legfrissebb tartalmainkat itt érheti el.

Napjainkra már számos mesterséges intelligencia – rövidített néven: MI – alapú rendszer létezik, köztük a művészet, irodalom, tudomány és zene területén alkotásokat létrehozó rendszerek is. Az alábbiakban a mesterséges intelligencia által generált alkotásokat mutatjuk be, amelyek mély tanulási algoritmusokat használnak a képek létrehozásához.

A mesterséges intelligencia egyik részhalmaza a gépi tanulás, amelynek a segítségével a számítógépek képesek az egyes adatok közötti összeköttetéseket létrehozni, ezen összeköttetéseket elemezni, ezek alapján következtetéseket vonnak le és általánosításokat fogalmaznak meg. Tehát a gépi tanulási algoritmusok lehetővé teszik a mesterséges intelligencia alapú rendszer számára, hogy az adatokat ne csak feldolgozza, hanem további programozás nélkül a tapasztalatokból tanuljon.

A gép tanulás fő típusai közé sorolható:

  1. a felügyelt tanulás: ennek során a gépet példák útján tanítják, tehát a megtanulandó feladat pontosan meg van határozva a már meglévő adatok alapján,
  2. a felügyelet nélküli tanulás: ebben az esetben a gépnek már nincsenek megadva a megoldások, így önállóan kell az adatokban összefüggéseket keresnie, valamint
  3. a mélytanulás (deep learning), amely az adatforrások szélesebb körét képes feldolgozni és gyakran sokkal pontosabb eredményeket tud létrehozni, annak ellenére, hogy ez kevesebb emberi előfeldolgozást igényel.

A mesterséges intelligencia által támogatott alkotások emberi beavatkozással és/vagy irányítással jönnek létre. Tehát ezen alkotásokat az ember hozza létre MI alapú rendszerek segítségével. Ilyen például a DeepL, amelyet szövegfordításokra lehet használni.

A mesterséges intelligencia által generált alkotások pedig emberi beavatkozás nélkül előállított eredményt jelentenek.

Ilyenkor a MI a műveletek során a viselkedését megváltoztathatja annak érdekében, hogy reagáljon a váratlan eseményekre vagy információkra.

Tehát a mesterséges intelligencia alapú képalkotó programok mélytanulási algoritmusokat használnak a képek létrehozásához. A programnak utasításokat (úgynevezett: „prompt”-okat) kell megadni annak érdekében, hogy milyen képet szeretnénk, hogy készítsen. Miután megadjuk a kulcsszavakat, ezek eljutnak egy távoli számítógépes központba. Az ott található nagy teljesítményű eszközön a gépi tanulási algoritmusokat használó szoftverek óriási adatbázisokat vizsgálnak meg pillanatok alatt azért, hogy összeállítsanak egy egyedi képet.

Előfordulhat azonban az, hogy a platform félre értelmezi az utasításokat és ezen a módon egy teljesen torz képet kapunk, amely meg sem közelíti azt, amit mi szerettünk volna. Ennek kiküszöbölése érdekében célszerű a parancsokat/utasításokat minél pontosabban leírni. Ezenfelül akik tapasztalt képgenerátor használók, azon személyek általában olyan kulcsszavakat képesek már használni, amelyek a program számára ismertek.
Tekintettel arra, hogy a mesterséges intelligencia képgenerátor a deep learning alapjain nyugszik, ezen programok mára már oly mértékben fejlettek, hogy nem csak a képen szereplő tárgyat vagy alanyt képesek felismerni, hanem annak pozícióját, tömegét, színét és arányait is képes értelmezni és implementálni.

A képalkotás folyamata

Ezt követően felmerülhet azon kérdés, hogy mely szakaszai vannak a mesterséges intelligencia alapú képgenerátor képalkotási folyamatának?

A létrejövő képinformációs adathalmaz és a hozzá tartozó gépi tanuláson alapuló kiegészítő információk metszete hozza létre a kép végső minőségét. Ezen folyamat három szakaszból áll. Először színek felismerése jön létre, amelyeket a formák felismerése követ 2 dimenziós térben, majd az arányok és a fények elhelyezésével zárul. Ezen folyamat kiad egy MI modell számára sok dimenzióban létező nézetet, majd a megszámlálhatatlan alapot ötvözve létrejön a végső egységes kép.  Tehát ahogyan fentebb is említettem, minél pontosabban és szofisztikáltabban adja ki a parancsot a felhasználó, akkor annál kedvezőbb eredményt (képet) kap.

A képgenerátor számára hatalmas képi adatbázis áll rendelkezésre, amely alkalmas arra, hogy megtalálja a program a leginkább összeillő elemeket, amelyek megfelelnek a beviteli utasításoknak. Emellett a kiválasztott képekből folyamatosan tanul (deep learning alapok miatt) és ennek megfelelően a már ismert paraméterek alapján egyfajta tudást halmoz fel, amellyel a későbbiekben dolgozni fog. Tehát úgymond egyre inkább olyan képeket tud alkotni, amelyek életszerűek és megfelelnek a beviteli utasításoknak.

Képgenerátorokhoz példaként sorolható:

  1. deepAI,
  2. Vance AI,
  3. Dalll-E2, valamint a
  4. Deep Dream Generátor.