.mesterséges_intelligencia

Màu nền
Font chữ
Font size
Chiều cao dòng

Sziasztok! 

Szerintem a következő bejegyzés már szerkesztés lesz (aztán még a designer látást fogjuk javítani a fontokkal és színekkel, de az később, egyelőre nincs szükség rá).

Nem akartam kihagyni ezt a posztot, kiváltképp, hogy az AI egyre nagyobb teret nyer napjainkban, oh és fog még! Ez egy nagyon sokrétű kérdés, amiben nagyon sokféle vélemény létezik, nem is akarok olyan nagy mélységekbe belemenni. 

Szerintem többségetek már találkozott AI képgenerátorral, és örült, hogy mennyi minden megvalósítható benne. Pont ezért próbálok most konyhanyelven beszélni ezekről a képgenerátorokról, hogy megértsétek hogyan működik és mit is használ tanuláshoz. Itt most nem ördögűzés lesz, nem szeretnék senkit sem befolyásolni, ez az én véleményem lesz (de az is csak a végén, jelölni fogom, hogy akit nem érdekel, annak nem kell elolvasnia). 

Alapvetően az AI szerintem nem egy rossz dolog. Ha az ember megtanulja megfelelően használni, rengeteg mindenben segíthet. Legtöbbet én programozáshoz szoktam használni, mikor már istennek nem találom a hibát, és akkor megkérem, hogy nézzen rá. És az ilyeneket tök jól kiszűri, úgyhogy szerintem tudná nagyon is megkönnyíteni a munkát, csak tényleg megfelelően kell használni. 

A képgenerátorokat is megfelelően kell kezelni. Szerintem ihletadásra, és magán célra használt képalkotásra tud jó lenni, mondjuk ha pl.: kell egy kis motiváció, így nézel egy jelenetet a történetedhez, vagy egyszerűen nincs ihleted, és dob fel valami jó ötletet borítóhoz, amit aztán külön megvalósítasz. Vannak jó dolgai ezeknek a képalkotóknak. De ne felejtsük el, hogyan is generál képet. 

Hogyan alkotnak az AI képalkotó programok? 

Mint az emberek. Mi a minket  körülvevő látványból, tapasztalatokból alkotunk. A generatív AI is rengeteg információt tanul meg szavak és képek formájában, és ezeket felhasználva generál képeket.

A technológiát, amely ezt lehetővé teszi, neurális hálózatnak nevezik. A neurális hálózat egy matematikai rendszer, amely mintákat azonosít a nagy adathalmazokban. Amikor egy AI-t  arra utasítunk, hogy rajzoljon egy fát, akkor a fák kinézetéről tanult információk alapján egy új képet hoz létre. És még tovább finomíthatjuk az eredményt – például hogy rózsaszín fenyőfát vagy trópusi virágoktól roskadozó fát ábrázoljon a képen. 

Technológiák: 

❖ Szövegértés NLP használatával: Az AI képgenerátorok megértik a szöveges utasításokat egy olyan folyamat segítségével, amely a szöveges adatokat gépbarát nyelvre fordítja le - numerikus ábrázolásokra. Ezt az átalakítást egy természetes nyelvi feldolgozási (NPL) modell kezdeményezi.

Ez a mechanizmus átalakítja a bemeneti szöveget magas dimenziós vektorokká, amelyek rögzítik a szöveg szemantikai jelentését és kontextusát. A vektorok minden koordinátája a bemeneti szöveg egy külön attribútumát képviseli.

Vegyünk egy példát, ahol a felhasználó beírja a "piros alma a fán" szöveges üzenetet egy képgenerátorba. Az NLP modell ezt a szöveget numerikus formátumba kódolja, amely rögzíti a különböző elemeket – "piros", "alma" és "fa" – és a köztük lévő kapcsolatot. Ez a numerikus ábrázolás navigációs térképként működik az AI képgenerátor számára.

❖ Transzformer modell: Egy olyan architektúra, amely megérti és feldolgozza a különféle típusú információkat. Kiválóan alkalmas annak meghatározására, hogy az információ több bitje hogyan kapcsolódik egymáshoz, például hogyan kapcsolódnak össze egy kifejezés különböző szavai, vagy hogyan illeszkednek egymáshoz a kép különböző részei. 

Úgy működik, hogy az információkat apró darabokra bontja, majd egyszerre megvizsgálja az összes összetevőt. Olyan, mintha számos kis robot együttműködne az adatok megértésében. Ezután, miután mindent tud, újra összeállítja az összes komponenst, hogy választ adjon.

Ez a modell alkalmaz egy figyelem-mechanizmust, ez egy olyan módszer, amely lehetővé teszi, hogy a modell különböző bemeneti szekvencia szegmensekre koncentráljon, megvizsgálja az összefüggéseket és abból rangsoroljon információt.

pl.: DALL-E

❖ Diffúziós modell: A gépi tanulás generatív modelljei, amelyek új adatokat, például képeket vagy hangokat hoznak létre a betanított adatok utánzásával. Fokozatosan zajt adnak az adatokhoz, majd megtanulják, hogyan fordíthatják meg új, hasonló adatok létrehozásához.

Gondoljatok a diffúziós modellekre mesterszakácsokként, akik megtanulnak olyan ételeket készíteni, amelyek ugyanolyan ízűek, mint amilyeneket korábban kipróbáltak. A séf megkóstol egy ételt, megérti az összetevőket, majd elkészít egy új ételt, amely nagyon hasonló ízű. Hasonlóképpen, a diffúziós modellek olyan adatokat (például képeket) hozhatnak létre, amelyek nagyon hasonlítanak azokhoz, amelyeken betanították őket.

A Stable Diffusion egy mély tanulású, szöveg-képalkotó modell, amelyet 2022-ben adtak ki, diffúziós modell technikák alapján. Nyiltforráskódú.

Variációs önkódolók (VAE): A variációs önkódoló két neurális hálózatból áll, amelyek együtt dolgoznak, és mindkettőnek más-más feladata van. Az egyik egy kódoló, amely információkat fogad, a másik pedig egy dekódoló, amely képes újraértelmezni ezt az információt bármilyen új tartalommá. A GAN-okhoz hasonlóan fotórealisztikus képeket generálnak.

Stable Diffusion része. 

❖ Generatív adverzariális hálózatok (GAN): A GAN-ok két, azonos adatokon betanított neurális hálózatból (generátor-diszkriminátor) állnak, amelyek együttműködve fejlődnek. Az egyik egy fotórealisztikus képet generál, a másik pedig megpróbálja kitalálni, hogy a kép valós vagy mesterségesen létrehozott. Például az első hálózat létrehoz egy lovat ábrázoló képet, a második pedig megpróbálja megállapítani, hogy fényképről vagy digitálisan generált tartalomról van-e szó. A rendszer így önmagát fejleszti, és egyre valósághűbb képeket alkot.

A folyamat akkor tekinthető sikeresnek, ha a generátor meggyőző mintát készít, amely nemcsak megtéveszti a diszkriminátort, hanem az emberek számára is nehezen megkülönböztethető.  Ahhoz, hogy a diszkriminátor hatékonyan értékelje a generált képeket, referenciával kell rendelkeznie.

pl.: ArtBeeder

Ezek a technológiák nem feltétlenül különülnek el egymástól.

Ami a lényeg igazából, hogy az AI egy meglévő adatbázissal dolgozik, abban szerepelnek olyan képek, akiknek művésze adott engedélyt rá, és van olyan, amire nem. De mivel az AI ezekből a képekből rak össze valami újat, "egyedit", így lehetetlen megmondani, hogy miből alkotott. 

Na de ezek után, mi a baj az AI képekkel?  

szerzői jog

A nagy kérdés: kié a kép? 

Magáé a mesterséges intelligenciáé?

Programozóé vagy a mesterséges intelligencia cégé?

A művészeké, akiknek képéből épült az új? 

Esetleg azé, aki azt a pár szavas promtot bepötyögte a gépbe? 

Mai napig nem született ebben törvény (mondjuk érthető okokból, míg egy rajznál adott ki az alkotó, itt?), nem véletlenül nagyon sok művész nem támogatja az AI-kat, hiszen beleegyezés nélkül használnak legtöbbször képeket. 

Amúgy elvileg lelhetőek fel olyan AI képalkotók, amelyek commercial use képet is alkotnak. A DALL-E-ről tudok, hogy ilyen.  

❖ Jövedelem- és foglalkoztatás

Erre van egy jó példám. 

Colorado State Fair 2022. augusztusi digitális művészeti versenyén nyert egy kép (Théâtre d'Opéra Spatial), méghozzá egy olyan kép, ami AI-jal volt készítve. Most hogy fair vagy nem fair, arról ne beszéljünk.

Az AI gyors, viszonylag szép képet ad, sok program ingyenes és le tud utánozni bármilyen stílust, ezzel sok művész elől elvéve a lehetőségét, vagy éppen ha valaki XY művésztől akar, de nem fizeti meg, csak megkéri az AI-t, hogy alkosson olyan stílusú képet. 

Megtévesztés & hírnévrontás

Olyan manipulációk, ahol Trumpot letaróztatják vagy a Pentagont támadás éri, Ferenc pápa pufi kabátban sétál, és stb. Mind deepfake-k, amiket egyre nehezebb megkülönböztetni a valóságtól.

Hírnévrontás esetén akár a stílus által felismert művészt vagy akár aki a képen megjelenik anna a presztizsét ronthatják. 

De vannak jó dolgai is az AI művészetnek

Olyan kutatási módszereket hoztak létre, amelyek mesterséges intelligenciát használnak a digitális művészeti gyűjtemények kvantitatív elemzésére. Bár az elmúlt évtizedekben a műalkotások nagyszabású digitalizálásának fő célja e gyűjtemények hozzáférhetőségének és feltárásának lehetővé tétele volt, az AI használata elemzésükben új kutatási perspektívákat hozott. 

Emellett a generatív mesterséges intelligenciát a képalkotáson túl a videojáték-gyártásban is használják, különösen pályatervezéshez, térképekhez, és új tartalmak (pl. küldetésekhez, párbeszédekhez), de megjelentek már hangok és hátterek, interaktív történetek generálásában is.

Azért akartam ezt elmesélni, mert nekem sokat segített megérteni az AI képalkotást, ezek után sokkal tudatosabban használom az AI-t. 

>>> Idáig tartott az objektív rész <<<

>>> Véleményem következik, az olvassa el, akit érdekel <<<

Most hogy túl vagyunk a sallangon, mire akarok kilyukadni? Magáncélra teljesen oké használni az AI-t, de sajnos, megjelent a piacon is, nem egy könyvet tudnék felsorolni, aminek AI borítója van. Nem egy pályázaton vettem részt, ahol AI borítók nyertek, és azt valahol nem érzem fairnek azokkal a művészekkel szemben, akik órákat áldoznak egy-egy képükre, miközben valaki beír fél perc alatt három szót a programba és rádob egy feliratot (és mivel mások képeiből épít az AI, így pofám sem lenne hozzá, de hát kinek mi)(btw, az még kevesebb idő, mintha keresne egy stockot és rakna rá egy szöveget).

Nem mondom, én is kipróbáltam az AI-t, számomra nagyon szimmetrikus (az ember egyszerűen nem ilyen tökéletes és smooth) képeket alkot, másrészt a hajjal, szemekkel, de legfőképp kezekkel, ujjakkal nagy gondjai vannak, bár látom, hogy egyre inkább fejlődik ezekben is, és végezetül nehéz mókolni a képet, márpedig mindig kell általában egy utómunka rá. De nem mondom, hogy nem érteném meg, hogy miért használják az emberek, meg ahogy fentebb említettem egy-egy jelenetre, ihletre és motivációra tök jó. Ez a jövő, és egyre jobb és jobb lesz, jól együtt lehet vele működni a hétköznapi munkák során. 

De képalkotás terén nem támogatom, mikor már nem magadnak alkotsz vele (ha publikus egy sztori és ahhoz készült, onnantól már van egy közönség is). 

Kinek mi a véleménye? Mire használja? Egyáltalán mely programokat? 

Bạn đang đọc truyện trên: Truyen2U.Pro