Miért hoznak nagy változást a kis modellfejlesztések?
Az a verseny, hogy a lehető legnagyobb mesterséges intelligencia modellt építsék meg, a csökkenő hozadék falába ütközik. Bár a hírek gyakran a trilliónyi paraméterrel rendelkező hatalmas rendszerekre fókuszálnak, az igazi fejlődés a háttérben zajlik. A kis fejlesztések abban, ahogyan ezek a modellek feldolgozzák az adatokat, óriási változásokat idéznek elő abban, mire képes a szoftver a mindennapokban. Már nem a nyers skálázhatóság az egyetlen mérőszám. Ma már arra koncentrálunk, mennyi intelligenciát tudunk bezsúfolni egy kisebb méretbe. Ez a váltás mindenki számára elérhetőbbé és gyorsabbá teszi a technológiát. Már nem egy nagyobb agy építéséről van szó, hanem arról, hogy a meglévőket sokkal nagyobb hatékonysággal működtessük. Amikor egy modell tíz százalékkal kisebb lesz, de megőrzi a pontosságát, az nemcsak szerverköltséget takarít meg, hanem olyan alkalmazások egész kategóriáját teszi lehetővé, amelyek korábban a hardverkorlátok miatt lehetetlenek voltak. Ez a váltás a legfontosabb trend a technológiai szektorban, mert a fejlett számítási teljesítményt a hatalmas adatközpontokból a tenyerünkbe helyezi át.
A „nagyobb jobb” korszak vége
Ahhoz, hogy megértsük, miért számítanak ezek az apró finomítások, meg kell néznünk, mik is azok valójában. A legtöbb fejlődés három területből ered: adatkurálás, kvantálás és építészeti finomítások. Sokáig a kutatók azt hitték, hogy több adat mindig jobb. Az egész internetet lekaparták és gépekbe táplálták. Most már tudjuk, hogy a kiváló minőségű adat sokkal értékesebb, mint a puszta mennyiség. Az adatkészletek tisztításával és a redundáns információk eltávolításával a mérnökök kisebb modelleket képezhetnek ki, amelyek felülmúlják nagyobb elődeiket. Ezt gyakran tankönyvi minőségű adatnak nevezik. Egy másik fontos tényező a kvantálás. Ez az a folyamat, amely csökkenti a modell által a számításokhoz használt számok pontosságát. A nagy pontosságú tizedesjegyek helyett a modell egyszerű egész számokat használhat. Ez úgy hangzik, mintha elrontaná az eredményeket, de az okos matematika lehetővé teszi, hogy a modell majdnem olyan okos maradjon, miközben a memória töredékét igényli. Ezekről a technikai váltásokról többet olvashatsz a QLoRA-ról és a modell-tömörítésről szóló legújabb kutatásokban.
Végül ott vannak az olyan építészeti változások, mint az „attention” mechanizmusok, amelyek a mondat legrelevánsabb részeire összpontosítanak. Ezek nem hatalmas átalakítások, hanem finom matematikai beállítások, amelyek lehetővé teszik a rendszer számára, hogy figyelmen kívül hagyja a zajt. Ha kombinálod ezeket a tényezőket, olyan modellt kapsz, amely elfér egy szabványos laptopon, ahelyett, hogy egy szobányi speciális chipre lenne szüksége. Az emberek gyakran túlbecsülik a hatalmas modellek szükségességét az egyszerű feladatokhoz, és alábecsülik, mennyi logika sűríthető néhány milliárd paraméterbe. Azt látjuk, hogy a „elég jó” a legtöbb fogyasztói termék esetében szabvánnyá válik. Ez lehetővé teszi a fejlesztők számára, hogy okos funkciókat integráljanak az alkalmazásokba anélkül, hogy előfizetési díjat kellene kérniük a magas felhőköltségek fedezésére. Ez alapvető változás abban, hogyan építik és terjesztik a szoftvereket.
Miért számít többet a helyi intelligencia, mint a felhő ereje?
Ezeknek a kis fejlesztéseknek a globális hatását nehéz túlbecsülni. A világ nagy részének nincs hozzáférése a hatalmas, felhőalapú modellek használatához szükséges nagy sebességű internethez. Amikor az intelligencia állandó kapcsolatot igényel egy Virginia-i vagy Dublin-i szerverrel, az a gazdagok luxusa marad. A kis modellfejlesztések ezt megváltoztatják azzal, hogy lehetővé teszik a szoftver helyi futtatását középkategóriás hardveren. Ez azt jelenti, hogy egy vidéki diák vagy egy fejlődő piaci munkavállaló ugyanahhoz a szintű segítséghez juthat, mint valaki egy technológiai központban. Ez olyan módon teszi egyenlővé a feltételeket, ahogy a nyers skálázás sosem tudta. Az intelligencia költsége a nullához közelít. Ez különösen fontos az adatvédelem és a biztonság szempontjából. Amikor az adatoknak nem kell elhagyniuk az eszközt, a jogsértés kockázata jelentősen alacsonyabb. A kormányok és az egészségügyi szolgáltatók ezeket a hatékony modelleket úgy tekintik, mint egy módot a szolgáltatások nyújtására az állampolgári adatok veszélyeztetése nélkül.
A váltás a környezetre is hatással van. A nagyszabású képzési folyamatok hatalmas mennyiségű elektromos áramot és vizet fogyasztanak a hűtéshez. A hatékonyságra összpontosítva az ipar csökkentheti a szénlábnyomát, miközben jobb termékeket szállít. Tudományos folyóiratok, mint a Nature, kiemelték, hogyan csökkentheti a hatékony AI az ipar környezeti terhelését. Íme néhány módja annak, ahogy ez a globális váltás megnyilvánul:
- Helyi fordítási szolgáltatások, amelyek internetkapcsolat nélkül működnek.
- Orvosi diagnosztikai eszközök, amelyek hordozható táblagépeken futnak távoli klinikákon.
- Oktatási szoftverek, amelyek alacsony költségű hardveren alkalmazkodnak a diák igényeihez.
- Valós idejű adatvédelmi szűrés videohívásokhoz, amely teljes egészében az eszközön történik.
- Automatizált termésfigyelés gazdák számára olcsó drónok és helyi feldolgozás használatával.
Ez nem csak arról szól, hogy a dolgok gyorsabbak legyenek, hanem arról, hogy univerzálisak legyenek. Amikor a hardverkövetelmények csökkennek, a potenciális felhasználói bázis milliárdokkal nő. Ez a trend szorosan kapcsolódik az AI-fejlesztés legújabb trendjeihez, amelyek a hozzáférhetőséget helyezik előtérbe a nyers erővel szemben.
Egy kedd egy offline asszisztenssel
Gondoljunk egy Marcus nevű terepi mérnök napjára. Offshore szélturbinákon dolgozik, ahol nincs internet-hozzáférés. A múltban, ha Marcus olyan mechanikai hibába ütközött, amelyet nem ismert fel, fényképeket kellett készítenie, megvárnia, amíg visszatér a partra, és konzultálnia kellett egy kézikönyvvel vagy egy vezető kollégával. Ez napokkal késleltethette a javítást. Most egy strapabíró táblagépet hord magánál, egy erősen optimalizált helyi modellel. A kamerát a turbina alkatrészeire irányítja, és a modell valós időben azonosítja a problémát. Lépésről lépésre útmutatót ad a javításhoz a gép adott sorozatszáma alapján. A modell, amelyet Marcus használ, nem egy trillió paraméteres óriás, hanem egy kicsi, speciális verzió, amelyet a gépészmérnöki ismeretekre finomítottak. Ez egy konkrét példa arra, hogyan hoz létre hatalmas változást a termelékenységben a modellhatékonyság apró javítása.
Később aznap Marcus ugyanazt az eszközt használja egy külföldi beszállító technikai dokumentumának lefordítására. A fordítás majdnem tökéletes, mert a modellt egy kis, de kiváló minőségű mérnöki szövegekből álló készleten képezték ki. Soha nem kellett egyetlen fájlt sem feltöltenie a felhőbe. Ez a megbízhatóság teszi a technológiát hasznossá a való világban. Sokan azt feltételezik, hogy az AI-nak általános tudásúnak kell lennie ahhoz, hogy hasznos legyen, de Marcus bebizonyítja, hogy a speciális, kis rendszerek gyakran jobbak a szakmai feladatokhoz. A modell kis mérete valójában egy funkció, nem hiba. Ez azt jelenti, hogy a rendszer gyorsabb, privátabb és olcsóbban üzemeltethető. Marcus a múlt héten kapta meg a legújabb frissítését, és a sebességkülönbség azonnal észrevehető volt.
A BotNews.today mesterséges intelligencia eszközöket használ a tartalom kutatására, írására, szerkesztésére és fordítására. Csapatunk felülvizsgálja és felügyeli a folyamatot, hogy az információ hasznos, világos és megbízható maradjon.
Az ellentmondás itt az, hogy miközben a modellek egyre kisebbek lesznek, az általuk végzett munka egyre nagyobb. Azt látjuk, hogy elmozdulunk a bottal való csevegéstől egy eszköz munkafolyamatba történő integrálása felé. Az emberek hajlamosak túlbecsülni annak fontosságát, hogy egy modell képes-e verset írni. Alábecsülik annak az értékét, hogy egy modell tökéletesen ki tudja nyerni az adatokat egy homályos számlából, vagy azonosítani tud egy hajszálrepedést egy acélgerendában. Ezek azok a feladatok, amelyek a világgazdaságot hajtják. Ahogy ezek a kis fejlesztések folytatódnak, az okos szoftver és a normál szoftver közötti határ eltűnik. Minden csak jobban fog működni. Ez a jelenlegi technológiai környezet valósága.
Kemény kérdések a hatékonysági kompromisszumról
Azonban szókratészi szkepticizmussal kell viszonyulnunk ehhez a trendhez. Ha kisebb, optimalizáltabb modellek felé haladunk, mit hagyunk hátra? Egy nehéz kérdés, hogy a hatékonyságra való összpontosítás egy „elég jó” fennsíkhoz vezet-e. Ha egy modellt úgy optimalizálnak, hogy gyors legyen, elveszíti-e a képességét a szélsőséges esetek kezelésére, amelyeket egy nagyobb modell elkaphatna? Meg kell kérdeznünk, hogy a modellek zsugorításáért folytatott rohanás újfajta elfogultságot teremt-e. Ha csak kiváló minőségű adatokat használunk ezeknek a rendszereknek a képzésére, ki határozza meg, mi a minőség? Lehet, hogy véletlenül kiszűrjük a marginalizált csoportok hangjait és nézőpontjait, mert az adataik nem illeszkednek a tankönyvi szabványhoz.
Van egy AI-történet, eszköz, trend vagy kérdés, amiről úgy gondolja, hogy foglalkoznunk kellene vele? Küldje el nekünk cikkötletét — szívesen meghallgatnánk.
Ott van a rejtett költségek kérdése is. Bár egy kis modell futtatása olcsó, a nagy modell zsugorításához szükséges kutatás és fejlesztés hihetetlenül drága. Csak az energiafogyasztást helyezzük át a következtetési fázisból a képzési és optimalizálási fázisba? Továbbá, ahogy ezek a modellek egyre gyakoribbak a személyes eszközökön, mi történik az adatvédelemmel? Még ha a modell helyben is fut, a használatáról szóló metaadatok akkor is begyűjthetők. Meg kell kérdeznünk, hogy a helyi intelligencia kényelme megéri-e a potenciálisan invazívabb nyomon követést. Ha a telefonodon lévő minden alkalmazásnak saját kis agya van, ki figyeli, mit tanulnak azok az agyak rólad? Figyelembe kell vennünk a hardver élettartamát is. Ha a szoftver egyre hatékonyabbá válik, a vállalatok továbbra is arra kényszerítenek minket, hogy minden évben frissítsük az eszközeinket? Vagy ez egy fenntartható korszakhoz vezet, ahol egy ötéves telefon még mindig tökéletesen képes futtatni a legújabb eszközöket? Ezekkel az ellentmondásokkal szembe kell néznünk, ahogy a technológia fejlődik.
A tömörítés mögötti mérnöki munka
A haladó felhasználók és fejlesztők számára a kisebb modellekre való átállás technikai részletek kérdése. A legfontosabb mérőszám már nem csak a paraméterszám. Ez a „bits per parameter”. A 16 bites lebegőpontos súlyoktól a 8 bites, sőt 4 bites kvantálás felé mozdulunk el. Ez lehetővé teszi, hogy egy modell, amely általában 40 gigabájt VRAM-ot igényelne, kevesebb mint 10 gigabájton elférjen. Ez hatalmas változás a helyi tárolási és GPU-követelmények szempontjából. A fejlesztők most a LoRA-t, vagyis a Low-Rank Adaptation-t vizsgálják, hogy ezeket a modelleket konkrét feladatokra finomhangolják a teljes rendszer újraképzése nélkül. Ez sokkal könnyebbé teszi a munkafolyamat-integrációkat. Ezekről a módszerekről technikai dokumentációt találhatsz az MIT Technology Review oldalán.
Alkalmazások építésekor a következő technikai korlátokat kell figyelembe venned:
- A memóriasávszélesség gyakran nagyobb szűk keresztmetszet, mint a nyers számítási teljesítmény a helyi következtetésnél.
- A felhőmodellek API-korlátai egyre kevésbé relevánsak, ahogy a helyi hosztolás életképessé válik a termelésben.
- A kontextusablak-kezelés továbbra is kihívást jelent a kisebb modellek számára, mivel hajlamosak gyorsabban elveszíteni a hosszú beszélgetések fonalát.
- Az FP8 és az INT4 pontosság közötti választás jelentősen befolyásolhatja a hallucinációs arányt a kreatív feladatokban.
- A helyi tárolási követelmények csökkennek, de a nagy sebességű NVMe meghajtók iránti igény megmarad a gyors modellbetöltéshez.
Látjuk a spekulatív dekódolás felemelkedését is, ahol egy apró modell megjósolja a következő néhány tokent, és egy nagyobb modell ellenőrzi azokat. Ez a hibrid megközelítés egy kis modell sebességét kínálja egy óriás pontosságával. Ez egy okos módja a modellméret hagyományos kompromisszumainak megkerülésére. Bárki számára, aki élen akar járni ezen a területen, ezeknek a tömörítési technikáknak a megértése fontosabb, mint tudni, hogyan kell a semmiből felépíteni egy modellt. A jövő az optimalizálóké, akik többet tudnak tenni kevesebbel. A hangsúly a nyers erőről az okos mérnöki munkára helyeződik át.
Az optimális teljesítmény mozgó célpontja
A lényeg az, hogy a „nagyobb mindig jobb” korszaka a végéhez közeledik. A legjelentősebb előrelépések már nem több réteg vagy több adat hozzáadásáról szólnak. A finomításról, a hatékonyságról és a hozzáférhetőségről szólnak. Olyan váltást látunk, amely a fejlett számítást olyan közössé teszi, mint egy számológép. Ez a fejlődés nemcsak technikai eredmény, hanem társadalmi is. A legfejlettebb kutatások erejét mindenki számára elérhetővé teszi, hardverétől vagy internetkapcsolatától függetlenül. Ez az intelligencia demokratizálása az optimalizálás hátsó ajtaján keresztül.
A szerkesztő megjegyzése: Ezt az oldalt többnyelvű AI hírek és útmutatók központjaként hoztuk létre olyan emberek számára, akik nem számítógépes zsenik, de mégis szeretnék megérteni a mesterséges intelligenciát, magabiztosabban használni, és követni a már megérkező jövőt.
Hibát talált, vagy valami javításra szorul? Tudassa velünk.Ahogy a következő időszakra tekintünk, a nyitott kérdés továbbra is az: találunk-e továbbra is módokat az intelligencia zsugorítására, vagy végül elérünk egy fizikai korlátot, amely visszakényszerít minket a felhőbe? Egyelőre a trend egyértelmű. A kicsi az új nagy. A rendszereket, amelyeket holnap használunk, nem az határozza meg, mennyit tudnak, hanem az, mennyire jól használják azt, amijük van.