Általánosan elterjedt az, hogy a neurális hálózatokat adaptív „szolgáltatás-kivonatolóknak” tekintik, amelyek úgy tanulnak, hogy a kezdeti nyers bemenetükből fokozatosan javítják a megfelelő reprezentációkat. Felmerül tehát a kérdés: Milyen tulajdonságokat ábrázolnak, és milyen módon? A Massachusetts Institute of Technology (MIT), a Harvard Egyetem (HU) és a Northeastern University (NEU) kutatócsoportja a ritka vizsgálatnak nevezett technikát javasolja, hogy megértse, hogyan írják le a magas szintű, ember által értelmezhető jellemzőket az LLM-ek neurális aktiválásában.
Alapesetben a kutatók megtanítják a mögöttes osztályozót (próbát) a modell belső aktiválásaira, hogy előre jelezzék a bemeneti jellemzőt, majd megvizsgálják a hálózatot, hogy megtudják, hogy az képviseli-e a kérdéses jellemzőt, és hol. A javasolt ritka szűrési módszer több mint 100 változót vizsgál a releváns neuronok azonosítása érdekében. Ez a módszer felülmúlja a korábbi szűrési módszerek korlátait, és rávilágít az LLM-ek összetett szerkezetére. Korlátozza a vizsgáló osztályozót, hogy az előrejelzéseiben legfeljebb k neuront használjon, ahol k egy 1 és 256 közötti változó.
A csapat a legmodernebb ritka optimalizálási előrejelzési technikákat alkalmaz, hogy bebizonyítsa egy k-nál ritkásabb jellemzőkiválasztási probléma kis k preferenciáját, és kezelje a rangsorolás és az osztályozás pontosságának zavarát. A varanciát induktív torzításként használják annak biztosítására, hogy szondáik megőrizzék a robusztus a priori egyszerűséget, és azonosítsák a szemcsés vizsgálat kulcsfontosságú neuronjait. Ezen túlmenően a technika megbízhatóbb jelet generálhat arról, hogy egy adott tulajdonság explicit módon reprezentálva van-e és felhasználásra kerül-e az áramlás irányában, mivel a kapacitás hiánya megakadályozza, hogy a szondák memorizálják az érdeklődésre számot tartó tulajdonságokhoz kapcsolódó korrelációs mintákat.
A kutatócsoport LLM-ek autoregresszív transzformátort használtak kísérletükben, és változó k értékkel számoltak be osztályozási eredményekről a szondák betanítása után. A tanulmányból a következő következtetést vonják le:
- Az LLM neuronok rengeteg értelmezhető struktúrát tartalmaznak, és a ritka hangzás hatékony módja a helymeghatározásuknak (még átfedő állapotban is). Óvatosan kell azonban használni, és ha szigorú következtetéseket akarunk levonni, elemzést kell követni.
- Ha az első rétegben sok neuron aktiválódik nem korrelált n-grammokhoz és lokális mintázatokhoz, akkor a jellemzőket poliszém neuronok ritka lineáris csoportjaiként kódolják. A súlystatisztikák és a játékmodellekből származó betekintések arra engednek következtetni, hogy a teljesen összekapcsolt rétegek első 25%-a széles körben használ fedvényt.
- Noha a monoszemanticitásra vonatkozó végleges következtetések módszertanilag megfoghatatlanok maradnak, a monoszemantikus neuronok, különösen a középső rétegekben, magasabb szintű kontextuális és nyelvi tulajdonságokat kódolnak (mint például az is_python_code).
- Míg a reprezentáció eltérései a modellek méretének növekedésével nőnek, ez a tendencia nem érvényesül mindenhol; Egyes funkciók dedikált neuronokkal jelennek meg a modell méretének növekedésével, mások finomabb jellemzőkké bomlanak a modell méretének növekedésével, és sok más vagy nem változik, vagy véletlenszerűen érkezik.
Kevés előnye a gyér hangzásnak
- Az egyes neuronok szondákkal történő vizsgálatakor az osztályozás minősége és a rangsorolás minősége összekeverésének lehetséges kockázatát tovább csökkenti a biztosíték-optimalizálással rendelkező szondák elérhetősége.
- Ráadásul a ritka szondák célja az alacsony tárolókapacitás, így kevesebb ok ad riadalmat amiatt, hogy a szonda képes önállóan megtanulni a feladatot.
- A vizsgálathoz moderált adatkészletre lesz szüksége. Ha azonban egyet megépítettünk, akkor bármilyen modell értelmezésére használható, ami megnyitja az ajtót olyan dolgok kutatására, mint a megszerzett áramkörök egyetemessége és a természetes absztrakciós hipotézis.
- Ahelyett, hogy szubjektív értékelésekre hagyatkoznánk, inkább annak vizsgálatára használható, hogy a különböző építészeti választások hogyan befolyásolják a poliszémia és a szuperpozíció előfordulását.
A szétszórt nyomozásnak megvannak a határai
- Erős következtetések csak a kísérleti adatok vizsgálatából, specifikus neuronok további másodlagos vizsgálatából vonhatók le.
- A végrehajtás részleteire, anomáliákra, téves jellemzésekre és a vizsgálati adatkészletben lévő félrevezető összefüggésekre való érzékenysége miatt a vizsgálat csak korlátozott betekintést nyújt az okozati összefüggésbe.
- Különösen az értelmezhetőség szempontjából a ritka szondák nem képesek felismerni a több rétegben generált jellemzőket, illetve nem képesek különbséget tenni az átfedésben lévő jellemzők és a több különálló, finomabb jellemzők egyesítéseként ábrázolt jellemzők között.
- Iteratív metszésre lehet szükség az összes érdeklődésre számot tartó neuron kiválasztásához, ha a ritka szondázás néhányat kihagy a vizsgálati adatkészlet redundanciája miatt. A többszimbólum-tulajdonságok használata speciális feldolgozást igényel, amelyet általában olyan aggregációkkal valósítanak meg, amelyek tovább ronthatják az eredmény specifikusságát.
Egy forradalmian új szórványos szűrési technikát használva munkánk emberileg megértett és gazdag struktúrákat tár fel az LLM-ekben. A tudósok azt tervezik, hogy – esetleg mesterséges intelligencia segítségével – átfogó adattárat építenek fel a felmérési adatkészletekből, amelyek az elfogultság, a méltányosság, a biztonság és a nagy tétet jelentő döntéshozatal szempontjából releváns részleteket rögzítenek. Bátorítanak más kutatókat, hogy vegyenek részt ennek az „ambiciózus értelmezésnek” a feltárásában, és azzal érvelnek, hogy a természettudományokat idéző kísérleti megközelítés produktívabb lehet, mint a gépi tanulási kísérleti epizódok. A széles és változatos moderált adatkészletek lehetővé teszik a felügyelet nélküli értelmezési technikák következő generációjának jobb értékelését, amelyekre szükség lesz ahhoz, hogy lépést tartsanak a mesterséges intelligencia fejlődésével, valamint automatizálják az új modellek értékelését.
szkennelje be a papír. Ne felejts el csatlakozni 26k+ML Sub RedditÉs discord csatornaÉs És E-mailes hírlevél, ahol megosztjuk a legfrissebb mesterségesintelligencia-kutatási híreket, menő AI-projekteket és még sok mást. Ha bármilyen kérdése van a fenti cikkel kapcsolatban, vagy ha valamit kihagytunk, nyugodtan írjon nekünk a címre [email protected]
🚀 Tekintse meg a 100-as évek mesterséges intelligencia eszközeit az AI Tools Clubban
Dhanshree Shenwai számítástechnikai mérnök, aki komoly tapasztalattal rendelkezik a pénzügyi, kártyák, fizetési és banki területeken működő FinTech cégeknél, és élénken érdeklődik az AI-alkalmazások iránt. Szenvedélyesen kutatja az új technológiákat és fejlesztéseket a mai fejlődő világban, amelyek megkönnyítik mindenki életét.
More Stories
A SpaceX Polaris Dawn űrszondájának legénysége a valaha volt legveszélyesebb űrsétára készül
Egy őskori tengeri tehenet evett meg egy krokodil és egy cápa a kövületek szerint
Egyforma dinoszaurusz-lábnyomokat fedeztek fel két kontinensen