Nový prístup OpenAI k jednorazovému napodobňovaniu učenia, nahliadnutie do budúcnosti AI

Jednorázová napodobňovacia výučba Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

16. mája vedci OpenAI zdieľali videozáznam jedného z ich projektov spolu s dvoma dôležitými dokumentmi, ktoré skúmali riešenia troch kľúčových prekážok súčasného vývoja AI: meta-learning, jednorázové vzdelávanie a automatizované generovanie údajov. Vo svojom predchádzajúcom príspevku som sľúbil článok venovaný fascinujúcemu problému jednorázového učenia. Môžete začať tým, že sa pozriete na video, ktoré vydali a ktoré vysvetľuje ich úžasnú prácu:

V tomto videu vidíte fyzického robota s jedným ramenom, ktorý na seba ukladá kocky. Znalosť zložitých úloh, ktoré sú v súčasnosti priemyselné roboty schopné vykonávať, keby sa výskumný pracovník neskúšal vysvetliť, čo sa deje, by to bolo v mnohých ohľadoch veľmi ohromujúce. V kontrolovanom prostredí je úloha jednoduchá, procedurálne (pevne zakódované) prístupy tento problém už vyriešili. Sľubné a revolučné je to, do akej miery by sa všeobecný rámec mohol rozšíriť na viacnásobné, komplexnejšie a adaptívnejšie správanie v hlučnejších prostrediach.

Rozdiel v mysli medzi človekom a vyššími zvieratami, aký je taký veľký, je určite stupňa a nie druhu.
- Charles Darwin

Analogicky je tento článok silným dôkazom toho, že rozdiely v kognitívnych systémoch medzi súčasnými stelesnenými umelými inteligenciami (umelá inteligencia fyzikálnych systémov) a robotmi 22. storočia budú mať mierku a nebudú takého druhu. Od roku 2012 ImageNet konkurencia *, prehlbuje sa hlboký výskum výučby, a to ani nie tak, aby modifikoval charakter distribuovaného výpočtu vykonávaného neurónovou sieťou, ale hľadaním nových spôsobov štruktúrovania sietí s cieľom naučiť sa špecifickú úlohu. Pre funkciu neurónovej siete je štruktúra, táto štruktúra nie je pevne zakódovaná (nie je navrhnutá ručne), ale sú to výsledky atómových výpočtových jednotiek pôvodne spojených medzi vstupmi a výstupmi, ktoré sú schopné modifikovať ich štruktúru a spojenia. Špecifickou funkciou sa učí modifikáciou celkovej štruktúry siete.

V tomto článku vybudovali všeobecný rámec, ktorý je schopný vyškoliť agenta tak, aby zastupoval úlohy abstraktne, a naučil sa prenášať tieto vedomosti na nové neviditeľné úlohy (prenosové učenie) iba po jednej demonštrácii novej úlohy (jednorazové učenie napodobňovaním).

Úlohy

Aj keď sa presná architektonická implementácia líši, na preukázanie výkonnosti všeobecného prístupu berú ako príklad dve úlohy.

Dosiahnutie častíc

V prvom príklade systém prijíma vstupy farebných cieľových pozícií v rovine a jedinú videonahrávku simulovaného agenta, ktorý ide na určený cieľ.

Obrázok 2. Robot je bodová hmota riadená dvojrozmernou silou. Rodina úloh má dosiahnuť cieľový orientačný bod. Identita orientačného bodu sa líši od úlohy k úlohe a model musí zistiť, ktorý cieľ sa má sledovať na základe demonštrácie. (vľavo) zobrazenie robota; (uprostred) je úlohou dosiahnuť oranžové pole, (vpravo) úlohou je dosiahnuť zelený trojuholník.

Počas tréningu musí systém reprodukovať rovnakú úlohu (dosahovať oranžovú farbu), ale z inej konfigurácie s rôznymi východiskovými pozíciami pre robota a ciele. Nie je jasné, či počas testovania je agent testovaný na úlohe, na ktorú bol vyškolený (dosahovať oranžovú farbu) alebo na úlohe, ktorú nikdy predtým nevidel (napríklad na dosiahnutie zelenej farby) alebo oboje.

Vyškolená politika sa vyhodnocuje na základe nových scenárov a je podmienená novými demonštračnými trajektóriami, ktoré počas tréningu neboli odhalené.

Je isté, že agent musí odvodiť cieľový cieľ z jedinečnej ukážky a znova začať od inej konfigurácie. To znamená, že presná sekvencia motorov sa nemohla naučiť pred testovaním a musí sa odvodiť prostredníctvom abstrakcie (štruktúrovaná reprezentácia na vyššej úrovni) úlohy a plánovania motorov.

Stohovanie blokov

V druhom príklade sa agent musí naučiť ukladať kocky (identifikované rôznymi farbami) v rovnakom poradí, ako je znázornené na jednej simulovanej ukážke. Táto simulovaná demonštrácia je séria 2D obrazov generovaných strojom 3D fyziky, v ktorom sú modelované vlastnosti motorov a senzorických prístrojov robotov.

Jednorázová politika. Jedna politika vyškolená na riešenie mnohých úloh. Hlavná úloha: {abc, def}, Spodná úloha: {ab, cd, ef}

V obidvoch príkladoch sú počiatočné polohy kociek v demonštrácii a v reálnom teste odlišné, každá úloha začína z inej počiatočnej polohy. Robot sa nepokúša nahradiť kocky tak, aby zodpovedali počiatočnej polohe demonštrácie, prenáša úlohu hromadenia kocky bez ohľadu na stav, v ktorom začína.

Tréning pomocou randomizácie domén

V obidvoch prípadoch sa všetky obrázky použité počas tréningu získavajú simuláciou s použitím náhodnej domény, v ktorej náhodne rozdelia tieto aspekty vzoriek:

Počet a tvar rozptyľovacích objektov na stole Poloha a štruktúra všetkých objektov na stole Textúry stola, podlahy, skyboxu a robota Poloha, orientácia a zorné pole kamery Počet svetiel v scéne Poloha, orientácia, a zrkadlové charakteristiky svetiel Druh a množstvo náhodného šumu pridaného k obrazom

Tréningová súprava na dosiahnutie častíc

Uvažujeme o čoraz zložitejšej skupine úloh, kde počet orientačných bodov stúpa z 2 na 10. Pre každú rodinu úloh zhromažďujeme 1 000 trajektórií na výcvik, kde sú polohy orientačných bodov a počiatočná poloha bodového robota randomizované. Na efektívne vytváranie demonštrácií používame pevne zakódované odborné pravidlá. K trajektóriám pridávame hluk rušením vypočítaných akcií pred ich použitím v prostredí a na trénovanie politiky neurónovej siete používame jednoduché klonovanie správania

Tréningová sada na stohovanie blokov

Konkrétne zhromažďujeme 140 výcvikových úloh a 43 testovacích úloh, z ktorých každá má odlišné požadované usporiadanie blokov. Počet blokov v každej úlohe sa môže líšiť od 2 do 10. Zhromažďujeme 1 000 trajektórií na úlohu na tréning a udržiavame samostatnú sadu trajektórií a počiatočných konfigurácií, ktoré sa majú použiť na vyhodnotenie. Podobne ako v prípade úlohy, pri ktorej dochádza k zachytávaniu častíc, vstrekujeme hluk do procesu zberu trajektórie. Trajektórie sa zbierajú pomocou pevne stanovenej politiky.

Úspešné ukážky sa zbierajú pomocou pevne stanovenej politiky

Všimnite si, že počas učenia sa správne dráhy vytvárajú procedurálnou „pevne kódovanou“ politikou, o ktorej sa domnievam, že sa spolieha na klasické techniky identifikácie a riadenia systému. Takže počas tréningu a testovania má agent dva vstupy: a) demonštráciu v konfigurácii A ab) počiatočnú konfiguráciu B. Len počas tréningu má algoritmus učenia tiež prístup k ideálnej reakcii: trajektórii začínajúcej konfiguráciou B, ktorá odpovedá na problém a s akou bude odpoveď agenta porovnávaná počas učenia - robí z neho učený problém pod dohľadom.

Pre každú úlohu odbornej prípravy predpokladáme dostupnosť súboru úspešných ukážok.

Ak to nie je jasné, v ďalšej časti sa pozriem na rozdiely medzi rôznymi typmi učebných paradigiem.

Optimalizačný algoritmus a stratová funkcia

Dozorované učenie sa týka paradigiem odbornej prípravy, v ktorých má sieť pri každom rozhodnutí prístup k správnej voľbe, ktorú mal urobiť, a teda k pojmu chyba. Napríklad pri klasifikačnej úlohe psov a mačiek je označenie obrázkov psov a mačiek počas tréningu známe vopred a chyby sa okamžite zistia. V tomto zmysle sa líši od učenia bez dozoru, kde sa vo všeobecnosti od agenta žiada, aby našlo predtým neznámu štruktúru na vstupoch, ktoré dostane, a bez označení mačiek a psov by musel zistiť, že existujú dva zoskupenia rôznych objektov iba na základe informácie obsiahnuté v údajoch. Taktiež sa líši od Reinforcement Learning, ktoré sa často vzťahujú na systém v reálnom čase, v ktorom presná postupnosť rozhodnutí vedúcich k cieľu nie je známa, ale iba konečná „odmena“ rozhodne, či sekvencia bola správna alebo nie. Použitím napodobňovacieho učenia transformujú klasický zosilňovací učiaci problém na učený problém pod dohľadom, pri ktorom sa chyba počíta zo vzdialenosti k pozorovanej dráhe.

Ako je to v prípade akéhokoľvek školeného nastavenia školenia, je daná úloha úplne definovaná stratovou funkciou, ktorej cieľom je kvantifikovať, ako ďaleko bol agent od zamýšľaného správania. Definovanie tejto funkcie je často kritickým krokom, pretože určuje, ako optimalizačné algoritmy aktualizujú parametre modelu. Tieto algoritmy sú dôležité z hľadiska výpočtového času a často si vyžadujú určité vylepšenia, aby sa mohli zbližovať, ak vôbec. Riešenia, ktoré minimalizujú funkciu vo veľmi vysokej dimenzii, sa skutočne nachádzajú vo veľmi malom priestore v priestore parametrov s malou vzdialenosťou medzi nimi, len čo sa dostanete z tejto malej domény, vzdialenosť medzi riešeniami rýchlo rastie. Na tejto téme je veľa veľmi zaujímavých prác, ktoré okrem iného vykonala veľmi úžasná Jennifer Chayesová, ktorú túto tému podrobuje veľmi zaujímavému rozhovoru o poslednej epizóde Talking Machines.

Počas školenia o sieťach politík (celá sieť, schopná rozhodnúť sa od vstupu, aké kroky podniknúť) najskôr spracujú úspešnú demonštračnú trajektóriu. V tejto časti budú porovnávať dva prístupy, klasické behaviorálne klonovanie (nie úplne isté o implementácii, ktorú použili) a algoritmy DAGGER. To potom umožní iteratívnu minimalizáciu stratovej funkcie buď prostredníctvom l2 alebo stratou krížovej entropie na základe toho, či sú akcie nepretržité alebo diskrétne (na základe rozdelenia udalostí v sekvencii). Vo všetkých experimentoch použili algoritmus Adamax na optimalizáciu s mierou učenia 0,001.

Veľkosť kroku začína malá a exponenciálne sa rozpadá.

Algoritmus sám osebe neumožňuje prenos, je to, ako zostavíte svoju tréningovú súpravu a svoju stratovú funkciu, ktorá umožní prenos.

V úlohách existujú dva druhy prenosu. Prvý druh sa označuje ako „preklenutie medzery v realite“, je to zovšeobecnenie vo vzdelávaní, ktoré umožňuje prenos medzi tréningom simulovaných vstupov do testovania prírodných stimulov. Simulačné údaje sú často zbedačenou aproximáciou reálneho sveta, príliš dokonalou, chýba im zložitosť skutočného objektu. V skutočnom svete môže byť kamera chybná a hlučnejšia, ovládanie motora bude menej presné, farby sa budú meniť, textúry budú bohatšie atď. Aby umožnili tento prvý prenos, používajú metódu, ktorú nazývajú „randomizácia domény“. : sieť sa môže naučiť spoločnej relevantnej štruktúre, ktorá jej umožní primerane zovšeobecniť skutočný svet, pridaním šumu na vstupy. Napríklad zmenia uhol kamery medzi príkladmi tréningu, zmenia textúry alebo urobia trajektórie menej dokonalými. Pridaním hluku počas tréningu zvyšujeme odolnosť.

Druhý tu testovaný prenos je schopnosť vyrobiť relevantnú sekvenciu motorov v predtým neviditeľnej sade konfigurácie a cieľa, založenú na jedinej demonštrácii začínajúcej v inej počiatočnej konfigurácii, ale s podobným konečným cieľom. Znova tu bude možný prenos podľa toho, ako zostavíme tréningovú súpravu a modelujeme stratovú funkciu. Prezentáciou demonštrácií počas tréningu, ktoré nezačínajú rovnaké počiatočné podmienky na dosiahnutie podobného cieľa, umožníte sieti naučiť sa vkladať vyššiu úroveň reprezentácie cieľa bez použitia absolútnych pozícií, ako aj reprezentáciu vyšších rádov sekvencia motora, ktorá nie je jednoduchá napodobenina. Naivná počiatočná architektúra umožňuje tréningu modifikovať štruktúru relevantným spôsobom, a táto trénovaná štruktúra implikuje konečnú funkciu.

ciele

Pre paradigmu stohovania blokov mali niekoľko obmedzení, ktoré chceli, aby ich učiaci sa agent splnil.

Malo by byť ľahké použiť na prípady úloh, ktoré majú rôzny počet blokov.
Mal by prirodzene zovšeobecňovať rôzne permutácie tej istej úlohy. Napríklad politika by mala dobre fungovať v úlohe {dcba}, aj keď je trénovaná iba v úlohe {abcd}.
Mala by sa v nej prispôsobovať ukážka rôznych dĺžok.

Mali na túto otázku niekoľko otázok, na ktoré chceli odpovedať.

Ako sa školenie s klonovaním správania porovnáva s DAGGER, vzhľadom na to, že dostatok údajov možno zbierať offline?
Ako sa kondicionovanie na celej demonštrácii porovnáva s kondíciou na konečnej požadovanej konfigurácii, aj keď má konečná konfigurácia dostatok informácií na úplné zadanie úlohy?
Ako sa kondicionovanie na celej demonštrácii porovnáva s kondicionovaním na „snímke“ trajektórie, čo je malá podskupina rámcov, ktoré sú najviac informatívne
Môže sa náš rámec úspešne zovšeobecniť na typy úloh, ktoré počas školenia nikdy nevidel? (++)
Aké sú súčasné obmedzenia metódy?

architektúra

Dosah častíc

V tomto prvom príklade porovnali tri architektúry založené na neurónových sieťach s dlhou krátkodobou pamäťou (LSTM). Popis týchto sietí bude uvedený v budúcom príspevku o pamäti a pozornosti, ktoré sú absolútne fascinujúcimi subjektmi v kognitívnych aj výpočtových vedách. LSTM v podstate napája predchádzajúce sieťové výstupy (v čase) ako súčasť vstupu siete v každom novom časovom bode, čo umožňuje informáciám z minulých štátov informovať prítomných (odtiaľ ich názov sietí krátkodobej pamäte). Sú základom mnohých najmodernejších technológií zaoberajúcich sa časovými radmi (Alexa, Siri atď.).

Tu používajú tieto tri konkrétne podmienky:

  1. Obyčajný LSTM: naučí sa vložiť trajektóriu a súčasný stav, aby ju priviedol do viacvrstvového perceptrónu, ktorý vyvolá motorickú akciu
  2. LSTM s pozornosťou: vytvorte vážené zobrazenie nad orientačnými bodmi trajektórie
  3. Konečný stav s pozornosťou: pri výcviku sa používa iba konečný stav, aby sa vytvorila váha nad orientačnými bodmi podobná predchádzajúcej architektúre

Stohovanie blokov

Kým v zásade by sa generická neurónová sieť mohla naučiť mapovanie od demonštrácie a súčasného pozorovania po vhodné kroky, považovali sme za dôležité používať vhodnú architektúru. Naša architektúra pre stohovanie učebných blokov je jedným z hlavných prínosov tohto dokumentu a veríme, že je to reprezentatívnosť toho, ako by architektúry pre jednorazové napodobňovanie učenia zložitejších úloh mohli vyzerať v budúcnosti.

Pozorovacie moduly

Článok zostáva na relatívne vysokej úrovni pri opise štruktúry sietí používaných na naučenie sa úlohy. Kľúčovou zložkou architektúry je ich modul pozornosti, ale verím, že tento subjekt potrebuje konkrétne miesto, v ktorom sa podrobne ponorí do svojej základnej úlohy. Analogicky k koncepcii kognitívnej vedy o trvalej pozornosti sa moduly pozornosti používajú na udržanie a zameranie sa na relevantné informácie obsiahnuté v rôznych rozpätiach priestoru a času. Vytvára výstup s pevnou veľkosťou, ktorý obsahuje vkladanie informačného obsahu, ktorý bol roztiahnutý v čase a priestore. Podobne ako topológia, odvetvie matematiky, o ktorom som presvedčený, že bude veľmi informovať, ako v budúcnosti chápeme distribuované znázornenia, sieť pozornosti vykonáva topologický izomorfizmus informácií, rovnaké zakrivenie, iný tvar. Všimnite si, že tieto siete nehrajú úlohu detektora výbežkov schopného zamerať sa na neočakávané alebo zriedkavé udalosti, čo je funkcia spojená s predstavou pozornosti v neurovede.

Tu používajú dva typy siete pozornosti: a) sieť dočasnej pozornosti, ktorá vytvára vážený súčet obsahu (dotazových, kontextových a pamäťových vektorov) uložených v pamäti, a b) sieť susedských pozorností, ktorá je schopná získať informácie relatívne k bloku pozície v závislosti od aktuálneho dopytu agenta.

Sieť dočasnej pozornosti s vektorom c: kontext, m: pamäťový vektor, q: dopytový vektor, v: váha naučeného vektora. Výstup má rovnakú veľkosť ako pamäťový vektor. Je to lineárna kombinácia týchto vektorov, ktorá umožňuje, aby niektorý pamäťový vektor mal väčší vplyv na výstup založený na kontextových a dopytových vektoroch.Rovnaká myšlienka, konkurencia medzi priestorovými informáciami, je dynamicky udržiavaná systémom pozornosti.

Sieť politík

Kompletná sieť sa skladá z troch rôznych podsietí: demonštračná sieť, kontextová sieť a manipulačná sieť.

Demonštračná sieť dostane ako vstup trajektóriu demonštrácie a vytvára vkladanie demonštrácie, ktorú má politika použiť. Veľkosť tohto vloženia rastie lineárne v závislosti od dĺžky demonštrácie a počtu blokov v prostredí.

Ako je tu znázornené, demonštračná sieť je schopná začleniť demonštráciu premenlivej zložitosti a veľkosti do spoločného formátu, ktorý bude používať kontextová sieť na reprezentáciu úlohy. Je to pravdepodobne už na tejto úrovni, keď dôjde k zovšeobecneniu, vkladanie demonštračných prvkov by malo vynechávať informácie o presnej trajektórii a absolútnych pozíciách kocky, ktoré boli vidieť počas demonštrácií.

Pri pohľade na štruktúru kontextovej siete, aj keď z veľmi vysokej úrovne, vidíme rozhranie s demonštračnou sieťou, ktorá privádza vkladanie demonštrácie do centrálnych modulov časovej pozornosti. Vidíme tiež, že predchádzajúce akcie (LSTM) a súčasný stav sa napájajú ako vstup zreťazený demonštračným vkladaním, aby sa vytvorilo vloženie globálneho kontextu zaslané do motorovej siete.

Ich popis fungovania sietí je podľa môjho názoru najdôležitejšou časťou článku:

Kontextová sieť začína výpočtom dotazového vektora ako funkcie aktuálneho stavu, ktorý sa potom používa na navštevovanie rôznych časových krokov pri vkladaní ukážky. Hmotnosti pozornosti nad rôznymi blokmi v tom istom časovom kroku sa spočítajú, aby sa vytvorila jedna váha za časový krok. Výsledkom tejto dočasnej pozornosti je vektor, ktorého veľkosť je úmerná počtu blokov v prostredí. Potom venujeme pozornosť okolí na šírenie informácií cez vloženia každého bloku. Tento proces sa opakuje viackrát, pričom stav sa zvyšuje pomocou bunky LSTM s neviazanou hmotnosťou.
Predchádzajúca postupnosť operácií vytvára vkladanie, ktorého veľkosť je nezávislá od dĺžky demonštrácie, ale stále závisí od počtu blokov. Potom použijeme štandardnú jemnú pozornosť na vytvorenie vektorov s pevnými rozmermi, kde obsah pamäte pozostáva iba z pozícií každého bloku, ktoré spolu so stavom robota tvoria vstup odovzdaný do manipulačnej siete.
Intuitívne, hoci sa počet objektov v prostredí môže meniť, v každej fáze manipulačnej operácie je počet relevantných objektov malý a zvyčajne fixný. Konkrétne v prostredí skladania blokov by mal robot venovať pozornosť iba polohe bloku, ktorý sa snaží vyzdvihnúť (zdrojový blok), ako aj pozícii bloku, ktorý sa snaží umiestniť na vrch ( cieľový blok). Správne vyškolená sieť sa preto môže naučiť porovnávať aktuálny stav s príslušnou fázou demonštrácie a odvodzovať identity zdrojového a cieľového bloku vyjadrené ako hmotnosť mäkkej pozornosti nad rôznymi blokmi, ktoré sa potom používajú na extrahovanie zodpovedajúcich pozícií do byť odovzdaný do manipulačnej siete.

Spôsob, akým dokončujú svoj opis, je dokonalým príkladom súčasného posunu výskumu AI od prístupu expertného systému k prístupu vzdelávacieho systému a tiež naznačuje, ako sa nižšie mozog vyvíjal v mozgu.

Aj keď túto interpretáciu nevynucujeme vo vzdelávaní, naša experimentálna analýza podporuje túto interpretáciu toho, ako naučená politika interne funguje.

Nevedia, ako to funguje! Budujú štruktúru schopnú vykonávať určité výpočty a ukladať určité informácie, ktoré považujeme a priori za užitočné, a kŕmia ich školiacim súborom v nádeji, že sa celá štruktúra naučí! Na vzostupe je druh výskumného voodoo umelej inteligencie, umenie, spôsob, ako nasmerovať heuristické hľadanie správnym smerom. A zdá sa, že veľa tých kúzelníkov teraz pracuje pre openAI.

Inými slovami, manipulačná sieť je najjednoduchšou štruktúrou, od vloženia kontextu privádzaného do viacvrstvového perceptrónu sa vytvára motorická akcia.

výsledok

Výsledky sú často časťou, o ktorú ma veľmi nezaujíma, najmä pokiaľ ide o úžasne vynikajúce technické dokumenty. Budem postupovať rýchlo, spodným riadkom je, že tento prístup funguje, funguje s presnosťou podobnou tvrdo zakódovaným odborným politikám a na rozdiel od týchto konkrétnych procedurálnych prístupov je zovšeobecniteľný pre veľké množstvo úloh.

Dosah častíc

Stohovanie blokov

V týchto experimentoch tiež testovali rôzne podmienky. Pomocou DAGGER porovnali tri rôzne vstupné podmienky tak, že prevzali ukážkovú trajektóriu: úplné trajektórie, snímky trajektórie alebo iba pomocou konečného stavu. Porovnali tiež algoritmus behaviorálneho klonovania s úplnou trajektóriou demonštrácie.

Silný dôkaz schopnosti systému zovšeobecniť identitu kocky

diskusia

Po prečítaní rýchlych pokrokov, ktoré v posledných mesiacoch dosiahla organizácia OpenAI, cítim rastúcu potrebu hovoriť o svojej práci a podeliť sa o svoje myšlienky o tom, čo verím ich práci, a o pokroku v oblasti AI ako celku, informovať naše porozumenie toho, ako fungujú biologické mozgy. Najmä táto rastúca myšlienka, že zdanlivo zdieľané kognitívne funkcie medzi ľuďmi nie sú také dôsledkom spoločnej štruktúry, ktorá vrodene vie, ako plniť úlohu, ale je skôr výsledkom relatívne podobných naivných štruktúr, ktoré konfrontujú rovnaké prostredie, naučiť sa vykonávať podobné úlohy. Táto funkcia je výsledkom štruktúry bez funkcie, ktorá je schopná naučiť sa konkrétnu úlohu len kvôli konkrétnemu prostrediu, a nie štruktúre, ktorá je schopná vykonať úlohu natívne, jednoducho vyladením niekoľkých parametrov tak, aby sa prispôsobili prostrediu.

Úlohy verzus konfigurácie: zdanlivo ľubovoľná definícia

Musím pripustiť, že nechápem, prečo sa rozhodli hovoriť o rôznych úlohách tak, ako to robili. Úloha je definovaná v experimente ukladania blokov ako skupina reťazcov predstavujúcich vzájomnú polohu blokov, počet prvkov v sade definuje počet zásobníkov a počet znakov počet blokov, ktoré je potrebné usporiadať. , Úlohou je potom usporiadanie blokov v stohoch bez ohľadu na absolútnu polohu stohu.

Niektoré bloky môžu byť na stole, ale nie sú súčasťou úlohy

Ich voľba definovania relatívnej polohy a počtu stohov ako kritérií pre samostatnú úlohu sa zdá byť svojvoľná. V skutočnosti by tiež mohlo mať zmysel hovoriť o rôznych úlohách založených na absolútnych počiatočných pozíciách blokov (čo sa nazýva konfigurácia). Domnievam sa, že im je zrejmá spoločná povaha problému, ale z dôvodu prehľadnosti radšej nechcú ísť do detailov. Dáva väčší zmysel rámcovať učenie sa politiky ako dva druhy zovšeobecnení tak, ako to robia neskôr:

Všimnite si, že zovšeobecnenie sa hodnotí na viacerých úrovniach: naučená politika sa musí nielen zovšeobecniť na nové konfigurácie a nové ukážky už videných úloh, ale musí sa zovšeobecniť na nové úlohy.

Stačí nahradiť „úlohy“ za „hromadné objednávky“. Správne sa naučiť úlohu znamená, že agent sa naučí vkladanie schopné abstraktne rozmiestniť kocky (konfigurácia), ale aj ich identitu (úlohu), počet stohov (úlohu) a trajektóriu demonštrácie (stručne predstavené v cenovú ponuku) na vytvorenie relevantnej motorickej reakcie.

Tieto zovšeobecnenia sa zdajú protirečivé. Ako môže tá istá sieť odbúravať počiatočnú konfiguráciu kocky alebo ich identitu a napriek tomu obnoviť svoju absolútnu pozíciu pre motorickú odpoveď?

Toto vysvetľuje potrebu rôznych kooperatívnych podsietí počas učenia, prijímania rôznych vstupov a vysvetľuje, že v kontexte siete sa abstraktnému znázorneniu úlohy dodáva zostupná informácia, ako sú absolútne polohy kociek, pred zostupným príkazom.

Možno si myslíte, že komentovanie tohto rozlíšenia úlohy a konfigurácie je hlúpe, ale je nevyhnutné pochopiť, že v podstate ide o rovnaký proces abstrakcie pri hre na rôznych objektoch (a to sa otvára pre nasledujúcu časť).

Neexistuje žiadne učenie bez invencie

Transferové učenie je možno najviac fascinujúcim pojmom kognície, či už je to in-silico alebo in-vivo, je to veľmi horúca téma pre vedcov AI aj neurológov a stáva sa predmetom mojej dizertačnej práce. Všimnite si, že úzko súvisiace koncepty sa skúmali v mnohých oblastiach pred strojovým učením a tento abstraktný a vždy čiastočne definovaný koncept má veľa mien. Filozofi, antropológovia a sociológovia by ho mohli označovať ako (post-) štrukturalizmus (Claude Levi-Strauss, Michel Foucault), lingvista bude hovoriť o štruktúrach Syntagmy a vnorených stromov (Noam Chomsky), matematici pravdepodobne budú myslieť na homeomorfizmus alebo invariantov a vzdelávanie. vedci alebo neurovedci to môžu nazvať štrukturálne vzdelávanie. Môžete tiež vidieť súvisiaci koncept v oblasti strojového učenia, ako je reprezentatívne učenie a meta-učenie, ktoré sa v závislosti od autora môže týkať transferového učenia alebo paradigmy učenia používanej na vykonávanie transferového učenia. Keď hovoríme o Deep Neural Networks, tieto rozdiely sú nejasné, pretože v podstate sa neurónová sieť učí zakódovať určitý problém (reprezentačné učenie) úpravou svojej štruktúry (meta-learning) zvyčajne v hlučnom prostredí, ktoré predpokladá formu transferového učenia.

Výskumníci AI a kognitívny vedec majú často veľmi konkrétnu definíciu transferového učenia, je to proces, ktorý umožňuje systému využívať vedomosti získané pri určitej úlohe na vykonanie inej úlohy zdieľajúcej spoločnú štruktúru zloženia (ako je opísané v článku). Kognitívna veda má tento pojem vzdialeného a vzdialeného prenosu v závislosti od toho, ako sa tieto dve úlohy zdajú odlišné. Z abstraktnejšej perspektívy je však v hlučnom a komplexnom prostredí všetko učenie formou transferového učenia a rozdiel medzi veľmi blízkym a veľmi vzdialeným prenosom je iba vecou zdieľaných informácií - opäť otázkou rozsahu, nie prírody.

V kontrolovanom prostredí sa vopred vynakladá úsilie na vybudovanie tvrdo zakódovanej diskretizácie reality, ale v skutočnosti táto diskriminácia procedurálne reprodukuje to, čo sa prenosové učenie robí, spája nekonečný súbor štátov nachádzajúcich sa v skutočnosti pod spoločnou uzatváracou štruktúrou. Transfer Learning v podstate odkazuje priamo alebo v rozšírení na proces, prostredníctvom ktorého učiaci sa agenti používajú invarianty na vytváranie modelov sveta. Je to proces, ktorý využíva podobnosti, opakovania a ich variácie na vytvorenie stále abstraktnejšej a zloženejšej reprezentácie, ktorá bude štruktúrovať súbory nad rozsahom rozptylu vstupom. Vo všeobecnosti umožňuje vytvárať základné operácie, pomocou ktorých manipulujeme s informačnými skupinami, podobne ako v matematike umožňuje spojenie a priesečníky. Umožňuje identifikácie, vysvetľuje našu schopnosť kategorizovať objekty. Josh Tenembaum uvádza príklad, ktorý ku mne skutočne hovoril: Predstavte si, že učíte dvojročné dieťa, aby prvýkrát rozpoznalo koňa, ukážte mu pár obrázkov rôznych koní a potom mu ukážete obrázok iného koňa a obrázok domu a požiadajte ho, aby vám povedal, ktorý z nich je kôň. Dieťa bude túto úlohu vykonávať pomerne ľahko, ale stále je to niečo, čo počítač nedokáže dobre zvládnuť s tak malým počtom vstupov (jednorazové učenie).

Ako to urobilo dieťa?

Rozpoznávanie zvierat bolo skúmané u detí a týka sa našej schopnosti dekonštruovať predmety na príslušné časti, farebný rozsah srsti, veľkosť krku, celkový tvar atď. Táto schopnosť vám tiež umožňuje otvoriť dvere, ste nikdy predtým nevideli, naučili ste sa sekvenciu motorov, ktorá zovšeobecňuje na každú situáciu (zovšeobecnenie domény). To je to, čo používate na zostavenie vysvetľujúcich modelov, ktoré zjednodušujú svet. Možno vás na prvý pohľad prekvapí náhly zjavenie kukučky v slávnych švajčiarskych hodinách, ale po druhom vystúpení to budete očakávať. Nájdenie invázie je to, ako sa neurónová sieť učí a tieto modely sú stavané nevedome. Príkladom je, ako sa intuitívne učíme o fyzike ešte predtým, ako sme počuli o matematike a číslach.

Možno sa napríklad opýtať, ako rýchlo by sa dieťa narodené v mikrogravitácii prispôsobilo gravitácii Zeme a intuitívne sa naučilo, že predmety spadnú na zem, keď spadnú?

Mohli by sme predpokladať, že deti a väčšina zvierat nevedomky upravia svoj model, podobne ako keď si ponožky psa položíte na labky psa, a prispôsobeniu sa novým informáciám trvá nejaký čas.

Pre malé dieťa však dôjde k vedomému výsluchu a revízii jeho intuitívneho modelu, od zvedavosti, cez jazyk, symboly a presvedčenie. Naša schopnosť vedome vypočúvať a meniť naše modely je fascinujúca a ako vedľajší človek môžu byť ľudia jediným druhom, ktorý dokáže tento proces verbalizovať, ale iné druhy môžu vykonať podobné vedomé revízie.

Invariance je povinnou vlastnosťou času, keby bolo všetko vždy nové a nijako nepredvídateľné, stále by zostalo toto jedinečné invariantné, že všetko je vždy nové a nepredvídateľné. Je nemožné predstaviť si svet bez invázie, pretože by nemohol existovať svet, na ktorý by sme sa mohli odvolávať, bez invázie by život nebol možný a naše mozgy by boli zbytočné. Život je stroj, ktorý pracuje iba pri predvídateľnom opakovaní udalostí, opakovaní príčin a účinkov, cyklickom znovuzavádzaní energie do organizmu. A v snahe spoločnosti Life zlepšiť používanie týchto potrebných cyklov je náš mozog tým najlepším nástrojom. Je to predikčný stroj, prispôsobivý orgán schopný nájsť opakovanie dynamicky a použiť ho na lepšiu interakciu so svetom.

Táto metóda, ktorú si život vybral, je mimoriadne robustná až po malé zmeny v štruktúre. To, čo zostáva, je svet, štatistické vlastnosti prostredia, ale nervová štruktúra, s ktorou sa stretáva, sa môže líšiť, pokiaľ môže obsahovať relevantné informácie, ktoré vyvinula na ošetrenie. Toto vysvetľuje, prečo sa naše mozgy môžu líšiť od individuálnych k individuálnym, dokonca aj primárnym kortikám, a napriek tomu zdieľajú rovnaké funkcie.

Nervové systémy sú adaptívne, nevyžadujú vývoj a pomalé genetické mutácie, aby zmenili správanie relevantným spôsobom. Jednoduchý nervový systém, aký sa nachádza v C. Elegans, slúži ako vrodený vnútorný koordinátor a externý senzor: snímajte jedlo a pohybujte sa smerom k nemu, utekajte od bolesti, rozmnožujte sa. Tieto jednoduché systémy boli spočiatku rigidné a vykonávali extrémnu aproximáciu nášho vysoko hlučného sveta, aby ho diskriminovali v malom počte možných stavov (jedlo vľavo, teplo dole atď.). Naše motorické a zmyslové schopnosti sa vyvíjali ruka v ruke s našimi schopnosťami predpovedať nervový systém. Keď sa naše senzory stali presnejšími, nervový systém sa pomaly stal schopný modifikovať svoju štruktúru na ukladanie informácií a poučenie zo skúseností. Spočiatku sa mohla naučiť rozoznávať určité kategórie vstupov, ako sú typy zápachov alebo svetelných vzorov, a tiež sa dokázala naučiť prostredníctvom pokusov a omylov riadiť svoj stále komplexnejší motorický systém. Všimnite si, že svet je taký komplexný, že náš mozog sa prirodzene vyvinul smerom k paradigme učenia, a nie k vrodenému procedurálnemu prístupu. Z výpočtového hľadiska to dáva zmysel, jednoduchá hra Go má stavový priestor omnoho väčší (2.10¹⁷⁰), ako je počet atómov vo vesmíre (10⁸⁰), a keď sa organizmy stávajú zložitejšími, pokúšajú sa tvrdo kódovať aproximácie všetkých možných uvádza, že by to mohlo byť rýchlo nezvládnuteľné kvôli kombinatorickej explózii.

Niektorí ľudia môžu veriť, že náš mozog je postavený takým spôsobom, že vrodene predstavuje priestor, v ktorom sa bude vyvíjať, že v DNA niekde je gén pre to, čo tvorí tvár, alebo časová organizácia zvukových vĺn, ktoré tvoria slov. Môžu veriť, že táto vrodená znalosť je niekde zakódovaná pri narodení. Iní by mohli veriť, rovnako ako môj učiteľ filozofie, keď som bol na strednej škole, že existencia predchádza podstate a že náš mozog je úplne a výhradne definovaný stretnutím organizmu a sveta. Realita je samozrejme zložitejšia a pre väčšinu doposiaľ študovaných telencefalických systémov mozog nekóduje funkciu, ktorú bude vykonávať, ale naučí sa ju v závislosti od informácií obsiahnutých v jej vstupoch. Ak sú pri vstupe príliš nízke informácie o relevantných informáciách, kapacita na učenie sa v tejto štruktúre môže mať dátum exspirácie (napr. Amblyopia). Ale ak vrodená štruktúra nekóduje konečnú funkciu, mozog má špecifickú štruktúru. Táto štruktúra je zachovaná u jednotlivcov a jednotlivci rovnakého druhu zdieľajú spoločné funkcie a jazdy. DNA vytvára určitú štruktúru na mieste, štruktúru, ktorá nie je schopná vykonávať svoju konečnú funkciu vrozene, ale štruktúru, ktorá je schopná naučiť sa zložitosť konkrétnych úloh na základe individuálnej skúsenosti. Nie je prekvapujúce, že evolúcia viedla k objaveniu vysoko účinnej hematoencefalickej bariéry, ktorá izoluje mozog od zvyšku tela, ako aj meningy a obal z tvrdej kosti, ktorý ho chráni pred vonkajším svetom, pretože na rozdiel od iných orgánov, v ktorých štruktúra je kódovaná v genóme, štruktúra trénovaného mozgu nemôže byť regenerovaná z vrodene uloženého modelu. Fascinujúce je to, že vidíme rovnaké učebné mechanizmy, ktoré vznikajú analogicky prostredníctvom rozvoja čoraz zložitejších hlbokých sietí, ktoré vykonávajú čoraz zložitejšie úlohy.

Skladobné štruktúry sú ťažko viditeľné, ale všade

Ako vedľajší predmet je zvláštne, že ani autori neuznávajú, že ich prvá úloha dosahovania cieľov má kompozičnú štruktúru.

Úlohy dosahujúce častice pekne demonštrujú výzvy pri generalizácii v zjednodušenom scenári. Úlohy však nezdieľajú štruktúru zloženia, čo spôsobuje, že hodnotenie zovšeobecnenia na nové úlohy je náročné.

Aj keď je štruktúra skutočne na nižšej úrovni ako stohovanie blokov a nie je ľahko dostupná experimentálnej manipulácii, úloha je v skutočnosti zložená zo zdieľanej štruktúry. Jednou kompozičnou štruktúrou, ktorá sa priblížila svetu k rovine, je to, že identita kocky (farba) sa zachováva s transláciou a ide z bloku A - alebo do náhodnej počiatočnej polohy - v polohe (Xa1, Ya1) do bloku B v polohe (Xb1, Yb2). ) je súčasťou rovnakej štruktúry zloženia vyššieho rádu ako prechod z bloku A v polohe (Xa2, Ya2) do bloku B v polohe (Xb2, Yb2).

Rozhrania medzi sieťami

Na vytvorenie neurónových sietí, ktoré sú schopné spracovávať vstupy na rôznych úrovniach abstrakcie, bude potrebné rozhranie, doména, ktorá podľa môjho názoru predstavuje veľa objavu. Tieto rozhrania môžu mať rôzny charakter. Možno ich napríklad vnímať ako spoločný jazyk medzi dvoma sieťami, ako je uvedené v článku, sieť nižšej úrovne vyzbrojená systémom pozornosti (demonštračná sieť) môže preložiť demonštráciu do reprezentácie, ktorú môže použiť iná sieť (kontextová sieť). na priamu akciu bez ohľadu na dĺžku alebo počiatočnú konfiguráciu ukážky.

Povrchom tohto jazyka je rovina s pevnou veľkosťou, je však možné si predstaviť možné zmeny, ktoré by mohli zlepšiť komunikáciu medzi sieťou. Napríklad veľkosť povrchu by sa mohla nastaviť tak, aby sa dynamicky rozrastala alebo zmenšovala, keď siete interagujú počas učenia, a teda komprimovania alebo rozširovania jazykovej zložitosti. Mohli by sme si napríklad predstaviť dynamickejšie interakcie, napríklad prostredníctvom spätnej väzby. Dokázali by sme si predstaviť existenciu sietí sprostredkovateľov, ktorí by sa naučili hladkú komunikáciu medzi sieťami, existujúcimi ako paralelná sieť, ktorá sa naučí modulovať vstup prvej siete na základe vstupu a výstupu druhej siete. Vieme si predstaviť zložité kontextové siete, ktoré pôsobia ako tonický (pomaly sa meniaci) príliv do viacerých špecializovaných sietí ... Fascinujúce budúce oblasti výskumu!

Prípady porúch naznačujú možné úlohy, ktoré by nové moduly mohli mať

Stojí za zmienku, že chyby sú často spôsobené motorickými chybami a že počet chýb sa zvyšuje so zložitosťou úlohy.

Funkciu motora by sa nemalo zhoršovať iba zvyšovaním počtu cieľov, to je silný dôkaz, že spôsob, akým sa reprodukčná sieť učí hovoriť s motorovou sieťou, je príliš abstraktný. Je to čudné, pretože hovoria, že ich test ukazuje, že rozhranie medzi kontextovou sieťou a motorovou sieťou je relatívne konkrétne (poloha robota, poloha cieľa).

Možným riešením by mohlo byť, pretože sa jedná o modulárnu architektúru, použitie rôznych stratových funkcií alebo modulových stratových funkcií, ktoré predstavujú každý špecifický aspekt úlohy. Pomohlo by mu to aj ekvivalentom predmotorických oblastí mozgu, aby sa poistilo demonštračné a kontextová sieť môže zostať abstraktná bez zhoršenia motorického príkazu. Premotorické oblasti sú potrebné na lepšie lokalizovanie objektov na základe cieľa (z abstraktných sietí) a senzorických vstupov, aby sa vybral najlepší motorický príkaz. Zdá sa, že kontextová sieť sa snaží preniesť demonštráciu na vloženie na vyššiu úroveň a pripraviť motorickú akciu súčasne v súčasnom kontexte. Úlohou predmotorovej siete by bolo naučiť sa komunikovať s motorickým systémom cieľovo orientovaným a adaptívnym spôsobom, kombinujúcim funkcie premotora a mozočka na učenie motorov a rýchlu adaptáciu.

Existuje zaujímavá teória, Moravecov paradox, ktorý predpovedá, že to nebude kognícia na vyššej úrovni, ktorá bude výpočtovo zdaňovaná, ale liečba senzorických vstupov a výstupov motorických systémov. To by skutočne mohlo zodpovedať za veľké množstvo neurónov prítomných v našom mozočku (viac ako vo zvyšku mozgu), aby sa adaptívne kontrolovala motorická akcia. Tento paradox bol sformulovaný v čase (80. roky), keď sme stále verili, že by sme mohli vložiť svoje vlastné vedomosti do stroja na vykonávanie zložitých úloh v nekontrolovaných hlučných prostrediach. Tento paradox má, samozrejme, zmysel, ak je stroj nejakým spôsobom schopný reprezentovať svet v diskriminačnom súbore štátov, bolo by ľahšie vybudovať na ňom vyššiu funkciu. Verím však, že obidve sa ukážu ako mimoriadne zdaňujúce, a vnútorné zastúpenie použité na rozhraní medzi sieťami nebude zďaleka pripomínať naše vlastné vedomé reprezentácie.

záver

Kombináciou rôznych neurónových sietí, z ktorých každá je zodpovedná za konkrétne riešenie problému, tento článok ukazuje, že vytvorením úlohy, ktorá nevyhnutne potrebuje zovšeobecnenie, a vytvorením vhodného vzdelávacieho prostredia prostredníctvom randomizácie domény, neurónovej siete s prístupom do pamäte a systém pozornosti sa môže naučiť zovšeobecňovať nad rámec jednoduchej reprodukcie. Môže sa naučiť objaviť cieľ vyššieho poriadku, ktorý bol demonštrovaný iba raz vo vizuálnom toku informácií, a vykonáva výpočet v zovšeobecnenom priestore, aby získal príslušné akcie schopné reprodukovať tento cieľ v inom kontexte.

V budúcnosti uvidíme rastúcu zložitosť štruktúr postavených na tých atómových stavebných blokoch, ktoré sa dokážu naučiť zovšeobecňovať zložité úlohy, ale čo je dôležitejšie, vykonávať niekoľko takýchto úloh v nových prostrediach, s menším spoliehaním sa na pevne kódované metódy, ako je predspracovanie vstupov alebo pamäťové úložisko. Ukladanie pamäte bude nahradené distribuovanými reprezentáciami v rámci pamäťovej siete, systémy pozornosti budú nahradené cyklickou aktivitou v sieťach pozornosti v reálnom čase. Otázkou zostáva, ako sa nám podarí prispôsobiť silnú sériovú technológiu (Turing machines) nášmu zvýšenému spoliehaniu sa na distribuované výpočty v zabudovanom systéme.