ЕИТЦ/АИ/АРЛ Адванцед Реинфорцемент Леарнинг је европски програм ИТ сертификације о ДеепМиндовом приступу учењу са појачањем у вештачкој интелигенцији.
Наставни план и програм ЕИТЦ/АИ/АРЛ Адванцед Реинфорцемент Леарнинг фокусира се на теоријске аспекте и практичне вештине у техникама учења са појачањем из перспективе ДеепМинд-а организованог у оквиру следеће структуре, обухватајући свеобухватан видео дидактички садржај као референцу за ову ЕИТЦ сертификат.
Појачано учење (РЛ) је област машинског учења која се бави питањем како интелигентни агенти треба да предузимају радње у окружењу како би максимизирали појам кумулативне награде. Појачано учење је једна од три основне парадигме машинског учења, уз надгледано и ненадгледано учење.
Појачање учења разликује се од учења под надзором по томе што не требају бити представљени обележени парови улаза/излаза и у томе што не требају изричито кориговане неоптималне акције. Уместо тога, фокус је на проналажењу равнотеже између истраживања (неисцртане територије) и експлоатације (тренутних сазнања).
Окружење се обично наводи у облику Марковљевог процеса одлучивања (МДП), јер многи алгоритми учења за појачање за овај контекст користе технике динамичког програмирања. Главна разлика између класичних метода динамичког програмирања и алгоритама за учвршћивање је у томе што потоњи не претпостављају познавање тачног математичког модела МДП-а и циљају велике МДП-ове тамо где тачне методе постају неизводљиве.
Захваљујући својој општости, учење појачавања проучава се у многим дисциплинама, као што су теорија игара, теорија управљања, истраживање операција, теорија информација, оптимизација заснована на симулацији, системи са више агената, интелигенција ројева и статистика. У литератури о оперативним истраживањима и контроли, учење појачања назива се приближним динамичким програмирањем или неуро-динамичким програмирањем. Проблеми од интереса за учење појачања такође су проучавани у теорији оптималног управљања, која се највише бави постојањем и карактеризацијом оптималних решења и алгоритмима за њихово тачно израчунавање, а мање учењем или апроксимацијом, посебно у одсуству математички модел околине. У економији и теорији игара учење поткрепљивања може се користити да би се објаснило како равнотежа може настати у ограниченој рационалности.
Основно ојачање је моделирано као поступак одлуке Маркова (МДП). У математици, Марков процес одлучивања (МДП) представља дистанцирани стохастички процес управљања. Пружа математички оквир за моделирање доношења одлука у ситуацијама када су исходи делом случајни, а делом под контролом доносиоца одлуке. МДП су корисни за проучавање проблема оптимизације решених динамичким програмирањем. ОДП су били познати барем још педесетих година прошлог века. Основно тело истраживања процеса одлучивања о Маркову произашло је из књиге Роналда Ховарда из 1950. године, Динамичко програмирање и Марков процеси. Користе се у многим дисциплинама, укључујући роботику, аутоматско управљање, економију и производњу. Назив МДП потиче од руског математичара Андреја Маркова јер су продужетак марковских ланаца.
У сваком временском кораку процес је у неком стању С, а доносилац одлуке може одабрати било коју радњу а која је доступна у држави С. Процес одговара у следећем временском кораку насумичним преласком у ново стање С 'и даје доносилац одлуке одговарајућу награду Ра (С, С ').
На вероватноћу да процес пређе у ново стање С 'утиче изабрана радња а. Конкретно, даје га функција прелаза стања Па (С, С '). Дакле, следеће стање С 'зависи од тренутног стања С и акције доносиоца одлуке а. Али с обзиром на С и а, он је условно независан од свих претходних стања и радњи. Другим речима, транзиција државе у МДП задовољава имовину Марков.
Марковски процеси одлучивања су продужетак марковских ланаца; разлика је у додавању радњи (омогућавање избора) и награда (давање мотивације). Супротно томе, ако за сваку државу постоји само једна радња (нпр. „Сачекај“) и све су награде исте (нпр. „Нула“), поступак одлуке Маркова своди се на ланац Маркова.
Средство за учење ојачавања комуницира са околином у дискретним временским корацима. У сваком тренутку т, агент прима тренутно стање С (т) и награду р (т). Затим бира акцију а (т) из скупа доступних радњи, која се затим шаље у окружење. Окружење прелази у ново стање С (т + 1) и одређује се награда р (т + 1) повезана са прелазом. Циљ агента за учвршћивање је да научи политику која максимизира очекивану кумулативну награду.
Формулирање проблема као МДП претпоставља да агент директно посматра тренутно стање животне средине. У овом случају се каже да је проблем у потпуности уочљив. Ако агент има приступ само подскупу стања или ако су посматрана стања оштећена буком, каже се да агент има делимичну видљивост и формално проблем мора бити формулисан као делимично уочљив поступак одлуке Маркова. У оба случаја, скуп радњи доступан агенту може бити ограничен. На пример, стање на рачуну може бити ограничено на позитивно; ако је тренутна вредност стања 3 и транзиција државе покушава да смањи вредност за 4, транзиција неће бити дозвољена.
Када се учинак агента упореди са учинком агента који делује оптимално, разлика у учинку даје појам жаљења. Да би се понашао приближно оптимално, агент мора да расуђује о дугорочним последицама својих поступака (тј. Максимализује будући приход), иако би непосредна награда повезана с тим могла бити негативна.
Стога је учење појачавања посебно погодно за проблеме који укључују дугорочну насупрот краткотрајној размени награда. Успешно се примењује на различите проблеме, укључујући контролу робота, заказивање дизала, телекомуникације, бацкгаммон, цхецкерс и Го (АлпхаГо).
Два елемента чине учење ојачања моћним: употреба узорака за оптимизацију перформанси и употреба апроксимације функција за бављење великим окружењима. Захваљујући ове две кључне компоненте, учење појачања може се користити у великим окружењима у следећим ситуацијама:
- Модел животне средине је познат, али аналитичко решење није доступно.
- Дат је само симулациони модел окружења (предмет оптимизације засноване на симулацији).
- Једини начин да се прикупе информације о животној средини је интеракција са њом.
Прва два од ових проблема могла би се сматрати проблемима планирања (будући да је доступан неки облик модела), док би се последњи могао сматрати истинским проблемом учења. Међутим, учење ојачавањем претвара оба проблема планирања у проблеме машинског учења.
Компромис истраживања и експлоатације најтемељитије је проучаван кроз проблем са више наоружаних бандита и за МДП коначног стања у Бурнетас и Катехакис (1997).
Учење за појачање захтева паметне механизме истраживања; случајним одабиром акција, без позивања на процењену расподелу вероватноће, показује лош учинак. Случај (малих) коначних Марковљевих процеса одлучивања релативно је добро схваћен. Међутим, због недостатка алгоритама који се добро прилагођавају броју стања (или прилагођавају проблемима са бесконачним просторима стања), једноставне методе истраживања су најпрактичније.
Чак и ако се питање истраживања занемари, па чак и ако је држава била уочљива, и даље остаје проблем да се користи прошло искуство како би се открило које акције доводе до већих кумулативних награда.
Да бисте се детаљно упознали са наставним планом и програмом сертификације, можете проширити и анализирати табелу испод.
ЕИТЦ/АИ/АРЛ Наставни план и програм за сертификацију напредног учења за појачање упућује на дидактичке материјале отвореног приступа у видео облику. Процес учења је подељен на структуру корак по корак (програми -> лекције -> теме) која покрива релевантне делове курикулума. Такође су обезбеђене неограничене консултације са стручњацима из домена.
За детаље о процедури сертификације проверите Како то функционише.
Референтни ресурси за курикулум
Контрола на људском нивоу путем публикације Дееп Реинфорцемент Леарнинг
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Отворени курс за учење дубоког појачања на УЦ Беркелеи
http://rail.eecs.berkeley.edu/deeprlcourse/
РЛ примењен на К-армбед бандит проблем из Манифолд.аи
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Преузмите комплетне припремне материјале за самоучење ван мреже за ЕИТЦ/АИ/АРЛ Адванцед Реинфорцемент Леарнинг програм у ПДФ датотеци
ЕИТЦ/АИ/АРЛ припремни материјали – стандардна верзија
ЕИТЦ/АИ/АРЛ припремни материјали – проширена верзија са питањима за преглед