Мозъчните изображения разкриват как работят учебните стратегии

Опресняването е необходимо, за да можем да направим точни прогнози за тези награди в лицето на променящата се среда.
Въпреки че точно как мозъкът организира този процес остава неясно, новото проучване предполага, че комбинацията от две различни учебни стратегии ръководи нашето поведение.
Доклад за работата ще се появи в списанието Неврон.
Една от приетите стратегии за обучение, наречена обучение без модели, разчита на сравнение между проби и грешки между наградата, която очакваме в дадена ситуация и наградата, която всъщност получаваме.
Резултатът от това сравнение е генерирането на „грешка при предсказване на наградата“, което съответства на тази разлика.
Например грешка в прогнозата за награда може да съответства на разликата между прогнозната парична възвръщаемост на финансова инвестиция и реалните ни приходи.
Във втория механизъм, наречен обучение, базирано на модел, мозъкът генерира когнитивна карта на околната среда, която описва връзката между различните ситуации.
„Обучението, базирано на модели, е свързано с генерирането на„ грешка в прогнозирането на състоянието “, което представлява нивото на изненада на мозъка в нова ситуация, предвид настоящата му оценка на околната среда“, казва Ян Глашер, постдокторант в Caltech и водещ автор на изследването.
„Помислете за ситуация, при която винаги се придвижвате по един и същ маршрут, когато се прибирате след работа вкъщи, но в определен ден обичайният начин е блокиран поради строителни работи“, казва Глашер.
„Безмоделна система за обучение би била безпомощно загубена; той се занимава само с предприемането на действия, които в миналото са били възнаграждаващи, така че ако тези действия вече не са налични, той няма да може да реши къде да отиде по-нататък.
„Но системата, базирана на модел, би могла да направи заявка за своята когнитивна карта и да намери ефективно отклонение, използвайки алтернативен маршрут.“
„Въпреки че по-простият механизъм за безплатно учене е добре проучен и неговият основен механизъм на обучение - който се задвижва от грешки при прогнозиране на награди - е сравнително добре разбран, механизмите, лежащи в основата на по-усъвършенстваната система за обучение, базирана на модели, с богатата си адаптивност и гъвкавост , са по-слабо разбрани ”, казва Джон П. О’Дохърти, професор по психология в Калтех.
За да характеризират допълнително неврологичните основи на тези две системи за обучение, Gläscher, O'Doherty и техните колеги са проектирали компютърно базирана задача за вземане на решения, която им е позволила да измерват кога и къде мозъкът изчислява сигнали за грешки при възнаграждение и състояние и за да се определи дали двата вида грешки всъщност генерират различни невронни подписи.
В задачата субектите трябваше да направят избор между движение наляво и надясно, което им позволява да се превключват между различни „състояния“ - обозначени с графични икони - във виртуална среда; процесът е подобен на този за навигация в обикновена видео игра.
Всеки избор наляво или надясно, направен в тази виртуална среда, водеше обекта в ново състояние. Тяхната цел беше да достигнат определено състояние на целта, за да получат парична награда, „и шансовете им да се озоват в това състояние на целите силно зависят от конкретния модел на последователни избори, които са направили“, обяснява О’Дохърти.
Система, базирана на модел, може да научи за структурата на виртуалната среда и след това да използва тази информация, за да изчисли действията, необходими за достигане до състоянието на наградата, по начин, аналогичен на начина, по който шахматист може да се опита да премисли през необходимите последователни шахматни движения за да спечелите мач.
Системата без модели, от друга страна, би се научила само сляпо да избира онези действия, които са давали награда в миналото, без да оценява последиците в настоящата ситуация.
Осемнадесет участници бяха сканирани с помощта на функционален магнитен резонанс, докато научаваха задачата. Мозъчните сканирания показаха отличителния, характеризиран по-рано нервен подпис на грешка при предсказване на наградата - генериран по време на обучение без модели - в област в средата на мозъка, наречена вентрален стриатум.
По време на обучение, базирано на модел, обаче, невронният подпис на грешка в прогнозирането на състоянието се появява в две различни области на повърхността на мозъка в мозъчната кора: интрапариеталната бразда и страничната префронтална кора.
Тези наблюдения показват, че два уникални типа сигнали за грешка се изчисляват в човешкия мозък, възникват в различни мозъчни региони и могат да представляват отделни изчислителни стратегии за насочване на поведението.
„Безмоделната система работи много ефективно в ситуации, които са силно автоматизирани и повтарящи се - например, ако редовно се прибирам по същия път вкъщи от работа“, казва Глашер, „докато система, базирана на модели, макар и да изисква много по-голям мозък обработваща мощност, е в състояние да се адаптира гъвкаво към нови ситуации, като например необходимост от намиране на нов маршрут след блокиране на пътя. "
Тези два различни механизма за обучение изпълняват допълнителни роли в контролирането на човешкото поведение, казва Глашер.
„Тъй като мощността на обработка на мозъка ни е ограничена, няма смисъл да внедряваме по-интензивната изчислителна система, базирана на модел, за контрол на всичко, което правим. Вместо това е по-добре да разчитате на безмоделната система за голяма част от нашето ежедневно поведение и да използвате базираната на модела система само за нови или сложни ситуации. Важна област за по-нататъшни изследвания ще бъде да се опитаме да разберем факторите, управляващи как тези системи взаимодействат заедно, за да контролираме поведението, и да определим как това се прилага в мозъка. "
Източник: Калифорнийски технологичен институт