Венцислав Попов
След залеза на бихевиоризма в средата на миналия век, паметта става една от основните теми на изследователско внимание. Бурното развитие на новата когнитивна програма води до експлицитно оформяне на множество видове паметови системи, които все повече се отдалечават от идеята за единна асоциативната памет, популярна както преди (Ebbinghaus, 1885), така и по време на бихевиоризма (McGeoch & Irion, 1952). Една от тези паметови системи заслужава специално внимание с оглед на важната роля, която играе при формиране на когнитивните способности, различаващи ни от животните, и това е семантичната памет.
Семантичната памет е системата, която ни позволява да откриваме структура в постоянно-променящия се заобиколен свят, да формираме понятия и категории, да обобщаваме знанието си отвъд текущия перцептуален опит. Понятията изградени от нея играят ролята на центрове на знанието, събрано от много различни епизоди, те ни позволяват да откриваме и да създаваме смисъл в иначе един изцяло материален свят. Тези ни способности са сред основните фактори, които ни разделят от животните, и са в основата на всички езикови компетенции, така че тяхното изследване е с особено висок приоритет за изготвяне на цялостна картина на човешкото познание и психика.
В рамките на тази разработка ще бъде представен конекционисткия подход към изследване на семантичната памет и по-конкретно, моделът на Румелхарт (Rumelhart, 1990), разработен в последствие от Роджърs и МакКлилънд (Rogers & McClelland, 2006). Той ще бъде сравнен с традиционните методи за моделиране на семантичната памет и ще бъде оценена способността му да симулира и обяснява множеството емпирични феномени свързани със семантичната памет, открити през последните 50 години. За съжаление ограниченията на тази работа не позволяват по-подробното разглеждане на други модели в парадигмата, но все пак представеният тук модел е добър представител на базовите принципи, заложени в конекционисткия подход, като освен това успява да отговори на многобройните емпирични изисквания, поставени от откритията на поведенческо-когнитивните експерименти.
Конекционисткият подход за моделиране на познанието (Rumelhart, McClelland and the PDP research group, 1986) се основа на няколко принципа, които са общи за всички модели спадащи към тази категория. Конекционистките модели са мрежи от взаимосвързани прости процесуални единици, чиято роля е да приемат всички сигнали достигащи до тях и, чрез определена функция да променят нивото си на активност спрямо тях. От своя страна активацията на една единица се предава към друга, умножена по тежестта на връзката между двете единици. Обикновено тези мрежи са самостоятелни модули с ясно дефинирани входящи и изходящи единици (приемащи и изпращащи информация в и извън модула), като и известен брой „скрити“ единици, които комуникират само с други единици в рамките на модула.
PDP моделите са репрезентативни модели, тоест те предполагат, че състоянието на модела е репрезентация на нещо, било то усещане, комплекс от усещания, емоция, понятие и други – от тук насетне наричани общо „обект“. В тези модели целеният обект се представя чрез схема на активация, като активацията на съответните единици символизира присъствието на въпросния обект. Това изисква възможността различни обекти да предизвикват различни схеми на активация и това се постига чрез различните тежести на връзките между процесуалните единици. Тези тежести могат да приемат положителни и отрицателни стойности, като положителните активират приемащата единица, ако предаващата е активна, а отрицателните я потискат. Колкото е по-висока, за положителните, или по-ниска, за отрицателните, тежестта на една връзка, то толкова по интензивно влияние има тя върху приемащата единица. Чрез многобройни видове процедури изготвени през годините, тези мрежи имат способността да се учат от опита си и, променяйки стойността на тежестите си, да променят бъдещото си поведение.
Тези процедури са разнообразни, но могат да се обобщят в два основни типа – задвижвани-от-грешките (пр. „правилото делта“) и самоорганизиращи се (пр. „правилото на Хеб“) (O’Reilly & Munakata, 2000). Първият тип правила променят тежестите в мрежата в зависимост от разминаването между очаквания изходящ сигнал на мрежата и този, който тя действително е произвела, както и от това, до колко тази промяна би намалила тази разлика. Този тип учене често е критикувано, че не е биологически достоверно, но ако не се взима за буквална репрезентация на реален биологичен процес на учене, то то много мощно увеличава възможностите ни да разбираме човешкото познание (McClelland, 2000; Dror & Gallogly, 1999), а освен това негови варианти постепенно се доближават до биологичната реалност (O’Reilly, 1996).
За разлика от повечето от предшестващите ги опити за обяснение на организацията на семантичната информация (Collins & Quillian, 1969; Smith, Shaben & Rips, 1974; Collins and Loftus, 1975), Румелхарт и поддръжниците на конекционисткия подход смятат, че знанието не е разпределено в ясно ограничени когнитивни цялости, било то понятия, категории, имплицитни теории и други, а че то е зараждаща се характеристика на структурата и взаимодействието на елементите в една конекционистка семантична мрежа (as cited in Rogers & McClelland, 2006, p. 46). Тази характеристика на конекционистките модели им позволява изключителна гъвкавост, посредством която успяват да съчетаят привидно противоречащи си емпирични открития, които ще бъдат обсъдени по-късно (pp. 46-47).
Моделът на Румелхарт (приложение 1) представлява трикомпонентна мрежа, която придобива репрезентации на семантична информация, като научава връзките между определени обекти, качества и техните отношения. Румелхарт обучава мрежата си със семантичния материал използван от Колинс и Кулиян в техния йерархичен модел, за да покаже (Collins & Quillian, 1969), че йерархичност и категоризация са качества, които могат да бъдат възпроизведени и в конекционистка мрежа. Три различни атрибута се кодират от мрежата: обект (canary), характеристика на обекта (sing) и вид на отношението между тях (can). „Вида на отношението“ често бива използвано като означаващо контекста в който е научено качеството К1, за обекта О1. В конкретния модел броя на репрезентираните обекти е 8, а на контекстите – 4.
В конекционистките мрежи съществува два вида кодиране на информация – локално и дистрибутивно. Локалното кодиране използва отделни процесуални единици да репрезентират определени обекти или характеристики на обекти, докато дистрибутивното кодиране разчита на много произволни единици да репрезентират много различни характеристики, в зависимост от схемата си на активация. В конкретния модел, Румелхарт използва локално кодиране за обектите, качествата и отношенията им. Въпреки че, тази репрезентация е значително опростена и има известни недостатъци (като нуждата да се създава нова единица за всеки нов обект, нещо, което изразходва изключително много ресурси), това е направено, за да постигне по-голяма прозрачност на мрежата и да направи поведението ѝ по-лесно за анализиране. Това е жизнено нужно изискване, тъй като според МакКлоски, ако една мрежа не е прозрачна за анализ, то тя с нищо не се различава от феномена, който се стремим да изучим (as cited in Houghton, 2005, p. 194). Освен това, Роджърс и МакКлилънд, симулирайки модела както с локални, така и с дистрибутивни репрезентация показват, че в крайните резултати не се откриват драстични разлики и че за удобство може да се използват първите, без това да повлияе негативно на модела (Rogers & McClelland, 2006, ch. 2).
Освен трите локалния слоя изразяващи входящата и изходящата информация, в модела има и два дистрибутивни, като единия от тях е съставен от 8 единици и е наречен „репрезентационен“, а другият се състои от 15 единици и се нарича „скрит“. Репрезентационния слой получава входящи сигнали само от входящите единици за обекти, като върху тях, чрез последвалото обучение, системата открива схеми на активация, с които превръща локалната входяща информация в дистрибутивна, което и позволява да кодира структурата и корелациите в околната среда (представената ѝ семантична информация). Скритият слой получава информация от репрезентативния и от контекстуалния (слоя с отношенията) и открива обща репрезентация и на двете. Това позволява на информация за отношения да бъде генерализирана към други обекти. Тези два дистрибутивни слоя са разделени, за да позволи на системата да обобщава информация на различни нива и да избегне катастрофална интерференция (p. 66).
Мрежата функционира по следния начин. Преди започване на обучението, всички тежести са нагласени с неутрални случайни стойности около 0,5 при максимална стойност 1, като по този начин в началото мрежата няма репрезентация на нищо, а самите тях ще научи чрез опита. Мрежата се обучава чрез обратно разпространение на грешката (backpropagation) (Rumelhart, McClelland and the PDP research group, 1986), с малки промени в рамките на много тренинг сесии, да възпроизвежда подходящата характеристика при активиране на всяка от 32 комбинации от обект и отношение. За обучена мрежа се счита това нейно състояние, при което всяка комбинация от обект и отношение активира само съответните за тях качества – при активиране на „канарче“ и „може“, мрежата трябва да активира само атрибутите „расте“, „движи“, „лети“ и „пее“ и тн (Rogers & McClelland, 2006).
Така изготвената мрежа не претендира обективно да отразява разпределението на семантична информация в паметта, нито се опитва да твърди, че цялото ни знание е представено чрез трикомпонентни пропозиции, а се стреми, чрез ограничения стимулен материал, да може да възпроизведе и обясни паметовите ефекти, демонстрирани от изследвани лица в различни експериментални ситуации (pp. 71 -76). Това се постига чрез прекъсване на мрежата през различни периоди от нейното обучение и симулиране на проведените когнитивни експерименти или чрез директно наблюдение на нейното поведение в нормална среда или чрез умишлено „разрушаване“ на връзки от нея, чрез добавяне на шум. Резултатите се обясняват, чрез анализиране на схемите на активация, получени в репрезентационния и скрития слой.
Кои са емпиричните феномени, които мрежата трябва да адресира? Навярно те са много повече, отколкото могат да бъдат споменати в тази разработка, но сред основните са: прогресивна диференциация на знанието в детското развитие (Clark, 1973), загуба на специфични категории и свръх-генерализиране към общи категории при пациенти със семантична деменция (Snowden, Goulding, and Neary, 1989), ефекти на базовото ниво (Rosch, Simpson & Miller, 1976), ефекти на експертното знание (Tanaka & Taylor, 1991), различната тежест на едни и същи характеристики при дискриминация на различни видове обекти (Macario, 1991), ефекти на типичността и прототипа (Rosch & Mervis, 1975) и категориалната кохерентност (Murphy & Medin, 1985).
Роджърс и МакКлилънд (Rogers & McClelland, 2006), модифицирайки мрежата на Румелхарт, когато това е нужно, и изготвяйки съответните симулации, представят както потвърждение за способността на модела да генерира по-горе описаните ефекти, но и освен това, чрез анализ на схемите на активация, предлагат обяснения за възникването на всеки от тях. Някои от тези обяснения ще бъдат накратко резюмирани в следващите редове.
В симулация 3.1, Роджърс и МакКлилънд прекъсват тренинга на мрежата през различни интервали, преди достигане на пълно заучаване, за да анализират диференциацията на репрезентациите на обектите върху репрезентационния слой. Чрез йерархичен клъстърен анализ на стойностите на активация те забелязват следното – първоначално всички репрезентации са почти идентични, като последователно се забелязва разделение между животни и растения, без обаче да се разграничават разновидностите, което е последвано от разграничение между птици и риби и съответно цветя и дървета. Те обясняват това чрез следния принцип: ковариращите общи качества на обектите местят репрезентациите им в една и съща посока, докато идеосинкратичните им качества се взаимопротивопоставят (p. 91). Докато не се е стабилизирала репрезентацията на възможно най-много общи-качества, не може да започне разграничението на айтемите. Поради спецификата на споделяните качества, диференциацията започва на най-общото ниво и продължава постепенно към спецификите. Принципът за кохерентната ковариация на качествата е сред основните движещи сили на модела и според Роджър и МакКлилънд обяснява способността на мрежата да открива статистически зависимости в околната средата и да репрезентира естествени категории. Този принцип е също в основата на обяснението им, защо моделът, а ѝ човешката когнитивна система, подреждат с приоритет определени характеристики в цялостни понятия, а други игнорират (pp. 91-104, 132-138, 240-250). Тази симулация е повторена (4.1) и с по-богат семантичен материал, където всеки обект има по 5 разновидности (5 вида цветя), без те да са указани изрично като едни и същи обекти, като по-този начин избягват критиките, че структурата на мрежата е всъщност ръчно зададена от имената.
Ефектите, причинени от развитието на семантичната деменция, където пациентът първо губи способността да наименува обекти с конкретните им имена (петел) и постепенно използва все по-общи (кокошка, птица и накрая – животно) са развити и обяснени чрез симулация 3.2. Те имитират деменция в модела, като към тежестите от входящите обекти, към репрезентационното ниво добавят „шум“- малка случайна стойност. Тази процедура се повтаря няколко пъти, с различна средна стойност на шума, записват се активациите на репрезентациите, както и поведението на мрежата при тестиране на отношение „еняк“ (ISA) и в последствие се сравняват, като се оценява силата на активация на изходящите именни атрибути. Осреднените стойност между всички опити и обекти показват, че колкото повече шум се прилага, толкова повече спада активацията на правилните имена и което е по-важното – тя спада най-бързо за конкретното име (канарче), на следващо място за базовото име (птица) и най-бавно за общото име (животно) (p. 106). Обяснението на тези ефекти е донякъде свързано на тези, описани в миналия параграф – най-голяма част от различните репрезентации кодира общите характеристики между обектите, тоест тяхната принадлежност в по-обща категория, а най-малка – идеосинкратичните им качества и тъй като шума е равномерен, то той има по-голям ефект върху по-малките области на репрезентацията (p. 112).
Описаният от Рош ефект на базовото ниво обхваща много свързани феномени, но в основата си той е свързан с това, че всички деца научават първо имената на предметите на едно и също ниво, което тя нарича базово, макар и да има сведения, че те отдавна дискриминират между по-общи категории. Също така, времето за реакция на възрастни хора е най-малко при задачи за потвърждаване името на обект на картинки, когато е използвано базовото ниво, а не по-общо или по-специфично (Rosch, Simpson & Miller, 1976). Как обяснява привидно противоречие между постепенната диференциация и базовите ефекти моделът на Румелхарт?
Роджър и МакКлилънд изказват хипотезата, че причината за това е високата честота на използване на имената от базовите нива в средата на децата в сравнение с останалите нива (p. 189). Тази хипотеза се подкрепя от анализ на речта на майки около и към децата си в продължителен период от време (Brown, 1973). За да симулират тази среда те добавят още няколко отношения в модела – „е-няк-общо“, „е-няк-базово“ и „е-няк-специфично“, като контролират честота с която всяко от тях се появява – базовото ниво се появява три пъти по-често от другите две (pp. 189-190). Както и в миналите симулации, те прекъсват тренинга на няколко места, записват активацията, но този път само на видовете имена и след това сравняват нивото на активация, както между тях, така и през времето. Използвайки евристика предложена от Левелт (Levelt, 1989 as cited in Roger & McClelland, 2006), че назованото име е най-специфичното, получило активация над поставения праг, Роджърс и МакКлилънд показват, че моделът, както децата, научава и назовава първо базовите имена на обектите, макар репрезентациите да показват, че моделът първо е направил разграничение между по-общи категории (pp. 193-195).
За да адресират и възраженията на Рош (Rosch et al., 1976), че има случаи, в които името за базово ниво не е най-често срещано, както и да обяснят ефекта за прототипа (обекти, които са по типични за категорията си, тоест споделят повече елементи с останалите представители, се именуват по-бързо, а, от друга страна, силно специфични обекти (пингвин), се научават първо със специфичните си имена, Роджърс и МакКлилънд извършват същата симулация като описаната в миналия параграф, но с еднаква честота на срещане на имената. Те откриват, че въпреки, че базовите имена принципно запазват по-високата си активация, то този път тя варира значително между различните айтеми в зависимост от типичността им, като за най-нетипичните (пингвин), активацията на специфичното име е дори по-висока (p. 198). След анализ на резултатите, те стигат до заключението, че същите причини, които движат постепенната диференциация на категориите и качествата е отговорна и за тези ефекти – според тях, базовите категории са тези групи от обекти, чиято генерализация на качества би донесла най-много ползи и най-малко интерференция в системата (p. 209).
Макар да обръщат внимание на много други детайли и принципи, действието на този модел, както и на други в конекционистката парадигма, може да се обобщи по следния начин. Чрез задвижвано от грешките учене, мрежата успява да открие статистически модели в околната среда, на базата на кохерентно ковариращите характеристики в нея. Основавайки се на тези ковариращи характеристики, моделът изгражда вътрешни дистрибутивни репрезентации на обектите от реалността, като приликите и разлики в тези репрезентации отразяват общите и инцидентните качества на тези обекти и позволяват генерализацията на качества от един срещнат предмет, към всички типични от неговия клас. Едно и също качество има различна тежест при определяне и категоризиране на останалите характеристики в зависимост от типа обекти, защото за един тип обекти то коварира кохерентно с другите му качества, а при други – не. Новонаучени качества за нетипични представители за класа се възприемат като идеосинкратични, освен ако контекстът или друга информация не подпомага противното. Репрезентациите на обекти от околния свят се диференцират постепенно в растежа и показват обратнопропорционална генерализация при деменция. Тъй като опитът е двигателят, определящ репрезентациите, то хора и модели, които са експерти в дадена област, показват по-добра диференциация на обекти и характеристики в същата тази област. При тях ефектите на базовото ниво са незначителни спрямо неспециалисти, тъй като по-подробното диференциране е премахнало предимството на информативността.
Моделът на Румелхарт, доразвит от Роджърс и МакКлилънд, както и конекционистките модели като цяло, са често критикувани противоречиво – докато някои по-биологически ориентирани изследователи смятат, че принципите, заложени в тях, за прекалено опростени, за да отразяват правдоподобно как действително се извършва когницията в мозъка, то критиките на други са, че моделите наблягат прекалено много на архитектурната обосновка и на изчислителните принципи, че са се отдалечили прекалено много от абстрактното ниво, на което трябва да изследваме познанието или че не са достатъчно систематични и са, в най-добрия случай, просто начин за експлицитна имплементация на други подходи (Fodor & Pylyshyn, 1988). Повечето представители на конекционизма приемат тези критики, но не ги считат за разрушителни, дори напротив – както беше отбелязано в началото, опростяването на моделите подпомага техния анализ, а симулации, направени с по-прости и по-сложни версии на един и същ модел показват, че в много случаи разликите не са фатални. Критиката на Фодор и Пилишин, относно липсата на систематичност и експлицитна правила в конекционистките модели е интересна, тъй като, обратно, конекционистите смятат това за особено силна страна на техния подход – според тях човешкото поведение и познание не е регуларно, а квази-регуларно, което е основно зараждащо се качество (emergent quality) на техните модели. Един основен фактор, който би допринесъл за по-всеобщото признаване на конекционисткия подход е евентуалното свързване на многообразните модели от всички области на познанието – разпознаване, памет, внимание, планиране, взимане на решение и други в един цялостен модуларен модел на човешкото познание. Разбира се, това е изключително трудоемка задача и би изисквала много компромиси между различните модели, но евентуалното ѝ постигане, или дори започване, би показало пътя на пълния потенциал на конекционисткия подход и конекционистките модели.
Библиография:
- Brown, R. (1973). A first language. Cambridge, MA: Harvard University Press.
- Clark, E. V. (1973). What’s in a word? On the child’s acquisition of semantics in his first language. In T. E. Moore, ed., Cognitive development and the acquisition of language. New York: Academic Press.
- Collins, A. M., and Loftus, E. F. (1975). A spreading-activation theory of semantic processing. Psychological Review, 82, 407–428.
- Collins, A. M., and Quillian, M. R. (1969). Retrieval time from semantic memory. Journal of Verbal Learning and Verbal Behavior, 8, 240–247.
- Dror, I. and Gallogy, D. (1999). Computational analyses in cognitive neuroscience: In defense of biological implausibility. Psychonomic Bulletin & Review, 6 (2), 173-182
- Ebbinghaus, H. (1885). Memory: A contribution to experimental psychology. New York: Teachers college. Retrieved May 21, 2012, from http://psychclassics.yorku.ca/Ebbinghaus/
- Fodor, J. A., and Pylyshyn, Z. W. (1988). Connectionism and cognitive architecture: A critical analysis. Cognition, 28, 3–71.
- Houghton, G. (2005). Connectionist models in cognitive psychology. Hove [England]: Psychology Press.
- Macario, J. F. (1991). Young children’s use of color in classification: Foods and canonically colored objects. Cognitive Development, 6, 17–46.
- McClelland, J. L. (2000). Connectionist models of memory. In E. Tulving & F. I. M. Craik (Eds.), The Oxford Handbook of Memory, 583-596. New York, NY: Oxford University Press.
- McGeoch, J. A. and Irion, A. L. (1952). The psychology of human learning. New York: Longmans.
- Murphy, G. L., and Medin, D. L. (1985). The role of theories in conceptual coherence. Psychological Review, 92, 289–316.
- O’Reilly, R. (1996). Biologically plausible error-driven learning using local activation differences: the generalized recirculation algorithm. Neural Computation, 8 (5), 895-938
- Reilly, R. and Munakata, Y. (2000). Computational explorations in cognitive neuroscience : understanding the mind by simulating the brain. Cambridge, Mass: MIT Press.
- Rogers, T. and McClelland, J. (2006). Semantic cognition : a parallel distributed processing approach. Cambridge, Mass. London: MIT.
- Rosch, E., and Mervis, C. B. (1975). Family resemblances: Studies in the internal structure of categories. Cognitive Psychology, 7, 573–605.
- Rosch, E., Simpson, C., and Miller, R. (1976). Structural bases of typicality effects. Journal of Experimental Psychology: Human Perception and Performance, 2, 491–502.
- Rumelhart, D. E. (1990). Brain style computation: Learning and generalization. In S. F. Zornetzer, J. L. Davis, and C. Lau, eds., An introduction to neural and electronic networks, 405–420. San Diego, CA: Academic Press.
- Rumelhart, D. E., McClelland, J. L., & the PDP Research Group (1986). Parallel distributed processing: Explorations in the microstructure of cognition : Vol. 1. Foundations. Cambridge, Mass: The MIT Press.
- Smith, E. E., Shoben, E. J., and Rips, L. J. (1974). Structure and process in semantic memory: A featural model for semantic decision. Psychological Review, 81, 214–241.
- Snowden, J. S., Goulding, P. J., and Neary, D. (1989). Semantic dementia: A form of circumscribed temporal atrophy. Behavioural Neurology, 2, 167–182.
- Tanaka, J., and Taylor, M. (1991). Object categories and expertise: Is the basic level in the eye of the beholder? Cognitive Psychology, 23, 457–482.