Kognitiva illusioner
Sensorisk information är ofta tvetydig, men för att vi ska kunna styra vårt beteende på ett effektivt sätt krävs det att vi snabbt kan komma fram till otvetydiga perceptuella tolkningar. För att göra detta kompletterar vi den sensoriska informationen med tidigare kunskap och erfarenhet av liknande situationer. Vi kan tänka oss att denna tidigare kunskap ger oss ”bästa möjliga” antaganden om det troliga tillståndet i världen. Denna strategi får oss snabbt till rätt tolkning för det mesta, men när våra antaganden är felaktiga kommer våra uppfattningar att vara felaktiga. Kognitiva illusioner förklaras ofta i termer av sådana felaktigt tillämpade antaganden. Termen ”kognitiv” innebär inte att antagandena görs medvetet: de ligger i allmänhet under medvetandets radar, är djupt rotade och till och med orubbliga. Detta förklarar varför kognitiva illusioner kan bestå oförminskat även efter att vi vet att vi blir lurade. Kognitiva illusioner kan uppstå för vilken sensorisk modalitet som helst och för uppfattningar baserade på flera modaliteter, men synen ger återigen ett överflöd av exempel.
En del slående visuella illusioner är resultatet av perceptuella konstansmekanismer. Dessa konstansmekanismer håller oss normalt inställda på objektens verkliga egenskaper oberoende av förändringar i den stimulering som de presenterar för oss. Ett övertygande exempel är ljushetskonstansen, som illustreras väl av Adelsons rutiga illusion (fig. 4A). Vi kan vara ovilliga att acceptera att plattorna A och B har exakt samma grå nyans eftersom B verkar så mycket ljusare för oss, men vår uppfattning om plattans ljushet bestäms inte av den absoluta mängden ljus som den reflekterar, utan av en uppskattning av hur stor andel av det infallande ljuset som den reflekterar. Kakel B verkar ligga i skugga så vi ser en ljus kakel som reflekterar majoriteten av sin svaga belysning. Kakel A verkar inte vara i skugga, så vi ser en mörk kakel som reflekterar relativt sett mindre av den starkare belysningen. Vi gör liknande justeringar för ljuskällans färg för att kunna dra slutsatser om ytreflektionsegenskaperna hos objekten i scenen (färgkonstans). Jordgubbarna i figur 4B återges i grå nyanser men vi ser dem som röda eftersom vi automatiskt justerar för den uppenbara blågröna belysningen i bilden. Sådana effekter illustrerar det perceptuella systemets fantastiska förmåga att kompensera för stora variationer i ljusförhållanden.
En annan perceptuell konstans är formkonstans, som beskriver vår förmåga att anpassa oss till variationer i form och storlek på de bilder som projiceras till vårt öga när vi ser ett objekt från olika utsiktspunkter. Den optiska projektionen av ett cirkulärt mynt på ett bord framför dig är en bred ellips, men din perception kompenserar för det förkortade perspektivet och du ser myntet som en cirkel. Formkonstans kan ge upphov till starka illusioner när tvådimensionella (platta) bilder tolkas med hjälp av antaganden som är lämpliga för fasta föremål. Shepards bordsskivor i figur 4C är identiska parallellogram – den ena skulle kunna läggas exakt på den andra – men eftersom vi tolkar dem som fasta objekt som roterats olika i djupled, kompenserar vår uppfattning för en förkortning av längden på det ena bordet och bredden på det andra. Resultatet blir att de objektivt sett identiska bordsskivorna framstår som radikalt olika för oss, den ena lång och smal, den andra kort och bred (Shepard, 1990).
En aspekt av formkonstans är storlekskonstans, som beskriver tendensen till att mer avlägsna objekt skalas upp i uppfattningen. Detta gör att vi kan se objekt som relativt stabila i storlek trots förändringar i betraktningsavstånd. Den optiska bilden av din avgående vän halveras i storlek när hon kommer dubbelt så långt bort, men du uppfattar inte att hon krymper; din uppfattning av hennes krympande bild skalas successivt upp för att kompensera för det ökade betraktningsavståndet. Ett bra sätt att uppskatta kraften i denna perceptuella omskalning är att stirra på en stark ljuskälla, t.ex. glödlampan i en lampa, i en minut eller två. Efteråt kommer en mörk klump (den negativa efterbilden av ljuset) att tyckas projiceras på vilken blek yta som helst som du tittar på. Den optiska storleken på denna efterbild är konstant och motsvarar den del av näthinnan som utsätts för det starka ljuset, men dess upplevda storlek kommer att variera dramatiskt med avståndet till den yta som du tittar på. Klumpen kommer att se mycket mindre ut på ett vitt kort som du håller i handen än på en avlägsen vägg; du kan till och med se den krympa och växa när du flyttar kortet mot och bort från ditt ansikte, eller när du går mot och bort från väggen.
Som i fallet med Shepards bordsskivor kan storleksbeständigheten skapa starka illusioner när vi tolkar en platt bild som om den vore en scen i djupled. Tänk på Ponzo-illusionen i figur 4D, där den övre linjen ser längre ut än den (identiska) linjen under den. En viktig källa till denna effekt kan vara att vi ser de konvergerande sidolinjerna som en projektion av parallella linjer i världen, som tågspår som drar sig undan i fjärran. Den övre linjen tolkas därför som längre bort och skalas därför upp för att kompensera detta. Samma effekt kan framkallas i bilder av verkliga scener genom att återge ett bildelement från förgrunden på ett längre skenbart avstånd; den absurda förstoringen av de avlägsna vita skåpbilarna i figur 4E visar oss i vilken utsträckning vår uppfattning av storlek normalt skalas av avståndet. Även i vissa verkliga scener kan misstolkningen av avståndsindikationer bidra till illusioner om storlek. Månen kan till exempel verka mycket större när den står lågt vid horisonten än när den står högt på himlen. Denna himmelsillusion har förbryllat människor i århundraden, och flera teorier har föreslagits för att förklara den (Ross och Plug, 2002). Ett förslag är att när månen står vid horisonten finns det vanligen mellanliggande element som byggnader och träd som anger avståndet, vilket gör att den upplevda storleken ökar. Ett annat är att när vi ser månen högt upp på en karaktärslös himmel kan våra ögon faktiskt fokusera och fixera på ett kortare avstånd, vilket gör att den upplevda storleken minskar. Även om vi kan rapportera månens skenbara storlek med lätthet kan vi dock vara mindre medvetna om de avståndssignaler som påverkar den. Faktum är att om man frågar direkt bedömer människor i allmänhet att månen är närmare när den befinner sig vid horisonten, och kanske resonerar de (felaktigt) att om den ser större ut så måste den vara närmare.
I flera av dessa illusioner, särskilt när vi luras av bilder, verkar det lite orättvist att säga att vi verkligen har misstagit oss, eftersom uppfattningen oundvikligen skulle vara korrekt i den verkliga världen. En kakelplatta som är grå i skuggan skulle verkligen ha en ljus ytfärg, en jordgubbe som är grå i blågrönt ljus skulle verkligen vara en röd frukt, och Shepards bord skulle vara två mycket olika formade möbler. Med tanke på att våra perceptuella system har utvecklats genom evolutionen och under varje livstid för att stödja engagemanget i den verkliga världen kan dessa uppfattningar betraktas som framgångar snarare än misslyckanden. Vi är optimerade för att se föremålens ytegenskaper, inte de särskilda våglängder som reflekteras, och för att förstå fasta föremåls former, inte projektioner till ett plant plan (vilket kan kräva flera års konstnärlig träning). När illusioner uppstår i verkliga scener beror det oftast på att scenen är mycket osannolik eller helt enkelt inte är en scen som vårt system har utformats för. Våra sofistikerade mekanismer för att bedöma avstånd och storlekar misslyckas till exempel när de tillämpas på himlakroppar, eftersom de berörda avstånden och storlekarna ligger så långt utanför vår erfarenhet och eftersom det inte spelar någon roll om vi uppfattar dem korrekt eller inte. Det är säkert att anta att ingen någonsin har dött på grund av att de missbedömt månens storlek.
Om vi är utformade för att aktivt engagera oss i en jordisk värld av fasta föremål, kan detta förklara varför vi inte kan undvika att se en djuptolkning av en bild, när en sådan är möjlig, även om vi vet att bilden faktiskt är platt. Vi är så vana vid perspektiv och skuggning i konsten, och vid fotografier och video, att det är lätt att glömma vilka anmärkningsvärda illusioner av djup de ger oss. Kanske är det viktigaste skälet till att 3D-filmer, som tillför stereoskopiskt djup till bioupplevelsen, aldrig har fångat fantasin, att vi redan får ett så rikt djup från 2D-filmer. När vi tittar på dem gör vår syn bara det som är naturligt (analysera en scens djupstruktur), men med ett stimulus som är mycket osannolikt i naturen (en platt representation av en scen). Detta upprepar den mer allmänna punkten om kognitiva illusioner: de antaganden som våra perceptuella system gör om sannolika orsaker till förnimmelser bygger på en välbekant värld av fasta föremål, som beter sig på (oftast) förutsägbara sätt. När vi ställs inför osannolika situationer, där dessa antaganden inte håller, kan våra bästa gissningar vara felaktiga och illusoriska missuppfattningar blir följden.
Bortom bildplanet kan några häpnadsväckande illusioner framkallas av osannolika tredimensionella strukturer som bjuder in oss att misstolka deras form. Flera djävulskt smarta konstruktioner uppfanns av Adelbert Ames Jr. Den mest berömda av dessa är ett rum som ser normalt kubiskt ut när det betraktas genom ett titthål i den ena väggen, men som i själva verket inte har några rätta vinklar alls och som är geometriskt utsträckt så att det ena vända hörnet ligger mycket längre bort från ögat än det andra (fig. 5A). Det visuella intrycket är att de vändande hörnen är lika långt ifrån varandra, så ingen storlekskonstant omskalning sker när vi ser en person gå från den ena sidan till den andra, och de verkar växa och krympa när de gör det. En samtida mästare på 3D-illusion är matematikern Kokichi Sugihara, som bland andra extraordinära objekt har konstruerat en uppsättning ”magnetliknande sluttningar” på vilka bollar verkar rulla uppåt (fig. 5B) (Sugihara, 2014). Sådana noggranna konstruktioner prickar våra antaganden om sannolika föremålsformer så starkt att vi tvingas slappna av med vår intuition att bollar inte rullar uppför eller att människor inte magiskt ändrar storlek. Dessa effekter fungerar bäst när de betraktas med ett öga – eller en kamera – från en fast position, så att bilden motsvarar exakt illusionistens avsikt och inga motsägelsefulla djupindikationer finns tillgängliga från binokulär syn eller förändrad synvinkel. Så snart betraktaren tillåts utforska scenen genom att röra sig runt den avslöjas den verkliga djupstrukturen och förtrollningen bryts. Även om dessa illusioner är tredimensionella till sin konstruktion får de alltså i slutändan sina effekter från de platta bildbilder som de projicerar.
Mer tolerant för flera perspektiv, och också lättare att sätta upp, är illusionen med ihåliga masker. En mask sedd bakifrån ser inte alls ihålig ut, utan konvex (böjd utåt) (fig. 5C). Denna illusoriska djupomvändning är ganska robust, särskilt om man tittar med ett öga stängt och med den ihåliga masken belyst underifrån så att skuggor och ljuspunkter faller på samma sätt som på en konvex mask som belyses konventionellt ovanifrån. Även med båda ögonen öppna kan man närma sig en ihålig mask till ungefär en och en halv meter innan den binokulära synen tar bort illusionen. Den vanliga förklaringen som ges är att vi har starka förväntningar, baserade på tidigare erfarenheter, på att ansikten är konvexa, så vi håller fast vid denna tolkning. Men förväntningar är bara en del av historien; det är också nödvändigt att de tillgängliga sensoriska indikationerna lämnar utrymme för tvetydighet. Illusionen förstärks därför när binokulära djupindikationer minskas (genom att stänga ett öga eller titta på avstånd) eller vilseledande indikationer läggs till (genom att ändra belysningsriktningen). Om djupindikationerna är tillräckligt tvetydiga kan illusoriska omkastningar erhållas för många andra former, t.ex. ihåliga geléformar eller trådmodeller av geometriska former (t.ex. en trådkub). Ändå är effekten mest robust för mycket välkända objekt, som upprättstående ansikten, som vi starkt förväntar oss att vara konvexa (Hill och Johnston, 2007). Ju starkare våra tidigare förväntningar är, desto mer tenderar de att åsidosätta de sensoriska bevisen, och vice versa.
På samma sätt som vår uppfattning uppstår genom en process där vi integrerar tidigare förväntningar med sensoriska bevis, måste vi integrera bevis från flera sensoriska kanaler. Såsen som bubblar i din kastrull har färg och konsistens, gör mjuka poppande ljud, ger fysiskt motstånd vid omrörning och luktar (förhoppningsvis) gott. Dessa sensoriska aspekter kombineras för att skapa en enhetlig perceptuell upplevelse av matlagning, och de är mer beroende av varandra än du kanske tror. Detta ömsesidiga beroende kan demonstreras genom att skapa konstgjorda missanpassningar mellan sensoriska kanaler. Under sådana omständigheter tenderar informationen från synen att dominera de andra sinnena. Ventriloquism kallas att ”kasta sin röst” eftersom buktalaren får sin egen röst att verka komma från ett annat ställe, men tricket ligger främst i den exakta kontrollen av vad publiken ser. Ventriloquisten döljer sina egna talrörelser, samtidigt som hon flyttar en mundocka tillsammans med talet för att antyda en alternativ källa, som hon betraktar som om det var en person som talade. Även om vi inte har ett sådant utstuderat bedrägeri lokaliserar vi automatiskt röster i filmer till skådespelare, även om ljudsystemet kan befinna sig flera meter från skärmen.
Visuell information kan göra mer än att bara flytta den upplevda platsen för en röst, den kan också omforma de språkljud som vi hör. I McGurk-effekten hör vi en ljudinspelning av en person som upprepar en stavelse, ”ba-ba”, tillsammans med en synkroniserad video av en person som munhugger en stavelse med en annan inledande konsonant (t.ex. ”da-da”, ”va-va”).3 Den stavelse som vi hör beror på de talrörelser som vi ser, och vår hörseluppfattning växlar från ”ba” till ”da” till ”va” när samma ljudinspelning paras med olika videor. Synen kan också förändra våra smakintryck, vilket är anledningen till att utseendet på en maträtt är en så viktig del av matupplevelsen. Grönsaker rapporteras smaka fräschare om de är mer livligt färgade, och äppeljuice smakar hallon om en smaklös röd färgämne tillsätts. Samma röda färgämne kan, när det tillsätts i vitt vin, lura experterna att rapportera smaknoter som är typiska för rött vin (Spence, 2010). På samma sätt kan vårt balanssinne bokstavligen påverkas av synen: om vi placeras i ett ”gungande rum”, där vi står på ett fast golv och väggarna svänger något runt omkring oss, kommer vi att känna att vi faller mot en vägg som närmar sig och lutar oss korrigerande bakåt för att kompensera (och yngre barn faller vanligen omkull) (Lee och Aronson, 1974).
Multisensoriska illusioner involverar inte alla synen. Pergamentskinnsillusionen beskriver en oroväckande effekt som ljud kan ha på vårt känselsinne. Om vi gnuggar våra händer mot varandra och hör ljudet de gör vidarebefordrat genom hörlurar men ommixat för att betona de höga frekvenserna, kommer våra händer att kännas torra och flagnande. Samma ljudbehandling har mer behagliga effekter på upplevelsen av att äta chips, som bedöms som fräschare och krispigare när vi hör mer höga frekvenser när vi biter i dem. Dessa effekter beror på att vårt perceptuella system integrerar bevis från alla tillgängliga sensoriska källor och använder sig av tidigare kunskaper om vad som är mest troligt när vi tolkar en händelse. Om McGurk-effekten eller pergamentskinnsillusionen verkar överraskande beror det främst på en vilseledande föreställning om att våra sinnen är separata och distinkta snarare än att de är rikligt sammanblandade i erfarenheten. I likhet med andra kognitiva illusioner är det tveksamt om det är rättvist att betrakta dessa multisensoriska effekter som misslyckanden i perceptionen, när de i själva verket är ganska bra gissningar om det totala stimuleringsmönstret.
En multisensorisk illusion som har fångat många forskares fantasi är gummihandsillusionen (Botvinick och Cohen, 1998). En person sitter framför en attrapphand som stryks och petas av en försöksperson. Experimentatörens andra hand tillämpar en synkroniserad serie strykningar och stötar på personens riktiga hand, som är dold bakom en täckande skärm. Personen ser därmed ett mönster av beröringar av den falska handen samtidigt som han eller hon känner motsvarande beröringar. De vet att handen är falsk men kan ändå inte undgå intrycket att den på något sätt är en del av deras kropp; sammanträffandet av syn och beröring är alltför osannolikt för att kunna tolkas på något annat sätt. Hur levande denna illusion är framgår tydligt av personens automatiska försvarsreaktioner om de ser handen hotad, t.ex. av en kniv eller en hammare. Detta är bara ett exempel på en rad ”förkroppsligningsillusioner”, som omfattar uppställningar som kan få oss att känna att vi befinner oss i kroppen av en docka, eller en leksaksdocka som Barbie eller Ken, eller att vi står utanför vår kropp och tittar på (Petkova och Ehrsson, 2008). Denna färdiga omformning av vår självkänsla tyder på att även denna mest personliga aspekt av vår perceptuella verklighet är en indirekt slutsats, vår hjärnas bästa försök att tolka de tillgängliga bevisen.
Embodimentillusioner som är beroende av integrationen av syn och känsel kan vara övertygande, men är vanligtvis ganska begränsade eftersom de är passiva. Om personen bestämmer sig för att göra en rörelse men attrapphanden inte följer med, motsäger detta personens känsla av äganderätt och illusionen är över. Det skulle vara en mer övertygande och aktiv upplevelse om personen kunde röra på den falska handen efter eget gottfinnande och känna och manipulera de föremål som den rör vid. Den moderna virtuella verkligheten, med högupplöst panoramasyn, surroundljud och handskar och dräkter med taktil återkoppling, är på väg mot sådana uppslukande upplevelser. Ett tillräckligt avancerat system av detta slag skulle inte kunna skiljas från en fysisk värld; så oavsett om vår verklighet är en illusion eller inte, skulle en tillräckligt fullständig illusion kunna bli vår verklighet.