úterý 11. června 2013

Černá labuť (Taleb)

Talebova kniha Černá labuť je jednou z těch, které doslova zhltnete a ještě vám rozšíří obzory (pokud přímo neposune světonázor.) Taleb se pohybuje v prostředí burzy a finančních trhů a popisuje fenomén, který zásadně ovlivňuje naše životy, a přesto si jeho existenci mnoho lidí nepřipouští nebo přímo neuvědomuje. Fenomén nazývá „černá labuť“: zkrátka jde o vzácné jevy, které nikdo nepředpokládá a přesto klíčovým způsobem změní chování systému. Velké kolapsy na burze jsou černá labuť, úspěch Googlu/Facebooku byly černé labutě, vynález laseru (u kterého si prý kolegové z jeho objevitele z počátku stříleli, že koherentní zdroj je sice hezká hračka, ale nic závratného to není), grafenu a jiných rovněž. První světovou válku, jak se zdá, také nikdo nečekal - když se člověk podívá důsledně na dobový tisk a ceny tehdejších akcií.

Černé labutě nejsou zcela nepředvídatelné, zpětně typicky naopak vypadají velice pravděpodobně. Taleb vysvětluje, že ačkoliv naše modely jsou v některých speciálních oblastech funkční a skutečně dokáží předpovídat budoucnost (zejména fyzika a její přesahy do chemie), ve spoustě jiných oblastí, jako historie, ekonomie, velká část sociálních věd, modely postihují jenom část problému a v okamžiku, kdy se model začne od reality odlišovat jsou důsledky omylu často tak velké, že co do významu setřou všechny předchozí úspěchy modelu. Pak je tu ještě třetí skupina disciplín, které dokáží své úspěchy postavit na důsledné empírii, přestože univerzální model nemáme. Sem bezesporu patří třeba medicína. Ekonomie a historie mají tu smůlu, že se historie neopakuje a tudíž se z ní nelze učit. (Resp. ona se do jisté míry opakuje.. až na pár momentů, které ale jaksi nejsou množinou míry nula - černé labutě.) Jako ilustrace může sloužit příklad s krocanem, který se každý den ujišťuje, že člověk, který ho krmí je hodný a má v zájmu jen jeho blaho. Hypotéza se stává každý den pravděpodobnější, až přijde nečekaný zvrat kdy ho člověk nejen nenakrmí, ale dokonce mu zakroutí krkem.

Taleb houževnatě upozorňuje, že naše mozky jsou výbornými stroji na vysvětlení a vyrábění teorií. Nedokážeme uložit a mít na paměti všechna holá fakta a tak je spojujeme do domněnek. „Král zemřel a královna vzápětí také“ zní daleko méně lákavě než „Král zemřel a královna poté zemřela žalem“. V důsledku této výbavy, které Taleb říká „klam narativity“, vytváříme z průběhu historie systému selfkonzistentní vysvětlení - často protichůdná, jakmile se nám situace začne zdát jiná v novém světle dalších informací. Čím větší má člověk přehled, tím propracovanější a hůře vyvrátitelné vysvětlení, nicméně skutečných předpovědí jaksi odborníci na danou disciplínu obecně nejsou schopni. (Tohle Taleb nazývá obor bez expertů, protože „experti“ daného oboru jenom sofistikovaně pojmenovávají fakta, aniž by skutečně měli schopnost říct skoro cokoliv relevantního o dalším vývoji. A proto jsem v prvním odstavci vyčleňoval medicínu od ekonomie.) Taleb propaguje epistemickou skromnost: odložit domněnky a hypotézy, nebo k nim být alespoň extrémně skeptický, byť je říká expert (z bezexpertního oboru - když jej za takový považuji).

Na začátku jsem s Talebem trochu bojoval, protože jsem ho podezříval, že říká, že poznání jako takového nejsme vůbec schopní: Jakákoliv teorie může být důsledkem klamu narativity a může být snadno zborcena černou labutí. Taleb ale tak striktní postoj nehájí. Jen upozorňuje, že je potřeba mít neustále před očima nejen poznání, kterého už jsme docílili, ale především potenciální obrovskou masu příčin, faktů a mechanismů, kterou neznáme. (A taky neustále posuzovat, jak je na tom model empiricky. Ve fyzice budu ochotnější rovnou zamítnout možnost psychokineze nebo existenci duchů, pokud se bijí s modely proměřenými na mnoho desetinných míst v mnoha oblastech, než bych v medicíně zamítal možnost funkčnosti akupunktury. Medicína nemá žádné všeobjímající výborně prověřené modely funkce lidského těla: udělejte dvojitě slepý test a uvidíme.) A pokud jde navíc o „obor bez expertů“, je pravděpodobné, že experti umí předpovídat podobně jako člověk se zdravým rozumem, jen znají navíc hantýrku (což někdy představuje fůru matematiky).

Talebovy černé labutě ale mají i jednu krásnou technickou stránku, kterou většinu knihy nechává na pokoji, aby čtenáře neodradil. Černé labutě se totiž často vyskytují právě v systémech, kde selhává Centrální limitní věta. Ačkoliv teď riskuji pohoršení matematiků, intuitivně se dá ukázat, že Gaussova křivka vzniká všude, kde do výsledku přispívá hodně nezávislých jevů z rozdělení s konečným rozptylem. Jednoduše tak, že jde o funkci, která maximalizuje entropii za podmínky fixované střední hodnoty a rozptylu. Jakmile začnou být jevy závislé nebo v rozdělení diverguje rozptyl, nejen že centrální limitní věta neplatí a člověk musí sáhnout k tzv. Léviho stabilním distribucím, ale navíc nefunguje většina „užité statistiky“ na kterou jsme zvyklí. Odhadovat chybu vzorcem pro výběrovou směrodatnou odchylku nedává dost dobře smysl, pokud směrodatná odchylka rozdělení diverguje. (Ba co hůř, často dobrou informaci nedostaneme ani ze vzorce pro odhad průměru.)

Zdroj: wikipedia.org

Přestože mnoho lidí používá celý formalismus postavený na Gaussově křivce jako dobrou aproximaci druhého případu, ve skutečnosti se nechovají stejně. Taleb tyto dva případy pojmenovává jako Průměrnistán a Extrémistán. V Průměrnistánu jedno pozorování nikdy nezmění dostatečně velký vzorek pozorování, a když tak jen jako malou opravu. Nejtlustší člověk přidaný do vzorku tisíce lidí bude představovat jenom malou opravu celkové hmoty, ale nejbohatší člověk zcela změní vše, co jsme o vzorku doposud dověděli .. což je trochu techničtější popis černých labutí jako „událostí z dlouhého ocasu negaussovských stabilních rozdělení pravděpodobnosti“.

5 komentářů:

Medial řekl(a)...

Donald Rumsfeld se o budoucich udalostech vyjadroval ve trech kategoriich.

‘There are known knowns; there are things we know we know. We also know there are known unknowns; that is to say, we know there are some things we do not know. But there are also unknown unknowns – the ones we don't know we don't know.’

Jak to tak vidim, temi poslednimi myslel nepochybne cerne labute :-)

Jan Olšina řekl(a)...

Ano, pojem "unknown unknowns" Taleb v knize taky zmiňuje. Píše, že v podsatě jen ve vojenských kruzích potkal lidi, kteří si možnosti takových událostí byli vědomi a měli před nimi dostatečný respekt.

matus řekl(a)...

Z pohľadu bayesiána je tá diskusia gausovského rozdelenia mimo. Gausovské rozdelenie nie je nejaká transcendentálna vlastnosť náležiaca určitým pozorovaným fenoménom. Gausovské rozdelenie je najlepší možný model ak poznáme len prvý a druhý moment. Ak nepoznáme formu rozdelenia pravdepodnobnosti, ak nepoznáme autokorelácie a vyššie momenty MaxEnt princíp nám hovorí že máme zvoliť gausovské rozdelenie. V tomto prípade je totiž gausovské rozdelenie to najpravdepodobnejšie rozdelenie. Toto je dôvodom prečo je gausovské rozdelenie používané aj v dómenách s negausovskýchmi, nelineárnymi procesmi, kde neplatí CLT. Toto je aj zrejme dôvodom prečo je gausovské rozdelenie také úspešné. Ak nepoznáme konkrétne charakteristiky negausovských procesov tak gauss je best guess. Samozrejme ak poznáme tieto procesy dobre, tak rozhodne môžeme zakomponovať informáciu do modelovania. Napríklad vieme, že rozdelenie bohatstva netvorí na rozdiel od výšky ľudí symetrické rozdelenie a každý štatistik by túto informáciu zahrnul do modelovania.

Štatistici nikdy neboli nadšení z Talebovej knihy. Vykresluje ich ako naivných v konfrontácii s neistotou. Štatistici pri tom majú aj iné nástroje ako je gausovské rozdelenie a takisto iné argumenty prečo používať gaussa a parametrické modely ako CLT. Aspoň tí bayesiánsky rozdhodne.

Jan Olšina řekl(a)...

Nejsem si jistý, jestli je to to, na co narážíte, ale zkusím odpovědět na tohle:

> Gausovské rozdelenie je najlepší možný model ak poznáme len prvý a druhý moment. Ak nepoznáme formu rozdelenia pravdepodnobnosti, ak nepoznáme autokorelácie a vyššie momenty MaxEnt princíp nám hovorí že máme zvoliť gausovské rozdelenie.

Upřesnil bych to na "Gaussovo rozdělení je nejlepší model pokud známe jen první a druhý moment a víme, že jsou konečné". Pak souhlasím, že MaxEnt dá Gaussovo rozdělení a jeho použití je v tomto případě velice univerzální. Jenže problém, na který Talem IMHO upozorňuje je, že pokud nám někdo dá k analýze minulá data za nějaký čas (z burzy, četnosti válek, úspěšnosti spisovatelů), vždycky dostaneme konečnou varianci a střední hodnotu. Pokud nevíme nic dalšího, použijeme Gausse, souhlasím. Ale potom je nezanedbatelná pravděpodobnost, že fatálně selžeme v určení pravděpodobnosti extrémních výchylek.

Pokud navrhuji hypotézu, pak by (jak rozumím Talebovi já) měla na začátku stát otázka: "Chovají se data jako by byla generována z rozdělení s konvergentním rozptylem"? (Extrémistán/Průměrstán.) Ano i ne by měly mít na začátku slušnou apriorní pravděpodobnost a z toho, jak jsem pochopil Taleba se pravděpodobnost varianty "Extrémistán" s nově získanými daty snižuje velmi pomalu, takže hypotéza o velkých výkyvech by měla zůstat relativně dlouho ve hře.

Taleb IMHO nenapadá statistiku jako takovou. To, co jsem řekl výše by dávalo smysl i v přesnější formulaci Bayesova vzorce - podmíněná pravděpodobnost, že data jsou, jaká jsou, za předpokladu, že v systému jsou extrémní výchylky, prostě klesá pomalu s nově získanými daty. Taleb jenom ostře kritizuje lidi, kteří tuto hypotézu vyřadí ze hry a dělají (přesné) předpovědi s gaussovskou variantou aniž by si uvědomili, že vyřadili významný zdroj nejistoty.V praxi by měli spíše říct, že o četnosti extrémních událostí nemohou nic říct, ale musí před nimi být ostražití.


Jinak já operuji v řeči: "Data jsou generována z rozdělení" jenom proto, že se mi tak lépe vyjadřuje. Je mi jasné, že reálná data nejsou generována z žádného konkrétního rozdělení a pokud ano, pak se v čase mohou jeho parametry rychle měnit. (Rozhodně bych nechtěl páchat Talebovo "platonify".) Ale ta vlastnost výskytu velkých odchylek (zda má "rozdělení" dlouhý ocas/zda konverguje druhý moment) vypadá dost robustně, abychom se o ní takto bavili.

Že není Černá labuť mezi statistiky a finančními matematiky populární mi docela dává smysl. :)

Anonymní řekl(a)...

Gausovo rozdělení je samozřejmě model a ještě velmi zjednodušený. Byť s velmi malou, avšak nenulovou pravděpodobností připouští velmi extrémní odchylky. Používat takovýto model na jevy, které se z principu chovají jinak, kupříkladu rozdělení mezd nezná zápornou mzdu, dokonce existuje mzda minimální, pak způsobuje zcela samozřejmý chaos a nesrozumitelnost výsledků: pojem průměrná mzda je naprostý a zcela zavádějící nesmysl, který neposkytuje ani přiměřený odhad pro daňové bilance.
Kromě statistického modelu je ještě důležitá interpretace výsledků, vypočtených na jeho základě. K zásadám rigorosního vědce patří i připravenost a ochota připustit, že na základě získaných hodnot a jejich statistického vyhodnocení nelze určit naprosto nic. Ovšem který ze současných vědátorů, hnaných vpřed potřebou úspěchu, se nakonec zachová opravdu rigorosně. Vždyť by možná musel vracet peníze na grant. A pak, on už by se našel někdo povolnější, kdo by za ty prachy poskytnul milosrdnou lež astrologického formátu. ;-)

sysel