Pearson pro Adama

Myslím, že je na čase učinit z tohoto blogu, který je dosud nudnou hlásnou troubou lokálních záležitostí severočeského bridže, čtení atraktivnější pro širší bridžovou veřejnost. Jelikož jsem zrovna četl článek Adama Kubici o rozdáních vygenerovaných pro pražské a celostátní soutěže, mohu klidně začít oborem, který jsem formálně vystudoval (a povídání o dražební teorii nechat na později).

Za dekádu v pokerovém prostředí jsem slyšel všechny existující historky o smůle, takže mé obvyklé řešení když slyším, že jsou divná rozdání (mám pasivní linku; mám třikrát za sebou trumfy 4-1; zasáhnu soupeřům do Two-over-one a najdu partnera s nullblatem), je politovat dotyčného hned po první větě a v případě pokračování monologu se vymluvit na intoleranci laktózy a zamknout se v kabince. Pro kolegy bez potravinových omezení bych alternativně doporučil publikovat statistický test i se srozumitelným a důvěryhodným závěrem. Třetí cestu (nahodit čísla a nechat prostor konspirátorům, aby zjistili, proč je nikdo neinterpretuje) považuji za chybnou. Jelikož však Adam v textu přiznal, že něco nedělá proto, že to jiný umí lépe (to se mi u bridže stalo naposled někdy před třemi lety), před čímž smekám, považuji za čestné věnovat jeho záležitosti trochu úsilí.

Zkoumání rozloh sice není jediná cesta, jak ověřit regulérnost rozdělení (můžeme třeba sledovat, zda chodí dáma za klukem či před ním), ale pracujme s dodanými daty rukou statistika.

Statistici mají rádi nezávislé veličiny. Rozloha Severu v rozdání 1 je nezávislá s rozlohou Severu/Východu v rozdání 2, avšak neplatí, že rozloha Severu v rozdání 1 je nezávislá s rozlohou Východu v rozdání 1. Opakem NENÍ tvrzení, že na sobě závisí. Jen se ovlivňují. Má-li Sever 8-5-0-0, je zřejmé, že pravděpodobnost pravidelné rozlohy na Východě je nižší. Kromě intuitivní zkušenosti, že jsou partie normální a partie gulášové (intuice často klame), se lze zamyslet nad tím, jak vypadají listy, které rozdáme náhodně mezi tři hráče z balíčku, z nějž jsme před tím odstranili osm piků a pět kár (tak to ve skutečnosti funguje).

Proto se vyhneme sčítání čtyř dodaných sloupců a vybereme si jeden z nich, který otestujeme. Já jsem Východočech, proto jsem vybral kolonku East. Ostatní statistici mohou volit jinou kolonku, všichni ovšem varují před postupem, kdy zkusíme všechny čtyři a snažíme se výsledky interpretovat jaksi najednou (nejsou to vzájemně nezávislá data).

Co tedy testujeme. Máme rozhodčího, který hází kuličky do 39 bedniček. Bednička číslo 1 nese nápis: „Východ má rozlohu 4-4-3-2,“ bednička 39 má nápis: „Východ má rozlohu 13-0-0-0.“ Nikdo netvrdí, že jsou bedničky stejně velké, nebo že jsou rozestaveny tak, aby měly všechny stejnou šanci na zásah. Naopak očekáváme, že chytrý program rozestavěl bedničky tak, že rozhodčí, který se drží pokynů výrobce, trefí každou bedničku dlouhodobě se správnou pravděpodobností (sloupec „exp“).

Co se může stát špatně? Kromě špatně napsaného programu může zákeřný rozhodčí schválně mířit jinam, nebo na konci kuličky přendávat z krabice do krabice podle své vůle. Prožil-li si roli MUDr. Šafránka, kterému OÚNZ vyčítá příliš vysokou míru prevence, může si zkusit vycucat z prstu ten celostátní průměr. Primárně tedy kontrolujeme, zda se naházené kuličky příliš neliší od očekávaných výsledků, ale po očku koukneme i na to, jestli se nepodobají až moc.

Detaily Pearsonova testu dobré shody jsou nudné, jen je třeba poznamenat, že vyžaduje, abychom v každé bedničce očekávali alespoň 5 kuliček, proto sloučíme posledních čtrnáct krabiček do jedné. Nad rozlohou 6-6-1-0 přivřeme oči (po 6882 hodech čekáme 4,955 kuličky) a necháme ji existovat samostatně, od 8-4-1-0 po 13-0-0-0 máme jedinou krabičku, což jistě nevadí čtenáři, který laskavě uzná, že všechny obsažené rozlohy jsou dostatečně zákeřné.

Hodnota chí-kvadrát statistiky pro listy Východu je 34,570. Tuto hodnotu srovnáme s hodnotou pro 25 stupňů volnosti na nejběžnější hladině významnosti 0,05 – ta činí 37,652. Hypotézu, že data pochází z multinomického rozdělení s parametry odpovídajícím náhodnému rozdání karet nelze na hladině 0,05 zamítnout. V následujících odstavcích se to pokusím převést do srozumitelné řeči.

Teď když většina čtenářů odpadla – p-hodnota je 0,0963. Kdybychom se nebáli křivého obvinění nevinného a stanovili si volnější hladinu významnosti 0,10, znamenalo by to již zamítnutí hypotézy (tvrdili bychom, že se s rozdáními manipulovalo, a byli bychom si vědomi, že je šance 10 %, že tomu tak nebylo), tudíž nemá cenu ztrácet čas s druhou otázkou: „Nejsou data příliš načesaná?“ Evidentně nejsou.

Samozřejmě, ač jsem před tím výše varoval, cvičně jsem tam hodil data pro ostatní světové strany. Tam jsou p-hodnoty výrazně vyšší – 0,5171 (W), 0,7625 (N) a 0,7110 (S) – což znamená, že o dobré shodě s naším očekáváním není nejmenší pochyb. Adam asi uhodnul, že se na data podívá někdo z Východu a nastrčil tam ty nejlepší kousky (rozevláté, ale ještě v normě). Podle ostatních světových stran byla rozdání 2017/18 těžká nuda (ale neatakujeme p-hodnoty blízké jedničce, jak by se stalo v případě, že by očekávané a pozorované četnosti byly úplně shodné – tedy nelze podezřívat, že jsou data učesaná).

Pokud si jako cvičení chcete aplikovat Pearsonův test na počet šiken/singlů/dublů, zapomeňte na to. Kromě vazeb mezi listy hráčů ve stejném rozdání jsme tam zatáhli i vazby mezi různými barvami v jednom listě, takže na tahle čísla si netroufnu.

Slíbil jsem závěr: Věda říká, že jsou rozdání (přesněji: prezentovaná data) v pořádku.

2 komentáře: „Pearson pro Adama“

  1. 1) Skvělá práce!
    2) Ano, předpoklad o nezávislosti je u statistických testů zásadní, jeho uvážení prozrazuje fundovanost autora analýzy.
    3) Přesto bych si závěrem nebyl tak jistý a jeden problém bych viděl. Chí-kvadrát dobré shody totiž testuje shodu empirických dat s předpokládaným teoretickým rozdělením „po celé délce“ výběru hodnot. Ty z nás, co si stěžují na příliš divoká rozdání a rádi by otestovali, zda mají pravdu, asi moc nezajímá shoda četnosti pro rozdělení 4-3-3-3 nebo 4-4-3-2 – přitom právě rozdíly pro nejpravidelnější hodnoty naprosto domminují v příspěvcích do celkové hodnoty statistiky – tj. pokud se výběr chová „hezky“ pro nejčastější rozlohy, nemusíme dojít je správnému závěru, že se chová blbě pro rozlohy extrémní, protože ani poměrně velké rozdíly mezi očekáváním a realitou na koncích rozdělení nepřerazí hodnotu použitou v kritériu (ta je nastavená na to, že rozdíly jsou po celé délce rozdělení a především v nejvýtěžnějších oblastch kolem centra rozdělení). JIným slovy – pokud mě zajímají skutečně extrémní rozlohy, je efekt jejich mimořádného výskytu, aspoň se domnívám, maskován efektem přirozených rozdíků ve (ne)výskytu a teoretickém výskytu pravidelných rozloh. Ještě jinak řečeno – asi bychom měli použít nikoli „běžný“ test dobré shody, ale nějaký speciální test zaměřený na okraje rozdělení nebo modifikovaný test dobré shody, který by okrajům rozdělení přiřadil adekvátně vyšší hodnotu.
    4) Další možná, už nikoli tak závažná, výhrada, by mohla být v tom smyslu, že jsme vlastně ze všech vygenerovaných rozdání vytvořili jediný soubor. Osobně a čistě subjektivně, jsem zastáncem názoru, že nepravidelných rozdání, je v celkové populaci příliš. Není o ale rozhodně o tom, že by jich každý večer bylo o trochu víc než je záhodno, ale o tom, že třeba po devíti zcela pohodových večerech přijde turnaj, kdy se generátor zbláznil. Tento efekt se promítne i do testu popsaného výše (s výše uvedenou výhradou), ale bude výrazně naředěn rozdáními z večerů, kdy byl generátor hodný. Takže ani v případě, kdy by se generátor jednou za čas zbláznil anebo by nám laskavý připravovatel turnaje namíchal guláš, aniž by nám o tom řekl (což by mne u vážně myšleného turnaje našvalo), nebude výsledek z naředěných dat nijak extra signifikantní.

    Liked by 1 osoba

    1. Díky!
      Už jsem jednu reakci dostal emailem, ale kdyby ani tenhle nadprůměrně čtený článek nevyprodukoval komentář, byl bych zádumčivý.

      Nemám citovou investici do výsledku (nejsem ani pořadatel ani stěžovatel), takže se nebudu snažit jiné testy sám konstruovat, ačkoli si nemohu odpustit, že mě zaujala představa inspirovaná bodem (4), kdy pořadatel soustavně míchá „kapku příliš pravidelné“ večery, aby si připravil nízké hodnoty testu dobré shody.* Pak jednou za čas, když přijde ve špatné náladě, vytáhne ze šuplíku bláznivou session, která mu spraví den. Bylo by jistě stejně zábavné, stanovit metodiku pro obodování pravidelnosti jednotlivé sestavy, najít jeho rozdělení a navrhnout test. (Laicky řečeno: Zjistit, jak vysoké hodnoty se vyskytují přirozeně, protože každý, kdo dočetl až sem, musí uznat, že náhodná data mají nějaký počet bláznivých večerů vyprodukovat.)

      Soustředím se tedy na věcné námitky k testu provedenému, které jsou v bodě (3):
      Multinomické rozdělení nemá žádné okraje (chvosty). Většina statistiky (aspoň v kurzech pro nestatistiky) se točí kolem normálního rozdělení. To má chvosty, protože má parametry jako je střední hodnota. Když z N(0,1) vypadne hodnota 4,8, má smysl mluvit o tom, že je na chvostu (zatímco hodnota 0,048 je v centru).

      Test dobré shody nezkoumá, zda je na škatulce napsáno „centrum“ nebo „chvost“. Ani nemůže. Multinomické rozdělení má bezejmenné škatulky (ačkoli my si je pojmenováváme, ta informace do testu nepronikne), test pozná jen to, že některé jsou velké a jiné malé. Každá ze škatulek má přiřazeno skóre a výsledná statistika je prostým součtem skóre všech škatulek. V zásadě mají všechny škatulky – malé i velké – spravedlivou šanci vyprodukovat alarmující vysoké číslo. Dá se očekávat, že na drobné „data tempering“ (machinace) budou citlivější spíše ty menší, v našem případě ty, kterých si bridžisté všímají (divoké rozlohy).

      Tolik k tomu, že námitky v bodě (3) nepovažuju za platné. Následuje už jen pár čísel pro ty, kteří chtějí získat „feel“, jak to v praxi funguje (a jedna poznámka pod čarou):

      Mezi 26 škatulemi listů Východu, které v součtu vyprodukovaly 34,85, přispěla nejvíc rozloha 5-5-3-0 se skóre 6,23 – místo očekávaných 61,5 výskytů jich bylo jen 42 (ano, statistika penalizuje i chybějící výskyty, nejen ty přebývající).
      Skóre přes čtyřku měla velká škatule N:4-3-3-3 (Obs 671, Exp 725) i malá škatule W:8-2-2-1 (Obs 21, Exp 13).
      V největší škatuli 4-4-3-2 (Exp 1483) se vyskytlo skóre 0,03 (S: Obs 1477) i 2.05 (E: Obs 1428).
      Nejmenší škatule (6-6-1-0, Exp 4,96) dopadla nudně (Obs W/N/E/S 3/5/5/4, W skóre 0,77, N/E skóre menší než 0,01).
      Pro nás nejsledovanější (a druhá nejmenší) škatule „ostatní“ (Exp 6,2) byla zajímavější (Obs W/N/E/S 9/4/11/3 produkovalo od 0,78 (N) do 3,73 (E)).
      Další dvě malé škatule (8-3-2-0 a 7-5-1-0) měly na první pohled nepříjemných Exp 7,5 (to se nedá trefit, obě sousední přirozená čísla něco vyprodukují – v tomto případě je to však pouze skóre 0.03).

      * Jsem si vědom, že Jarda tvrdí něco jiného (řada večerů, které odpovídají, do toho jeden divoký). Tomu ovšem data neodpovídají, test dobré shody by neseděl (ač jeho funkčnost relativizuje – dle mé výše uvedené argumentace nesprávně).

      To se mi líbí

Zanechat odpověď

Vyplňte detaily níže nebo klikněte na ikonu pro přihlášení:

Logo WordPress.com

Komentujete pomocí vašeho WordPress.com účtu. Odhlásit /  Změnit )

Google+ photo

Komentujete pomocí vašeho Google+ účtu. Odhlásit /  Změnit )

Twitter picture

Komentujete pomocí vašeho Twitter účtu. Odhlásit /  Změnit )

Facebook photo

Komentujete pomocí vašeho Facebook účtu. Odhlásit /  Změnit )

Připojování k %s