10 procent rocznie: Czy matematyka podejmuje lepsze decyzje niż ludzie?

Więźniowie mają prawo ubiegać się o zwolnienie warunkowe. Co jakiś czas w każdym więzieniu zbiera się komisja złożona z ekspertów (psychologowie / socjologowie itp.). Ich zadaniem jest ocena kogo można wypuścić, a kogo nie. Idealnie byłoby wypuścić osoby, które w przyszłości nie popełnią już żadnego przestępstwa, a zatrzymać tych, którzy się go dopuszczą. Niestety w momencie decydowania eksperci nie wiedzą kto jak się zachowa. Dwójka badaczy (Wormith i Goldstone [1]) postanowiła bliżej przyjrzeć się temu zagadnieniu.

Zebrali oni dane na temat 222 więźniów z więzień stanowych. Sprawdzili, którzy z nich zostali wypuszczeni w ramach wcześniejszego zwolnienia warunkowego, a którzy nie, a także jak zachowywali się po wyjściu z więzienia (czy mieli dalsze problemy z prawem).

Okazało się, że 40% więźniów po wyjściu z więzienia dopuszcza się kolejnych przestępstw w ciągu 21 miesięcy od wyjścia. Komisje z więzień objętych badaniem zezwoliły na zwolnienie warunkowe 44% więźniów i decyzja okazała się być poprawna w 59% przypadków.

Całe to badanie miało miejsce w 1984 roku. Wormith i Goldstone postanowili sprawdzić, czy udałoby się poprawić te wyniki za pomocą prostego algorytmu. Idea polegała na tym aby sprawdzić co wspólnego mieli ze sobą więźniowie, którzy wracali na złą drogą, a co ci, którzy tego nie robili. Np. okazało się, że jeśli wypuszczany więzień ma pracę, do której może wrócić, to częściej żyje w zgodzie z prawem niż taki, który tej pracy nie ma. Zebrano 21 różnych takich informacji określających każdego więźnia. Były wśród nich takie informacje jak: rodzaj popełnionej zbrodni, skłonność do nadużywania alkoholu, poziom agresji w dzielnicy zamieszkania itp. Są to standardowe informacje znajdujące się w aktach więźniów (dostęp do nich miały także komisje więzienne w czasie decydowania o przydzieleniu zwolnienia).

Algorytm był bardzo prosty i polegał na sumowaniu czynników sprzyjających prawości więźnia i odejmowaniu tych, które zwiększały jego szanse na zostanie recydywistą. Ostateczny wynik był pojedynczą liczbą, która według odpowiedniego przelicznika przydzielała więźnia do jednej z 5 kategorii. (Bardzo dobrze rokujący, dobrze rokujący, średnio rokujący, słabo rokujący, bardzo słabo rokujący).

Co ważne sam algorytm został stworzony kilka lat wcześniej przez innego badacza (Nuffield [2]) na zupełnie innej próbce więźniów, a więc w trakcie jego tworzenia, dane z omawianego badania nie były dla niego dostępne. Wynik tego prostego matematycznego wzoru został skrótowo nazwany RPS (od angielskiego: Recidivism Prediction Score).

Czy RPS poradził sobie lepiej w selekcji więźniów niż grupa ekspertów? To samo pytanie zadałem wam w ramach ankiety, (udział wzięło ponad 200 osób), tak że najpierw rzućmy okiem na wasze spojrzenie na ten temat:

Okazuje się, że 73% osób uważa, że lepiej poradzi sobie sobie człowiek (jeden lub więcej ekspertów). Tylko 27% uważa, że lepszy będzie bezduszny algorytm.

Rzeczywistość jest taka, że RPS (algorytm) zezwolił na wcześniejsze zwolnienie 49% więźniów. (Zwalniano tych z ocenami od "bardzo dobrze rokujący" do "średnio rokujący" włącznie). Poprawna decyzja została podjęta w 65% przypadków.

Wygląda więc na to, że wzór matematyczny osiągnął wynik lepszy niż grupa ekspertów. Dodatkowo zrobił to wypuszczając więcej osób na wolność, a więc jego zadanie było nieco trudniejsze niż to, którego podjęli się ludzie. (Gdyby komisji kazać wytypować dodatkowe 5% więźniów do wypuszczenia, tak aby łącznie wypuścili tyle więźniów ile algorytm, to ich wynik pogorszyłby się, gdyż ci najbardziej obiecujący zostali już wypuszczeni i trzeba by szukać wśród tych bardziej wątpliwych).

Przeskoczmy teraz do nieco innej dziedziny.

Od wielu lat psychologowie mają problem z rozpoznawaniem czy dany pacjent cierpi na psychozę czy nerwicę. Różnica między tymi chorobami jest taka, że w psychozie pacjent zachowuje się dziwnie (np. podejrzewa, że w ścianach są podsłuchy i rozrywa ściany aby to sprawdzić) i nie jest przy tym świadomy swojej choroby. Nerwica z kolei polega na tym, że pacjent jest świadom, że jego myśli są dziwne i boi się, że zapadnie na chorobę psychiczną. (Np. pacjent wie, że w ścianach nie ma podsłuchów, ale boi się, że pewno dnia się obudzi i zacznie rozrywać ściany). Nerwica nie jest wczesnym etapem psychozy i pacjenci, którzy ją mają nigdy nie zaczynają rozrywać ścian, ale żyją w wiecznym strachu, że kiedyś może to nastąpić. Choć z opisu może się wydawać, że te choroby są łatwo rozróżnialne, to w praktyce w wielu przypadkach ciężko jednoznacznie stwierdzić, którą z tych chorób ma pacjent. Ogólne objawy są bardzo podobne, ale podłoża chorób i sposób leczenia są diametralnie różne.

Standardowo każdy pacjent przed diagnozą zostaje poddany testowi MMPI. Jest to jak dotąd najbardziej rozbudowany test psychologiczny, który pomaga stworzyć profil badanej osoby. Składa się on z ponad 500 pytań, na które badany odpowiada tak lub nie. Pytania to np. ("Czy masz dobry apetyt?" albo "Czy pracujesz pod dużą presją?").

Problem z MMPI polega na tym, że wyniki testu są zbiorem kilkudziesięciu liczb, których poprawna interpretacja wymaga sporego doświadczenia w psychologii. Zdarza się, że dwójka psychologów interpretująca wyniki tego samego pacjenta dojdzie do różnych wniosków.

Amerykański badacz (Goldberg [3]) postanowił sprawdzić jak dobrzy są psychologowie w rozróżnianiu nerwicy (N) od psychozy (P) i czy osoby z większym doświadczeniem w branży osiągną znacznie lepsze rezultaty.

Goldberg zebrał 3 grupy "badaczy":

eksperci - ta grupa składała się z 3 psychologów klinicznych, którzy od wielu lat na co dzień zajmowali się analizami profili MMPI pacjentów.
średniacy - ta grupa składała się z 10 absolwentów studiów psychologicznych, którzy w ramach studiów poznali z grubsza na czym polega test MMPI oraz mieli ogólne pojęcie czym różni się nerwica od psychozy.
naiwni - ta grupa składała się z 10 osób niezwiązanych z psychologią, którzy nigdy nie słyszeli o teście MMPI, a wiedzieli tylko tyle, że ich zadaniem będzie przydzielanie pacjentów do jednej z dwóch literek: N lub P

Na początku każda osoba dostała kilkadziesiąt treningowych profili MMPI pacjentów z napisaną z tyłu kartki diagnozą (N lub P). Były to profile realnych pacjentów, co do których lekarze mieli pewność, którą chorobę mają. Po takim treningu "badacze" przystąpili do oceny profili MMPI innych pacjentów.

W międzyczasie do oceny tych samych profili MMPI użyto prostego algorytmu. Algorytm to może nawet zbyt duże określenie. Po prostu sumowano 5 konkretnych liczb z wyników testu. Na pomysł które liczby należy sumować i dlaczego wpadł 9 lat wcześniej inny badacz (Meehl 1959 [4]), tak że podobnie jak przy eksperymencie ze zwolnieniami warunkowymi, tutaj dane badanych pacjentów także nie były znane w momencie tworzenia tego wzoru.

Wzór powstał w dokładnie taki sam sposób jak we wcześniejszym eksperymencie, a więc sprawdzono, co wspólnego mają w profilu MMPI pacjenci z potwierdzoną psychozą, a co ci z nerwicą. Na tej podstawie wybrano te wynikowe wskaźniki profilu MMPI, które najlepiej oddzielają jedną grupę od drugiej.

Jak miała się skuteczność algorytmu do skuteczności ludzi? Na początek znów spójrzmy na to jak na to pytanie odpowiadaliście w ankiecie:

Tu rozbieżność była mniejsza niż w poprzednim pytaniu, ale znów więcej osób postawiło na ludzi. (56% osób). 44% osób postawiło na algorytm. Zastanawia mnie rozbieżność pomiędzy wynikami tego pytania, a poprzedniego, w którym aż 3/4 osób postawiło na człowieka. Być może natura problemu jest nieco inna (to pytanie zostało przedstawione nieco bardziej matematycznie niż to o zwolnienia warunkowe, co mogło sugerować nadrzędność komputera w jego rozwiązywaniu), a może chodzi o odpowiedzialność społeczną (Zła diagnoza w tym wypadku niesie negatywne skutki tylko dla pojedynczego pacjenta. Zła decyzja w przypadku wcześniejszego zwolnienia może stanowić o życiu niewinnych ludzi na wolności, więc boimy się ją powierzyć maszynie). Dokładne przyczyny rozbieżności pozostawiam do dyskusji.

Oto skuteczność jaką osiągnęły poszczególne grupy badaczy oraz algorytm:

Gdyby losowo przydzielać profile to uzyskany wynik byłby bardzo bliski 50%. Naiwna grupa osiągnęła wynik 58%, średniacy byli lepsi i osiągnęli 65%. Co ciekawe grupa ekspercka była praktycznie nierozróżnialna od grupy średniej. Wygląda więc na to, że 65% jest górną granicą skuteczności przydziału, jaką są w stanie uzyskać psychologowie. Wzór matematyczny osiągnął skuteczność na poziomie 70% i tym samym okazał się być lepszy niż każda z grup złożonych z ludzi.

Można by powiedzieć, że to tylko dwa badania i być może wynik zależy od konkretnej dziedziny lub też jest wynikiem przypadku (to tak jak np. osoba wygrywająca w totolotka mogłaby mówić, że to dzięki jej umiejętnościom, a nie szczęściu). Na szczęście temat algorytmy vs ludzie jest na tyle popularny wśród badaczy, że był już wielokrotnie badany w przeróżnych dziedzinach. William Grove z grupą naukowców w 2000 roku zadali sobie trud zebrania wszystkich badań naukowych na ten temat. Wyniki opisali w swojej pracy "Clinical Versus Mechanical Prediction: A Meta-Analysis" (Grove [5]). Łącznie odnalazł 136 niezależnych badań z przeróżnych dziedzin (w tym dwa, o których pisałem wyżej). Badania obejmowały prognozowanie takich zagadnień jak: sukces w pracy, samobójstwa, skuteczność nauczania studentów, wykrywanie kłamstw, sprzedaż reklam, powodzenie startupów, diagnozowanie przeróżnych chorób i wiele wiele innych.

Oto wyniki ich badań:

Okazuje się, że aż 94% badań pokazuje, że algorytm / wzór matematyczny jest równie dobry lub lepszy w podejmowaniu decyzji niż człowiek.

W tym miejscu można by się zastanowić czy z punktu widzenia procesu decyzyjnego wybieranie najlepszych spółek giełdowych nie jest dokładnie tym samym co wybieranie:

najlepiej rokujących więźniów do zwolnienia warunkowego.
pacjentów z nerwicą z grupy pacjentów z innymi zaburzeniami (psychoza).
studentów, którzy za 5 lat będą osiągali najlepsze wyniki w nauce.
potencjalnych przyszłych samobójców z grona wielu innych ludzi.
firm, które poradzą sobie najlepiej w przyszłości.
itd.

We wszystkich tych dziedzinach wzór matematyczny tworzy lepsze prognozy niż ludzie, którzy są wieloletnimi ekspertami w tym czym się zajmują. Mnogość dziedzin jakie zostały przebadane sugeruje wręcz, że wyższość algorytmów nad ludzkim osądem jest niezależna od dziedziny.

Skoro tak, to nie ma powodu, dla którego ekspert giełdowy (guru) lub nawet ich grupa mieliby osiągnąć lepsze wyniki inwestycyjne niż wzór matematyczny. Byłem ciekaw jakie jest wasze spojrzenie na ten temat dlatego dodałem odpowiednie pytanie w ankiecie. Oto wyniki:

Tu decyzje podzieliły się niemal równo pomiędzy wszystkie możliwości. Łącznie 70% osób twierdzi, że lepsze decyzje inwestycyjne podejmują ludzie, a tylko 30%, że algorytmy. Co ciekawe we wcześniejszych pytaniach, odpowiedź, że pojedynczy ekspert poradzi sobie najlepiej była zaznaczana bardzo rzadko (4% i 9% odpowiedzi). Jeśli chodzi o giełdę, to aż 27% z was stawia na pojedynczego człowieka.

Co sądzicie o tych wynikach? Jestem ciekaw waszego spojrzenia na te badania.

Bibliografia:
[1] Wormith, Goldstone 1984 "The clinical and statistical prediction of recidivism"
[2] Nuffield 1982 "Parole Decision-Making in Canda"
[3] Goldberg 1968 "Simple models or simple processes?"
[4] Meehl 1954 "A comparison of clinicans with five statistical methods of identifying psychotic MMPI profiles."
[5] Groove et al 2000 "Clinical versus mechanical predictions: A Meta-Analysis".

10 procent rocznie

Strony

poniedziałek, 27 lipca 2015

Czy matematyka podejmuje lepsze decyzje niż ludzie?