Naukowcy błądzili, błądzą i będą błądzić – zmyślają wyniki, przyjmują niesłuszne założenia. Czasem po to, żeby osiągnąć swoje cele, niekoniecznie naukowe. Na ogół jednak robią to w dobrej wierze. Czy błędów jest dziś w nauce więcej, czy mniej? I do czego są potrzebne?
W roku 1980 brytyjski kardiolog John Hampton przeprowadził pewien test kliniczny. Postanowił zbadać wpływ leku o nazwie lorcainid na kondycję pacjentów po przebytym zawale serca. Lorcainid był wtedy popularnym lekiem na arytmię. Środowisko medyczne postulowało, że regulacja pracy serca jest kluczowa dla zwiększenia szans na przeżycie pacjentów pozawałowych. Hampton i jego zespół losowo podzielili 95 takich osób na dwie grupy. Jednej z nich podali placebo, a drugiej lorcainid. Rezultaty okazały się niejasne: co prawda badany lek faktycznie zmniejszał częstotliwość wystąpienia poważnej arytmii, lecz w grupie eksperymentalnej, która go przyjmowała, zmarło dziewięć osób, natomiast w otrzymującej placebo – tylko jedna.
W tej historii nie to jednak jest najbardziej zadziwiające – w końcu od tego są testy kliniczne, żeby sprawdzić, czy leki działają. Problem leży gdzie indziej: badania przeprowadzono w latach 80. XX w., wtedy też Hampton zabiegał o ich publikację w czterech najważniejszych czasopismach medycznych, m.in. w „The Lancet”, ale żadne z nich nie było tym zainteresowane. Wyniki ukazały się drukiem dopiero 13 lat później. Trzynaście lat, przez które setkom tysięcy, jeśli nie milionom osób po zawałach serca podawano leki na arytmię, prawdopodobnie ze skutkiem zbliżonym do wywołanego przez lorcainid podczas testów. Według raportu Komisji do spraw Nauki, Innowacji i Technologii parlamentu Wielkiej Brytanii, opublikowanego w 2018 r., w samych tylko Stanach Zjednoczonych w wyniku podawania lorcainidu albo jego analogów zmarło ponad 100 tys. ludzi. Dlaczego więc rezultaty badań ujawniono dopiero w roku 1993? Zanim odpowiem na to pytanie, przyjrzyjmy się, jak nauka uczy się na własnych błędach.
Założenia i wyniki
Karol Darwin twierdził, że dla nauki znacznie bardziej szkodliwe bywają błędne dane niż błędne przekonania. Zafałszowane dane są bowiem dużo trwalsze niż przekonania, które można zweryfikować dzięki eksperymentom czy innym empirycznym dowodom. Żywot przekonań jest ograniczony przez ciągły wzrost wiedzy i świadomości, a także przez cały korpus literatury naukowej opisującej wyniki eksperymentów.
Naukowcy i naukowczynie często się mylą. Można wręcz stwierdzić, że na tym polega istota procesu badawczego: na ciągłej weryfikacji przekonań, założeń i hipotez. Kiedy byłem jeszcze nieopierzonym doktorantem, bardzo duże wrażenie zrobiła na mnie rada, której udzielił mi nieoceniony szwedzki biochemik Åke Wieslander. Ta sama, jaką daje się młodym pisarkom i pisarzom: kill your darlings (zabij swoich ulubieńców). Chodzi o to, że należy bezlitośnie weryfikować najbliższe sercu hipotezy, ciągle je testować, nie ustawać w próbach obalenia ich, zamiast dowodzić ich słuszności. Oczywiście nie wszyscy to robią. Ba, zaryzykowałbym nawet stwierdzenie, że większość z nas nie potrafi zdobyć się na pełną bezstronność, nawet gdy świadomie próbuje podważać własne racje. Niemniej weryfikacja czy falsyfikacja hipotez to powszechnie uznawana część kultury naukowej. Chociaż badaczom nie zawsze udaje się poddawać swoje pomysły i przekonania najtrudniejszym próbom – bo dopiero wtedy stają się wartościowe – to przynajmniej takie postępowanie uważane jest za słuszne.
Inaczej jednak ma się rzecz z danymi, które są analizowane: fałszywe są bardzo podstępne. Ich zweryfikowanie najczęściej wymaga powtórzenia oryginalnych eksperymentów, a to bywa czaso- i pracochłonne, niekiedy trudno też dotrzeć do materiałów będących podstawą danego badania. Poza tym fałszywe dane i wyniki potrafią żyć własnym życiem i latami zatruwać empiryczny fundament nauki. Czasem nie sposób dojść do ich źródła.
Szpinak czyni cuda
Zacznę od przykładu, który może się wydawać błahy, ale doskonale ilustruje istotę problemu. Zapewne wszyscy słyszeliśmy o tym, jak przez lata uczeni propagowali przekonanie, że szpinak zawiera dużo żelaza, przez co pokolenia dzieci zmuszano do jedzenia rozgotowanej zielonej papki. Powstała nawet kreskówka o dzielnym marynarzu Popeye’u, któremu ta roślina daje nadludzką siłę. Tyle że stwierdzenia na temat dobroczynnych właściwości szpinaku okazały się błędne.
Prawdziwa historia jest zupełnie inna i bardzo pouczająca jako przypadek pozwalający zrozumieć sposób działania nauki. Otóż zawartość żelaza w szpinaku zmierzył z końcem XIX w. Emil Theodor von Wolff, który ustalił, że jest to około pół grama w kilogramie. Jednak badał on kilogram suchej masy, czyli tej części rośliny, która pozostaje po usunięciu całej wody. Wolff sprawdzał w niej zawartość tlenku żelaza. Współczesne ustalenia nie odbiegają znacznie od tego wyniku; dziś przyjmuje się, że chodzi o 100–300 mg żelaza w kilogramie suchej masy, nieco mniej niż u Wolffa, ale w podobnym zakresie. To oczywiście nie to samo, co zawartość żelaza w kilogramie świeżego szpinaku, który w dużej mierze składa się z wody (stąd przecież ta zielona papka) – w takim jest go znacznie mniej. Łatwo więc o pomyłkę. Należy wyraźnie zaznaczyć, co zostało zbadane: świeży szpinak czy sucha masa.
I do takiej pomyłki doszło rzeczywiście na Uniwersytecie w Wisconsin w latach 30. XX w., z tym że natychmiast ją wychwycono i opisano w prasie jako przykład błędu naukowców. Od tej pory ciągle powraca mit, jakoby zawartość żelaza w szpinaku została błędnie obliczona przez Emila von Wolffa, a to niesłusznie wpłynęło na większy udział tego warzywa w naszej diecie. W dodatku oczerniono również Popeye’a i jego twórców, przypisując im brak wiedzy na temat rzeczywistej zawartości żelaza. Tymczasem w jednym z odcinków kreskówki marynarz tłumaczy, że je szpinak ze względu na zawartość witaminy A, co jest całkowicie zgodne z prawdą. Liście tej rośliny są zdrowe, pod warunkiem że nie rozgotujemy ich na mało apetyczną papkę, bo wysoka temperatura niszczy wiele witamin. Dopiero będąc już dorosłą osobą, przekonałem się, jak pyszny potrafi być odpowiednio przygotowany szpinak.
Ta historia jest więc w gruncie rzeczy bardzo pozytywna: choć mit o dużej zawartości żelaza w szpinaku żyje w popkulturze i ma się dobrze, to w samej nauce ten błąd wcale nie zagościł na długo. Niestety nie zawsze tak się dzieje.
Błędy popełniane w biologii miewają różne konsekwencje, bywają też zabawne – jak ten, za który odpowiedzialny jest Excel, popularny program do obsługi arkuszy kalkulacyjnych. Mimo że istnieje bardziej wyspecjalizowane oprogramowanie (chociaż trudniejsze w obsłudze), naukowcy i naukowczynie chętnie używają Excela do opracowywania wszelkiego rodzaju tabelek, np. zawierających nazwy genów. Jedną z funkcji programu, domyślnie włączoną w standardowej instalacji, jest rozpoznawanie dat. Jeśli w polu tabelki znajdą się takie zestawienia liter i cyfr jak „DEC1” albo „SEPT4”, program automatycznie zamieni je na datę, np. „1 grudnia” lub „4 września”. To bardzo użyteczna funkcja, jeśli w tabeli faktycznie chodzi o daty. Tak się jednak składa, że zarówno DEC1, jak i SEPT4, a nawet MARCH1 to nazwy genów obecnych w ludzkim genomie. Nazwy te są skrótami od długich, skomplikowanych określeń, takich jak membrane associated ring-CH-type finger 1 albo septyna 4. Jak się okazuje, w jednej piątej artykułów naukowych zawierających załączniki z nazwami genów zapisanymi w Excelu w tabelkach nieoczekiwanie pojawiały się daty.
Tego typu błędy są na szczęście stosunkowo łatwe do zauważenia i skorygowania, lecz problem mylnych wyników w nauce jak najbardziej istnieje i jest poważny. Zdaliśmy sobie z niego sprawę z początkiem XX w. Kiedy próbowano powtórzyć opublikowane już i przyjęte za dobrą monetę dawne eksperymenty, okazało się, że za kolejnym razem dają inne niż poprzednio wyniki. Dlatego przyjęło się mówić o „kryzysie powtarzalności” (replication crisis).
Wiedza w tarapatach
Kłopoty z powtarzalnością badań dotyczą wielu dziedzin. Systematyczna próba powtórzenia eksperymentów psychologicznych zakończyła się sukcesem w zaledwie połowie przypadków. Szybko okazało się, że problemy występują również w naukach biomedycznych. W 2014 r. sfrustrowani badacze zajmujący się stwardnieniem zanikowym bocznym (ALS) postanowili powtórzyć kilka eksperymentów preklinicznych, które wykonano na myszach. Badania takie przeprowadza się zawsze, zanim zostaną wdrożone pierwsze testy kliniczne na ludziach. Wszystkie wyniki były tak obiecujące, że na ich podstawie rozpoczęto testy, które jednak zakończyły się fiaskiem. Pytanie brzmiało zatem: czy to myszy nie nadają się do badań nad ludzką chorobą, czy może jest jakiś inny powód? Kiedy spróbowano ponownie wykonać badania prekliniczne na zwierzętach, wyniki okazały się bardziej niż rozczarowujące: w niemal żadnym z nich nie udało się powtórzyć wcześniej zaobserwowanych pozytywnych efektów. To nie myszy były winne, lecz naukowcy i naukowczynie, którzy na nich eksperymentowali.
Najnowszy akt tego dramatu zakończył się w 2021 r., ale rozpoczął dużo wcześniej. W okolicach 2014 r. grupa badaczy postanowiła powtórzyć rezultaty prawie 200 najważniejszych eksperymentów z 53 wpływowych artykułów opisujących prekliniczne wyniki z dziedziny onkologii. Chodziło o artykuły z najwyższej półki opublikowane w latach 2010–2012 w najznamienitszych czasopismach, takich jak „Nature”, „Science” czy „Cell”, cytowane w tysiącach innych prac.
Kiedy wreszcie ujawniono efekty tych prób, szokująca okazała się informacja, że tylko mniej niż połowę wyników udało się potwierdzić eksperymentalnie. Przyznam, że do tej pory my – naukowcy i naukowczynie pracujący w dziedzinie biologii i biomedycyny – patrzyliśmy na koleżanki i kolegów zajmujących się psychologią trochę z góry, skrycie ufając, że ich problemy z powtarzalnością nam nie mogłyby się przytrafić, a na pewno nie w tym stopniu. W końcu reprezentujemy „twarde” nauki empiryczne, dokonujemy dokładnych pomiarów, wszystko mamy na wydrukach, fotografiach, w zapisanych automatycznie plikach i elektronicznych dziennikach laboratoryjnych. Zamykaliśmy oczy na dzwonki alarmowe, takie jak problemy z replikacją wyników badań ALS. Mniej niż 50% – to było znacznie gorzej, niż oczekiwaliśmy.
Najbardziej wstrząsająca okazała się jednak inna wiadomość. Otóż z prawie 200 eksperymentów i 50 prac naukowych, które wytypowano do ponownego przetestowania, zaledwie 50 eksperymentów i 23 prace w ogóle można było powtórzyć. Pozostałych nie udało się sprawdzić, bo zabrakło do tego kluczowych danych. Nie wiemy, czy ich wyniki są solidne, czy nie, a ich autorzy i autorki popełnili błędy czy oszukiwali, bo opublikowane opisy nie są na tyle dokładne, żeby badania te dało się znowu przeprowadzić.
Ba! Ani jeden ze 193 eksperymentów nie został opisany wystarczająco precyzyjnie, by można go było ponowić wyłącznie na podstawie pierwotnej publikacji. Trzeba było kontaktować się z ich autorami i autorkami, niestrudzenie wyciągać od nich szczegóły dotyczące warunków przeprowadzania testów, rodzaju stosowanych odczynników, dokładnych metod analizy itd. W gruncie rzeczy jest to zupełnie niebywałe: cała nauka opiera się na założeniu, że eksperymenty opisuje się tak, by inni mogli je ponownie przeprowadzić. Zasadę tę sformułował jeszcze w XVII w. Robert Boyle, który swoje badania objaśniał w taki sposób, aby – wedle jego własnych słów – każdy czytający ich opis był w stanie powtórzyć je „bezbłędnie i z jak najmniejszym nakładem pracy”. Nie dość, że opisy eksperymentów wybranych do weryfikacji były niewystarczające, to jeszcze spora część autorów i autorek nawet nie odpowiedziała na prośby o dostarczenie dodatkowych informacji.
Kryzys czy odrodzenie?
Skoro naukowcy nie publikują ważnych wyników, nie umieją opisać badań tak, by ktoś inny mógł je powtórzyć, nie potrafią nawet użyć Excela, to czy wciąż można im ufać? Czy współczesny kryzys w nauce jest dowodem na to, że straciła ona swoją uprzywilejowaną pozycję niezwykle skutecznej metody na zdobywanie wiedzy o świecie i nas samych? Wydaje mi się, że jest wprost przeciwnie. To, że ostatnio tak dużo słychać o skandalach w nauce, o błędach popełnianych przez jednych i oszustwach drugich, nie wynika z tego – a przynajmniej w dużej mierze nie tylko z tego – że jest wśród nas coraz więcej oszustów, brak nam przygotowania statystycznego czy nie potrafimy porzucić ulubionej hipotezy. Szkopuł w tym, że panuje pośpiech i pogoń za rozgłosem, a także rozpaczliwa gonitwa za pieniędzmi na badania. Że zamiast zabijać swoich ulubieńców – jak doradzał mi Åke Wieslander – reanimujemy nasze błędne przekonania i hipotezy w każdy sposób nawet wtedy, gdy nie mają szans na przeżycie.
Jestem optymistą: myślę, że kryzys w nauce jest objawem pozytywnych zmian, jakie w niej zachodzą. Przyjrzyjmy się historii pewnego artykułu, który w 2012 r. wzbudził sensację wśród psychologów. Jego autorami byli m.in. Francesca Gino i Dan Ariely. Oboje są kimś w rodzaju naukowych celebrytów: piszą bestsellerowe książki i teksty do gazet, występują w telewizji oraz Internecie. W artykule z 2012 r. zajęli się czynnikami, które wpływają na ludzką uczciwość. Postawili tezę, że osoby, które muszą składać np. zeznania finansowe, uczciwiej wypełniają formularze, jeśli na samej górze dokumentu muszą podpisać oświadczenie, że zawarte w nim dane są zgodne z prawdą. Jeśli zaś mają to poświadczyć na dole formularza, częściej podają informacje nieprawdziwe.
Praca Ariely’ego, Gino oraz innych znakomicie wpisywała się w ich hipotezy na temat tego, jak manipulować ludźmi, aby byli mniej (lub bardziej) uczciwi. Nic dziwnego, że stała się tak popularna – nawet niektóre urzędy postanowiły wcielić te wnioski w życie i każą składać podpis na górze formularza. Badanie miało jednak poważny defekt: jego wyniki zostały w dużej mierze zmyślone przez autorów.
W 2022 r. naukowcy wspólnie piszący blog pod dźwięczną nazwą Data Colada – Uri Simonsohn, Leif Nelson i Joe Simmons – przyjrzeli się danym, które autorzy (m.in. Gino i Ariely) dołączyli do swojej pracy. W sposób jednoznaczny udowodnili, że pliki Excela zostały zmanipulowane. Cel był ewidentny: uzyskać różnicę między badanymi grupami. Odpowiedzialność za te zafałszowania ponosi najprawdopodobniej Francesca Gino, która – jak dowiedli – manipulowała danymi również w innych swoich pracach. (Szczegółowy opis tego, jak trio detektywów przyłapało fałszerzy danych na gorącym uczynku można znaleźć na blogu Data Colada, a po polsku opowiadam o tym na swoim blogu Biokompost).
Simonsohn, Nelson i Simmons to doświadczeni detektywi od danych. Nie pierwszy raz przyłapali naukowców na fałszerstwie, a co gorsza, nakryli na tym także Dana Ariely’ego. Żeby było jeszcze zabawniej: Ariely i Gino zmanipulowali – każde na swój sposób – dwa różne zestawy danych opublikowane w tej samej pracy. Gino przesuwała wiersze w tabeli, żeby wyniki obliczeń pasowały do jej hipotezy. Z kolei do pliku Excela, którego autorem był Ariely, wstawiono całe zestawy nowych danych uzyskanych za pomocą generatora liczb losowych. Jak to ujęli Simonsohn i jego współpracownicy: „Dwie osoby niezależnie od siebie sfałszowały dane do dwóch różnych eksperymentów w artykule poświęconym uczciwości”. Praca Ariely’ego, której wyniki odwołano już wcześniej, bo sam autor nie potrafił ich powtórzyć w innym badaniu, została teraz oficjalnie wycofana przez redakcję czasopisma, w jakim się pierwotnie ukazała.
Puenta tej historii jest jednak inna. Ariely i Gino przede wszystkim opublikowali swoje dane – te nieszczęsne pliki Excela – dzięki czemu ich oszustwo wyszło na jaw. Gdyby praca ukazała się 15 lat wcześniej, nikomu nie przyszłoby do głowy, żeby domagać się publikacji danych wyjściowych. Po prostu autorzy zamieściliby standardową formułkę: „W uzasadnionych przypadkach dane mogą zostać udostępnione na żądanie”. Potem mogliby np. zignorować takie żądanie albo oświadczyć, że dane się im „zgubiły”.
Nie ma tego złego…
Przypadek Ariely’ego i Gino po pierwsze pokazuje, jak ważne jest ujawnianie danych, na których opierają się publikowane wyniki; po drugie uświadamia, jak bardzo zmieniły się zwyczaje naukowe. Kiedyś normą było to, że kosztowne i trudne do uzyskania pomiary nie są rozpowszechniane, lecz pozostają w gestii autorów i autorek. Ci decydują się nimi podzielić bądź nie – wedle własnego uznania. Dziś prace niezawierające danych pomiarowych traktujemy z podejrzliwością.
Wspomniałem powyżej o eksperymentach, których nie dało się powtórzyć, bo ich opisy okazały się niewystarczająco dokładne. Istnieje całkiem realna szansa, że gdyby próbowano opublikować je dzisiaj, po zaledwie 10 latach z okładem, ich autorzy musieliby znacznie bardziej przyłożyć się do zreferowania swoich metod. Takie czasopisma jak „Nature” czy „Science” wymagają podawania szczegółowych danych, na podstawie których otrzymano wyniki; coraz częściej oczekują nawet opublikowania dokładnego zapisu wszystkich analiz statystycznych.
Kryzys powtarzalności to więc nie tylko diagnoza. Pozwala on też zrozumieć zmiany, jakim współcześnie podlega nauka, przy czym wiele zjawisk jest bardzo korzystnych. Oczywiście problemy, z jakimi musimy się mierzyć, są poważne. Ale to nie znaczy, że wcześniej nie występowały: dopiero teraz jednak mamy narzędzia, by je w ogóle dostrzec. Błędy w nazwach genów zdarzały się długo przed tym, zanim powstał Excel, lecz dostępność danych w formacie elektronicznym znacznie ułatwia znajdowanie błędów. Prace sprzed 60 lat wcale nie są łatwiejsze do zweryfikowania niż pochodzące sprzed 10 lat, wprost przeciwnie. Konieczność publikowania oryginalnych danych umożliwia nam zaś wyłapywanie pomyłek z przeszłości, a nawet oszustw.
Wróćmy do lorcainidu. Dlaczego wyniki eksperymentu ujrzały światło dzienne dopiero po 13 latach? Jeżeli weźmie się pod uwagę wszystkie uwarunkowania, przestaje to być tak zaskakujące. John Hampton, który był odpowiedzialny za badania lorcainidu, w 2015 r. szczegółowo opisał zarówno ich historię, jak i losy publikacji wyników. Kiedy w 1980 r. przeprowadzał ze swoją grupą testy kliniczne leku, popełnił – z dzisiejszej perspektywy – wiele poważnych błędów, chociaż wówczas postępował zgodnie z zasadami sztuki. Przebadano zbyt małe grupy pacjentów, by różnica między nimi była wystarczająco wyraźna. Gdy nie powiodły się próby publikacji w najlepszych czasopismach, dał za wygraną – w latach 80. XX w. negatywne wyniki uznawano za mało ważne.
Z początkiem lat 90. w świecie nauki zaszły zmiany, które umożliwiły publikację. Zaczęto wtedy dostrzegać wagę negatywnych wyników badań i dlatego ustalenia zespołu Hamptona zyskały na atrakcyjności dla świata nauki. Jego praca jest znana nie dlatego, że pokazywała szkodliwość leków na arytmię: już wcześniej, na przełomie lat 80. i 90. ukazały się publikacje zawierające podobne wnioski. Kazus lorcainidu stał się pokazowym przykładem, dlaczego negatywne wyniki są ważne, a ich ignorowanie może kosztować życie pacjentów i pacjentek. Dzisiaj natomiast cała ta sytuacja byłaby znacznie mniej prawdopodobna. Obecnie wiele agencji rządowych i prywatnych – np. w Stanach Zjednoczonych, Wielkiej Brytanii czy Unii Europejskiej – wymaga rejestracji testów klinicznych i monitoruje ich wykonanie oraz publikację rezultatów. Zmieniło się też podejście periodyków naukowych: wiele z nich obiecuje równe traktowanie prac opisujących negatywne wyniki, a nawet są specjalne czasopisma, których misją jest publikowanie właśnie takich rezultatów. To efekt wielu lat starań tych, którzy zmieniali naukę – i którzy często powoływali się na historię badań klinicznych Hamptona.
Błędy w nauce zdarzają się bardzo często. Niektóre są zabawne, inne mogą mieć poważne konsekwencje. Jednak naprawdę groźne są tylko wtedy, gdy zostaną odkryte i przemilczane. Na szczęście coraz więcej się o nich mówi. Nauce można zaufać – ale nie tym, którzy nigdy nie przyznają się do błędów.