201610.10
Kategoria Publikacje

Kiedy mniej znaczy więcej? O przeładowaniu informacją.


Wojciech Martynowicz

Wojciech Martynowicz

Czy analitycy wywiadu potrafią pływać po informacyjnym tsunami? Czy przypadkiem nie utoną w morzu danych, nawet jeśli pomagają im komputery i algorytmy przeszukiwania zbiorów? Jeśli jesteś „zwykłym zjadaczem chleba” Drogi Czytelniku, to niniejszy materiał jest właśnie dla Ciebie.

Naukę w szkołach zakończyliśmy jakiś czas temu. Encyklopedię 12. tomową wynieśliśmy do piwnicy, gdzie spokojnie zarasta kurzem. Mamy Internet i wyszukiwarki. Podręczna encyklopedia jest na ekranie smartfona. Ze wzruszeniem przypominamy sobie opowieści Taty, o tym jak ukradkiem – wbrew zakazowi rodziców – czytywał pod kołdrą, przy latarce, książki o podróżach Tomka po Czarnym Lądzie lub w Krainie Kangurów, skąd dowiedział się co to jest wombat. Dziś nie martwi nas geometryczny lub wykładniczy przyrost jednostek informacji w jednostce czasu (na przykład o dowolnym gatunku żyjącym na Ziemi) ulokowanych gdzieś w jakiejś pamięci. Nie martwi? Czy aby na pewno?

Prawo zachowania informacji

Świat radzi sobie z dopływem nowych informacji na wiele sposobów. Jednym z nich jest upychanie jej w magazynach. Magazynach pamięci sieciowej. Informacja udostępniona w punkcie A i następnie skasowana niekoniecznie znika. Może zostać zreplikowana i zachowana w punkcie B. oraz/lub punkcie C. Ta nadmiarowość z jednej strony jest „rekurencyjnym” marnotrawstwem (zajmuje pamięć) a z drugiej – zabezpieczeniem przed stratą. Znamy bezpośrednie i pośrednie skutki takiej nadmiarowości. Hasło: „w przyrodzie nic nie ginie”, mające do tej pory wymiar ucieleśniający prawo zachowania energii, zyskuje wymiar nowy. Prawo „zachowania informacji”.

Naukowcy od wielu lat obserwowali zjawisko przyrastania ludzkiej wiedzy. Czy wiesz, Szanowny Czytelniku, kim był Derek John de Solla Price i co ma wspólnego  z „przeładowaniem” informacją? O tym naukowcu usłyszałem na studiach, w latach 70. ubiegłego stulecia. Mister Price zauważył ciekawą zależność w cytowaniach prac naukowych. Liczba cytowań wyznaczała ówcześnie rangę naukowca (i chyba tak zostało do dziś). Derek John skonstruował skomplikowane równania pokazujące jak ten przyrost następuje. Przy okazji odnotował inne zjawisko – nazwane od słów ewangelii „efektem Mateusza”. Znani staja się bardziej znani, a bogaci – jeszcze bardziej bogaci…

Dla mnie najbardziej interesująca była wtedy taka konkluzja: wkrótce „masa” wiedzy zawartej w naukowych publikacjach całego świata będzie tak trudna do ogarnięcia, że z czasem  bardziej opłacalne będzie wynalezienie czegoś na nowo, niż odnalezienie dokumentacji tego wynalazku gdzieś w świecie. Ciekawe, czy Derek John przewidywał, że musi się wydarzyć coś, co rozwikła ten węzeł gordyjski… Bo przecież się wydarzyło. Pojawił się Internet.

Popatrzmy teraz razem na efekty trudu ludzi mądrzejszych od nas. Na całym świecie liczne zastępy naukowców produkują i kolekcjonują wiedzę. Dawniej przeciętny obywatel rzadko kiedy dowiadywał się o nowinkach bezpośrednio z pracowni lub laboratoriów badaczy. Musiał polegać na pośrednikach – dziennikarzach, publicystach, popularyzatorach nauki. Tacy ludzie sobie tylko znanymi sposobami docierali do informacji, o ile ta nie kryła się za zasłoną tajemnicy handlowej koncernu lub tajemnicy państwowej. A potem uświadamiali nas maluczkich na temat tego „jak jest”. Byliśmy od informacji odseparowani. Tak jak znacznie wcześniej starożytni myśliciele greccy byli odseparowani od dorobku chińskich mędrców. Bariera odległości. I braku kanałów przesyłu danych. Można powiedzieć, że ludzkość powoli wygrzebywała się ze stanu ignorancji (rozumianej jako brak wiedzy). A dokąd teraz zmierza?

Historyczna rola kawiarenek

Wszystkie te powyższe – trywialne dziś – konstatacje służą tu jednemu celowi: podkreśleniu jak bardzo nasz dzisiejszy świat w sposób technologiczny zaspokaja głód wiedzy u tych, którzy wiedzy potrzebują. Funkcję starożytnej agory, gdzie dzielono się informacjami, spierano i przekonywano, w warunkach nowożytnych przejęły kawiarenki. Tak, tak, kawiarenki! Wiek XX pokazał, jak wiele pięknych sonetów i matematycznych odkryć zapisano na serwetkach – przy piciu małej, czarnej jak noc i słodkiej jak miłość…

Orginal photo: flickr.com by Isaiah van Hunen, edit by Tomasz Zając, CC BY-SA 2.0

Orginal photo: flickr.com by Isaiah van Hunen. Edit by Tomasz Zając, CC BY-SA 2.0

W wieku XXI globalną kawiarenką stały się portale i platformy blogosfery. Wszystkie poważne służby wywiadowcze świata stopniowo poszerzały swoją czujną obecność, dokładając do tradycyjnego „monitorowania” prasy i wydawnictw, radia i telewizji obserwację blogosfery, która dostarczała niesłychanie ważnego i cenionego w świecie szpiegów komponentu. Sensu.

Jakie mogą być konsekwencje odcięcia od „sensu”, od znaczenia, od kontekstu kulturowego dla praktycznego działania pokazuje mi wyblakłe już wspomnienie: uzbrojony po zęby patrol marines, który gdzieś pod Bagdadem gotów był rozpętać kolejną wojnę na odgłos serii z ‘kałachów”, dobiegający z równoległej uliczki, od strony rozstawionych na niej wielkich namiotów, wokół których kręciły się grupy uzbrojonych mężczyzn. Alarm w patrolu rozbroiła uwaga towarzyszącego im cywila: „Dziś czwartek!”

Prawie każdy wojownik z ekspedycyjnego korpusu marines wiedział, że w krajach, gdzie islam jest religią dominującą, piątek jest ekwiwalentem judaistycznego szabatu i chrześcijańskiej niedzieli – dnia oddanego Bogu (jakkolwiek brzmi imię Jego). Ale nie każdy z nich znał obyczaje weselne w Iraku. Śluby odbywały się z reguły w czwartki (odpowiedniki chrześcijańskich sobót). Radosna zabawa mogła więc trwać aż po świt. Jutro dzień wolny od pracy i szkoły! I prawie niezależnie od okoliczności taka weselna „balanga” zawsze okraszana była salwami na wiwat. Salwami z automatycznych karabinków konstrukcji Michaiła Kałasznikowa.

Za mało informacji?

Współcześnie ani obywatel, ani wyspecjalizowany zespół badawczy, ani analitycy wywiadu nie mogą narzekać na brak informacji. Raczej na jej nadmiar. Typową skargą badacza jest jednak stwierdzenie: „mam zbyt mało informacji, aby prawidłowo to ocenić…”. Hmm… Czy naprawdę potrzebujemy więcej informacji? To zależy. Zapytacie Państwo “od czego?” Spróbuję wyjaśnić to po kolei.

Wiele lat temu amerykański psycholog Stuart Oskamp zaplanował i przeprowadził eksperyment. Miał on na celu sprawdzenie jak przebiega proces poznawczy u „homo sapiens”. Ale nie takiego zwyczajnego człowieka. U fachowca. U znawcy. Oskamp sięgnął więc do środowiska, które znał najlepiej. Do podobnych sobie specjalistów. Psychiatrów, psychologów i psychoterapeutów.

Zebrał grupę takich profesjonalistów i poprosił ich o dokonanie oceny osobowości pewnego pacjenta, 29 letniego weterana wojennego, którego na potrzeby eksperymentu ukrył pod pseudonimem Joe Kidd. Joe był realną osobą, miał rozbudowaną historię terapii i znany eksperymentatorowi profil psychologiczny. Na podstawie tych rzeczywistych danych Stuart Oskamp sporządził pierwszy „wyrywkowy” i skromny, ograniczony do nielicznych szczegółów opis pacjenta. Pokazał ten materiał badanym i poprosił o profesjonalną ocenę „pacjenta” w postaci odpowiedzi na test składający się z 25 pytań z odpowiedziami do wyboru. Po zebraniu tych ocen poprosił o rzecz dodatkową. Fachowcy mieli oszacować trafność własnych sądów na temat Joe Kidda. Nie trzeba się domyślać, że „samoocena” nie była zbyt wysoka. Specjaliści wiedzieli, że na podstawie skromnych danych nie sposób sporządzić perfekcyjną ocenę. Byli więc wstrzemięźliwi w okazywaniu entuzjazmu i skromni. Wartość swych pierwszych ocen szacowali relatywnie nisko. I słusznie.

Stuart Oskamp w kolejnej odsłonie eksperymentu uzupełnił pierwotny opis Joe Kidda o dodatkowe dane o objętości półtorej strony dotyczące jego dzieciństwa. Badani specjaliści – po zapoznaniu się z nowymi danymi – mogli teraz swobodnie korygować swoje poprzednie odpowiedzi w teście na temat Kidda. A następnie ponownie oszacować trafność własnych sądów. Jak można się było spodziewać, odnotowano pewien postęp. W obu obszarach – ocen osoby pacjenta i ocen trafności tychże ocen. Było to zrozumiałe dla wszystkich – więcej danych to trafniejsze oceny pacjenta i wyższe zaufanie diagnostów do tych ocen. Jednakże kolejne fazy eksperymentu – gdy Oskamp przekazywał badanym stopniowo kolejne części dossier Joe Kidda, ukazujące jego lata szkolne, a potem jego przeżycia wojenne i terapię – pokazały coś niepokojąco zaskakującego. Oto dodawanie nowych szczegółów do zestawu danych jakie pierwotnie mieli do dyspozycji badani specjaliści nie poprawiało już ich trafności w ocenie pacjenta. Ta trafność – osiągnąwszy pewien w miarę stały poziom ok. 30% – od pewnego momentu nie reagowała już na dodawanie nowych, uzupełniających danych. Co ciekawe, za każdą możliwą, dopuszczalną w kolejnych etapach eksperymentu korektą pierwszych „wrażeń”, badani każdorazowo zmieniali swe odpowiedzi w pierwotnym teście. I to w 8-10 pytaniach z pierwotnych 25. Trafność ocen mimo to pozostawała na stałym poziomie. Coś innego jednak ulegało poprawie. Otóż im więcej danych specjaliści otrzymywali, tym wyższe zaufanie mieli do własnej pracy i sporządzanych ocen.

Ten klasyczny eksperyment Stuarta Oskampa, którego rezultaty opublikowano w 1965 roku doczekał się licznych powtórzeń i za każdym razem naukowcy otrzymywali zbliżone rezultaty: od pewnego momentu przyrost dostępnych danych nie poprawiał jakości diagnozy. Rosła jedynie pewność siebie badanych. W dowolnej dyscyplinie. Ale działo się to nie przy każdym rodzaju problemów. Jeśli problem ma naturę określaną przez Gregory Trevertona mianem „puzzla” (układanki), to faktycznie można go rozpoznawać tym lepiej, im więcej kawałków układanki mamy do dyspozycji. Czyli im więcej tym lepiej… Dlaczego?

Układanki kontra tajemnice

Jeśli problem ma naturę „prostą”, gdzie fundamentalnym pytaniem jest „co, ile i gdzie?”, to najpierw musimy uświadomić sobie ową prostotę oraz fakt, że im mniej faktów znamy, tym mniejszą mamy pewność, że nasza teza „wszystkie łabędzie są białe” jest w 100% prawdziwa. Dla upartego ornitologa pewność absolutną, że „wszystkie łabędzie są białe” da się osiągnąć jedynie poprzez obejrzenie każdego łabędzia z osobna i naoczne potwierdzenie, że wszystkie one są białe. Procedura taka – badanie całej populacji – jest nieco trudna do wykonania w wielu przypadkach rozwiązywania problemów analitycznych. Dlatego badacze korzystają ze statystycznych prawideł przy badaniach próbek. Jednak każdy logik potwierdzi nam, że jeśli z dzbana, który mieści 1000 kulek wyciągniemy losowo 100 czarnych kulek, to wnioskowanie na tej podstawie, że wszystkie kulki w dzbanie są czarne będzie zawodne (logicy nazywają to wnioskowaniem indukcyjnym). Tak w przypadku łabędzi, jak i w świecie kulek stuprocentową pewność na temat tego „jak jest naprawdę” zyskamy po sprawdzeniu całej populacji łabędzi (i kulek). Bo są policzalne.

Niestety, przeciętny człowiek nie potrafi korzystać z takiej wiedzy. Nie uświadamia sobie nawet, że w codziennym życiu obraca się wyłącznie w świecie „wyrywkowych” próbek. A o cechach całości musi wnioskować wyłącznie na ich podstawie. Problem staje się trudniejszy, gdy nie dotyczy kwestii policzalnych. Gdy nie jest jak układanka z puzzli, ale ma naturę „tajemnicy”. Układanką jest kwestia ilości i lokalizacji rakiet przeciwnika. Ale to kiedy zostaną one wystrzelone – to tajemnica i zagadka. Rozstrzygnięta będzie dopiero, gdy rakiety wystartują. Tak przynajmniej uważa Gregory Treverton z RAND Corporation, który jest autorem koncepcji podziału problemów na „układanki” i „”tajemnice” („puzzle” versus „mystery”). Tajemnice i zagadki, które nie są puzzlami, nie mają dokładnych rozwiązań w momencie postawienia pytania, a jedynie aproksymacje. Oszacowania. Przybliżenia.

Jeśli poszukujemy lokalizacji rakiet jakimi dysponuje nasz przeciwnik (to mój ulubiony przykład), to przy odpowiednio ukierunkowanym aparacie badawczym w końcu odnajdziemy wszystkie. Jeśli jednak nasz problem ma naturę „zagadki”, to nasze szanse na w miarę sensowne odczytanie jej sensu zawsze zatrzymają się na pewnym poziomie po uzyskaniu określonej porcji danych. Nasze oceny bazujące na tychże danych nie będą więcej zyskiwać na trafności, nawet gdy uzyskamy liczne dane uzupełniające. Dlatego podejmując walkę z problemem o naturze „zagadki” należy bazować na takich danych jakie właśnie mamy do dyspozycji i nie liczyć zbytnio na „nowe” dane. Stuart Oskamp i jego naśladowcy dowiedli, że „więcej danych” nie oznacza, że możemy oczekiwać lepszej diagnozy.

Ale w tym kontekście powstaje bardzo istotne pytanie: kiedy można uznać, że mamy tych danych wystarczającą ilość? Kiedy zaprzestać wysiłków w zdobywaniu dodatkowych informacji? Kiedy powiedzieć sobie lub innym: Dość! Wystarczy!? Kiedy danych nie jest ani za dużo, ani za mało? Najczęściej nie będziemy w stanie odnotować tego momentu. I będziemy gnać sami albo gonić innych do poszukiwania „nowych danych” w złudnej nadziei, że zyskamy swoisty ekwiwalent kamienia filozoficznego, pozwalający przeniknąć tajemnicę stojącą przed nami. Powyższe ku przestrodze podaję.

Wojciech Martynowicz