Jej marzenie to internet bez fejków [#RazemZmieniamyInternet od 25 lat]

Internet bez fejków, manipulacji lub po prostu błędnych informacji. To marzenie Aleksandry Nabożny, która buduje system mający oceniać wiarygodność tekstów w internecie.

Aleksandra Nabożny chce oczyścić internet z fejków

Źródło zdjęć: © Aleksandra Nabożny

Bolesław Breczko

22 czerwca 2020, 09:15

Polskie uczelnie pełne są młodych, ambitnych ludzi, którzy chcą tworzyć nowatorskie rozwiązania. Z okazji 25 lat WP w myśl #RazemZmieniamyInternet przedstawiamy Aleksandrę Nabożny z Politechniki Gdańskiej i Polsko-Japońskiej Akademii Technik Komputerowych, która wypowiedziała wojnę fejkom w internecie.

Bolesław Breczko, WP Tech: Czym jest algorytm do sprawdzania wiarygodności artykułów medycznych w internecie?
Aleksandra Nabożny, Polsko-Japońska Akademia Technik Komputerowych, Politechnika Gdańska: Czym jest czy czym ma być? Bo w tym momencie to dwie różne rzeczy.

Czym ma być?
Ma być narzędziem, które pozwoli czytelnikowi w łatwy sposób sprawdzić, czy artykuł o tematyce medycznej lub zdrowotnej jest zgodny z aktualną wiedzą naukową.

A czym w takim razie jest teraz?
Teraz jest projektem naukowym nad którym pracuję, jak na razie głównie w pojedynkę.

Fake newsów jest pełno praktycznie w każdej dziedzinie. Dlaczego skupiasz się tylko na tematach medycznych?
Wybrałam medycynę, bo jest bardzo dobrze zdefiniowana, jeśli chodzi o to, co jest zgodne z aktualną wiedzą naukową, a co nie. Łatwo się na tym pracuje.

Czym jest wiarygodność w tekstach medycznych?
Rozumiem to jako coś, co ekspert uznał za wiarygodne, ale jest też potwierdzone badaniami klinicznymi.

Jeśli to ekspert ma oceniać wiarygodność tekstów, to gdzie tu działanie algorytmu?
Gdyby ludzie mieli oceniać wszystkie treści, które przekazywane są do docelowego systemu, to rzeczywiście budowanie algorytmu nie miałoby sensu. Ale można zredukować pracę ludzi na kilka sposobów: całkowicie automatyczny, który oczywiście byłby najlepszy albo półautomatyczny, który wspomaga ekspertów w ocenie wiarygodności. Prawdopodobnie właśnie od tego drugiego sposobu zacznę.

Załóżmy, że udało ci się zbudować to narzędzie. Jak by miało działać w realnym świecie?
Wyobrażam sobie to jako program działający podobnie do antywirusa. W czasie przeglądania przez użytkownika artykułu o tematyce medycznej, np. o nowym sposobie leczenia raka, wyświetla informacje, czy artykuł ten jest godny zaufania.

Skąd algorytm miałby wiedzieć, czy tekst jest wiarygodny czy nie?
Idealne rozwiązanie działałoby w ten sposób, że algorytm miałby dostęp do bazy zweryfikowanych tekstów medycznych. Jedną z takich baz, z której korzystają jednostki naukowe i medyczne jest UpToDate, wydaje mi się to na dzisiaj najlepszą bazą wiedzy.

Algorytm, który chcę zbudować wyciągałby kluczowe frazy ze sprawdzanych tekstów, zapisywał je w pewien sformalizowany sposób i porównywał je z bazą. Np. "ryzyko objawu X, jest takie i takie, dla takiej i takiej grupy osób, i jest spowodowany substancją Y, leczy się go lekiem Z".

Taki algorytm musiałby rozumieć ludzką mowę. To w ogóle możliwe?
To jest idealne rozwiązanie, które zakłada, że weryfikowane artykuły będą pisane w miarę zrozumiałym językiem, z którym komputery radzą sobie coraz lepiej. Prawdopodobnie tak nie będzie i ze wszystkich zdań w tekście nie uda się wyłowić tych kluczowych fraz, o których wspominałam.

Dlatego oceniam, że na początek system będzie półautomatyczny, wspierany przez ekspertów. Zdania trudniejsze do przetworzenia, ale takie, które wyglądają “podejrzanie” przekazywane będą do weryfikacji przez człowieka. W tym momencie program, który napisałam, potrafi z dużą dozą dokładności streścić większość artykułów, które da mu się do "przeczytania". To bardzo wspomaga późniejszą pracę ekspertów (nie muszą oni czytać całego tekstu, aby ocenić określony fragment).

Jak miałby działać w konfiguracji półautomatycznej?
Jak seria poziomów, na których tekst przechodziłby coraz bardziej szczegółową weryfikację. Pierwszy mógłby sprawdzać je pod względem semantycznym - budowy zdań i wykorzystanych wyrazów. Kolejny sprawdzałby obecność silnie emocjonalnie nacechowanych słów, które często są wykorzystywane w clickbaitowych artykułach. Dalej byłby algorytm, który automatycznie sprawdzi prawdziwość zawartych sformułowań. W konfiguracji mieszanej, na każdym etapie algorytm byłby wspierany przez odpowiednich ekspertów, którzy np. zatwierdzaliby jego wyniki.

Wygląda to na ogrom pracy. Jakie widzisz trudności w budowie twojego algorytmu?
Można je podzielić na naukowe i nienaukowe. Naukowe wynikają z niedojrzałości - pomimo coraz szybszego rozwoju - narzędzi do przetwarzania języka naturalnego. Nienaukowe wynikają z liczebności zespołu, w którym pracuję. Bardzo chciałabym go rozszerzyć, gdyż zdecydowanie łatwiej działa mi się w grupie. Jak dotychczas mam ogromne wsparcie od swojego promotora, dr hab. inż Adama Wierzbickiego, oraz konsultanta mojej pracy, dr Bartłomieja Balcerzaka.

A co stoi na przeszkodzie, żebyś zbudowała sobie zespół?
Chyba ja sama.

Jak to sama stoisz sobie na przeszkodzie?
Nigdy nie budowałam zespołu naukowego, ani żadnego innego. Na sprawach rekrutacji, zarządzania i związanej z tym biurokracji zna się na szczęście Adam, ale wiem, że w pewnym momencie, jako główny pomysłodawca projektu "medycznych fake newsów", będę musiała przejąć pałeczkę. Gdybym jeszcze zajmowała się tylko tym projektem, to byłoby łatwiej, ale czas muszę dzielić pomiędzy dwa miasta, dwie uczelnie, męża i córeczkę. No i oczywiście dydaktykę. Ale to są problemy, z którymi zmaga się prawie każdy młody naukowiec i nie są one nie do przeskoczenia.

A co z kwestiami finansowymi?
Do tej pory nie brakowało mi pieniędzy żeby np. zapłacić za czas lekarzy, którzy brali udział w moich ankietach służących przygotowaniu danych treningowych do algorytmu. Ale jeśli chciałabym np. ściągnąć doświadczonego programistę z rynku, to pewnie nie byłoby mnie na to stać. Liczę, że uda mi się zainteresować moim projektem i ściągnąć do pracy nad nim innych doktorantów z PJATK, lub zdolnych studentów, których mam przyjemność uczyć. A gdy już będę miała stały zespół, to będę mogła się starać o grant.

Czy algorytm do tekstów medycznych będzie mógł później tak samo sprawdzać niemedyczne teksty?
Wszystko zależy od dostępności do odpowiedniej bazy danych. Jeśli istnieją lub będą istniały takie do innych obszarów, to samo przestawienie się na inny temat nie będzie dużym problemem.

Marzy ci się internet bez fejk newsów?
Oczywiście, jak każdemu.

Tydzień polskiej nauki w WP, to autorski projekt redakcji technologicznej Wirtualnej Polski, w którym opowiadamy o młodych polskich naukowcach i ich pracy. Chcemy w ten sposób wypromować ich projekty, ich samych oraz zachęcić innych do pracy na rzecz polskiej nauki. Od poniedziałku do piątku 26 czerwca pokażemy łącznie pięć sylwetek oraz pięć pomysłów, które mogą wpłynąć na naszą przyszłość.