Jej marzenie to internet bez fejków [#RazemZmieniamyInternet od 25 lat]

Jej marzenie to internet bez fejków [#RazemZmieniamyInternet od 25 lat]22.06.2020 09:15
Źródło zdjęć: © Aleksandra Nabożny

Internet bez fejków, manipulacji lub po prostu błędnych informacji. To marzenie Aleksandry Nabożny, która buduje system mający oceniać wiarygodność tekstów w internecie.

Polskie uczelnie pełne są młodych, ambitnych ludzi, którzy chcą tworzyć nowatorskie rozwiązania. Z okazji 25 lat WP w myśl #RazemZmieniamyInternet przedstawiamy Aleksandrę Nabożny z Politechniki Gdańskiej i Polsko-Japońskiej Akademii Technik Komputerowych, która wypowiedziała wojnę fejkom w internecie.

Bolesław Breczko, WP Tech: Czym jest algorytm do sprawdzania wiarygodności artykułów medycznych w internecie?
Aleksandra Nabożny, Polsko-Japońska Akademia Technik Komputerowych, Politechnika Gdańska: Czym jest czy czym ma być? Bo w tym momencie to dwie różne rzeczy.

Czym ma być?
Ma być narzędziem, które pozwoli czytelnikowi w łatwy sposób sprawdzić, czy artykuł o tematyce medycznej lub zdrowotnej jest zgodny z aktualną wiedzą naukową.

A czym w takim razie jest teraz?
Teraz jest projektem naukowym nad którym pracuję, jak na razie głównie w pojedynkę.

Fake newsów jest pełno praktycznie w każdej dziedzinie. Dlaczego skupiasz się tylko na tematach medycznych?
Wybrałam medycynę, bo jest bardzo dobrze zdefiniowana, jeśli chodzi o to, co jest zgodne z aktualną wiedzą naukową, a co nie. Łatwo się na tym pracuje.

Czym jest wiarygodność w tekstach medycznych?
Rozumiem to jako coś, co ekspert uznał za wiarygodne, ale jest też potwierdzone badaniami klinicznymi.

Jeśli to ekspert ma oceniać wiarygodność tekstów, to gdzie tu działanie algorytmu?
Gdyby ludzie mieli oceniać wszystkie treści, które przekazywane są do docelowego systemu, to rzeczywiście budowanie algorytmu nie miałoby sensu. Ale można zredukować pracę ludzi na kilka sposobów: całkowicie automatyczny, który oczywiście byłby najlepszy albo półautomatyczny, który wspomaga ekspertów w ocenie wiarygodności. Prawdopodobnie właśnie od tego drugiego sposobu zacznę.

Załóżmy, że udało ci się zbudować to narzędzie. Jak by miało działać w realnym świecie?
Wyobrażam sobie to jako program działający podobnie do antywirusa. W czasie przeglądania przez użytkownika artykułu o tematyce medycznej, np. o nowym sposobie leczenia raka, wyświetla informacje, czy artykuł ten jest godny zaufania.

Skąd algorytm miałby wiedzieć, czy tekst jest wiarygodny czy nie?
Idealne rozwiązanie działałoby w ten sposób, że algorytm miałby dostęp do bazy zweryfikowanych tekstów medycznych. Jedną z takich baz, z której korzystają jednostki naukowe i medyczne jest UpToDate, wydaje mi się to na dzisiaj najlepszą bazą wiedzy.

Algorytm, który chcę zbudować wyciągałby kluczowe frazy ze sprawdzanych tekstów, zapisywał je w pewien sformalizowany sposób i porównywał je z bazą. Np. "ryzyko objawu X, jest takie i takie, dla takiej i takiej grupy osób, i jest spowodowany substancją Y, leczy się go lekiem Z".

Taki algorytm musiałby rozumieć ludzką mowę. To w ogóle możliwe?
To jest idealne rozwiązanie, które zakłada, że weryfikowane artykuły będą pisane w miarę zrozumiałym językiem, z którym komputery radzą sobie coraz lepiej. Prawdopodobnie tak nie będzie i ze wszystkich zdań w tekście nie uda się wyłowić tych kluczowych fraz, o których wspominałam.

Dlatego oceniam, że na początek system będzie półautomatyczny, wspierany przez ekspertów. Zdania trudniejsze do przetworzenia, ale takie, które wyglądają “podejrzanie” przekazywane będą do weryfikacji przez człowieka. W tym momencie program, który napisałam, potrafi z dużą dozą dokładności streścić większość artykułów, które da mu się do "przeczytania". To bardzo wspomaga późniejszą pracę ekspertów (nie muszą oni czytać całego tekstu, aby ocenić określony fragment).

Jak miałby działać w konfiguracji półautomatycznej?
Jak seria poziomów, na których tekst przechodziłby coraz bardziej szczegółową weryfikację. Pierwszy mógłby sprawdzać je pod względem semantycznym - budowy zdań i wykorzystanych wyrazów. Kolejny sprawdzałby obecność silnie emocjonalnie nacechowanych słów, które często są wykorzystywane w clickbaitowych artykułach. Dalej byłby algorytm, który automatycznie sprawdzi prawdziwość zawartych sformułowań. W konfiguracji mieszanej, na każdym etapie algorytm byłby wspierany przez odpowiednich ekspertów, którzy np. zatwierdzaliby jego wyniki.

Wygląda to na ogrom pracy. Jakie widzisz trudności w budowie twojego algorytmu?
Można je podzielić na naukowe i nienaukowe. Naukowe wynikają z niedojrzałości - pomimo coraz szybszego rozwoju - narzędzi do przetwarzania języka naturalnego. Nienaukowe wynikają z liczebności zespołu, w którym pracuję. Bardzo chciałabym go rozszerzyć, gdyż zdecydowanie łatwiej działa mi się w grupie. Jak dotychczas mam ogromne wsparcie od swojego promotora, dr hab. inż Adama Wierzbickiego, oraz konsultanta mojej pracy, dr Bartłomieja Balcerzaka.

A co stoi na przeszkodzie, żebyś zbudowała sobie zespół?
Chyba ja sama.

Jak to sama stoisz sobie na przeszkodzie?
Nigdy nie budowałam zespołu naukowego, ani żadnego innego. Na sprawach rekrutacji, zarządzania i związanej z tym biurokracji zna się na szczęście Adam, ale wiem, że w pewnym momencie, jako główny pomysłodawca projektu "medycznych fake newsów", będę musiała przejąć pałeczkę. Gdybym jeszcze zajmowała się tylko tym projektem, to byłoby łatwiej, ale czas muszę dzielić pomiędzy dwa miasta, dwie uczelnie, męża i córeczkę. No i oczywiście dydaktykę. Ale to są problemy, z którymi zmaga się prawie każdy młody naukowiec i nie są one nie do przeskoczenia.

A co z kwestiami finansowymi?
Do tej pory nie brakowało mi pieniędzy żeby np. zapłacić za czas lekarzy, którzy brali udział w moich ankietach służących przygotowaniu danych treningowych do algorytmu. Ale jeśli chciałabym np. ściągnąć doświadczonego programistę z rynku, to pewnie nie byłoby mnie na to stać. Liczę, że uda mi się zainteresować moim projektem i ściągnąć do pracy nad nim innych doktorantów z PJATK, lub zdolnych studentów, których mam przyjemność uczyć. A gdy już będę miała stały zespół, to będę mogła się starać o grant.

Czy algorytm do tekstów medycznych będzie mógł później tak samo sprawdzać niemedyczne teksty?
Wszystko zależy od dostępności do odpowiedniej bazy danych. Jeśli istnieją lub będą istniały takie do innych obszarów, to samo przestawienie się na inny temat nie będzie dużym problemem.

Marzy ci się internet bez fejk newsów?
Oczywiście, jak każdemu.

Tydzień polskiej nauki w WP, to autorski projekt redakcji technologicznej Wirtualnej Polski, w którym opowiadamy o młodych polskich naukowcach i ich pracy. Chcemy w ten sposób wypromować ich projekty, ich samych oraz zachęcić innych do pracy na rzecz polskiej nauki. Od poniedziałku do piątku 26 czerwca pokażemy łącznie pięć sylwetek oraz pięć pomysłów, które mogą wpłynąć na naszą przyszłość.

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.