Brudne i mroczne czasy Internetu - jakie treści pozostawiamy w Sieci i co się z nimi dzieje?

Brudne i mroczne czasy Internetu - jakie treści pozostawiamy w Sieci i co się z nimi dzieje?

Brudne i mroczne czasy Internetu - jakie treści pozostawiamy w Sieci i co się z nimi dzieje?
Źródło zdjęć: © Thinkstockphotos
01.09.2015 17:20, aktualizacja: 02.09.2015 15:37

Przed nami implozja Big Data. Według Oracle Internet rozrasta się w dane w tempie 40 proc. w skali roku. W 2020 roku będzie już dziewięciokrotnie większy niż obecnie. Teraz liczy ponad 5 ZB (zettabajtów). Za pięć lat będzie to już 45 ZB. Dane, które trafiają do Internetu dzielą się na wartościowe i pożądane przez różne firmy oraz - w znacznym stopniu - nic nie warte śmieci, z którymi nawet nie wiadomo co zrobić. Przybliżamy wam istotę danych brudnych, wartościowych i niedocenionych, jakie pozostawiacie w Sieci.

Cały czas dostarczamy w Internecie większe ilości treści niż w latach poprzednich. Konsekwencją tego jest zwiększona ilość danych, jakie muszą przeanalizować przedsiębiorstwa zajmujące się kreowaniem profilu internauty. Służy to im głównie do przygotowywania spersonalizowanych reklam, przewidywania zachowań, proponowania treści najwyższej jakości i trafiającej dokładnie w potrzeby internauty.

Dark Data & Dirty Data – ten duet złych braci bliźniaków spędza sen z powiek analitykom danych. Są to dwie ciemne strony Big Data, które zalewają dziś Internet. „Mroczne” (Dark) i „Brudne” (Dirty) dane trapią analityków i marketerów, sabotując ich żmudną pracę. Problem jest poważny, ponieważ według szacunków IDC około 90 proc. danych w internecie to Dark Data, a blisko 10 proc. wszystkich danych w mediach społecznościowych – to z kolei Dirty Data. Czym są, skąd się biorą i dlaczego są takim problemem?

W lutym tego roku wiceprezydent Google, Vinton Gray Cerf, przemawiając do zgromadzonych w San Jose członków _ American Association for the Advancement of Science _, mówił m.in. o konieczności bieżącej pracy nad danymi, które już zgromadziliśmy:

- Digitalizujemy [cyfryzujemy - przyp. red.] rzeczy, ponieważ myślimy, że dzięki temu to je uchroni. Nie rozumiemy jednak, że jeśli nie podejmiemy kolejnych kroków, to zdigitalizowane przez nas rzeczy mogą nawet okazać się gorsze od swoich rzeczywistych pierwowzorów.

Gerf mówiąc o kolejnych krokach miał na myśli przede wszystkim ciągłą weryfikację prawdziwości i aktualności danych.

Przede wszystkim jednak wspomniany Vintonostrzegał przed nadchodzącymi „cyfrowymi, ciemnymi wiekami”. Jako główny katalizator „Digital Dark Age” wymienił implozję danych (Big Data), zdominowanych przez Dark Data, czyli dane nieuporządkowane, nieustrukturyzowane, nieprzetworzone, surowe. Podkreślał, że to właśnie tego typu treści jest dziś największym wyzwaniem stojącym przed analitykami. Od wyniku tej konfrontacji zależała będzie przyszłość wielu cyfrowych biznesów.

Rozświetlając mrok (ang. dark)

"Mroczność" Dark Data polega nie tylko na tym, że są one zbiorem chaotycznym, lecz również na tym, że na dobrą sprawę nie wiadomo, co w sobie kryją. Mogą to być pofragmentowane bezużyteczne informacje, które dopiero po umiejętnym złączeniu w całośćpozwoliłyby organizacjom je zmonetyzować bądź wykorzystać np. do uzyskania pełnej, 360-stopniowej oceny profilu klienta.

Obraz
© (fot. Gizmodo.pl)

90 proc. danych wygenerowanych w Sieci będzie miało charakter danych, z których organizacje nie będą robiły żadnego użytku, bądź nie będą miały pojęcia, jak można by je biznesowo wykorzystać Ilość tych danych liczy się już w Zettabajtach. Według obliczeń IDC, w tym roku aż 90 proc. z nich wygenerowanych w Sieci będzie miało charakter danych, z których organizacje nie będą robiły żadnego użytku, bądź nie będą miały pojęcia, jak można by je biznesowo wykorzystać. Dlatego firmy albo gromadzą dane w surowym stanie tak „na wszelki wypadek”, łudząc się, że przyjdzie czas na ich analizę – albo w ogóle je ignorują, nie wiedząc jak się do nich zabrać lub widząc w takim przedsięwzięciu syzyfową pracę. Wskutek takiego postępowania wiele potencjalnie cennych informacji ginie.

Dark Data – spojrzeć w czarną otchłań danych

Dark Data to wciąż stosunkowo słabo eksplorowany obszar, nie tylko w sensie praktycznym, ale i teoretycznym. O „mrocznych danych”. wiemy mało, toteż definicje „Dark Data” czasami poważnie się od siebie różnią.

Gartner w swoim słowniczku IT („Gartner IT Glossary”) definiuje Dark Data jako: „Zasoby informacyjne, gromadzone i przetwarzane przez organizacje podczas ich codziennej aktywności biznesowej, które na ogół nie nadają się do wykorzystania w żadnym sensownym celu”.

Jednak Cory Janssen z Techopedii mówi coś nieco innego: „Dark data to rodzaj nieustrukturyzowanych, nieotagowanych i niewykorzystanych danych, które zalegają w repozytoriach danych i nie są analizowane ani przetwarzane. Można je znaleźć w plikach dziennika (log files) oraz archiwach danych, przechowywanych w dużych przedsiębiorstwach”.

Widać jak na dłoni, że te dwie definicje są ze sobą sprzeczne w jednym punkcie. Gartner mówi o „przetwarzaniu Dark Data”, zaś Techopedia głosi coś odwrotnego. Kto zatem ma rację?

„Mroczne dane” to takie, które (z różnych powodów) nie są monetyzowane przez organizacje. Bliżej prawdy jest chyba Techopedia, choć nawet jej definicja nie oddaje w pełni złożoności problematyki. Dopiero połączenie ich daje jakąś szerszą perspektywę tego, czym jest „Dark Data”. Żeby zatem zamknąć tę kwestię przyjmijmy perspektywę biznesową, wedle której „Dark Data”. to dane, które (z różnych powodów) nie są monetyzowane przez organizacje.

_ *Talk Dirty to me * _

O ile Dark Data można by określić jako „zmarnowany potencjał”, o tyle już Dirty Data (brudne dane), wypadałoby opisać raczej jako _ internetowego trolla _ marketingu.

Z Dark Data wciąż można wyłowić jakieś sensy, wzorce i zależności. Mroczne dane można jeszcze jakoś rozświetlić, jeśli dysponuje się odpowiednimi narzędziami do analityki. W przypadku Dirty Data zaś mamy do czynienia z cyfrowym bełkotem.

Obraz
© (fot. Thinkstockphotos)

Lwia część danych z portali społecznościowych jest po prostu „brudna”. To Dirty Data, dane zanieczyszczone. Gdzie można się na nie natknąć? Media społecznościowe – głównie Facebook – to największe generatory i kopalnie danych o internautach. Nic dziwnego, że wiele firm koncentruje się na analizie danych wyłącznie stąd - są one najłatwiej dostępne. Bazując tylko na takich informacjach (lajki, komcie, szery, tagi, hashtagi zgromadzone na fanpejdżach itp.) przedsiębiorstwo układa swoją strategię marketingową. A to poważny błąd. Ponieważ lwia część danych z portali społecznościowych jest po prostu „brudna”. To Dirty Data, dane zanieczyszczone. Według analiz Networked Insights blisko 10 proc. takich danych jest do wyrzucenia, ponieważ… wcale nie pochodzą od realnych użytkowników. Są zasługą sztucznych botów (aż 53 procent), skutkiem ruchu generowanego przez spamerów, celebrytów *lub osoby opłacane przez *konkurencyjne firmy (23 procent) bądź przez nieaktywne konta (1. procent). W wyniku tego
zatruwania danych wytwarza się „Dirty Data”. „Brudne dane” wprowadzają w błąd przede wszystkim marketerów, ponieważ dostarczają bezużytecznej pseudo-wiedzy.

według DOMO tylko w ciągu minuty użytkownicy samego Facebooka tworzą 2 460 000 nowych treści. Już teraz od 50 do nawet 80 proc. czasu, jaki badacze danych spędzają w firmach nad analizą Big Data, pochłania właśnie oczyszczanie danych z „Dirty Data”. Jest co robić, ponieważ według DOMO tylko w ciągu minuty użytkownicy samego Facebooka tworzą 2 460 000 nowych treści.

Niepokojące jest to, że udział „brudnych danych” w ogólnym strumieniu Big Data w Sieci w porównaniu z ubiegłym rokiem wzrósł aż o 658 proc. Niektóre marki przyznają wprost, że nawet 90 proc. postów na ich fanpejdżach w mediach społecznościowych spokojnie mogą zaklasyfikować jako wiadomości-śmieci. Dirty Data zanieczyszczają wartościowe Big Data, które stanowią dla marketerów najważniejsze źródło informacji o fanach czy klientach, ponieważ dotyczą ich intencji, gustów czy zachowań. Oznacza to, że marki, które bazują wyłącznie na ogóle danych z mediów społecznościowych i w żaden sposób nie analizują ich źródeł, muszą liczyć się z możliwością napotkania zwodniczego „Dirty Data”, a co za tym idzie – wypaczenia profilu fana (lub klienta). Nie będą w stanie zdiagnozować: które dane są tymi przydatnymi.

Silniki pomocą analityków

Z uwagi na lawinowo generowaną ilość Big Data w Internecie i w social media, analiza takich ilości danych przekracza zdolności nie tylko zwykłego człowieka, ale i tradycyjnych systemów informatycznych.

Zamiast tracić czas i siłować się z „brudnymi” oraz „mrocznymi” danymi na własną rękę, lepiej zostawić sprawę fachowcom, badaczom danych, którzy na co dzień stykają się ze strumieniem Dirty czy Dark Data, ale w nim nie toną. Na powierzchni utrzymują ich specjalistyczne narzędzia analityczne, jak np. silnik behawioralny, który analizuje anonimowe dane o użytkownikach na każdej płaszczyźnie. Polscy marketingowcy mają pod ręką choćby BehavioralEngine, silnik posiadający wbudowanego Antybota, pozwalającego z łatwością oddzielić „Dirty Data”. od „Big Data”. Gromadzi on dane z ponad pół miliona stron www, zna preferencje oraz zachowania przeszło 40 mln unikalnych profili użytkowników i buduje ich profile na podstawie 5 tysięcy szczegółowych atrybutów. Marki wówczas mają możliwość faktycznego rozeznania się co do profilu swojego fana lub klienta. Bez ryzyka, że otrzymane profile cyfrowe będą skażone „brudem” czy „mrokiem”. Te oczyszczone i wiarygodne dane wykorzystywane są później choćby w spersonalizowanej
reklamie internetowej, ale nie tylko tam.

Dane – nowa waluta epoki cyfrowej

- W Cloud Technologies wierzymy, że sukces każdej organizacji zależy od tego, jak obchodzi się ona z danymi: Big Data, Dark Data, Dirty Data. Wierzymy, że zlekceważenie analityki internetowej i sprowadzenie jej do poziomu jakiegoś przejściowego trendu czy geekowskiej fanaberii, odbija się organizacjom biznesową czkawką. Wierzymy, że dane to nowa waluta epoki cyfrowej, która z biegiem lat będzie się umacniać. I mamy na to twarde dowody. - mówi Łukasz Kapuśniak z Cloud Technologies, największej platformy Big Data w tej części Europy.

Należy przypomnieć, że dane na temat preferencji, upodobań i zachowań internautów są potrzebne m.in. do przygotowywania spersonalizowanej reklamy, która po specjalnej analizie wyszukiwanych przez nas haseł zaproponuje środek transportu z lotniska do hotelu, który właśnie zarezerwowaliśmy sobie na powakacyjny urlop czy podpowie gdzie najtaniej kupimy wyszukiwany ostatnio model butów czy smartfona, którym się interesujemy.

Jak twierdzi Boston Consulting Group w raporcie _ „The Value of Our Digital Identity” _, wartość anonimowych danych zgromadzonych o internautach z Unii Europejskiej w 2020 roku zbliży się do okrągłego biliona EUR. Oznacza to, że cyfrowe ślady pozostawione przez Europejczyków w Sieci będą równoważne finansowo około 8 proc. PKB krajów całej Wspólnoty.

Według badań Gartnera, wydatki na analitykę danych już teraz rosną w tempie dwucyfrowym. Do 2017 roku 30 proc. danych, jakimi będą dysponowały przedsiębiorstwa, będzie pochodziło z hurtowni Big Data. IDC podaje, że już teraz 7. proc. dużych firm posiłkuje się danymi o użytkownikach gromadzonymi i przetwarzanymi przez zewnętrzne platformy Big Data. Do 2019 roku według IDC tym tropem pójdą już wszystkie duże organizacje. Coraz więcej firm będzie także monetyzować własne Big Data, podwajając inwestycje w analitykę Big Data oraz wyszukując unikatowych danych, które pozwolą im na uzyskanie biznesowej przewagi nad konkurencją.

_ SŁK-WP / ŁK-Cloud Technolgoies _

Źródło artykułu:WP Tech
Oceń jakość naszego artykułuTwoja opinia pozwala nam tworzyć lepsze treści.
Wybrane dla Ciebie
Komentarze (1)