Internet chmurą stoi. Awarie będą się zdarzać
Sieć internet była projektowana jako sposób łączności pozbawiony centrum i odporny na uszkodzenia. W założeniu miał prztrwać wojnę atomową. Jednak dziś wystarczy problem u kluczowego operatora, by tysiące usług przestały działać. Co poszło nie tak?
Awaria Cloudflare 18 listopada zmiotła niektóre duże usługi (jak X) i tysiące mniejszych. Stało się to miesiąc po tym, jak awaria w Amazon Web Services sprawiła, że przestał działać m.in. Snapchat, Signal i Duolingo. Na przełomie miesięcy problemy miał z kolei Azure, przez co nie działały niektóre usługi Microsoft 365 - w tym uwierzytelnianie, co "położyło" kilka linii lotniczych. Chyba nie tak miało być.
Amjad Masad, szef firmy AI Replit stwierdził, że zmarnowaliśmy potencjał systemu zdolnego przetrwać wojnę jądrową. Opinię te podzielają naukowcy i obserwatorzy. Madeline Carr z UC London twierdzi, że nadmierna zależność od chmury jest niekwestionowana. Timothy Edgar z Uniwersytetu Brown wprost nazywa to podkopywaniem krytycznej infrastruktury. Mike Chapple z Uniwersytetu Notre Dame zwraca jednak uwagę, że kiedyś awarie usług IT były o wiele częstsze.
Teoretycznie, dzisiejszy internet to ta sama sieć, co ponad 30 lat temu. Jest nieporównanie szybsza i pod wieloma względami o wiele bardziej "niezniszczalna" niż u swego zarania. Sęk w tym, że dotyczy to tylko jednej warstwy: tej najniższej. Odporność dzisiejszej infrastruktury istotnie robi wrażenie, ale cóż z tego? Nie korzystamy z internetu dla okablowania i routerów, a dla usług.
Polska ma czego szukać w kosmosie
Internet wyglądał kiedyś inaczej
Na początku usługi internetowe wykazywały podobną decentralizację, co sama sieć. Usługa czatowa IRC i grupy dyskusyjne Usenet (gdzie toczyło się całe cyfrowe życie) tworzyły wspólną sieć. Dziś nazywamy to "sfederowaniem" (na zbliżonej zasadzie działa Mastodon i fediverse): serwery rozmawiały ze sobą, nie było ważne, gdzie się ktoś zalogował, jeżeli wysłał wiadomość na grupę alt.pl.kuchnia, widzieli ją wszyscy użytkownicy korzystający z Usenetu. W dowolnym momencie, każdy serwer lub całą podsieć, dało się odpiąć od reszty. Taka enklawa działała dalej, po prostu nie znała stanu reszty sieci.
Sęk w tym, że duża liczba użytkowników oznacza, że nie wszyscy mają taki sam pomysł na kształt usługi. Niektórzy chcą używać jej np. do rzeczy nielegalnych gdzie indziej. Zdarzały się też awantury o kwestie techniczne, wiedzione przez ludzi o ciężkich charakterach. Doprowadziło to np. do podziału sieci IRC na dwa niepołączone ze sobą obozy. Wreszcie, komercjalizacja internetu sprawiła, że utrzymywanie wspólnego stanu stało się za drogie, a swoboda dostępu wiązała się z problemami z bezpieczeństwem.
Nieunikniona centralizacja
Dziś usługi wyglądają zupełnie inaczej. Internetowym oknem na świat jest przeglądarka WWW. Dostawcy usług, jak komunikatory, media społecznościowe, fora dyskusyjne i portale z wiadomościami, są dla siebie nawzajem konkurentami. Doprowadziło to do zebrania wielkich grup użytkowników pod kilkunastoma głównymi usługami. Na żadnych innych nie dało się masowo zarabiać.
Stworzenie własnej strony wciąż jest możliwe, ale ponieważ WWW nigdy nie miało "książki telefonicznej" wszystkich adresów, a utrzymanie zaplecza technicznego jest drogie, większość osób korzysta z dużych usług, a nie samodzielnych rozwiązań. Uogólniając, nie trzymamy swojego CV na prywatnej stronie domowej, a raczej na LinkedIn. W ten sposób zapewniono rozwój, bezpieczeństwo i opłacalność usług, ale awaria jednej z nich jest totalna: nie da się "przelogować na inny serwer". Inny serwer to konkurencja, gdzie obecne są inne usługi.
Zrób to sam: chmura
A awarie globalne będą się zdarzać, bo utrzymywanie własnej infrastruktury jest dziś rzadkością. Zamiast tego, jest ona sprzedawana jako usługa. Tym właśnie jest cała "chmura": możliwością wdrożenia oprogramowania w komercyjnym centrum danych, bez konieczności utrzymywania własnego sprzętu. Usługodawca sam dba o ogólnoświatową dostępność, szerokość łącza, kopie zapasowe i ochronę przed masowymi atakami. Klienci wdrażają się u jednego, a nie u wszystkich naraz. Chmury są dla siebie nawzajem konkurencją, nie ma mowy o żadnym "wspólnym stanie".
Zatem może się nam popsuć jedna trzecia okablowania na całym świecie, a infrastruktura internetowa będzie działać niezawodnie. Ale gdy u jednego chmurowego dostawcy nastąpi efekt domina przy jakiejś wewnętrznej awarii, tysiące kompletnie niepowiązanych ze sobą usług nagle znikną. Chmura jest średnio znacznie odporniejsza niż rozwiązania samodzielne. Rezygnacja z masowych dostawców infrastruktury jest wciąż możliwa, ale często drastycznie podnosi koszty, nawet ponad opłacalność całego przedsięwzięcia. Wiele usług istnieje tylko dlatego, że może się wdrożyć w chmurze i nie martwić obsługą własnego sprzętu i sieci.
Wymyślony na inne potrzeby
Dlaczego jednak chmury zaczęły się tak często psuć? Dobrnęliśmy do jakiegoś krytycznego momentu? Choć każdy z dostawców opublikował szczegółowe opisy techniczne źródeł awarii, ogólnym powodem mogą być drenaż talentów, nieunikniona wymiana kadrowa, niebezpieczny rozrost usług i wewnętrznych zależności. Coraz trudniej znaleźć kogoś, kto wie, co dzieje się "pod maską" - bo nie przeszkolono następców, lub nie udało się znaleźć wystarczająco zdolnych ludzi.
Internet jest czymś jak siatka dróg. Niektóre może i są płatne, ale do większości, z definicji, trzeba dokładać ze wspólnego budżetu. Gdy infrastruktura znajduje się w rękach kilku prywatnych, konkurujących ze sobą nawzajem firm, jesteśmy zdani na ich łaskę. Nigdy nie powstało ogólnoświatowe przedsięwzięcie wspólnego utrzymywania infrastruktury usługowej. Nie zaszło też ono "samoczynnie", jak to ma miejsce w przypadku warstwy sprzętowej.
Wielkie słowa o utrzymywaniu własnej sieci słabo znoszą konfrontację z kosztami. Odporność na awarię światowych gigantów oznacza, że wszystko byłoby znacznie droższe. Dlatego ważne jest oddzielenie usług komercyjnych od publicznych. Te, bez których nasze prawa byłyby ograniczone, nie powinny polegać na usługach prywatnych firm zza oceanu. Dotyczy to nie tylko wojska i szpitali, ale także szkolnego dziennika i karty parkingowej.
Gdy chodzi o pozostałe usługi, rozwiązaniem nie jest rezygnacja z chmury. Są one na tyle duże, że nie ulegną one fundamentalnym przeobrażeniom zmieniającym ich architekturę. Aby mogły dalej istnieć, po prostu muszą być wdrożone w chmurze, od której nie ma odwrotu. Rozwiązaniem kłopotów byłoby, poza zwiększeniem liczby dostawców infrastruktury, zredukowanie liczby punktów zdolnych do wywołania lawiny. Każdy operator chmurowy musi tego dokonać samodzielnie.