Wydarzenia te po cichu nałożyły się na siebie, ujawniając tę samą niewygodną prawdę. Oznacza to, że Internet jest ściśle powiązaną strukturą, a nie rozległą, zdecentralizowaną siecią, jak wielu sobie wyobraża. Przy tak wielu usługach cyfrowych opartych na tych samych bramach, tych samych modułach równoważenia obciążenia, tych samych punktach kontroli tożsamości i tych samych warstwach routingu małe zmiany w jednym rogu mogą spowodować reakcję łańcuchową w innym. Luki występują we wspólnych ścieżkach, a nie w poszczególnych aplikacjach, które znikają z pola widzenia.
Mała poprawka staje się problemem globalnym
Dla plików Rozrósł się ponad oczekiwany rozmiar w Cloudflare Na początku tego tygodnia skutki faktycznie rozprzestrzeniły się daleko poza witryny działające w Cloudflare. Wyniki banku uległy pogorszeniu. Wystąpiło opóźnienie w kasie w sklepie detalicznym. Platforma przesyłania wiadomości została zatrzymana. Nawet „inteligentny” sprzęt, na którym ludzie mieli polegać podczas porannych biegów – ekspresy do kawy działające na podstawie uścisków dłoni w chmurze, termostaty wymagające samouwierzytelniania, aplikacje określające, czy można dojeżdżać do pracy – rozpadły się, gdy warstwy brzegowe nie nadążały.
W następnym tygodniu przyszła kolej na platformę Azure, gdy aktualizacje zarządzania ruchem w warstwie brzegowej Microsoft spowolniły logowanie w miejscu pracy, odprawy w liniach lotniczych, portale detaliczne i platformy gier. Objawy powierzchniowe wydawały się niepowiązane. Podstawowym problemem był system routingu powiązany ze stosem tożsamości Microsoftu. Wiele organizacji, które nie uruchamiają aplikacji na platformie Azure, nadal polega na firmie Microsoft w zakresie sprawdzania poświadczeń, autoryzacji sesji i routingu danych użytkowników. Ta zmiana warstwy wygląda na małą na papierze. Jednak w rzeczywistości wpływa to jednocześnie na podróże, handel, komunikację i pracę w biurze.
jedna sieć, jeden kręgosłup
Te awarie nie wynikają z tej samej wady. Wskazali jednak na tę samą strukturę.
Firmy wciąż mówią o różnorodności infrastruktury. Dotyczą one konfiguracji wielochmurowych i regionalnych strategii przełączania awaryjnego. Te awarie pokazały, jak strategie te ulegają osłabieniu, gdy stają się widoczne wspólne łańcuchy zależności. Sprzedawcy detaliczni, którzy rozpowszechniają swoje obliczenia w chmurze, potykają się, jeśli ich przepływ transakcji opiera się na ciemnej sieci CDN. Szpitale przechowujące dokumentację pacjentów w systemach lokalnych nadal borykają się z opóźnieniami, gdy przesyłanie wiadomości i integracja obrazów są przeprowadzane za pośrednictwem usług w chmurze powiązanych z niewłaściwą warstwą routingu. Linie lotnicze, które poczyniły znaczne inwestycje we własne centra danych, nadal stwierdzają, że weryfikacje tożsamości mają problemy z przechodzeniem przez dostawców uwierzytelniania, co spowalnia ich.
Analitycy badający awarie skupiają się mniej na czasie przestojów, a bardziej na promieniu wybuchu. Incydent z AWS objął ponad 3500 firm w ponad 60 krajach. Awaria Cloudflare wygenerowała ponad 11 000 raportów o incydentach użytkowników i zakłóciła przepływ pracy w bankach, sklepach detalicznych, systemach logistycznych, platformach medialnych i agencjach rządowych. Zakładałem, że wszystkie te „krawędziowe” warstwy istnieją wystarczająco daleko od krawędzi czegoś. Ponad 30 000 raportów o przestojach spowodowanych spowolnieniami platformy Azure w pierwszej godzinie Zakłóciło to podróżowanie, rozrywkę i połowę cyfrowego sposobu, w jaki ludzie odkładają pracę na później. Przeszkoda Google przesłało ponad 10 000 raportów na poziomie chmury i zgłosiło defekty za pośrednictwem platform przesyłania strumieniowego, narzędzi do współpracy i usług zależnych od chmury. Każdy incydent pokazał, jak skoncentrowana jest infrastruktura internetowa. Ponieważ większość produktów cyfrowych ma te same sieci, te same systemy dostarczania treści i te same usługi tożsamości, na których opiera się większość produktów cyfrowych, awarie jednego dostawcy migrują między sektorami.
Sieć działa bardziej jak pojedynczy, połączony ze sobą silnik, niż większość ludzi zdaje sobie sprawę. Przedsiębiorstwa i instytucje sektora publicznego działają obecnie w ramach tego silnika, niezależnie od tego, czy mają taki zamiar, czy nie. Następujące awarie mogą być spowodowane zmianami konfiguracji, zmianami w tablicy routingu lub plikami przekraczającymi progi. Internet się nie zawalił (jeszcze). Ale właśnie pokazałem ci, jak łatwo to zrobić.

















