W ciągu kilku miesięcy tego roku Internet rozwinął się w czterech różnych kierunkach. A oficjalne wyjaśnienia są pełne romansu, jak dziennik konserwacji. Plik Cloudflare przekroczył oczekiwany rozmiar. Wpisy DNS w AWS nigdzie nie wskazywały. Zmiany w konfiguracji platformy Azure nie poszły zgodnie z planem. Reguły kontroli usług Google zapętliły się i zawiodły, powodując powtarzające się cykle awarii.

h2):tekst-3xl pb-8″>

Wydarzenia te po cichu nałożyły się na siebie, ujawniając tę ​​samą niewygodną prawdę. Oznacza to, że Internet jest ściśle powiązaną strukturą, a nie rozległą, zdecentralizowaną siecią, jak wielu sobie wyobraża. Przy tak wielu usługach cyfrowych opartych na tych samych bramach, tych samych modułach równoważenia obciążenia, tych samych punktach kontroli tożsamości i tych samych warstwach routingu małe zmiany w jednym rogu mogą spowodować reakcję łańcuchową w innym. Luki występują we wspólnych ścieżkach, a nie w poszczególnych aplikacjach, które znikają z pola widzenia.

h2):tekst-3xl pb-8″>

Mała poprawka staje się problemem globalnym

Dla plików Rozrósł się ponad oczekiwany rozmiar w Cloudflare Na początku tego tygodnia skutki faktycznie rozprzestrzeniły się daleko poza witryny działające w Cloudflare. Wyniki banku uległy pogorszeniu. Wystąpiło opóźnienie w kasie w sklepie detalicznym. Platforma przesyłania wiadomości została zatrzymana. Nawet „inteligentny” sprzęt, na którym ludzie mieli polegać podczas porannych biegów – ekspresy do kawy działające na podstawie uścisków dłoni w chmurze, termostaty wymagające samouwierzytelniania, aplikacje określające, czy można dojeżdżać do pracy – rozpadły się, gdy warstwy brzegowe nie nadążały.

zamieścił na Twitterze przeprosiny W oświadczeniu przyznano, że „powszechne awarie Internetu” i zrzucono winę na potencjalne błędy spowodowane rutynowymi zmianami konfiguracji. Żadnych naruszeń, żadnych złośliwych atakujących. Rutynowa modyfikacja zakłóciła działanie sieci wielkości kontynentu.

Szacunkowo 400 miliardów dolarów rocznie Ze względu na wpływ przestojów w chmurze i urządzeniach brzegowych największe firmy regularnie ustalają koszty zakłóceń na poziomie: Waha się od 1 miliona dolarów do 5 milionów dolarów za godzinę. Pliki ukryte głęboko w systemach, o których większość ludzi nigdy nie słyszała, wciąż potrafią nagiąć cyfrowy świat do swojej woli.

Potencjalne roszczenia do 581 milionów dolarówLiczba ta nie obejmuje nawet porzuconych wózków, opóźnień w płaceniu lub zablokowanych przesyłek, które nigdy nie dotarły do ​​etapu formalności.

h2):tekst-3xl pb-8″>

W następnym tygodniu przyszła kolej na platformę Azure, gdy aktualizacje zarządzania ruchem w warstwie brzegowej Microsoft spowolniły logowanie w miejscu pracy, odprawy w liniach lotniczych, portale detaliczne i platformy gier. Objawy powierzchniowe wydawały się niepowiązane. Podstawowym problemem był system routingu powiązany ze stosem tożsamości Microsoftu. Wiele organizacji, które nie uruchamiają aplikacji na platformie Azure, nadal polega na firmie Microsoft w zakresie sprawdzania poświadczeń, autoryzacji sesji i routingu danych użytkowników. Ta zmiana warstwy wygląda na małą na papierze. Jednak w rzeczywistości wpływa to jednocześnie na podróże, handel, komunikację i pracę w biurze.

h2):tekst-3xl pb-8″>

jedna sieć, jeden kręgosłup

Te awarie nie wynikają z tej samej wady. Wskazali jednak na tę samą strukturę.

Około 62% światowych wydatków na infrastrukturę chmurową. Cloudflare siedzi tuż przed tobą 20% sieciponad 80% witryn korzystających ze zwrotnych serwerów proxy korzysta z odwrotnych serwerów proxy jako swojego jedynego dostawcy. Platformy tożsamości firm Microsoft, Amazon i Okta obsługują setki milionów logowań dziennie.

h2):tekst-3xl pb-8″>

Firmy wciąż mówią o różnorodności infrastruktury. Dotyczą one konfiguracji wielochmurowych i regionalnych strategii przełączania awaryjnego. Te awarie pokazały, jak strategie te ulegają osłabieniu, gdy stają się widoczne wspólne łańcuchy zależności. Sprzedawcy detaliczni, którzy rozpowszechniają swoje obliczenia w chmurze, potykają się, jeśli ich przepływ transakcji opiera się na ciemnej sieci CDN. Szpitale przechowujące dokumentację pacjentów w systemach lokalnych nadal borykają się z opóźnieniami, gdy przesyłanie wiadomości i integracja obrazów są przeprowadzane za pośrednictwem usług w chmurze powiązanych z niewłaściwą warstwą routingu. Linie lotnicze, które poczyniły znaczne inwestycje we własne centra danych, nadal stwierdzają, że weryfikacje tożsamości mają problemy z przechodzeniem przez dostawców uwierzytelniania, co spowalnia ich.

h2):tekst-3xl pb-8″>

Analitycy badający awarie skupiają się mniej na czasie przestojów, a bardziej na promieniu wybuchu. Incydent z AWS objął ponad 3500 firm w ponad 60 krajach. Awaria Cloudflare wygenerowała ponad 11 000 raportów o incydentach użytkowników i zakłóciła przepływ pracy w bankach, sklepach detalicznych, systemach logistycznych, platformach medialnych i agencjach rządowych. Zakładałem, że wszystkie te „krawędziowe” warstwy istnieją wystarczająco daleko od krawędzi czegoś. Ponad 30 000 raportów o przestojach spowodowanych spowolnieniami platformy Azure w pierwszej godzinie Zakłóciło to podróżowanie, rozrywkę i połowę cyfrowego sposobu, w jaki ludzie odkładają pracę na później. Przeszkoda Google przesłało ponad 10 000 raportów na poziomie chmury i zgłosiło defekty za pośrednictwem platform przesyłania strumieniowego, narzędzi do współpracy i usług zależnych od chmury. Każdy incydent pokazał, jak skoncentrowana jest infrastruktura internetowa. Ponieważ większość produktów cyfrowych ma te same sieci, te same systemy dostarczania treści i te same usługi tożsamości, na których opiera się większość produktów cyfrowych, awarie jednego dostawcy migrują między sektorami.

h2):tekst-3xl pb-8″>

Dostawcy usług w chmurze i sieci ruchu nadal promują redundancję, a inżynieria leżąca u podstaw ich twierdzeń jest realna. Problem leży w lukach, do których strategie te nie są w stanie dotrzeć. Redundancja w ramach jednego dostawcy chroni obciążenia znajdujące się poza murami tego dostawcy. W przypadku współdzielonej warstwy DNS, współdzielonej sieci brzegowej ani współdzielonego stosu tożsamości nie jest zapewniona żadna ochrona. W zakresie, w jakim te szczeble skupiają się w niewielkiej liczbie przedsiębiorstw, codzienne dostosowania mogą spowodować równoległe spowolnienie przedsiębiorstw z różnych branż.

h2):tekst-3xl pb-8″>

Sieć działa bardziej jak pojedynczy, połączony ze sobą silnik, niż większość ludzi zdaje sobie sprawę. Przedsiębiorstwa i instytucje sektora publicznego działają obecnie w ramach tego silnika, niezależnie od tego, czy mają taki zamiar, czy nie. Następujące awarie mogą być spowodowane zmianami konfiguracji, zmianami w tablicy routingu lub plikami przekraczającymi progi. Internet się nie zawalił (jeszcze). Ale właśnie pokazałem ci, jak łatwo to zrobić.

📬 Subskrybuj Daily Brief

Source link

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj