Kľúčové poznatky
- Technické problémy Facebooku boli nešťastné, ale problém by sa pravdepodobne vyriešil oveľa rýchlejšie, keby sa nespoliehal na toľko prepojených systémov.
- Neexistuje spôsob, ako úplne zabrániť zlyhaniam systému, existujú však spôsoby, ako ich znížiť pravdepodobnosťou.
- Mať plány zálohovania na to, kedy (nie ak, kedy) systém zlyhá, môže byť rozdiel medzi „otravným“a „katastrofickým“.
Nedávny debakel na Facebooku ukazuje, ako prepojené systémy musia zlyhať a prečo by sme ich nemali používať na všetko.
Strata Facebooku, WhatsAppu a Instagramu na niekoľko hodín v pondelok bola nepohodlná, poškodzujúca podniky a v niektorých prípadoch takmer katastrofálna. Podľa Facebooku to bolo všetko kvôli zmenám konfigurácie jeho sieťových koordinačných smerovačov.
Je to rozumné vysvetlenie, ale skutočnosť, že jediná takáto chyba by mohla zastaviť nielen Facebook, ale aj iné systémy vlastnené Facebookom, je trochu alarmujúca.
Jedna nesprávna zmena konfigurácie smerovača spôsobila, že viaceré služby a dokonca aj náhlavné súpravy VR úplne prestali fungovať. Okrem toho, podľa vlastného priznania Facebooku, malo to tiež kaskádový efekt na to, ako komunikujú dátové centrá spoločnosti, čím sa zastavili všetky ich služby.
„Závislosť od prepojených systémov so sebou nesie prirodzené riziko zlyhania systému alebo dokonca služby,“povedal Francesco Altomare, hlavný technický predajca v GlobalDots, v e-mailovom rozhovore pre Lifewire, "Na boj s týmto skľučujúcim rizikom spoločnosti využívajú princíp SRE (System Reliability Engineering), ako aj ďalšie nástroje, ktoré sa všetky zaoberajú rôznymi úrovňami redundancie zabudovanej do každej vrstvy infraštruktúry systému."
Čo sa môže pokaziť
Stojí za zmienku, že keď takýto systém zlyhá, zvyčajne si to vyžaduje dokonalú búrku vecí, ktoré sa pokazia. Je to menej ako domček z karát, ktorý čaká na pád, a skôr ako odkrytý tepelný výfukový otvor na vesmírnej stanici veľkosti malého mesiaca.
Väčšina spoločností podniká kroky, aby sa pokúsila zabezpečiť, že jediná vec, ktorá by mohla všetko uvrhnúť do chaosu, sa nikdy nestane – no bez ohľadu na to sa môže stať.
„Neočakávané zlyhania sú súčasťou podnikania a môžu nastať v dôsledku nedbalosti pracovníkov, porúch v sieti poskytovateľa internetových služieb alebo dokonca problémov s cloudovými úložiskami,“povedala Sally Stevensová, spoluzakladateľka FastPeopleSearch, v e-mailový rozhovor.
"…Pokiaľ sa zavedú potrebné kroky na ochranu systému, ako sú zálohy, smerovač na mieste a viacúrovňový prístup, tieto zlyhania sú dosť nepravdepodobné." Aj keď aj s armádou bezpečnostných systémov je stále možné, že záchytný bod zlyhá.
Ak zlyhá systém, ktorý riadi veci ako primárne formy kontaktu, spotrebiče, dvere atď., výsledky môžu byť významné. Od miernych nepríjemností až po úplné katastrofy, v závislosti od toho, ako veľmi sa na to jednotlivci a spoločnosti spoliehajú.
"Existuje tiež riziko, že sa hackeri dostanú do systému z niektorého z najmenej chránených zariadení, ako sú chladničky a hriankovače," dodal Stevens, "čo by mohlo viesť ku krádeži údajov a ransomvéru."
Ako sa môžeme pripraviť
Neexistuje žiadny spôsob, ako zaručiť, že systém nikdy nezlyhá, existujú však kroky, ktoré je možné podniknúť na zníženie pravdepodobnosti zlyhania alebo na jeho hladšie riešenie. Ideálna by bola kombinácia dvoch prístupov, ktorá spája bezpečnostné a protiopatrenia s pohotovostnými plánmi a záložnými systémami.
„Na elimináciu týchto nebezpečenstiev vytváraných produktmi a službami tretích strán, s ktorými sa efektívne zaobchádza, musia byť prísne vymedzené úlohy a povinnosti týkajúce sa riadenia rizík tretích strán,“povedala Daniela Sawyer, zakladateľka a technologická riaditeľka FindPeopleFast, v e-mailovom rozhovore: „Aby manažéri rizík prekvitali v tomto novom prostredí, musia pochopiť základné časti takéhoto sofistikovaného ekosystému.“
To, čo sa stalo s Facebookom, WhatsAppom a Instagramom, bolo nešťastné, ale dúfajme, že aj oči otvárajúce. Ľudia, ktorí sa spoliehajú na vzájomne prepojené systémy, musia pochopiť, že nesprávna vec môže narušiť všetko. A musia byť zavedené opatrenia (alebo preskúmané a spresnené), aby takéto narušenia boli menej pravdepodobné a menej účinné.
V prípade Facebooku neboli jeho problémom problémy s routerom, ale skôr prepojením takmer celého ekosystému so všetkým ostatným. Keď teda Facebook (služba) nefungoval, musel Facebook (spoločnosť) tráviť oveľa viac času a energie jednoduchým organizovaním a riešením problému. Ak by buď nepoužíval taký hlboko zakorenený, prepojený systém, alebo by mal zavedené záložné plány na riešenie takéhoto výpadku, pravdepodobne by trvalo oveľa menej času na opravu.