Il perdurante problema di Delta con CrowdStrike dimostra che la tecnologia fragile e l’assenza di un Piano B sono una ricetta per il disastro
La Nota dell’Editore
Questa analisi è apparsa originariamente nella newsletter di Bob Sullivan, The Red Tape Chronicles.
Il Disastro di CrowdStrike e la Reazione di Delta Airlines
Sono state espresse numerose opinioni riguardo il disastro di CrowdStrike, tanto che non sento il bisogno di aggiungere la mia.
Tuttavia, osservando come Delta Airlines stia ancora gestendo i passeggeri a cinque giorni di distanza dall’evento provocato da un singolo pezzo di codice difettoso, non si può più incolpare solo CrowdStrike.
Non si trattava di un singolo punto di fallimento, ma di una cascata di eventi.
Il Piano di Backup di Delta: Un Fallimento Programmato
Il piano di riserva di Delta era destinato a fallire.
Abituatevi.
La nostra era digitale è costellata di problemi spesso definiti come “punti di fallimento singoli” e molte grandi corporation non investono in piani di backup realistici.
Così, quando il piano di riserva fallisce, per definizione non si ha più un singolo punto di fallimento ma una cascata di eventi.
Una cascata di eventi spesso prevenibile.
Il Fallimento Strutturale
C’è una ragione strutturale dietro a questo, e non la risolveremo finché non ci sarà una volontà politica massiccia per farlo.
Il problema è semplice.
Un “Piano B” effettivamente funzionale è molto costoso, e mantenerlo aggiornato è ancora più dispendioso — nessuna azienda orientata ai profitti investirà mai i soldi necessari a meno che non sia costretta da qualche tipo di regolamentazione.
Esperienze Passate
Sono affascinato dal problema dei piani di backup da quasi 15 anni, da quando ho scritto questo articolo — “Why Plan B Often Goes Badly” — per NBC News dopo il disastro della centrale nucleare di Fukushima.
Questo studio di caso offre molte lezioni, e poiché non coinvolge il fallimento di un’azienda o di regolatori statunitensi, sembra un po’ più facile vedere le colpe con occhio critico.
L’Evidenza di Fukushima
Ecco la storia in breve: un terremoto causò un’enorme interruzione di corrente, minacciando la capacità di raffreddamento della centrale.
Successivamente, il successivo tsunami distrusse i generatori di riserva.
C’erano delle batterie di riserva (chiamiamolo piano C!) ma durarono solo poche ore, non abbastanza per eseguire le riparazioni necessarie in circostanze difficili come l’aver affrontato uno tsunami.
Risultato: disastro nucleare.
L’Illusione del “Punto di Fallimento Singolo”
Questa storia è importante perché dimostra che spesso la frase “punto di fallimento singolo” è un po’ un termine improprio.
Quello che accadde a Fukushima fu una cascata di eventi; più cose che falliscono contemporaneamente.
E questa è la realtà.
Certo, i computer di Delta hanno sofferto di una “blue screen of death”.
Ma c’era una soluzione poco dopo.
Il Problema delle Limitazioni e della Formazione
Per essere chiari, è impossibile pianificare qualsiasi eventualità che possa accadere nella vita — esiste sempre la possibilità di eventi estremamente rari, i cosiddetti Black Swan.
Ma un aggiornamento software difettoso non è un evento raro.
La funzione limitante più comune è questa: la spesa per il Piano B non può essere infinita.
C’è sempre un calcolo del rischio quando si investe in archiviazione dati ridondante off-site, attrezzature antincendio supplementari, o dimensioni delle batterie di riserva.
Le Conseguenze per CrowdStrike e Delta
Quali saranno le conseguenze del caso CrowdStrike? Cosa dovrebbero essere? Certamente, il prezzo delle azioni della compagnia subirà un colpo.
Forse alcune aziende passeranno a nuovi software, anche se è improbabile.
Delta dovrà emettere tanti rimborsi (grazie ai nuovi regolamenti FAA!) che probabilmente subirà un colpo finanziario nel suo report trimestrale.
Quindi? Questo porterà a una migliore pianificazione per i prossimi glitch software? Forse se ci fosse una vera competizione nel settore aeronautico e i consumatori arrabbiati potessero votare con i piedi, premiando altre compagnie.
Ma la maggior parte dei consumatori ha poco o nessuna reale scelta quando prenota i biglietti.
Perciò, sono abbastanza sicuro che succederà di nuovo.
A meno che non ci sia una volontà politica di cambiare.
Perché, ve lo prometto, il prossimo glitch software arriverà nella vostra compagnia aerea, nella vostra banca, o nella vostra casa connessa, molto presto.