Il recente disservizio Cloudflare che ha reso irraggiungibili moltissimi siti web non ha nulla a che vedere con un attacco informatico di tipo DDoS. Matthew Prince ha chiarito in un post ufficiale che il blocco avvenuto il 18 novembre deriva esclusivamente da un errore interno e non da azioni malevole esterne.
Il team tecnico ha individuato il colpevole in una modifica errata ai permessi dei sistemi di database che ha finito per corrompere un file essenziale utilizzato dal sistema di gestione dei bot.
L’infrastruttura coinvolta utilizza l’apprendimento automatico per analizzare ogni richiesta di accesso alla rete e assegna un punteggio ai visitatori automatizzati. I clienti si affidano a questi dati per decidere se bloccare o ammettere determinati crawler sui loro portali e molto spesso questa funzione serve per impedire alle intelligenze artificiali di rubare contenuti per l’addestramento.
L’azienda aveva persino lanciato un esperimento a luglio per consentire la scansione delle pagine da parte dei bot IA solo dietro un compenso economico specifico.
Prince ha spiegato che il modello predittivo si basa su un file di configurazione che si aggiorna ogni tot (pochi minuti) per distinguere il traffico umano da quello automatico. Una modifica al meccanismo ha alterato inaspettatamente le dimensioni di questo file e il sistema non è riuscito a gestirlo provocando un errore a catena. Il proxy principale ha quindi restituito codici di errore HTTP 5xx per tutto il traffico che dipendeva dal modulo bot e ha causato il blocco immediato della navigazione per milioni di utenti.
L’incidente ha rappresentato il momento più critico per l’infrastruttura dal lontano 2019, poiché ha fermato la maggior parte del traffico principale sulla rete globale dell’azienda (e sui innumerevoli siti, compreso il nostro).
L’amministratore delegato ha espresso le sue scuse a nome di tutta la squadra per l’inconveniente causato e ha confermato la risoluzione definitiva del problema. La situazione è tornata alla normalità dopo la correzione dell’errore sui permessi e la stabilità dei servizi risulta ora completamente ripristinata.


