Τι πήγε στραβά στην Cloudflare και πώς αποκαταστάθηκε το δίκτυο;

Την Τρίτη, 18 Νοεμβρίου 2025, εκατομμύρια χρήστες σε όλο τον κόσμο αντιμετώπισαν προβλήματα σύνδεσης σε δημοφιλείς πλατφόρμες. Το διαδίκτυο φάνηκε να παγώνει, αλλά η αιτία δεν ήταν επίθεση χάκερ.

Η Cloudflare, η εταιρεία που υποστηρίζει μεγάλο μέρος της παγκόσμιας διαδικτυακής υποδομής, παραδέχτηκε ότι η διακοπή οφειλόταν σε εσωτερικό τεχνικό λάθος.

Το πρόβλημα ξεκίνησε από μια αλλαγή στα δικαιώματα μιας βάσης δεδομένων που χρησιμοποιεί η Cloudflare, η ClickHouse. Η αλλαγή αυτή προκάλεσε τη λανθασμένη δημιουργία ενός αρχείου διαμόρφωσης, γνωστού ως feature file, που χρησιμοποιείται από το σύστημα Bot Management για να εντοπίζει τα αυτοματοποιημένα bots στο διαδίκτυο.

Το αρχείο αυτό διπλασιάστηκε σε μέγεθος, και όταν διανεμήθηκε σε όλα τα συστήματα της εταιρείας, προκάλεσε κατάρρευση των υποδομών. Το αποτέλεσμα ήταν ότι πολλοί ιστότοποι εμφάνιζαν σφάλματα και δεν μπορούσαν να φορτώσουν.

Κατά την πρώτη φάση της κρίσης, οι μηχανικοί της Cloudflare θεώρησαν ότι ίσως επρόκειτο για υπερβολικά μεγάλη επίθεση DDoS, λόγω των συνεχών διακυμάνσεων μεταξύ “καλών” και “κακών” διαμορφώσεων. Ταυτόχρονα, η σελίδα κατάστασης της Cloudflare παρουσίασε προβλήματα, γεγονός που έκανε την κατάσταση να φαίνεται ακόμα πιο σοβαρή.

Η αποκατάσταση ξεκίνησε μόλις τα τεχνικά στελέχη εντόπισαν την πηγή του προβλήματος. Σταμάτησαν τη δημιουργία και τη διανομή του προβληματικού αρχείου, επαναφέροντας μια σταθερή, ασφαλή έκδοση και επανεκκίνησαν τις βασικές υπηρεσίες διαχείρισης κυκλοφορίας (core proxy). Μέχρι τις 14:30 UTC, το βασικό δίκτυο είχε επανέλθει σε λειτουργία, ενώ η πλήρης αποκατάσταση επιτεύχθηκε γύρω στις 17:06 UTC.

Κατά τη διάρκεια της κρίσης, η Cloudflare παρατήρησε επίσης μεγάλη χρήση πόρων του υπολογιστικού συστήματος (CPU) από τα εργαλεία παρακολούθησης και διάγνωσης, καθώς οι μηχανικοί προσπαθούσαν να καταλάβουν τι είχε συμβεί.

Η διακοπή επηρέασε υπηρεσίες που βασίζονται στην Cloudflare για την παράδοση περιεχομένου (CDN) και την ασφάλεια, δημιουργώντας προβλήματα σε πολλές εφαρμογές και ιστοσελίδες. Επιπλέον, συστήματα όπως το Workers KV και η υπηρεσία Access παρουσίασαν δυσλειτουργίες, με αποτέλεσμα αποτυχημένες προσπάθειες σύνδεσης και πιστοποίησης χρηστών.

H διακοπή αποκάλυψε όχι μόνο τη δύναμη της εταιρείας, αλλά και την ευθραυστότητα του ίδιου του διαδικτύου όταν βασίζεται σε λίγους κρίσιμους παρόχους.

Θα εισαγάγει global kill switches, δηλαδή δυνατότητες που θα επιτρέπουν την άμεση διακοπή προβληματικών λειτουργιών σε ολόκληρο το δίκτυο. Θα επανεξετάσει τα όρια αποθήκευσης και τους μηχανισμούς χειρισμού σφαλμάτων, ώστε νέες διαμορφώσεις να μην ρίχνουν ολόκληρο το σύστημα.

Τέλος, θα βελτιώσει τους μηχανισμούς αποτυχίας για να εξασφαλίσει ότι το δίκτυο θα παραμένει λειτουργικό ακόμα και όταν εμφανίζονται λάθη.