W dniu dzisiejszym ma miejsce globalna awaria komputerów opartych na systemie Windows. Przyczyną awarii jest aktualizacja specjalistycznego oprogramowania antywirusowego, z którego korzystały wszystkie większe organizacje na świecie. Komputery po aktualizacji nie startują, ponieważ wprowadzona uniemożliwia pełne uruchomienie systemu. Nie jest to błąd, który można poprawić zdalnie kolejną aktualizacją, ponieważ system operacyjny w ogóle nie startuje. Każdy z komputerów wymaga ręcznego ponownego uruchomienia w trybie bezpiecznym, odinstalowania aktualizacji i ponownego uruchomienia. Już teraz widać, że jest to największa awaria IT jaka kiedykolwiek się wydarzyła. Serwisy internetowe podają kolejne branże dotknięte awarią. Stoją lotniska, koleje, banki, linie lotnicze, szpitale, systemy płatności, duże korporacje, nawet niektóre media zatrzymały nadawanie. Trudno określić skalę, mówi się o „milionach zainfekowanych komputerów”. Niektórzy łączą tą awarię z wczorajszymi problemami w chmurze Microsoft AZURE. Jest to całkiem możliwe, że serwery AZURE także korzystały z tego zabezpieczenia.
Paradoksalnie oprogramowanie, które miało zapewniać bezpieczeństwo, doprowadziło do sytuacji w której atak terrorystyczny czy hackerski miałby mniejszy skutek.
Serwery MyPrint działają pod kontrolą systemów Linux, dlatego nasi Klienci nie odczuli skutków tej katastrofy. Wszystkie nasze systemy są up&runnig!
Obserwujemy eskalację tego błędu w MyPrint na bieżąco. Czego nauczyliśmy się na tym przykładzie?
- Testujemy, testujemy, testujemy.
- Wprowadzanie zmian systemowych powinno być podzielone na etapy, stopniowo przesyłane na serwery klientów. Dzięki temu ewentualne nieprawidłowości mogą być szybko wykryte i poprawione, zanim błąd pojawi się wszędzie.
- Przeprowadzimy audyt serwerów naszych Klientów, gdyż nawet jeśli sam MyPrint działa na Linuxie, to sam Linux może być postawiony jako serwer wirtualny, pracujący pod kontrolą środowiska Windows, co mogłoby także spowodować jego wyłączenie.
- Automatyzujemy procedurę odtwarzania środowiska Klienta z backupu na naszych serwerach, tak aby w przypadku awarii serwera sprawnie przejść na pracę na systemie testowym, do momentu ponownego uruchomienia serwera. Taki scenariusz mamy przećwiczony w trybie ręcznym, dążymy do tego aby dało się to wykonać automatycznie.
Trzymajmy kciuki za IT, to będzie bardzo ciężki weekend dla wszystkich w branży na świecie.