Crowdstrike-Fiasko: Was wir daraus lernen können?

19.07.2024. Die ganze Welt wird aus ihrem Alltag gerissen als an vielen Flughäfen, Krankenhäusern, Bahnhöfen und anderen Stellen Arbeitsplatzstationen und Anzeigetafeln auf blau schalten und der prominente weiße Schriftzug "Recovery - it looks like Windows didn‘t load correctly" erscheint – was war passiert? 

Dieser, in Fachkreisen genannte "Blue Screen of Death", bedeutet, das System ist abgestürzt. Nichts geht mehr. Betroffen sind Systeme, welche mit dem Betriebssystem Windows 10 laufen und das Programm Crowdstrike Falcon installiert haben.

Die Störung begann in den frühen Morgenstunden in Australien und breitete sich schnell über Asien, Europa und Amerika aus, wobei die Reisebranche zu den am stärksten betroffenen Sektoren gehörte. Medien berichten von zahlreichen Unternehmen, die mit ihrer IT zu kämpfen haben. Geräte stürzen ab und können nicht mehr neu gestartet werden. Eine Störung mit globalem Ausmaß. 

Außer Gefecht gesetzt wurden die Geräte durch ein Update des Programms Crowdstrike Falcon; einer Software, die Angriffe auf Systeme identifizieren und blockieren soll. Das Unternehmen bewirbt Falcon als Lösung, die in der Lage ist, fortgeschrittene Bedrohungen zu erkennen und zu stoppen. Eben jenes Tool, was für mehr Sicherheit und Stabilität in der Cyber Welt sorgen soll, hat die halbe Welt zum Stillstand gebracht.
 

Wie konnte das passieren?

Grundsätzlich muss hierfür zunächst kurz erklärt werden, wie diese sogenannten Endpoint-Detection-And-Response (EDR) Programme funktionieren, zu denen auch Crowdstrike Falcon zählt. Diese Programme dienen der Überwachung, Erkennung und Reaktion von und auf Bedrohungen auf Endgeräten wie Computern und mobilen Geräten. Besonders ist hierbei zu erwähnen, dass Crowdstrike Falcon zu den EDR-Systemen gehört, die ihre Module im Kernel Mode eines Systems betreiben. Endgeräte haben grundsätzlich zwei Modi in denen Programme ausgeführt werden können: den User-Mode und den Kernel Mode. Der User Mode ist der weniger privilegierte Modus, in dem Anwendungssoftware ausgeführt wird. Anwendungen haben im User Mode keinen direkten Zugriff auf die Hardware oder den Speicher des Systems, sondern müssen über das Betriebssystem und dessen Application Programming Interface (API) darauf zugreifen. Dieser Modus bietet eine Schutzebene, um das System vor fehlerhaften oder bösartigen Anwendungen zu schützen, da das Betriebssystem über die API nur eine begrenzte Funktionalität anbietet und jede Anfrage kontrollieren kann. Der Kernel Mode hingegen ist der privilegierte Modus, in dem zentrale Komponenten des Betriebssystems ausgeführt wird. In diesem Modus hat die Software uneingeschränkten Zugriff auf alle Ressourcen des Systems, einschließlich der Hardware und des Speichers.

Zum Update eines im Kernel Modus laufenden Systems ist ein Treiber notwendig. Diese sogenannten Kernel-Mode-Treiber eines Systems haben direkten Zugriff auf die Hardware und Systemressourcen. Treiber können Systemaufrufe abfangen und detaillierte Informationen über Systemaktivitäten erfassen, sowie auf Systemressourcen zugreifen und diese steuern. Somit gilt, wenn ein solcher Treiber im Kernel Modus abstürzt, legt dieser Absturz womöglich auch das gesamte System dahinter lahm. Und genau das ist hier geschehen.

Am Morgen des 19.07.2024 hat Crowdstrike ein Update auf alle zu diesem Zeitpunkt aktiven Systeme ausgespielt. Aktualisiert wurde ein sogenanntes Channel File, welches Verhaltensschutzmechanismen der Software, ähnlich zu Signaturupdates bei Antivirensoftware, steuert. Diese Dateien werden regelmäßig (oft mehrmals täglich) an die Systeme verteilt, was sich aus der Natur des Programmes ergibt. Als EDR-System ist es unerlässlich ständig up-to-date zu sein um auch die neuesten Cyber-Bedrohungen erkennen und neutralisieren zu können. Nun war leider diese Channel Datei mit der Nummer 291 mit einem Programmier-Logikfehler behaftet, welcher dann entsprechend den Treiber beim lokalen Ausrollen der Channel Datei zum Abstürzen brachte und somit sämtliche betroffenen Systeme mit in den Abgrund zog.
 

Was gilt es zu beachten, falls man betroffen war?

Es wurden bereits einige Mitigationsmaßnahmen sowohl von offizieller als auch inoffizieller Seite veröffentlicht. Diese reichen von der Löschung einer bestimmten „.sys“ Datei bis zu einem Update der Software. Es empfiehlt sich Mitigationsempfehlungen und Informationen zum Vorfall nur von validierten Webseiten zu nutzen. Zuletzt waren einige Fake-Webseiten im Umlauf, die die Betroffenen auf zwielichtige Seiten weiterleiteten, mit dem Ziel, Phishing zu betreiben, Malware zu verbreiten oder Daten zu sammeln. Auf keinen Fall sollten Sie Software und „Updates“ nicht validierter Websites herunterladen. Nutzen Sie bestenfalls die Hinweise des Softwarehersteller Crowdstrike selbst oder die des Bundesamts für Sicherheit in der Informationstechnik (BSI).
 

Was können wir daraus lernen?

Betroffen waren zwar nur Windows Systeme, solche Fehler können aber auch andere Betriebssysteme treffen. Tatsächlich waren laut Aussagen von Microsoft in etwa 8,5 Millionen Systeme durch den Fehler beeinträchtigt. Crowdstrike Falcon ist ein System ist das vorwiegend von gewerblichen Kundinnen und Kunden angewendet wird. Besonders tiefgreifend war die Störung in den Bereichen der kritischen Infrastruktur.

Dieser weltweite Ausfall kritischer IT-Systeme zeigte eindrucksvoll, welche Probleme auftreten können, wenn EDR-Systeme ohne umfassende Wiederherstellungsstrategie implementiert werden. In der IT-Sicherheit haben Vertraulichkeit (Confidentiality), Integrität (Integrity) und Verfügbarkeit (Availability) als Schutzziele oberste Priorität. Jegliche Handlung im Rahmen der Cyberstrategie von Unternehmen versucht stets diese "CIA"-Maxime zu wahren. EDR-Systeme hingegen priorisieren die Vertraulichkeit und Integrität der Informationen gegenüber der Verfügbarkeit. Dies wird dadurch verdeutlicht, dass im Notfall auch wichtige Systemkomponenten gelöscht oder unter Quarantäne gestellt werden, um die Datenintegrität zu wahren, was dazu führt, dass diese nicht mehr nutzbar sind.
 

Wie kann man die Verfügbarkeit trotzdem gewährleisten?

Effizientes Threat Hunting muss schnell auf aufkommende Cyber-Bedrohungen reagieren, indem unverzüglich sogenannte Indicator of Compromise (IoC) bereitgestellt werden, um insbesondere auf Zero-Day-Angriffe zu reagieren. Im Notfall müssen auch laufende Prozesse gestoppt oder zum Beispiel Netzwerkverbindungen blockiert werden können. Dies alles rechtfertigt das Betreiben von Komponenten der EDR-Software im Kernel Mode, was erhebliche Vorteile in Bezug auf Einblicke, Kontrolle und Reaktionsfähigkeit mit sich bringt. Hinzu kommt jedoch jenes das Risiko, welches sich hier materialisiert hat, dass Fehler im Kernel Mode zu Systemabstürzen oder schwerwiegenden Sicherheitslücken führen können. Zur Mitigation dieses Risikos können verschiedenen Ansätze auf Seiten der Nutzer der Software etabliert werden.

Implementierung von robusten Fehler- und Ausnahmebehandlungsmechanismen im Kernel-Mode-Code können helfen, um sicherzustellen, dass Systeme auch bei Auftreten von Fehlern stabil bleiben. Die Entwicklung von Failsafe-Mechanismen, die im Falle eines schwerwiegenden Fehlers den Kernel-Mode-Code deaktivieren und auf sichere Standardfunktionen zurückfallen, sollten ebenfalls in Betracht gezogen werden. Zudem sollte sichergestellt werden, dass der Kernel-Mode-Code nur die minimal notwendigen Privilegien erhält und so wenig Systemressourcen wie möglich beeinflusst. Die Entwicklung einer modularen Architektur, bei der Kernel-Mode-Komponenten voneinander isoliert sind, kann die Auswirkungen potenzieller Fehler oder Angriffe begrenzen. Zur Absicherung der Auswirkungen des Handelns eines EDR können die Reaktionsmaßnahmen auf bestimmte ausgewählte Pfade, Einstellungen oder Netzwerke beschränkt werden.

Sollten alle Maßnahmen versagen, ist eine Ausfallstrategie unerlässlich. Regelmäßige Erstellung von System-Snapshots und Backups, um im Falle eines Kernel-Mode-Fehlers schnell auf einen vorherigen stabilen Zustand zurückkehren zu können sind unerlässlich für eine sinnvolle Ausfallstrategie. Weiterhin müssen Recovery-Prozeduren, die im Falle eines Ausfalls des Kernel-Mode-Codes eine schnelle Wiederherstellung des Systems ermöglichen, etabliert und getestet werden.
 

Benötigen Sie Unterstützung?

Die BDO Cyber Security GmbH steht Ihnen bei der Erstellung maßgeschneiderter Ausfallstrategien zur Seite. Unsere erfahrenen Business Continuity Experten sind in der Lage ihr Unternehmen auf den Notfall, wie hier den Systemausfall durch fehlerhafte Software-Updates, vorzubereiten. Für den Fall, dass präventive Hilfe zu spät kommt, helfen Ihnen unsere Incident Response Experten, sollte der Systemausfall nicht nur durch ein fehlerhaftes Software-Update, sondern eventuell durch Schadsoftware, bösartige Aktivitäten oder Innentäter ausgelöst werden. Unsere Cyberstrategen helfen Ihnen zudem bei der Auswahl geeigneter Maßnahmen, sowie der Beratung zu allgemeinen Cyber-Sicherheitsthemen, weiter.