Kurzfassung
Am 20. Oktober 2025 kam es in der AWS-Region us-east-1 (Nord-Virginia) zu erhöhten Fehlerraten und weitreichenden Störungen, die zahlreiche beliebte Online-Dienste und Geschäftsanwendungen betrafen. Die Ursache hing mit DNS-/Endpoint-Problemen rund um den DynamoDB-Service zusammen; die Störung dauerte mehrere Stunden und führte zu Ausfällen oder eingeschränkter Funktionalität bei Plattformen wie Snapchat, Fortnite, Alexa, Zahlungsdiensten und zahlreichen Business-Apps.
1. Was genau passierte?
AWS meldete zwischen dem 19. und 20. Oktober erhöhte Fehlerraten in der Region us-east-1. Nach internen Analysen war ein Problem mit der DNS-Auflösung der regionalen DynamoDB-Endpoints Auslöser, das zu Kaskadeneffekten in vielen AWS-Diensten führte. AWS gab an, die Störung durch Maßnahmen an den Endpunkten zu mitigieren; die Dienste wurden schrittweise stabilisiert.
2. Welche Dienste und Plattformen waren betroffen?
Die Auswirkungen waren global: Konsumenten- und Enterprise-Dienste wie Amazon-Eigene Angebote (z. B. Alexa), Social-Apps (Snapchat, Reddit), Gaming-Plattformen (Fortnite, Epic Games), Zahlungs- und Finanzdienste sowie Kollaborationstools zeigten erhöhte Fehlerraten oder waren vorübergehend offline. Drittanbieter-Analysen und zahlreiche Medienberichte dokumentieren eine große Bandbreite an betroffenen Services.
3. Ursache & technische Analyse
Externe Messdaten (z. B. von ThousandEyes) zeigen ein Muster, das auf interne AWS-Service-Fehler – nicht auf ein externes Netzwerkereignis – hinweist. Konkret wirkten sich DNS-/Endpoint-Probleme von DynamoDB auf Abhängigkeiten vieler Dienste aus; da DynamoDB in vielen Architekturen als globaler Zustandsspeicher oder für Short-lived-Sessions genutzt wird, führte das zu weitreichenden Fehlerketten.
4. Timeline (Kurzüberblick)
- Beginn: Erste erhöhte Fehlerraten gemeldet in den Nacht-/Morgenstunden (US-Zeitzonen) am 20. Oktober 2025.
- Mitigation: AWS identifizierte DNS/Endpoint-Probleme bei DynamoDB und setzte Gegenmaßnahmen; viele Dienste stabilisierten sich innerhalb weniger Stunden.
- Wiederherstellung: Die meisten betroffenen Dienste meldeten in den folgenden Stunden volle oder teilweise Wiederherstellungen; Restbacklogs und Nachbearbeitung dauerten länger.
5. Konkrete Auswirkungen für Unternehmen
Für Unternehmen bedeutete der Ausfall: unerreichbare APIs, verzögerte Zahlungen, unterbrochene Kommunikationskanäle, und eingeschränkte Backend-Funktionen. Händler berichteten z. B. von Problemen mit Seller-Portalen und 2FA-Zustellung; SaaS-Anbieter sahen erhöhte Fehlerquoten bei Kundenanfragen. Die Störung zeigt, wie stark viele Geschäftsprozesse auf einzelne Cloudregionen und zentrale Managed-Services wie DynamoDB vertrauen.
6. Lehren & Empfehlungen
-
Mehrere Regionen nutzen: Vermeiden Sie Single-Region-Designs für kritische Workloads; replizieren Sie Daten und Dienste mindestens cross-region.
-
Fallen von Managed Services kennen: Bewerten Sie, welche Managed-Dienste Single-Point-of-Failure sind (z. B. DynamoDB) — und planen Sie Fallbacks (z. B. lokale Caches, alternative Stores).
-
Chaos-Testing & Runbooks: Regelmäßiges Testen von Ausfällen und klar dokumentierte Wiederherstellungsabläufe reduzieren MTTR signifikant.
-
Monitoring & Observability: End-to-end-Monitoring (synthetic checks, DNS/endpoint-health) erkennen Probleme früher als einfache Availability-Metriken.
-
Kommunikationsplan: Transparente Kommunikation mit Kunden und Mitarbeitenden während Störungen vermindert sekundäre Schäden (Support-Load, Reputationsverlust).
-
Kosten-Nutzen-Abwägung: Multi-Region und Redundanz kosten — sie sind jedoch für geschäftskritische Pfade oft günstiger als Ausfallkosten.
7. Fazit
Der AWS-Ausfall vom 20. Oktober 2025 erinnert daran, dass selbst die größten Cloud-Anbieter keine absolute Verfügbarkeit garantieren. Unternehmen sollten Abhängigkeiten identifizieren, gut getestete Fallbacks implementieren und ihre Runbooks sowie Kommunikationsprozesse pflegen. Wer diese Lehren zieht, reduziert Risiko und Wiederherstellungszeit bei künftigen Ereignissen.