AWS-Ausfall am 20. Oktober 2025: Ursachen, betroffene Dienste und Lehren

Am 20. Oktober 2025 kam es zu einem großflächigen AWS-Ausfall in der Region us-east-1 (North Virginia) — zahlreiche Apps und Plattformen waren stundenlang beeinträchtigt. Der Artikel fasst Ursache, Timeline, betroffene Dienste und konkrete Empfehlungen für resilientere Cloud-Architekturen zusammen.

21.10.2025 · 6 Min.

Kurzfassung

Am 20. Oktober 2025 kam es in der AWS-Region us-east-1 (Nord-Virginia) zu erhöhten Fehlerraten und weitreichenden Störungen, die zahlreiche beliebte Online-Dienste und Geschäftsanwendungen betrafen. Die Ursache hing mit DNS-/Endpoint-Problemen rund um den DynamoDB-Service zusammen; die Störung dauerte mehrere Stunden und führte zu Ausfällen oder eingeschränkter Funktionalität bei Plattformen wie Snapchat, Fortnite, Alexa, Zahlungsdiensten und zahlreichen Business-Apps.

1. Was genau passierte?

AWS meldete zwischen dem 19. und 20. Oktober erhöhte Fehlerraten in der Region us-east-1. Nach internen Analysen war ein Problem mit der DNS-Auflösung der regionalen DynamoDB-Endpoints Auslöser, das zu Kaskadeneffekten in vielen AWS-Diensten führte. AWS gab an, die Störung durch Maßnahmen an den Endpunkten zu mitigieren; die Dienste wurden schrittweise stabilisiert.

2. Welche Dienste und Plattformen waren betroffen?

Die Auswirkungen waren global: Konsumenten- und Enterprise-Dienste wie Amazon-Eigene Angebote (z. B. Alexa), Social-Apps (Snapchat, Reddit), Gaming-Plattformen (Fortnite, Epic Games), Zahlungs- und Finanzdienste sowie Kollaborationstools zeigten erhöhte Fehlerraten oder waren vorübergehend offline. Drittanbieter-Analysen und zahlreiche Medienberichte dokumentieren eine große Bandbreite an betroffenen Services.

3. Ursache & technische Analyse

Externe Messdaten (z. B. von ThousandEyes) zeigen ein Muster, das auf interne AWS-Service-Fehler – nicht auf ein externes Netzwerkereignis – hinweist. Konkret wirkten sich DNS-/Endpoint-Probleme von DynamoDB auf Abhängigkeiten vieler Dienste aus; da DynamoDB in vielen Architekturen als globaler Zustandsspeicher oder für Short-lived-Sessions genutzt wird, führte das zu weitreichenden Fehlerketten.

4. Timeline (Kurzüberblick)

  • Beginn: Erste erhöhte Fehlerraten gemeldet in den Nacht-/Morgenstunden (US-Zeitzonen) am 20. Oktober 2025.
  • Mitigation: AWS identifizierte DNS/Endpoint-Probleme bei DynamoDB und setzte Gegenmaßnahmen; viele Dienste stabilisierten sich innerhalb weniger Stunden.
  • Wiederherstellung: Die meisten betroffenen Dienste meldeten in den folgenden Stunden volle oder teilweise Wiederherstellungen; Restbacklogs und Nachbearbeitung dauerten länger.

5. Konkrete Auswirkungen für Unternehmen

Für Unternehmen bedeutete der Ausfall: unerreichbare APIs, verzögerte Zahlungen, unterbrochene Kommunikationskanäle, und eingeschränkte Backend-Funktionen. Händler berichteten z. B. von Problemen mit Seller-Portalen und 2FA-Zustellung; SaaS-Anbieter sahen erhöhte Fehlerquoten bei Kundenanfragen. Die Störung zeigt, wie stark viele Geschäftsprozesse auf einzelne Cloudregionen und zentrale Managed-Services wie DynamoDB vertrauen.

6. Lehren & Empfehlungen

  • Mehrere Regionen nutzen: Vermeiden Sie Single-Region-Designs für kritische Workloads; replizieren Sie Daten und Dienste mindestens cross-region.

  • Fallen von Managed Services kennen: Bewerten Sie, welche Managed-Dienste Single-Point-of-Failure sind (z. B. DynamoDB) — und planen Sie Fallbacks (z. B. lokale Caches, alternative Stores).

  • Chaos-Testing & Runbooks: Regelmäßiges Testen von Ausfällen und klar dokumentierte Wiederherstellungsabläufe reduzieren MTTR signifikant.

  • Monitoring & Observability: End-to-end-Monitoring (synthetic checks, DNS/endpoint-health) erkennen Probleme früher als einfache Availability-Metriken.

  • Kommunikationsplan: Transparente Kommunikation mit Kunden und Mitarbeitenden während Störungen vermindert sekundäre Schäden (Support-Load, Reputationsverlust).

  • Kosten-Nutzen-Abwägung: Multi-Region und Redundanz kosten — sie sind jedoch für geschäftskritische Pfade oft günstiger als Ausfallkosten.

7. Fazit

Der AWS-Ausfall vom 20. Oktober 2025 erinnert daran, dass selbst die größten Cloud-Anbieter keine absolute Verfügbarkeit garantieren. Unternehmen sollten Abhängigkeiten identifizieren, gut getestete Fallbacks implementieren und ihre Runbooks sowie Kommunikationsprozesse pflegen. Wer diese Lehren zieht, reduziert Risiko und Wiederherstellungszeit bei künftigen Ereignissen.

Autor: Daniel Kohsyk — IT-Security Specialist

Quellen: AWS Statusmeldungen, Reuters, The Verge, ThousandEyes, Golem/DW.