Datenherkunft und Datenqualität

Von Rohdaten bis zur fertigen Auswertung

Die Seite corona-nach-alter.de bietet einen Blick auf Corona nach Altersgruppen. Ausgehend von den offiziell gemeldeten Nachweisen für das Virus SARS-CoV-2 werden diese Daten für Deutschland insgesamt sowie pro Bundeland, Stadt und Landkreis differenziert nach Altersgruppen aufbereitet. Für die zeitliche Entwicklung der Zahlen zu COVID19-Infektionen gibt es tageweise Werte für 60 Tage sowie wochenweise Werte seit dem 1. März 2020.

Aber wo kommen die ursprünglichen Daten her? Und wie werden diese ver- und bearbeitet im Rahmen dieser Analyse? Das steht auf dieser Seite.

Sie brauchen so eine Auswertung auch für Ihre Daten? Gerne helfe ich Ihnen dabei! Hier klicken und Kontakt aufnehmen

Datenquelle

Von wem kommen die Daten?

Grundlage für alle Auswertungen auf dieser Seite sind die vom Robert-Koch-Institut (RKI) bereitgestellten Daten. Das ist ein großer und lobenswerter Schritt der Transparenz, dass diese Daten öffentlich einsehbar und nutzbar bereitgestellt werden.

Wie erhalten wir die Daten?

Über das NPGEO-Portal sind die Daten zum Download verfügbar. Dort werden diese einmal am Tag abgerufen.

Dürfen die Daten so genutzt werden?

Die Daten dürfen unter der Datenlizenz Deutschland – Namensnennung – Version 2.0 (dl-de/by-2-0) nicht-kommerziell und kommerziell genutzt werden. Dabei darf nur bei Änderungen an den Daten (siehe nächste Schritte) der Hinweis nicht fehlen, dass die Daten geändert wurden.

Andere Zahlen?

Welches Datum wird verwendet?

Das RKI unterscheidet zwischen Meldedatum (wann hat das jeweilige Gesundheitsamt von der Infektion erfahren) und dem Referenzdatum (wann begann die Erkrankung). Für die Auswertungen auf dieser Seite wird möglichst das Referenzdatum verwendet (sofern bekannt, ansonsten das Meldedatum), um so dem "echten" Verlauf näher zu kommen.

Warum sind die Zahlen zwei Tage alt?

An jedem Tag wird ein neuer Datensatz bereitgestellt. Dieser enthält alle Daten bis einschließlich des Vortags. Gleichzeitig kommen auch noch Nachmeldungen von vorherigen Tagen immer wieder hinzu (bspw. je nachdem wann der Test am Abend oder in der Nacht ausgewertet wurde). Daher wird in unseren Auswertungen immer der letzte Tag "abgeschnitten" und erst am Folgetag mit ausgewiesen.

Warum sind das andere Zahlen als in den meisten anderen Medien?

Die meisten Auswertungen basieren auf dem reinen Unterschied der Summe aller gemeldeten Fälle zwischen zwei Tagen. Auf dieser Seite soll weniger auf die aktuelle Dynamik abgestellt werden, sondern der Verlauf dargestellt werden. Daher die Wahl des Referenzdatum und das Abschneiden des letzten Tages.

Daten ver- und bearbeiten

Negative Anzahlen aussortieren

Datensätze mit negativen Anzahlen werden aussortiert. Das betraf bspw. am 25. Mai 2021 sage und schreibe 54 Fälle von insgesamt 3,65 Millionen. Das scheint für das offizielle RKI-Dashboard auch gemacht zu werden.

Datumsangaben korrigieren: Referenzdatum nach Meldedatum

Im Datensatz wird zwischen dem Meldedatum (wann hat es das jeweilige Gesundheitsamt erfahren) und dem Referenzdatum (wann begann die Erkrankung). Falls das Referenzdatum später ist als das Meldedatum, wird das Meldedatum auf das Referenzdatum korrigiert. Am 25. Mai 2021 waren das bspw. 32.582 Fälle von den über 3,65 Millionen (ca. 0,89%).
Warum in diese Richtung? Weil in den meisten Fällen hierbei Zahlendreher und das falsche Jahr (2020 anstelle von 2021) im Meldedatum die Ursache waren.

Datumsangaben korrigieren: Meldedatum zu lange nach Referenzdatum

Auch wenn es immer wieder Medienberichte zu langsam meldenden Gesundheitsämtern gab: Mehr als 99 Tage zwischen Referenzdatum und Meldedatum sollten es nicht sein (auch hier wieder Zahlendreher im Monat oder das Jahr falsch). In dem Fall wird das Referenzdatum aufs Meldedatum gesetzt. Am 25. Mai 2021 betraff das bspw. 709 Fälle (also ungefähr 0,02%).

Nur Daten ab 1. März 2020 analysieren

Trotz der vorherigen Korrekturen verbleiben noch unscharfe und nur wenige Daten für Januar (erster Coronafall in Deutschland zum Ende des Monats) und Februar 2020 (u.a. das Cluster in Heinsberg – gut zu sehen in den Auswertungen für die Wochen Anfang März). Daher startet die Analyse ab dem Sonntag, dem 1. März 2020.

Und die Technik dahinter?

Analyse mit Python und Pandas

Die Analyse erfolgt durch selbgeschriebene Routinen. Diese sind in Python implementiert und verwenden die Bibliothek Pandas als stabiles und bewährtes Werkzeug für Data Science. Dazu kommen dann noch weitere Bibliotheken für einzelne Aufgaben.

Entwicklung

Die Entwicklung erfolgte, auf einem Mac (Werbung: direkt bei Amazon kaufen), über interaktive Jupyter Notebooks in Visual Studio Code (vscode). Für die Versionsverwaltung durfte git ran. Bis auf die Hardware alles kostenfrei erhältliche Werkzeuge. Nur Zeit kommt noch dazu.