Digitale Epidemiologie

Datenqualität für E-Health-Anwendungen in der epidemiologischen Forschung

Abteilung für Epidemiologie am Helmholtz-Zentrum für Infektionsforschung (HZI), Deutsches Zentrum für Infektionsforschung (DZIF) und Hannover Biomedical Research Scholl (HBRS)

Die moderne epidemiologische Forschung arbeitet zunehmend mit Daten aus mobilen Anwendungen oder Sensordaten. Dies ändert die Evaluation der Datenquellen vor allem in Bezug auf deren Vertrauenswürdigkeit. Neuerdings sammeln nicht nur Forscher oder medizinische Geräte Forschungsdaten, sondern der/die Patient*in/Proband*in selbst meldet manuell Symptome oder generiert automatisch Daten, die er dem Arzt/der Ärztin oder Forscher*in zur Verfügung stellt. Dies führt zu geringer interner Validität der Daten. Es ist entscheidend, die Datensätze systematisch und transparent zu bereinigen, Feature-Engineering anzuwenden und die Datenqualität (DQ) prospektiv zu evaluieren. Erst danach können Datenmodellierungen, z.B. Algorithmen für maschinelles Lernen (ML), angewendet werden.

Lernziele: Das HZI ist im Rahmen von HiGHmed für die Entwicklung von Algorithmen zur Erkennung von Ausbrüchen und Infektionsclustern in deutschen Krankenhäusern verantwortlich. Somit konzentriert sich der Kurs auf drei relevante Themen:

  • Modul I: Evaluation von Datenqualität (ab Januar 2019)
  • Modul II: Methoden des statistischen Lernens (ab Ende 2019)
  • Modul III: Signalerkennung (ab Ende 2020)

Modul I bietet Einblicke in den Prozess des explorativen Daten Mining unter Anwendung etablierten Methoden zur Bewertung von DQ. Datenvollständigkeit, Datengenauigkeit und Datenvalidität werden in Variablen, Beobachtungen und Zeitserien untersucht. Anschließend kombinieren die Student*innen alle erkannten DQ Probleme, um einen DQ-Bericht zu erstellen. Dies ist ein entscheidender Schritt für das Feedback an Stakeholder, um ihnen die Möglichkeit zu geben, ihre DQ zu verbessern. Mit den neu erworbenen Kenntnissen aus Datenanalyse und Forschungskommunikation befasst sich Modul II aufbauend mit ML-Methoden. Die Studierenden werden vertraut mit Methoden des statistischen Lernens, um Vorhersagen treffen zu können oder Daten zu explorieren. In Modul III werden die in Modul I und II erworbenen Kenntnisse auf die Erkennung von Ausbrüchen angewendet. Die Studierenden erforschen Surveillance Systeme, Methoden zur Erkennung von Ausbrüchen oder Netzwerkanalysen in Krankenhäusern.

Zielgruppe: Der Kombinationskurs richtet sich an Bachelor- oder Masterstudent*innen, sowie Doktorand*innen mit einem Hintergrund in Informationstechnologie, Informatik, Medizin oder einem Gebiet aus den Lebenswissenschaften (Life Science). Grundkenntnisse in der medizinischen Terminologie und Erfahrung in der Datenanalyse werden empfohlen.

Einbettung: Die Anwesenheit der Student*innen im HZI ist zunächst erforderlich, Materialien werden über eine Online-Plattform bereitgestellt. Der Kurs wird in Englisch unterrichtet und ist integriert im Promotionsprogramm Epidemiologie der HBRS und des HZI.