Stürze gehören zu den häufigsten und gefährlichsten Ereignissen im Alter und sind weltweit die zweithäufigste Ursache für unbeabsichtigte, verletzungsbedingte Todesfälle: Zwischen 28 und 35 Prozent der Menschen über 65 Jahren sind jährlich betroffen. Der frühzeitigen Erkennung und Prävention solcher Risiken kommt daher in der Pflege eine zentrale Bedeutung zu, personelle Engpässe erschweren jedoch häufig die rechtzeitige Einschätzung durch Fachpersonal. Ein Forschungsteam mit Beteiligung des Einstein Center Digital Future (ECDF) hat nun untersucht, inwiefern Künstliche Intelligenz (KI) die bestehende Sturzrisikobewertung unterstützen und Pflegepersonal zur Prävention gezielter einsetzen kann. Die Entwicklung der Sturzrisiko-KI ist jedoch auch für andere KI-Anwendungen relevant: Die Forscher*innen haben an diesem Beispiel Prozesse entwickelt, die es erlauben, KI-Modelle auch unter den strengen regulatorischen Vorgaben im Gesundheitskontext zu entwickeln.
In der Studie, die auf Daten aus einem Universitätsklinikum und einem geriatrischen Krankenhaus in Deutschland basiert, wurde das Potenzial von KI-Modellen zur Vorhersage von Sturzrisiken umfassend evaluiert. Mit über 940.000 Patient*innen-Datensätzen handelt es sich um eine der bislang größten Untersuchungen zu diesem Thema. Die Forscher*innen verfolgten drei zentrale Fragestellungen:
- Kann KI die Vorhersagegenauigkeit für Sturzrisiken verbessern?
- Wie können KI-Modelle sicher über verschiedene Krankenhäuser hinweg trainiert werden?
- Sind diese Modelle fair – also unabhängig von Alter oder Geschlecht?
„Zur Beantwortung dieser Fragen haben wir KI-Modelle mit verschiedenen zentralen und dezentralen Trainingsparadigmen trainiert und miteinander verglichen. Bei dezentralen Ansätzen wurden die Daten beider Krankenhäuser kombiniert, ohne die sensiblen Patient*inneninformationen auszutauschen. Hierzu haben wir unter anderem federated learning und swarm learning eingesetzt“, erklärt Daniel Fürstenau, ECDF-Vorstandsmitglied und Teil des Forscher*innenteams. Die Leistung der Modelle wurde anschließend mit den in der klinischen Praxis eingesetzten, regelbasierten Systemen verglichen. Zusätzlich erfolgten Analysen zur Fairness der Modelle über unterschiedliche demografische Gruppen hinweg.
Das Ergebnis: Unabhängig vom Trainingsparadigma übertrafen die KI-Systeme in allen Szenarien der retrospektiven Studie die regelbasierten herkömmlichen Verfahren deutlich. Für das geriatrische Krankenhaus erreichte das Modell eine Vorhersagequalität (AUC) von 0,735 und das Modell für das Universitätsklinikum sogar 0,926. Allerdings zeigte sich, im Gegensatz zu vielfach zitierten Studien, dass keiner der dezentralen Lernansätze eine Verbesserung brachte. Dieses Ergebnis ist ein wichtiges Signal für die Praxistauglichkeit von dezentraler KI-Modellentwicklung. Neben der allgemein verbesserten Sturzrisikoeinschätzung der KI ist ein weiteres positives Ergebnis, dass die Sturzrisikoschätzung auch über Geschlechtsgruppen hinweg gleich gut funktioniert und als fair bewertet werden kann. Kleinere Unterschiede traten jedoch in der Vorhersagequalität für wenige Altersgruppen auf.
„Unsere Ergebnisse zeigen, dass KI-basierte Modelle einen wichtigen Beitrag zur Verbesserung der Patientensicherheit leisten können“, so Daniel Fürstenau. „Gleichzeitig wird deutlich, dass Fragen der Fairness und Datenrepräsentation entscheidend sind, um wirklich verallgemeinerbare und gerechte Systeme zu entwickeln. Wir freuen uns, dass die entwickelten Prozesse auch anderen KI-Forscher*innen für die Entwicklung von KI-Technologie im Gesundheitssektor als Blaupause dienen kann – unter der Einhaltung der strengen regulatorischen Voraussetzungen“.
Zur Studie: //hier
