“Underspecification Presents Challenges for Credibility in Modern Machine Learning”

A. D’Amour, K. Heller, D. Moldovan, et al. – 2022
Maschinelle Lernsysteme (ML) zeigen oft unerwartet schlechtes Verhalten, wenn sie in realen Anwendungsbereichen eingesetzt werden. Wir identifizieren Unterbestimmtheit in ML-Pipelines als eine zentrale Ursache für diese Fehler.

Eine ML-Pipeline ist der vollständige Prozess, der zur Schulung und Validierung eines Modells durchgeführt wird. Eine Pipeline ist unterbestimmt, wenn sie viele verschiedene Modelle erzeugen kann, die zwar alle gleich gute Testergebnisse liefern, aber dennoch sehr unterschiedlich funktionieren können. Unterbestimmtheit ist ein häufiges Problem in modernen ML-Pipelines, die ihre Modelle hauptsächlich mit zurückgehaltenen Testdaten validieren, die der gleichen Verteilung folgen wie die Trainingsdaten.

Die von solchen unterbestimmten Pipelines zurückgegebenen Modelle werden oft als gleichwertig betrachtet, da sie im Trainingskontext ähnliche Leistungen zeigen. Wir zeigen jedoch, dass sich diese Modelle im praktischen Einsatz drastisch unterschiedlich verhalten können. Diese Mehrdeutigkeit kann zu Instabilität und schlechtem Modellverhalten führen – und stellt eine neue Art von Fehler dar, die sich von bereits bekannten Problemen unterscheidet, die durch strukturelle Unterschiede zwischen Trainings- und Einsatzumgebung entstehen.

Wir liefern Beweise dafür, dass Unterbestimmtheit erhebliche Auswirkungen auf praktische ML-Pipelines hat. Unsere Beispiele stammen aus Bereichen wie Computer Vision, medizinische Bildverarbeitung, Verarbeitung natürlicher Sprache, klinische Risikoprognosen basierend auf elektronischen Gesundheitsakten und medizinische Genomik. Unsere Ergebnisse zeigen, dass es notwendig ist, Unterbestimmtheit explizit in ML-Pipelines zu berücksichtigen, die für den realen Einsatz in beliebigen Domänen entwickelt werden.

(Eigene Übersetzung des Abstracts von Journal of Machine Learning Research – JMLR)