“Understanding adversarial examples requires a theory of artefacts for deep learning”

Cameron Buckner – 2020
Tiefe neuronale Netzwerke sind derzeit die am weitesten verbreitete und erfolgreichste Technologie der künstlichen Intelligenz. Allerdings weisen diese Systeme neue und verblüffende Verwundbarkeiten auf – insbesondere eine Anfälligkeit für adversariale Beispiele. In diesem Beitrag gebe ich einen Überblick über aktuelle empirische Forschung zu adversarialen Beispielen, die darauf hindeutet, dass tiefe neuronale Netzwerke darin möglicherweise Merkmale erkennen, die zwar prädiktiv nützlich, aber für Menschen unverständlich sind. Um die Implikationen dieser Forschung zu verstehen, sollten wir uns mit älteren philosophischen Fragen zur wissenschaftlichen Erkenntnis auseinandersetzen. Dies kann uns helfen zu bestimmen, ob diese Merkmale verlässliche Untersuchungsgegenstände der Wissenschaft sind oder lediglich charakteristische Verarbeitungsartefakte tiefer neuronaler Netzwerke.
(Eigene Übersetzung des Abstracts von Nature Machine Intelligence)

DOI: https://doi.org/10.1038/s42256-020-00266-y