Bias bezeichnet systematische Fehler, die zu einer Verzerrung der Ergebnisse führen können. Im Kontext des maschinellen Lernens wird Bias häufig dadurch eingeführt, dass Trainingsdaten nicht repräsentativ für die Realität sind oder bestimmte Gruppen unter- bzw. überrepräsentieren. Dies kann beispielsweise geschehen, wenn historische Ungleichheiten oder stereotype Zuordnungen in den Datensätzen fortgeschrieben werden und das Modell diese Annahmen übernimmt. Ein solcher Bias kann dazu führen, dass Algorithmen in der Prognose, Klassifikation oder Entscheidungsfindung allgemein oder speziell benachteiligend wirken, was schwerwiegende gesellschaftliche Konsequenzen haben kann – etwa in der Kreditvergabe, im Recruiting oder im Justizsystem.
Fairness in Machine-Learning-Algorithmen bedeutet, dass Modelle und Entscheidungen unabhängig von Herkunft, Geschlecht, Alter oder anderen schützenswerten Merkmalen getroffen werden. Ziel ist es, Diskriminierung und Ungleichbehandlung zu vermeiden und unterschiedliche Gruppen gleichwertig zu berücksichtigen. Ein faires Modell erkennt relevante Zusammenhänge, ohne dabei menschliche Vorurteile oder historische Benachteiligungen fortzuschreiben. Die Umsetzung von Fairness ist jedoch komplex, da verschiedene Fairness-Definitionen existieren und je nach Anwendungsgebiet unterschiedlich gewichtet werden können. Entwickler:innen stehen dabei vor der Herausforderung, das richtige Gleichgewicht zwischen Modellgenauigkeit und Gleichbehandlung sämtlicher Gruppen zu finden.
Verzerrungen entstehen häufig bereits im Schritt der Datensammlung oder -aufbereitung. Wenn historische Daten Ungleichbehandlungen oder gesellschaftliche Vorurteile enthalten, übernimmt ein Machine-Learning-Modell diese Muster und kann sie sogar verstärken. Gleichzeitig können auch unvollständige Datensätze, fehlende Werte oder eine unausgewogene Repräsentation von Gruppen zu Bias führen. Beispielsweise könnten Gesichtserkennungsalgorithmen, die überwiegend mit Bildern einer bestimmten Bevölkerungsgruppe trainiert wurden, Personen anderer Gruppen schlechter erkennen. Die Auseinandersetzung mit Bias beginnt somit schon vor der eigentlichen Modellbildung und erfordert sorgfältiges Vorgehen bei der Auswahl, Überprüfung und Verarbeitung von Trainingsdaten.