Die ungleichen Auswirkungen von Big Data: Fallstudie von Barocas und Selbst

Words: 445
Topic: Geschäftlich

Wie Data Mining diskriminiert

Per Definition ist Data Mining immer eine Quelle rationaler Diskriminierung. Nachteilige Auswirkungen des Data Mining lassen sich kaum auf bewusste oder unbewusste menschliche Voreingenommenheit zurückführen. Es gibt fünf Mechanismen, die das Entstehen schlechter Ergebnisse begünstigen können.

Definieren der “Zielvariablen” und “Klassenbezeichnungen”

Die Zielvariablen definieren die Ergebnisse, nach denen die Data Miner suchen, während die Klassenetiketten alle Variablen in exklusive Kategorien einteilen. Während des Entscheidungsprozesses über eine Einstellung wollen die Manager wissen, wer der beste Kandidat ist. Die Fokussierung auf verschiedene Variablen kann zu unterschiedlichen Vorschlägen führen, da Personen mit höheren Umsätzen möglicherweise niedrigere Bewertungsnoten haben. Daher kann eine irrelevante Auswahl von Zielvariablen zu einer Diskriminierung wertvoller potenzieller Mitarbeiter führen.

Ausbildungsdaten

Die Daten, die als Beispiel für ein Data-Mining-Modell dienen, werden als Trainingsdaten bezeichnet. Voreingenommene Trainingsdaten können zu diskriminierenden Modellen führen, was zwei häufige Ergebnisse zur Folge hat. Wenn ein Modell Beispiele mit Vorurteilen als gültig behandelt, neigt es dazu, diese Vorurteile zu reproduzieren. Wenn die Stichprobe einer Population verzerrt ist, kann das Modell diejenigen diskriminieren, die in der Stichprobe unter- oder überrepräsentiert sind.

Alle Beispiele müssen von den Benutzern oder Data Minern manuell beschriftet werden. Alle Fehler, die bei der Kennzeichnung aufgetreten sind, werden im Modell reproduziert und können zu unbeabsichtigten Verzerrungen führen. Eine falsche Kennzeichnung kann dazu führen, dass eine frühere Diskriminierung übernommen wird oder dass sich die bestehenden Vorurteile widerspiegeln, je nachdem, welcher Datensatz verwendet wird.

Wenn Daten aus Quellen erhoben werden, die verschiedene Gruppen nicht in angemessenem Verhältnis repräsentieren, besteht die Gefahr der Verzerrung. Dies kann dazu führen, dass die Bedürfnisse ganzer gesellschaftlich geschützter Gruppen nicht berücksichtigt werden. Sowohl über- als auch unterrepräsentierte Klassen können zu unverhältnismäßig hohen nachteiligen Ergebnissen für Mitglieder geschützter Klassen führen.

Auswahl der Merkmale

Die Merkmalsauswahl ist der Prozess der Auswahl von Attributen, die die Ergebnisse beeinflussen. Dieser Prozess kann sich nachteilig auf sozial geschützte Gruppen auswirken, wenn die Merkmale nicht die Faktoren repräsentieren, die die relevanten statistischen Abweichungen besser erklären. Auch wenn sich Datenschürfer und Manager dieser Situation bewusst sind, sind sie möglicherweise bereit, die Merkmale aufgrund ihrer Verfügbarkeit zu verwenden.

Vertretungen

Wenn das Kriterium für eine rationale Entscheidung auch ein Indikator für die Klassenzugehörigkeit ist, kann das Modell anfällig für Diskriminierung sein. Daher sind die Vorurteile der Entscheidungsträger oft nicht auf ihre Überzeugungen zurückzuführen. Stattdessen reproduzieren sie unbeabsichtigt die in der Gesellschaft herrschende Ungerechtigkeit.

Maskierung

Entscheidungsträger können absichtlich diskriminieren und ihre Vorurteile verbergen, indem sie die oben genannten Mechanismen ausnutzen. Arbeitgeber könnten es vorziehen, Data Miner einzustellen, um ungerechte Überzeugungen durch die Bereitstellung einer verzerrten Datenstichprobe zu verstärken. Data Mining ist jedoch ein kostspieliges Verfahren, und es ist unwahrscheinlich, dass die Arbeitgeber das Geld ausgeben, um ihre Absichten zu verschleiern.