Bad Science: Der „trans-Klassifikator“

Aus der Rubrik „american scientists have found out“: „Brain Sex in Transgender Women Is Shifted towards Gender Identity„. Übersetzt: „Das Gehirngeschlecht(1) von trans Frauen tendiert eher zu ihrer Geschlechtsidentität“.

Ach du große Neune! Das Ding qualifiziert sich nicht nur als bad science, sondern meiner Ansicht nach deshalb auch als extremely dangerous science.

Um’s mal kurz zu fassen: Wenn ich das richtig gelesen habe, haben sie ein neuronales Netz, also das was landläufig als „KI“ bzw „machine learning“ bezeichnet wird, mit MRI-Bildern(!) aus einem offenen Datensatz (also von extern) von 242 cis Männern und 305 cis Frauen trainiert, so dass es anhand der Bilder das parallel dazu trainierte Geschlecht ausgeben konnte.

Das ist noch keine Kunst, denn auf welche Merkmale das Netz anspringt ist nicht klar(2). D.h. es ist ganz wichtig zu wissen, dass dieses Netz nicht „das Geschlecht“ erkennt, sondern nur, ob es zu einem Bild mal gelernt hat, was es dazu antworten soll. Die Antworten sind auch quasi nie 100%ig, sondern Schätzwerte („zu 80% sicher, dass die gewünschte Antwort ‚weiblich‘ sein könnte“).

Danach haben sie MRI-Bilder von je 24 cis Männern, cis Frauen und trans Frauen gemacht und dem Netz vorgelegt. OK. Das Netz „klassifizierte“ dann laut Aussage im Artikel die „trans Bilder“ als „leicht verschoben in Richtung weiblich“. D.h. die Schätzwerte, s.o., lieferten eine solche Tendenz.

Daraus lässt sich aber nicht die Aussage im Titel des Papers ableiten!

Erst mal der gesammelte methodische Unfug:

  • 24 ist keine hinreichende sample size.
  • Es ist nicht klar, was genau das Netz eigentlich als „male“ oder „female“ einordnet.
  • Die Streuung und die Überlappung der samples ist riesig.
  • Es ist nicht mal klar, was genau die Bilder eigentlich zeigen. Offenbar sind es statische Aufnahmen von Hirnstruktur, keine funktionale Dynamik.

Dann der neurologische Unfug:

  • Die trans Frauen waren zwar vor der HET, aber sich offenbar selbst sicher in ihrer Identität, sonst hätten sie sich wohl nicht zur Teilnahme gemeldet und wären auch ausgewählt worden. D.h. sie orientieren sich im Alltag wohl eher an „weiblichen“ Stereotypen. Das bedeutet auch, dass sich ihr Hirn entsprechend anpasst(3) – an was auch immer.
  • Von den cis Trainingsdaten ist der Hintergrund unbekannt, also zB Bildung, etc. Auch nicht, ob sie sich definitiv als cis einordnen. Es könnte also gut sein, dass das Netz zum Beispiel auf minimale Unterschiede in den Alltagsbeschäftigungen reagiert, wie bei den Taxihirnen(3).

Und daraus folgt das gefährliche: Irgendein Heiopei der stable genius Klasse Korte kommt sicher auf die Idee, daraus einen generellen trans Klassifikator machen zu wollen, mit dem dann zukünftig „objektiv“ die transness gemessen wird. Dann muss der MDK nur noch in die BGA schreiben, dass ab Transfaktor 0,6 dieses übernommen wird und ab 0,8 jenes, aber wenn es bei deinem Hirn leider nur 0,5 trans oder weniger misst, bist du leider raus, du Fake.

Und das ganze durch eine minimale statistische Abweichung in einer Pixelbeurteilung, von der völlig unklar ist, was genau die eigentlich klassifiziert.

Zu trans und MRI schaut zum Beispiel mal diese beiden Videos.

MaiLab: „Weibliches vs. Männliches Gehirn“ und „Die Wissenschaft hinter Transgender„.

Die machen zusammen mit der wissenschaftlichen Diskussion (in den Links) sehr schön klar, wo allein die wissenschaftliche Problematik liegt. Naja, und die möglichen gesellschaftlichen Folgen hab ich ja beschrieben.


(1) „Gehirngeschlecht“ ist schon im Ansatz Unfug, denn was auch immer da gemessen wird, ist immer ein untrennbares Konglomerat aus Biologie, Neurologie, Psychologie und Soziologie. Die Benutzung des Gehirns verändert das Gehirn und jegliche „geschlechtlliche“ Klassifikation beruht letztlich auf soziologischen Stereotypen, die wir Geschlechtern zuordnen. D.h. wer „weiblich“ denken will, verändert das Gehirn zum „weiblichen“. Daraus ist keine Kausalität ableitbar.

(2) es gibt bei solchen ML-Sachen immer mal wieder Überraschungen. Bei Bildern als Trainingsgrundlage bspw minimale, für Menschen nicht erkennbare HIntergrundmuster oder Kennzeichen. Die „KI“ achtet nicht auf die Sachinfo, wie es ein menschliches Bewusstsein tun würde, sondern bewertet reine Pixel.

(3) MRI Scans von Taxifahrys zeigen ein „Taxifahrgehirn“. Die Leute kommen aber nicht damit auf die Welt, sondern das Hirn wird durch Übung dazu. Eine Klassifikation vorher, ob eine Person ein Taxifahrgehirn hat, wird notwendigerweise scheitern. Das wäre also ein vollkommen untauglicher Test auf Taxifahr-Eignung, genauso wie ein MRI-Bild ein untauglicher Test auf „transness“ ist. Mit oder ohne „KI“.