• Frage: Hallo, ich würde gerne Wissen wie Sie prüfen können, ob so eine KI alles richtig macht und da keine Fehler auftreten

    Frage gestellt aliberl1n am 16 Jun 2022. Diese Frage wurde auch von Sugmarcoc gestellt.
    • Foto: Sten Hanke

      Sten Hanke Beantwortet am 16 Jun 2022:


      Das ist eine gute Frage, da man bei KI auch nicht immer so genau weiss warum sie bestimmte Entscheidungen trifft oder wie sie zu einer Lösung kommt.
      Deshald beschäftigt man sich unter anderem mit Methoden wo man versucht „Zwischenschritte“ der KI bei der Entschiedungsfindung zu bekommen. Das nennt man zb „Explainable AI“ also eine KI die sich erklärt. Dann könnte man z.B. leichter raus finden ob ev. Fehler passiert sind.
      Man kann sich das einfach so vorstellen. Die KI findet in dem Bild von Tieren spitze Ohren und schliesst dann daraus das es eine Katze ist. Dadurch das wir von der KI (also dem Algorithmus) erfahren das hauptsächlich die spitzen Ohren der Grund für die Entscheidung Katze waren, gibt uns die Möglichkeit zu überprüfen ob das asureichend ist oder ev. auch andere Tiere spitze Ohren haben und wir können den Algorithmus optimieren. Wenn wir nur als Antwort – Katze bekommen würden, wüssten wir gar nicht wie die KI darauf kommt.

    • Foto: Tobias Czempiel

      Tobias Czempiel Beantwortet am 16 Jun 2022: last edited 16 Jun 2022 8:29 am


      Gute Frage und sehr passende Antwort!

      Ich wollte nur noch ein Beispiel hinzufügen.

      https://huggingface.co/spaces/tobiascz/demotime

      Ich habe einen kleinen KI Algorithmus trainiert und online gestellt. Der Anwendungsfall ist die Erkennung von Hautkrankheiten wie Hautkrebs. Wenn du auf ein Bild klickst und dann auf „Submit“ drückst analysiert die KI das Bild.

      Neben dem Ergebnis (Predict Result) siehst du noch eine Empfehlung (Recommendation) und ein Feld das GradCAM heißt das so aussieht als hätte jemand das eigentliche Bild neu angemalt.
      Allerdings ist das nicht zufällig sondern was das darstellt ist wie wichtig bestimmte Regionen im Bild für die Erkennung waren. In dem Beispiel siehst du vermutlich dass die Regionen um die Hautkrankheit Rot sind und die Regionen am rand eher blau. Das bedeutet, dass der Algorithmus sehr viel auf die Hautkrankheit geschaut hat und den Rand ignoriert hat.

      Das ist ein gutes Ergebnis weil ein Arzt ja auch auf die Hautkrankheit schauen würde und nicht auf den Rand des armes um eine Diagnose zu stellen.

    • Foto: Christoph Palm

      Christoph Palm Beantwortet am 16 Jun 2022:


      Neben dem Aspekt der „Explainable AI“, bei der man als Mensch versucht zu verstehen, wie eine KI zu einer Entscheidung gekommen ist und wo man evtl. Fehler finden kann, möchte ich auf die Fehlerberechnung eingehen.

      Die Frage ist doch, was meinst Du mit „hat die KI alles richtig gemacht?“ Was wäre denn richtig?

      In der Regel ist es so, dass wir einen Sack voll Daten bekommen und für alle Daten wissen, was herauskommen soll. Also z.B. in der medizinischen Bildanalyse einen Haufen Bilder und ein Label, ob ein Tumor auf einem Bild zu sehen ist oder nicht. Wenn man nun alle Bilder zum Training einer KI verwendet und dabei versucht, den Unterschied zwischen dem Label und der Vorhersage möglichst kein zu machen, dann wird uns das in der Regel gelingen. Es ist möglich, ein KI-System so zu trainieren, dass alle Label in dem Sack voll Daten korrekt sind. Aber hat dann die KI alles richtig gemacht?

      Nein, denn für eine KI geht es um die Generalisierungsfähigkeit. Es geht nicht darum, für die Bilder das richtige vorherzusagen, wo wir die Antwort schon kennen, sondern es kommt darauf an, bei einem neuen Patienten die richtige Diagnose vorherzusagen. Und diese Generalisierungsfähigkeit zu messen, ist gar nicht so einfach.

      Eine Möglichkeit ist, dass man das sog. Cross Validiation anwendet. Dabei teilt man die Daten in dem Sack in z.B. 5 kleinere Tüten auf. In jeder Tüte sind die Daten genauso verteilt wie im großen Sack, es sind halt nur weniger. Dann trainiert man die KI mit den Daten aus 4 der 5 Tüten und tut für die 5. Tüte so, als wären das neue und unbekannte Daten. Natürlich kennt man auch für die Daten in der 5. Tüte die Wahrheit, aber man verwendet diese Wissen nicht zu Training der KI. Dann vergleicht man die Vorhersagen für die Daten aus der 5. Tüte mit den bekannten Labeln und bekommt eine Fehlerrate heraus, die etwas darüber aussagt, ob eine KI auch bei neuen Daten alles richtig macht.

      Jetzt kann man diese Idee nicht nur einmal machen, sondern 5x. Bei jedem Mal wird eine andere der 5 Tüten weggelegt für später und nur 4 der 5 Datentüten verwendet. Am Ende bekommt man also 5 Fehlerraten heraus und bildet den Mittelwert.

      Eine weitere Möglichkeit ist, dass man den ganzen Datensack zum Training verwendet und von woanders ganz neue und unbekannte Daten bekommt. Im medizinischen Kontext wäre das z.B. ein anderes Krankenhaus, wo neue Bilder aufgenommen werden. Das nennt man externe Validierung. Das ist manchmal besonders schwierig, weil die Daten vielleicht mit einer anderen Kamera aufgenommen wurden und auch sonst ein paar wichtige Einstellungen anders sind. Trotzdem sollte die KI natürlich nicht nur für ein Krankenhaus funktionieren, sondern möglichst für alle. Andererseits ist unklar, wie die externen Daten zustande gekommen sind: Hat man einfach die nächsten 50 Patienten aufgenommen? Hat man die Daten aus einer Datenbank ausgewählt? Wenn ja, nach welchen Kriterien? Diese Fragen nennen wir den Selection-Bias, also eine Verzerrung, die durch die Auswahl der Daten kommen kann. So könnte die Ärztin oder der Arzt in dem neuen Krankenhaus die KI ganz besonders auf die Probe stellen wollen und ganz besonders komplizierte Fälle für die Validierung herausgesammelt haben. Oder sie/er könnte wenig Zutrauen zur KI haben und sammelt erst mal nur relativ einfache Daten zusammen. Das muss noch nicht einmal bewusst passieren, sondern kann ich unterbewusst abspielen. Dieser Selection-Bias kann aber das Ergebnis, also die Frage, ob die KI alles richtig gemacht hat, stark beeinflussen.

      Deshalb ist es optimal, wenn man sowohl eine Cross Validation durchführt und zusätzlich eine externe Validierung. Dann bekommt man am besten ein Gefühl dafür, ob die KI in einem echten Klinikeinsatz vieles richtig machen würde oder nicht. Nebenbemerkung: ALLES wird eine KI sowieso nicht richtig machen. Eine KI ist zwar eine Maschine, aber sie urteilt mit statistischen Wahrscheinlichkeiten und die können auch mal daneben liegen.

Kommentare