Scrollama: Vertrauen als Engpassfaktor der Künstlichen Intelligenz

Vertrauen als Engpassfaktor der Künstlichen Intelligenz

Ein Experiment im Rahmen von AIMS5.0

Benjamin Richter · Dr. Fabian Lindner · Pascal Herfort · Prof. Dr. Sophia Keil

Nach unten scrollen

Einleitung

KI in Deutschland — Nutzung vs. Vertrauen

Künstliche Intelligenz ist in Deutschland längst angekommen, doch das Vertrauen bleibt begrenzt.

KI ist in Deutschland längst im Alltag angekommen. Von Sprachassistenten über Übersetzungstools bis hin zu automatisierten Empfehlungen: Die Mehrheit hat bereits praktische Erfahrungen gesammelt.

Doch Nutzung bedeutet nicht Vertrauen. Obwohl die Technologie breit eingesetzt wird, bleibt die Skepsis gegenüber den Ergebnissen hoch. Weniger als jeder Dritte hält KI-generierte Informationen für verlässlich.

Diese Kluft offenbart die KPMG-Studie von 2025 mit 48.000 Befragten weltweit, darunter rund 1.000 aus Deutschland. Die Diskrepanz zeigt sich nicht nur allgemein, sondern gerade im Arbeitskontext, vor allem bei wichtigen Entscheidungen.

Arbeitskontext

Offenheit trifft auf klare Grenzen

Auch im Arbeitskontext zeigt sich Offenheit: Eine Mehrheit kann sich vorstellen, bei wichtigen Entscheidungen auf KI-gestützte Analysen zurückzugreifen. Dabei wird KI als Werkzeug gesehen, nicht als Ersatz.

Die Grenze ist dabei klar gezogen: Unterstützung ja, Kontrolle abgeben nein. Das letzte Wort wollen die Menschen behalten. Die Maschine soll zuarbeiten, nicht entscheiden.

Gleichzeitig bleibt ein erheblicher Teil skeptisch oder unsicher. Werden diese Möglichkeiten aus mangelndem Vertrauen nicht genutzt, gerät die Digitalisierung ins Stocken. Genau hier setzt unser Experiment an: In einer fiktiven Entscheidungssituation in der Halbleiterindustrie untersuchen wir, wie sich Vertrauen in KI auf die Bereitschaft auswirkt, sie als Entscheidungsstütze zu nutzen.

Halbleiterproduktion

Entscheidungen unter Druck

In der Halbleiterproduktion sind Entscheidungen selten trivial. Ofenprozesse laufen unter hoher Auslastung, Warteschlangen sind eng getaktet, und jede Wartung ist ein Risiko.

Sie kann Zeitfenster öffnen oder ganze Produktionsketten kippen lassen. Produktionsmanager treffen diese Entscheidungen unter Zeitdruck, oft mit unvollständigen Informationen.

Genau hier verspricht KI Hilfe. Sie analysiert Prozessdaten, prognostiziert Warteschlangen und gibt Empfehlungen ab. Die entscheidende Frage ist nicht, ob die KI rechnen kann, sondern ob der Mensch ihr folgt.

Experiment

Entscheidung mit und ohne KI

Genau das testen wir experimentell. Unsere Teilnehmenden sehen eine reale Produktionssituation mit Warteschlange, Auslastung und Prozessdaten.

Zuerst entscheiden sie allein, ob eine Wartung durchgeführt wird.

Danach kann die Entscheidung nach einem KI-Hinweis noch einmal angepasst werden.

Experimentdesign

Transparenz vs. Intransparenz

Nicht jede KI begegnet ihren Nutzenden auf dieselbe Weise. Im Experiment vergleichen wir deshalb zwei Gestaltungslogiken: eine intransparente KI, die lediglich eine Empfehlung ausgibt, und eine transparente KI, die zusätzlich nachvollziehbar macht, wie diese Einschätzung zustande kommt. Beide Formen sind in Unternehmen bereits Realität. Trotzdem ist bislang kaum belastbar untersucht, welche Art von KI-Unterstützung im Arbeitsalltag eher akzeptiert wird – und ob Erklärbarkeit das Vertrauen tatsächlich stärkt.

Genau hier liegt der Kern des Versuchs: Die Differenz zwischen der ersten Entscheidung und der späteren Reaktion auf den KI-Hinweis macht sichtbar, wie stark Menschen sich von KI beeinflussen lassen – und wie viel Zutrauen sie dem jeweiligen System entgegenbringen. Zugleich bleibt die KI im Experiment nicht statisch. Ihre Hinweise verändern sich im Zeitverlauf, sie wird angepasst und schrittweise weiterentwickelt. Dadurch entsteht ein realitätsnaher Interaktionsverlauf, in dem Vertrauen nicht einfach vorhanden ist, sondern sich aufbauen, verschieben oder auch wieder verlieren kann.

Nach dem ersten Drittel des Experiments treten gezielt Sondereffekte auf, durch die die KI-Hinweise zeitweise an Genauigkeit verlieren. Erst vor dem letzten Drittel werden diese Effekte im Modell berücksichtigt. So lässt sich beobachten, wie sensibel Vertrauen auf wahrgenommene Schwankungen in der Systemleistung reagiert. Gemessen wird dabei nicht nur, ob Entscheidungen aufgrund von KI geändert werden. Im Mittelpunkt stehen ebenso der Verlauf des Vertrauens über die Zeit, die Akzeptanz der unterschiedlichen KI-Typen und die Frage, welche Form der Unterstützung unter Unsicherheit tatsächlich trägt.

Erste Vorstudien mit einer Gruppe von Studierenden liefern bereits Hinweise auf klare Tendenzen. Sie zeigen, dass Vertrauen nicht allein von der rechnerischen Qualität einer Empfehlung abhängt, sondern stark davon, wie die KI im Entscheidungsprozess wahrgenommen wird. Um diesen Effekt greifbar zu machen, bewerteten die Teilnehmenden nach jeder Entscheidung auf einer Skala von 1 bis 10, wie sicher sie sich waren, richtig entschieden zu haben. Dadurch wird sichtbar, ob KI nicht nur Entscheidungen verändert, sondern auch das subjektive Sicherheitsgefühl der Nutzenden beeinflusst.

Ergebnisse — Vertrauen

Intransparente KI — Sicherheitsgefühl

Zunächst ein Blick auf die intransparente KI. Ohne Unterstützung bewegen sich die Sicherheitswerte der Teilnehmenden auf einem soliden, aber nicht überragenden Niveau. Die eigene Einschätzung wird als verlässlich empfunden, bleibt jedoch schwankend.

Mit KI-Unterstützung verändert sich das Bild spürbar. Die Teilnehmenden bewerten ihre Entscheidungen im Schnitt deutlich sicherer. Selbst ohne Einblick in die Logik der KI steigt das subjektive Vertrauen in die eigene Wahl.

Ergebnisse — Vertrauen

Transparente KI — Sicherheitsgefühl

Bei der transparenten KI zeigt sich ein ähnliches Ausgangsniveau. Auch hier entscheiden die Teilnehmenden ohne Unterstützung mit moderater Sicherheit, wobei die Werte über die Runden leicht schwanken.

Sobald die transparente KI ihre Einschätzung mitsamt Begründung liefert, steigt das Sicherheitsgefühl ebenfalls erkennbar an. Der Effekt fällt dabei ähnlich aus wie bei der intransparenten Variante.

Phase 1

Entscheidungsqualität — Ausgangslage

Zunächst ein Blick auf die Entscheidungsqualität ohne KI. Bereits hier zeigt sich ein leichter Vorsprung der transparenten Gruppe. Die Teilnehmenden treffen etwas häufiger die richtige Wahl.

Mit KI-Unterstützung verbessert sich die Quote bei beiden Gruppen. Bei der transparenten KI fällt der Zugewinn besonders deutlich aus.

Auch bei der Bereitschaft, dem KI-Hinweis zu folgen, liegen beide Gruppen nah beieinander. Die transparente KI wird geringfügig häufiger angenommen.

Phase 2

Sondereffekte — KI verliert Genauigkeit

In Phase 2 treten die Sondereffekte auf. Die Entscheidungsqualität ohne KI bleibt bei beiden Gruppen stabil und auf gleichem Niveau.

Mit KI sinkt die Quote richtiger Entscheidungen jedoch bei beiden Gruppen. Die fehlerhaften Hinweise wirken sich direkt auf die Ergebnisse aus.

Trotzdem folgen die Teilnehmenden den Empfehlungen sogar häufiger als zuvor. Besonders bei der transparenten KI ist die Bereitschaft bemerkenswert hoch geblieben.

Phase 3

Korrigierte KI — Vertrauen wächst

In Phase 3 berücksichtigt die KI nun alle Sondereffekte. Bei der Entscheidungsqualität ohne KI zeigt sich erstmals ein Unterschied zwischen den Gruppen.

Mit der korrigierten KI steigt die Quote richtiger Entscheidungen bei beiden Gruppen deutlich an. Der Zugewinn durch die transparente KI ist dabei besonders ausgeprägt.

Die Bereitschaft, dem KI-Hinweis zu folgen, erreicht in dieser Phase ihren Höchststand. Bei beiden Gruppen ist das Vertrauen nochmals gewachsen.

Fazit

Was bedeuten die Ergebnisse für die Praxis?

Über alle Phasen hinweg zeigt sich ein konsistentes Muster: Mit zunehmender Erfahrung im Umgang mit dem System steigt die Bereitschaft der Teilnehmenden, KI-Empfehlungen zu übernehmen. Die Ursachen dafür liegen jedoch nicht ausschließlich in wachsendem Vertrauen. Ebenso denkbar sind mangelndes Verständnis der Systementscheidungen oder eine zunehmende kognitive Entlastung, bei der Entscheidungen verstärkt an die KI delegiert werden.

Für die Implementierung solcher Systeme in der Praxis zeigt sich, dass vorherige Tests und Befragungen entscheidend sind. Annahmen – etwa, dass einer transparenten KI deutlich stärker vertraut wird als einer intransparenten – haben sich in dieser Untersuchung nicht in der erwarteten Deutlichkeit bestätigt.

Um gewünschte Erfolge und definierte Ziele in der Praxis zu erreichen, müssen Mitarbeitende im Veränderungsprozess abgeholt werden. Ihnen sollte kein System top down aufgezwungen werden, das am Ende nicht in der vorgesehenen Weise angenommen und genutzt wird.

Beitragende

Konzeption: Benjamin Richter, Dr. Fabian Lindner; Methodik / Experimentendesign: Benjamin Richter; Formale Analyse: Benjamin Richter; Schreiben – Erstfassung: Benjamin Richter; Schreiben – Überarbeitung und Redaktion: Dr. Fabian Lindner, Pascal Herfort; Betreuung / Projektadministration: Dr. Fabian Lindner.

Projektinformation

Laufzeit

01.05.2023 – 30.04.2026

Förderung

The AIMS5.0 project is supported by the Chips Joint Undertaking and its members, including the top-up funding by National Funding Authorities from involved countries under grant agreement no. 101112089.