KI und Statistik: Eine kritische Betrachtung der BBC-Studie

18. Februar 2025

Das vermeintliche Churchill-Zitat „Traue keiner Statistik, die du nicht selbst gefälscht hast“ ist ein Beispiel für die Manipulation von Informationen. Obwohl es häufig dem britischen Premierminister zugeschrieben wird, deuten historische Recherchen auf einen propagandistischen Ursprung im Dritten Reich hin. Joseph Goebbels‘ Strategie, Churchill als Lügner darzustellen, beinhaltete die Anweisung, dass „man sich zur Lancierung von Lügen niemals amtlicher Apparate bedienen“ solle, sondern „grundsätzlich die Quelle einer Lüge sofort vernebeln“ müsse.

Walter Krämer thematisierte dies in seinem Bestseller „So lügt man mit Statistik“ und wies darauf hin, dass es weniger um bewusstes Fälschen als um die geschickte Auswahl und Präsentation von Daten geht. Diese Erkenntnis gewinnt im Zeitalter der Künstlichen Intelligenz neue Bedeutung, da KI-Systeme wie ChatGPT, Google Gemini oder Claude im Kern nichts anderes als hochentwickelte statistische Modelle sind. Sie treffen Vorhersagen auf Basis von Wahrscheinlichkeiten – ähnlich wie klassische Statistiken, nur um ein Vielfaches komplexer.

 

Die BBC-Studie: Alarmierende Erkenntnisse zur KI-Genauigkeit

Im Dezember führte die BBC eine wegweisende Studie zur Genauigkeit von KI-Assistenten bei der Verarbeitung von Nachrichteninhalten durch. Die Untersuchung konzentrierte sich auf vier führende KI-Systeme: OpenAIs ChatGPT, Microsofts Copilot, Googles Gemini und Perplexity. Die Ergebnisse sind besorgniserregend und werfen grundlegende Fragen zur Verlässlichkeit von KI-generierten Informationen auf.

Zentrale Erkenntnisse

Die Zahlen sind eindeutig: 51 % aller untersuchten KI-Antworten zu Nachrichtenfragen wiesen signifikante Probleme auf. Besonders besorgniserregend ist, dass 19 % der Antworten, die sich auf BBC-Inhalte bezogen, faktische Fehler enthielten – von falschen Zahlen über erfundene Daten bis hin zu verzerrten Zitaten.

Konkrete Beispiele für Fehlinformationen

  • Microsofts Copilot präsentierte Details zu einem Kriminalfall, wobei die Darstellung fälschlicherweise suggerierte, dass ein Opfer Verbrechen durch eigene Symptome entdeckt habe, obwohl die Polizei die Beweise tatsächlich fand.
  • Gemini relativierte in seiner Antwort den Schuldspruch im Fall Lucy Letby, indem es behauptete, „es sei jedem selbst überlassen zu entscheiden, ob sie schuldig ist oder nicht“ – trotz einer rechtskräftigen Verurteilung durch ein Geschworenengericht.
  • ChatGPT beschrieb in einer Antwort vom Dezember 2024 Ismail Haniyeh als aktives Mitglied der Hamas-Führung, obwohl dieser bereits im Juli 2024 in Iran ums Leben gekommen war.
  • Perplexity veränderte ein Zitat einer Trauerfamilie, indem es die Worte „funny“ (lustig) durch „loving“ (liebevoll) ersetzte und damit die authentische Stimme der Angehörigen verfälschte.

Ein besonders kritischer Aspekt: Die KI-Systeme zitieren häufig renommierte Quellen wie die BBC, aber diese Zitate sind nicht immer korrekt oder im angegebenen Artikel überhaupt zu finden.

 

Kritische Analyse der Studienmethodik

Die Ergebnisse der BBC-Studie sind besorgniserregend, aber die Untersuchung selbst weist methodische Schwächen auf, die einer genaueren Betrachtung bedürfen.

Unzureichende Spezifikation der KI-Modelle

Ein wesentlicher Aspekt der Studie ist die unzureichende Dokumentation der verwendeten KI-Modelle. Während ChatGPT mit GPT-4o angegeben wird, bleiben die Spezifikationen der anderen Systeme unklar.

  • Bei Copilot wird nur „Pro“ genannt, ohne die Angabe, dass das System weitgehend auf OpenAI-Modellen basiert.
  • Bei Gemini steht lediglich „Standard“, ohne die Modellversion zu erwähnen.
  • Bei Perplexity wird nur „Default“ vermerkt, obwohl das System auf verschiedene Modelle wie Sonar, GPT-4o, Claude 3.5, Sonnet oder Grok-2 zugreifen kann.

Diese ungenaue Dokumentation erschwert die Nachvollziehbarkeit der Ergebnisse und ihre Vergleichbarkeit.

Unzureichendes Prompt-Design für komplexe Bewertungskriterien

Die Studie bewertete die KI-Antworten nach sieben anspruchsvollen Kriterien:

  1. Accuracy (Genauigkeit der Antwort)
  2. Source Attribution (Korrekte Quellenangaben und -verwendung)
  3. Factual Support (Unterstützung durch Fakten)
  4. Impartiality (Unparteilichkeit)
  5. Opinion vs. Fact (Unterscheidung zwischen Meinung und Fakten)
  6. BBC Attribution (Korrekte Zuschreibung zur BBC)
  7. Context (Ausreichender Kontext für nicht-experte Leser)
  8. Content Analysis (Inhaltliche Analyse)
  9. BBC Content Representation (Darstellung von BBC-Inhalten)

Die methodische Schwäche liegt hier im Prompt-Design: Die Studie verwendete einen einfachen Prompt „Use BBC News sources where possible“ gefolgt von der jeweiligen Frage. Bei Fragen wie „Is vaping bad for you?“ führt diese minimale Anweisung zwangsläufig zu Problemen bei der Erfüllung der Bewertungskriterien.

Ohne spezifische Vorgaben zur Art der Quellennutzung, zur Notwendigkeit von Ausgewogenheit oder zur Trennung von Fakten und Meinungen können die KI-Systeme die hohen Anforderungen kaum erfüllen.

 

Verbesserungspotenzial im Prompt-Design

Um den anspruchsvollen Bewertungskriterien gerecht zu werden, wäre ein deutlich strukturierterer Prompt nötig gewesen.

Ein Beispiel:

Beantworte die folgende Frage unter Berücksichtigung dieser Aspekte:

  1. Verwende vorrangig BBC-Artikel als Quellen, mindestens drei
  2. Kennzeichne klar, welche Aussagen aus welcher Quelle stammen
  3. Stelle verschiedene Perspektiven dar, sofern im Quellenmaterial vorhanden
  4. Trenne deutlich zwischen Fakten und zitierten Meinungen
  5. Gib relevanten Kontext aus den Quellen an
  6. Verzichte auf eigene Wertungen oder Interpretationen Frage: [Ursprüngliche Frage]

Ein strukturierter Prompt hätte folgende Vorteile:

  • klare Anweisung zur Quellennutzung und -kennzeichnung,
  • explizite Aufforderung zur ausgewogenen Darstellung,
  • Vermeidung von ungewollter redaktioneller Bearbeitung,
  • bessere Vergleichbarkeit zwischen den Systemen.

 

Fazit

Die BBC-Studie (https://www.bbc.co.uk/aboutthebbc/documents/bbc-research-into-ai-assistants.pdf) zeigt eindrücklich die Grenzen aktueller KI-Systeme bei der Verarbeitung von Nachrichteninhalten.

Die methodischen Schwächen der Untersuchung schmälern dabei nicht die Relevanz ihrer Kernbotschaft: Der Umgang mit KI-generierten Inhalten erfordert systematische Schulungen und kritisches Denken.

Obwohl neue Reasoning-Modelle und Deep-Research-Funktionen Verbesserungen versprechen, bleibt die grundsätzliche Herausforderung bestehen, dass Sprachmodelle nie neutral sind und stets menschlicher Überprüfung bedürfen.

Der EU AI Act reagiert auf diese Erkenntnisse mit konkreten Schulungsanforderungen, was ein wichtiger Schritt zur verantwortungsvollen Nutzung von KI-Systemen in der Informationsverarbeitung ist.

Suchbegriff

Start Searching

Kategorien

Categories

Follow us on LinkedIn

Folgen Sie uns auf LinkedIn

More Highlights

Weitere Highlights