Katzengold?! Die Tücken der Datenqualität - der Open-Discourse-Datensatz der Bundestagsdebatten

Paul Ramisch

Zusammenfassung
Daten sind das neue Gold?! Doch wie rein ist dieses Gold wirklich? Mit einer neuen Methode wird am Beispiel des Open-Discourse-Korpus der Bundestags-Protokolle gezeigt, wie wichtig eine kritische Daten-Analyse für verlässliche Ergebnisse ist.
Lightning Box 1
Vortrag
Deutsch
Conference

In der Ära der digitalen Information werden Daten oft als das neue Gold gehandelt – eine wertvolle Ressource, die unzählige Möglichkeiten eröffnet. Jedoch wird dabei häufig ein entscheidender Aspekt vernachlässigt: die Kontrolle der Datenqualität. Diese Problematik wird am Beispiel des Open-Discourse-Korpus, einer mutmaßlich vollständigen Sammlung der extrahierter Redebeiträge aus dem Deutschen Bundestag seit 1949, vorgeführt.

Die Untersuchung zeigt eindrücklich, wie irreführend unzureichend geprüfte Daten sein können und welche Rolle dabei fehlerhafte Verarbeitungen spielen. Obwohl das Korpus als vollständig sei, offenbart eine tiefer gehende Untersuchung ernüchternde Mängel - so sind beispielsweise 25 % der Redebeiträge der Bundesregierung fehlerhaft. Es werden strukturelle Fehler aufgedeckt, die deutlich machen, dass eine kritische Analyse und Evaluierung der Datenqualität unerlässlich sind, um verlässliche Untersuchungsergebnisse zu erzielen und nicht auf Katzengold hereinzufallen.