27.-29. Mai 2024
STATION Berlin
In der Ära der digitalen Information werden Daten oft als das neue Gold gehandelt – eine wertvolle Ressource, die unzählige Möglichkeiten eröffnet. Jedoch wird dabei häufig ein entscheidender Aspekt vernachlässigt: die Kontrolle der Datenqualität. Diese Problematik wird am Beispiel des Open-Discourse-Korpus, einer mutmaßlich vollständigen Sammlung der extrahierter Redebeiträge aus dem Deutschen Bundestag seit 1949, vorgeführt.
Die Untersuchung zeigt eindrücklich, wie irreführend unzureichend geprüfte Daten sein können und welche Rolle dabei fehlerhafte Verarbeitungen spielen. Obwohl das Korpus als vollständig sei, offenbart eine tiefer gehende Untersuchung ernüchternde Mängel - so sind beispielsweise 25 % der Redebeiträge der Bundesregierung fehlerhaft. Es werden strukturelle Fehler aufgedeckt, die deutlich machen, dass eine kritische Analyse und Evaluierung der Datenqualität unerlässlich sind, um verlässliche Untersuchungsergebnisse zu erzielen und nicht auf Katzengold hereinzufallen.