Grüner Schwan bezeichnet eine neue Klasse systemischer Risiken, vor allem aus dem Kontext des Klimawandels, die ebenso unvorhersehbar wie unumkehrbar sind und dabei die Stabilität von Wirtschaft und Gesellschaft tiefgreifend gefährden können. Er baut auf dem Begriff des „Schwarzen Schwans“ von Taleb auf, der in seinem gleichnamigen Buch damit seltene Ereignisse mit enormer Wirkung, wie etwa die Finanzkrise 2008 beschreibt. Seinen Namen verdankt das Konzept der historischen Annahme, alle Schwäne seien weiß – bis 1697 in Australien zum ersten Mal ein schwarzer Schwan tatsächlich beobachtet wurde. Grüne Schwäne hingegen existieren (nach wie vor) nicht.
Die Datenwirtschaft teilt seit vielen Jahren ihre Daten auf Lizenzbasis. Die Nutzer bezahlen für die Erstellung, Bereitstellung und Art der Datennutzung. Lizenz- und Preisstandards dazu gibt es nicht. Doch nicht nur das. Es fehlt dem Markt an Qualitätsorientierung. Nehmen wir das Beispiel der Vollständigkeit. So lange alle Objekte unserer Welt nicht vollständig in Raum und Zeit digital erfasst sind, fehlt es an der objektiven Referenz. Was gibt es alles und wieviel davon? Über die sogenannten „unknown unknowns“ wissen wir nichts. Das ist gewiss. Mit welchem Maß an Gewissheit können wir also sagen, dass der fehlende „Grüne Schwan“ in unseren Daten wirklich fehlt oder ein möglich enthaltener schwarze Schwan wirklich stimmt? Übertragen in die Praxis: Was stellt beispielsweise die Referenz dar, ob eine am Datenmarkt verfügbare Liste aller Kindergärten, Kitas und privater „Tagesmütter“ für eine Versorgungsanalyse in Deutschland wirklich Vollständigkeit ist? Sie gibt es nicht.
Durch die fortschreitende Datafication, wie man auch die Digitalisierung unserer Welt nennt, mehren sich fortlaufend die Echtdaten. Schätzungen und Hochrechnungen werden entsprechend weniger notwendig. Doch die Ungewissheit (Uncertainty) darüber, ob Grundgesamtheit bzw. Teilpopulation in einem bestimmten Gebiet zu einem bestimmten Zeitpunkt (Aktualität) vollständig abgebildet ist, bleibt. Dazu zählen auch Präzision der Datenerfassung (Exaktheit) und Schätzung (Vorhersagegüte) bei nicht vorhandenen Echtdaten.
Den Käufern sowie Nutzern von Daten fehlt ein verlässliches Maß an „Certainty“. Der Datenmarkt setzt Lizenzbedingungen und Preise fest, ohne ein Maß an Gewissheit zu liefern. Man schenkt lieber einer aufbereitenden Information, dem Outcome auf Daten, seinen Glauben und sinniert höchstens noch über die angewendete Analyse, als dass die Qualität der eingehenden Daten, das Income selbst hinterfragt wird. Ganz in der Hoffnung „no garbage in, no garbage out“. Ob aber der grüne Schwan einfach nur vergessen wurde zu erfassen oder gewiss keiner vorhanden ist, weiß man nicht. Was jedoch gewiss fehlt: Ein Datengütesiegel.
Datengütesiegel der dai
Das data analytics institute hat es sich zur Aufgabe gemacht, die CERTAINTY als Qualitätsmaß für Daten zu entwickeln. Kontaktieren Sie uns gerne, wenn Sie Fragen dazu haben oder Ihre Daten in ihrer Qualität in unserem Data Lab überprüfen lassen wollen.
Weiterführender Artikel zur Uncertainty & ML u.a. [2305.16703] Sources of Uncertainty in Supervised Machine Learning — A Statisticians‘ View