News
Assessment and Evolution of (Meta-)Data Quality

18.2.2016

Sebastian Neumaier hat seine Diplomarbeit im Rahmen des Studiums Computational Intelligence an der TU Wien dem Thema
Open Data Quality, Assessment and Evolution of (Meta-)Data Quality in the Open Data Landscape“ gewidmet.

Kurzfassung

Die Open-Data-Bewegung erfreut sich wachsender Beliebtheit unter Regierungen und öffentlichen Institutionen, aber auch in der Privatwirtschaft und unter Privatpersonen, und gewinnt so immer mehr Unterstützerinnen und Unterstützer aus all diesen Sektoren.
Gleichzeitig melden sich aber auch vermehrt kritische Stimmen zu Wort. Hauptsorge ist die niedrige Metadaten-Qualität in Open Data Portalen, die eine Beeinträchtigung der Suche und der Auffindbarkeit von Ressourcen mit sich bringt.
Bis jetzt konnte diese Sorge jedoch nicht belegt werden, da es noch keinen umfassenden und objektiven Bericht über die wirkliche Qualität von Open Data Portalen gibt. Um so einen Bericht erstellen zu können, wird ein Framework benötigt, welches die Portale über einen längeren Zeitraum hinweg beobachtet und so die Entwicklung und das Wachstum von Open Data abschätzen kann.
Die vorliegende Diplomarbeit hat das Ziel diese Qualitätsprobleme in Open Data Portalen zu untersuchen. Dazu wird ein Monitoring Framework vorgestellt, welches in regelmäßigen Abständen die Metadaten von 126 CKAN Portalen speichert und deren Qualität bewertet.

Die Arbeit stellt die dazu notwendigen Qualitätsmetriken vor, diskutiert den Aufbau des Monitoring Frameworks und präsentiert Erkenntnisse und Resultate,
die aus dem Monitoring der Portale gewonnen werden konnten. Dazu werden Auswertungen der eingeführten Qualitätsmetriken prästeniert, die auf Qualitätsprobleme in den untersuchten Datenportalen hinweisen.

Konkret konnte unter anderem ein schnelles Wachstum von diversen Open Data Portalen und eine hohe Heterogenität bezüglich der Datenformate und Lizenzen beobachtet werden. Darüberhinaus wird in dieser Arbeit ein Ansatz zur Homogenisierung von Metadaten von unterschiedlichen Datenportalen vorgestellt: Dazu wird ein Mapping vorgestellt, welches die Metadaten von CKAN, Socrata und OpenDataoft Portalen auf ein gemeinsames Schema bringt und damit die Portale vergleichbar und integrierbar macht.


Teilen

2 Klicks für mehr Datenschutz: ein wesentliches Open Data-Prinzip besagt, dass keine Daten veröffentlicht werden dürfen, die einen Rückschluß auf einzelne natürliche Personen zulassen. Ein ähnliches Prinzip zum Schutz persönlicher Daten wird auf data.gv.at bei Teilen-Buttons für Social-Media-Netzwerke verfolgt: da diese Teilen-Buttons allein beim Laden bereits Daten übermitteln, bieten wir Ihnen die Möglichkeit der Selbstbestimmung - Sie können selbst entscheiden, ob ein Teilen-Button aktiviert werden soll oder nicht.