Data-Lineage

Data-Lineage bzw. Datenherkunft (auch Data Provenance oder Data Pedigree, deutsch auch Datenabstammung und -stammbaum) bezeichnet in einem Data-Warehouse-System (Datenlager) die Fragestellung, zu gegebenen aggregierten Datensätzen die ursprünglichen Datensätze zu bestimmen, aus denen sie entstanden sind. Zusammen mit Informationen über die weitere Verarbeitung der Daten bildet die Aufstellung über die Datenherkunft eine wichtige Grundlage für verantwortungsvolle KI-Systeme.[1]

Üblicherweise werden in einem Data-Warehouse-System Daten aus verschiedenen Quellen extrahiert, nach bestimmten Regeln transformiert und zur Analyse bereitgestellt (siehe ETL-Prozess). Beim Data-Lineage muss der umgekehrte Weg beschrieben werden (siehe auch E-Pedigree), um von Analyseergebnissen zu den Quellen zu gelangen. Dazu werden die Transformationen mathematisch modelliert, um für gegebene Ausgabewerte einer Transformation die dazugehörenden Eingabewerte zu bestimmen (siehe auch EVA-Prinzip).

  1. Karl Werder, Balasubramaniam Ramesh, Rongen (Sophia) Zhang: Establishing Data Provenance for Responsible Artificial Intelligence Systems. In: ACM Transactions on Management Information Systems. Band 13, Nr. 2, 30. Juni 2022, ISSN 2158-656X, S. 1–23, doi:10.1145/3503488 (acm.org [abgerufen am 29. Juni 2023]).

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Nelliwinne