End-to-End-Datenintegration von Realwelt-Entitäten
Konzeption eines Record Linkage-Prozesses, Feldexperimente, unternehmensrelevante Implikationen
von Felix KruseIn dieser Arbeit wird ein Record Linkage-System erforscht und entwickelt welches die Ziele hat, (1) Datenquellen-unabhängig zu sein und (2) den manuellen Prüfaufwand zu reduzieren, um die Automatisierung der Datenintegration weiter voranzutreiben. Die Kernidee des Konzepts zur Entwicklung des Record Linkage-Systems basiert auf der Einschränkung der zu integrierenden Datenquellen über eine Realwelt-Entität wie bspw. Unternehmen. Für diese Realwelt-Entität können dann die häufig vorkommenden Informationen abgeleitet werden und von diesen können die häufig vorkommenden Datenintegrationsprobleme abgeleitet werden, für die geeignete Algorithmen und Verfahren entwickelt werden können. Innerhalb von neun Feldexperimenten wurde das Konzept in ein prototypisches Record Linkage-System überführt. Das prototypische Record Linkage-System, der Unternehmen-Matcher, wurde in vier Fallstudien mit den Industriepartnern Volkswagen AG, EWE TEL GmbH, CEWE Stiftung & Co. KGaA und Oldenburgisch Ostfriesischer Wasserverband evaluiert. Die Evaluation des Unternehmen-Matcher hat gezeigt, dass dieser die Automatisierung der Datenintegration ermöglicht und diese Arbeit damit einen Beitrag zur Forschung der Datenintegration leistet.