Datenimport

Das PaDaWaN-Framework besitzt verschiedene Tools und Schnittstellen um alle für den Datenimport notwendigen Prozesse durchführen zu können:

- Mit einem generischen Importer können die gängigsten Datenformate (CSV, XML, Text) importiert werden, indem in einer dafür vorgesehenen Importer-Sprache eine Import-Konfiguration definiert wird, die den Importer regelt.

- Mit speziellen Java-Importer-Klassen können für komplexe Datendomänen Importer geschrieben werden, um jeden gewünschten Datenbestand auf das PaDaWaN-Datenmodell abbilden zu können. Die abstrakten Importer-Klassen bieten dabei unterstützenden Zugriff auf die jeweiligen Tabellen des Datenbankschemas.

- Daten können mit direkten SQL-Statements direkt in die jeweiligen Tabellen geschrieben werden

- Um die Quelldaten für die Verwendung in einem DataWarehouse entsprechend anonymisieren zu können gibt es ein Anonymisierungs-Tool, das als Service in den ETL-Prozess eingebunden werden kann.

Nach dem Befüllen der Datenbank wird mit einem Indexer-Tool der Datenbestand der Datenbank mit dem Solr-Index synchronisiert.

Abbildung 1 illustriert den ETL-Prozess von den Quelldaten bis hin zur Abfrage des Systems.

Abbildung 1: ETL-Prozessfluss zur Befüllung eines PaDaWaN-Systems

Hubland Süd, Geb. M2

Bildnachweise