Einführung

PaDaWaN ist ein parametrisierbares Data Warehouse Framework zur effizienten Abfrage und Auswertung homogener und heterogener Datenbestände. Es wird in verschiedenen Anwendungen wie z.B. für ein klinisches Data Warehouse, für klinische Register, für Prüfungsdaten einer Universität, u.a. eingesetzt und besteht aus folgenden Komponenten:

ETL-Prozess (Extract, Transform, Load) zum Aufbau des Data Warehouse

Extraktion und Datenimport über diverse Formate wie csv, xml, text, Datenbanken usw.
Transformation der Daten in eine Abfrage-Terminologie, die als Katalog bezeichnet wird.
Module zur Extraktion strukturierter Daten aus Textdaten mittels Information Extraktion Methoden.
Laden der Daten in eine Datenbank, für die zur beschleunigten Auswertung ein Suchindex angelegt wird (Datenmodell)

Auswertung der Daten

komfortable Abfrage-Oberfläche (GUI), mit der Benutzer mittels einfacher intuitiver sowie komplexer mächtiger Anfragen die Daten auswerten können. Dies umfasst auch die Auswertung textueller Daten und wird durch den Index im Vergleich zur Datenbank um einen Faktor von 10 und mehr beschleunigt.
Export in Tabellen zur weiteren Auswertung mit anderen Tools (z.B. für Algorithmen zum Lernen und zur Wissensentdeckung)
Zusätzliche Abfrage-Sprache für interne Auswertungen

Components of a Clinical Data Warehouse with PaDaWaN

Hubland Süd, Geb. M2

Bildnachweise