Termine:

24.06.2016 : Datenbank-basierte ETL-Prozesse
Viele Data Warehouse-Systeme kranken an nicht effizient implementierten ETL-Prozessen. Zu wenig oder falsch eingesetzte Datenbank-Funktionalität ist oft eine der Ursachen. Eine andere ist die fehlende Differenzierung zwischen Workloads von OLTP- und DWH-Anforderungen.
Die Folge sind leider lange ETL-Laufzeiten, die dann wieder Diskussionen über Architekturen und das Infragestellen wichtiger und notwendiger DWH – Prozesse nach sich ziehen.
Bevor man jedoch grundsätzlich richtige Architekturen infrage stellt, sollte man zunächst seine Hausaufgaben machen und performante ETL-Prozesse bereitstellen.
Techniken wie Partitioning, InMemory-Streaming, mengenbasiertes SQL und Direkt-Path-Load sind ebenso Hilfsmittel wie das konsequente Anwenden grundsätzlicher Lade-Prinzipien. Das Seminar listet nicht nur einfach diese technischen Features auf, sondern bewertet sie und stellt sie in einen Verwendungskontext.
Letztlich wird erklärt, wie man einen ETL-Prozess organisiert, damit er möglichst effizient abläuft.
Anhand eines konkreten Lade-Szenarios zeigt das Seminar in einer Art Labor-Situation Vor- und Nachteile der Techniken auf. Das Ergebnis ist ein Verständnis über gute und weniger gute Lösungsalternativen.

Das Seminar beschäftigt sich nicht mit ETL-Tools. Es ist aber auch hilfreich für Mitarbeiter, die mit ETL-Tools, wie z. B. Informatica arbeiten, um Datenbank-interne Verfahren durch das ETL-Tool gezielt anzusteuern zu können. Das Seminar hilft bei der Entscheidung darüber, welche Teile des ETL-Prozesses besser innerhalb der Datenbank oder mit dem jeweiligen ETL-Tool laufen sollten.

Themen sind:
• Speichermanagement der Datenbank
• Direct-Path-Load, mengenbasiertes Laden, Randbedingungen für schnelles Laden
• Lade-Tools in der Datenbank
• Native Prüftechniken mit SQL, Umgang mit Constraints
• Partition Exchange Load
• Organisation des ETL-Prozesses