Data Warehousing

  • ERP, CRM
  • externe Quellen
  • Staging Area, Data Marts
  • Data Warehouse
  • Star-Schema

Data Warehousing

Erfahrung ist nicht das, was einem zustößt. Erfahrung ist, was du aus dem machst, was dir zustößt.
Aldous Huxley

Um aus Daten Informationen zu gewinnen, stehen am Anfang der Wertschöpfungskette die Quelldaten der Vorsysteme. In der Regel stammen diese Datenquellen von transaktionalen Systemen, sei es aus generellen Enterprise Ressource Planing [ERP] Systemen oder spezifischen Lösungen wie zum Beispiel einem Customer Relationship Management [CRM], Warenwirtschafts- oder Handelssytem. Dabei ist zwischen dem Hersteller des Produktes und dem Anbieter des Datenbanksystems zu unterscheiden.

Um aus verschieden Datenquellen und verschiedenen Datenstrukturen vergleichbare und harmonische Werte zu erhalten, wird diese Datenbasis in einem Data Warehouse [DWH] gesammelt und vereinheitlicht. In diesem Schritt ist es auch möglich externe Daten einzubeziehen (beispielsweise Konkurrenzinformationen).

Im Detail besteht ein Data Warehouse aus einer Staging Area, verschiedenen Data Marts und diese wiederum aus Dimensions- und Faktentabellen.

Die Staging Area ist im Wesentlichen eine Kopie der relevanten Tabellen der Vorsysteme. Dieser Schritt ist technisch relevant, um bei regelmässigen Abfragen die Vorsysteme im operativen Betrieb nicht zu belasten oder sogar zu überlasten (Wartezeiten).

Mittels Extract, Transfer and Load Prozessen [ETL] werden die relevanten Daten vergleichbar gemacht und zu Dimension- oder Faktentabellen modelliert. Die Daten werden hierbei bereinigt, gefiltert, angereichert sowie möglicherweise aggregiert.

Dimensionstabellen beschreiben die geschäftlichen Ausprägungen oder Betrachtungswinkel wie zum Beispiel Regionen, Organisationshierarchien, Produktgruppen oder auch die Zeit. Faktentabellen liefern die jeweiligen Werte zu diesen Ausprägungen zum Beispiel die Anzahl oder den Wert. Mehrere Dimensionstabellen und die dazugehörigen Fakten ergeben dann geschäftsspezifische Data Marts.

Grössere Umgebungen bestehen aus mehreren Data Warehouses und in einem Data Warehouse können zahlreiche Data Marts vorkommen. Diese können sich auch Dimensionen teilen. Bei der Modellierung von dimensionalen Data Marts setzen wir auf das Star-Schema nach Ralph Kimball.

Die Architektur und Umsetzung von Data Warehouse Umgebungen ist häufig etwas undankbar. Sie findet im Hintergrund statt, ist technisch und lässt sich aus Business Sicht schwer nachvollziehen. Sie ist aber das Fundament einer leistungsfähigen Informationsarchitektur.

 

Top