Skip to main content.

OLAP

DataWarehouse

Vor
Weiter

OLAP

top


Konzept

OLAP = OnLine Analytical Processing

Ein weitere Ansatz OLAP-Leistung zu definieren ist das FASMI-Konzept (1995) von Creeth und Pendse den "Erfindern" des OLAP-Reports (FASMI = Fast Analysis of Shared Multidimensional Information) wobei ....

Fast = Antwortzeiten zu Anfragen < 5 Sek., Einfache < 1, komplexe < 20.

Analysis = das System muß notwendige analytische Funktionen ohne Programmierung beherrschen

Shared = das System garantiert einen Mehrbenutzerbetrieb mit entsprechenden Schutzmechanismen.

Multidimensional = das System muß multidimensionale Sichten, Dimensionen, Hierarchien garantieren

Information = das System muß aus Daten Informationen bilden können

Kernpunkt der OLAP-Struktur ist der Ansatz, daß auszuwertende Informationsgrößen (Fakten, Variablen oder Kennzahlen genannt) von Dimensionen bestimmt werden (Zeit, Geographie, Organisation ...), über die hinweg die Fakten analysiert werden. Das bedeutet technisch, daß in einem solchen System mehr Redundanz herrscht als in einem normalisierten System (der Name eines Produktleiters wird n-mal in einer Dimension gespeichert, auch wenn er sich von einer Produktlinie ableiten ließe).

Diese Methode entspricht aber eher der menschlich logischen Denkweise, die damit schneller als in einem normalisierten System umsetzbar ist. So entspricht eine klassische 2-achsige Tabellenkalkulation 2 Dimensionen. Um OLAP weiterhin darstellbar zu machen wird normalerweise als Modell des 3-dimensionalen Würfels benutzt.

Eine Zelle enthält z.B. den Umsatz zu einem Produkt, das in einem Monat an einen Kunden verkauft wurde. Gedanklich sind für Analysen noch mehr nachvollziehbare Dimensionen möglich auch wenn das über das geometrische Vorstellungsvermögen nicht mehr abzubilden ist.

Die sinnvolle Grenze soll zwischen 9 und 13 Dimensionen liegen


Diese mehrdimensionale Erweiterung des 3-dimensionalen Datenwürfelmodells nennt sich "Hypercube"


Die verschiedenen OLAP - Werkzeuge differenzieren sich dabei nach ...

- MOLAP = multidimensionalem OLAP

- ROLAP = relationalem OLAP

- HOLAP = hybridem OLAP also einer Kombination der beiden anderen Techniken



top


Datenmodelle

  • Starschema (ROLAP I)
    Vor dem Hintergrund ...

    - im Laufe der Zeit extrem große Datenmengen speichern zu müssen und parallel dazu das Änderungsvolumen bezüglich Inhalte und Strukturen zu beherrschen, das durch die Dynamik der wechselnden Geschäftsanforderungen entsteht sowie

    - ein akzeptables Abfrageverhalten zu erreichen

    gilt das relationale aber weitgehend denormalisierte Starschema als geeignetes Modell für die Basisschicht des DataWarehouse.

    Das Starschema - also der relationalen Ansatz der DataWarehousemodellierung - besteht aus einer Basistabelle der Fakt-Tabelle und beigeordneten Referenztabellen den Dimensionstabellen, die zusammengesetzt als Stern vorstellbar sind.


    Fakten "repräsentieren physische Transaktionen zu einem Zeitpunkt" z.B. Umsatz und Absatz eines Kunden, eines Produkts, eines Tages, sind somit die tiefste Informationsebene, ändern sich in Normalfall nicht und machen ca. 70% des Datawarehouse-Datenbankvolumens aus.


    Dimensionsdaten dienen dazu die Informationen der Fakt-Tabelle zu analysieren. Sie sind beschreibende Attribute oder hierarchische Beziehungen den Schlüsseln der Fakt-Tabelle z.B. Branche, Konzern, Kreis des Kunden. Dimensionsdaten sind regelmäßigen Änderungen unterworfen, weshalb sie in ihrem Aufbau auf diese Anforderung zugeschnitten sein müssen. Das ist allein dadurch gewährleistet, daß sie einen nur relativ geringen Anteil am Datenvolumen haben.

    Beispiel eines Starschema

    Ändert sich z.B. die Marke zum Produkt, muß nur die entsprechende Dimensionstabelle verändert werden, die Fakten bleiben erhalten und müssen nicht umgebucht werden.



  • Snowflake-Schema (ROLAP II)
    Eine Erweiterung des Starschemas ist das Snowflakeschema. Hiermit können weitere Attribute der Dimensionsschlüssel bzw. Attribute von Attributen in das Datenmodell und somit in das Abfragemodell eingebunden werden ohne daß sich der Umfang der Dimensionstabellen so erweitert, daß der Aufwand die Dimensionstabellen zu aktualisieren zum Engpaß wird. Die Dauer von Abfragen über diese ausgelagerten / normalisierten Strukturen erhöht sich natürlich durch die weiteren Verknüpfungen.


    Tabellen mit Attributen, die nicht direkt eine Bezug zu Werten haben -auch im Sinne von Stammdaten - werden auch als Lookup-Tabellen bezeichnet.


    Die "Kunst" liegt also darin das Modell so zu gestalten, daß alle für die Recherche notwendigen Attribute so verteilt sind, daß die Performanz der Abfrage aus auch die Last bei den Ladevorgängen entsprechend berücksichtigt wird.

    Beispiel eines Snowflakeschema


  • multidimensional (MOLAP)
    Multidimensionale Datenbanken (MDDB) sind speziell für Abfragen entwickelte proprietäre Methoden und Technologien. Die Informationen für die zum Modellierungszeitpunkt betriebswirtschaftlichen Sichten / Dimensionen werden in speziellen herstellerindividuellen Strukturen so implementiert und softwaretechnisch unterstützt, daß alle möglichen Abfragekombinationen kalkuliert und technisch vorbereitet sind. D.h . alle Sichten in jeder Dimension und Verdichtung des "Datenwürfels" werden gespeichert. Somit der der logische Ansatz des Hypercubes physikalisch 1 : 1 abgebildet.


    Beispiel:

    Rohdaten

    Produktnr.
    Kundennr.
    Tag
    Umsatz
    WMV4711
    K00001
    05.01.1998
    100.- DM
    WMV4711
    K00002
    05.01.1998
    200.- DM
    WMV4712
    K00002
    05.01.1998
    100.- DM


    Multidimensionale Speicherung

    Produktnr.
    Kundennr.
    Tag
    Umsatz
    WMV4711
    K00001
    05.01.1998
    100.- DM
    WMV4711
    K00002
    05.01.1998
    200.- DM
    WMV4712
    K00002
    05.01.1998
    100.- DM
    WMV4711
    05.01.1998
    300.- DM
    WMV4712
    05.01.1998
    100.- DM
    K00001
    05.01.1998
    100.- DM
    K00002
    05.01.1998
    300.- DM
    05.01.1998
    400.- DM


    Das führt dazu, daß Anfragen an das System extrem optimiert und somit schnell abgewickelt werden können. Mit gleicher Effizienz können (temporär) zusätzliche Informationen hinterlegt werden, was Werkzeuge für diese Methoden besonders geeignet macht komplexe Analysen und Simulationsvorgänge durchzuführen und schnell durch das System im OLAP-Sinne zu navigieren (Slice and dice, drill down).


    Der Preis dafür ist, daß solche Systeme schwer skalierbar sind z.B. beim Einführen von neuen Dimensionen oder dem Verändern bzw. Erweitern von bekannten Dimensionen.

    Ebenso erhöht sich das Speichervolumen dieser Datenbankform erheblich, da alle Dimensionsinhalte Dimensionskombinationen und Verdichtungsstufen redundant vorgehalten werden.

    Das Volumen der Rohdaten also der tatsächlich über die Geschäftsvorfälle entstandenen Kombinationen von Dimensionsinhalten wird auf das maximal mögliche erweitert und diesen Kombinationen dann nur noch Werte zugeordnet.

    Dadurch wird ebenfalls der Lade- bzw. Updateprozess belastet und verlängert.


    Das physikalische multidimensionale Modell - es gibt auch virtuelle multidimensionale Würfel, die temporär aus einer relationalen Datenbasis entstehen - ist somit geeignet für spezielle Aufgabenstellungen im Bereich der Analyse mit abgegrenztem Datenvolumen also für bestimmte Lösungen mit Data-Marts oder Würfel aus Aggregationen.


  • Starflake-Schema

top


Auswertungsmethoden

Zur Auswertung der (dimensional) gespeicherten Daten gibt es grundsätzlich 3 Methoden.



  • Reporting
    Hier sind Werkzeuge zusammengefaßt, die sich für Standardberichte / Standardreporting / Standardlisten oder Adhoc-Querys eignen also für hinterlegte oder adhoc gebildete, aber fest formulierte Fragestellungen an das DataWarehouse. Diese können dann in verschiedenen Formen aufbereitet und dargestellt werden.


  • Data Mining
    Für Data Mining benötigt man spezielle Werkzeuge, die sich Techniken wie neuronalen Netzen oder künstlicher Intelligenz bedienen und damit in bestimmten Datenbereichen nach Trends und Mustern zu suchen. Werden solche aufgezeigt, sollen Zusammenhänge entdeckt werden können, die so aufgrund komplexer Informationsverteilung nicht offensichtlich wären. Sie können der Ausgangspunkt für neue strategische Erkenntnisse und Maßnahmen werden.


  • Datenanalyse - OLAP
    Die Ergebnisse der Analysefunktionen sollen dem Anwender (graphisch) anschaulich gemacht werden und es soll ihm ermöglicht werden die Betrachtungsweisen weiter schnell und einfach zu verändern.


    • Slice&Dice
      Das Herausschneiden eines bestimmten Ausschnitts z.B. alles zu einem Land (Slice) und das Drehen, Kippen oder Würfeln der Sichten auf die Daten, mal nach Kunde, mal nach Produkt, mal nach Zeit ...(Dice).


    • Drill down
      Das "Abtauchen" in eine detailliertere Sicht z.B. wie verteilt sich der Umsatz meiner Produktgruppe auf die einzelnen Produkte.


    • Drill up
      Das Gegenteil von Drill down und somit das Wechseln auf eine übergeordnete Ebene.


    • Roll up
      Der Einstieg in einer tieferen Ebene und Erweitern zu höher verdichteten Betrachtungsweisen. (Oft analog zu drill up benutzt)


    • Drill across
      Das wechseln der Umgebung auf der selben Betrachtungsebene z.B. zuerst analysiert man Kunde-Produktbeziehungen eines Landes, dann wechselt man das Land.


    • Drill through
      Mit dem Ergebnis einer Analyseumgebung (Datenwürfel) in eine andere Umgebung wechseln und dort die Analyse fortsetzen.


    • Exceptions
      bzw. Ampelfunktionen: Damit können Grenzwerte und Regeln definiert werden, die auf einer höheren Ebene hinweisen, daß der hier gezeigte Wert auch von "Ausreißern" bestimmt wurde. So kann z.B. beim Betrachten von Vertriebszentren schnell erkannt werden, daß ein Vertriebszentrum nur deshalb im aktuellen Monat etwas schlechter ausfällt weil ein bestimmter Großkunde diesmal ausfällt.


    • ABC-Analysen
      Welcher Anteil von Kunden/Produkten haben welchen Anteil am Ertrag.


    • Ranglisten
      Die Top x meiner Betrachtung.


top