Data Warehouse

Transcription

Data Warehouse
Data Warehouse
Prof. Dr. W. Riggert
Gliederung
z
z
z
z
z
Ausgangssituation : Motiv und Hintergrund
Definition und Architektur
Operative Systeme vs Data Warehouse
OLAP und Beispiel
Data Mining
2
Motiv
Marktentwicklungen und
Wettbewerb zwingen zu
- kürzeren Entscheidungsprozessen
- besserer Entscheidungsunterstützung durch
Information
- flacheren Strukturen
- Business Process
Reengineering
Data Warehouse
Technische Entwicklungen
ermöglichen bessere
Lösungen
- starke
Endbenutzerwerkzeuge
- Client-Server Technologie
- preisgünstige Hard- und
Software
Quelle : Software AG
3
Motiv
Könnten Sie mir schnell das
wichtigste auf einer Seite
zusammenfassen ?
4
Ursache
z
Flut nicht relevanter Informationen erschwert das Herausfiltern
entscheidungsbedeutender Informationen:
z Im WWW findet keine Selektion statt
z E-Mail-Verkehr steigt exponentiell
z
Moderne Informations- und Kommunikationstechnologien sind
Wegbereiter der Datenflut, da Speicherkapazität keine limitierende
Ressource darstellt
5
Hintergrund
Hinter den Daten transaktionsorientierter Anwendungen verbergen
sich wichtige Informationen, z.B. Aussagen über :
] Kaufverhalten
] Kundenwünsche
] Markttrends
] Qualitätssituation
] Geschäftsperformance
] Wettbewerber
6
Ist-Situation
]
]
]
]
]
Die Daten sind in zu vielen Datenbanken verstreut und nicht vergleichbar.
(Datumsformate, Währungen, etc.)
Es gibt keinen zentralen Ort zur Speicherung externer Zahlen (z.B.
Marktforschungen oder Daten über Konkurrenten.)
Auf die vorhandenen Datenbanken ist Zugriff nur bedingt möglich.
Es fällt schwer, aus den vorhandenen Systemen geeignete Daten zu
extrahieren.
Extraktion liegt in der Hand der SQL-Kenner.
7
Gliederung
z
z
z
z
z
Ausgangssituation : Motiv und Hintergrund
Definition und Architektur
Operative Systeme vs Data Warehouse
OLAP und Beispiel
Data Mining
8
Ziele
Zusammenführung (Integration) und Verdichtung
(Aggregation) von Daten aus mehreren heterogenen
Quellen in einer zentralen Datenbank
9
Definition : Annäherung
]
]
Nicht jede Datensammlung ist ein Data Warehouse!
Ein Data Warehouse (DW) ist ein „Datenlager“, das nach einem bestimmten
Konzept strukturiert ist, um flexible und schnelle Auswertungen zu ermöglichen
10
Definition - exakt 1
"Ein Data Warehouse ist eine
] Themenorientiert Die Daten werden nach dem betriebswirtschaftlichen Umfeld des
Unternehmens organisiert. "Alles über Kunden, Produkte oder ..."
] Zeitorientiert Daten eines Data Warehouses werden langfristig gespeichert.
Jedes Data Warehouse beinhaltet auch die Dimension Zeit. Periodische
Ergänzung um aktuelle Daten, u.U. Verdichtung älterer Informationen
11
Definition - exakt 2
]
]
integriert Das Data Warehouse wird aus einer Vielzahl interner wie externer
Datenquellen bewirtschaftet. Dabei spielt die Datenqualität eine wesentliche Rolle.
Zusammenführung und Konsolidierung verteilter Daten
Unveränderlich Die Daten werden persistent gespeichert. Daten sind nur lesbar.
Datensammlung für Managemententscheidungen."
(W.H. Inmon, "Building the Data Warehouse")
12
Data Warehouse Merkmale
z
z
z
z
Themenorientierung: Data Warehouses befriedigen den Informationsbedarf
bezüglich Sachverhalten, die das Handeln des Unternehmens bestimmen
Integration: Data Warehouses vereinheitlichen die Daten der Vorsysteme:
z Anpassung an Datenformate
z Vereinheitlichung von Datumsfeldern
z Umrechnung von Werteinheiten
z Währungsumrechnungen
Beständigkeit: Die im Data Warehouse abgelegten Daten werden nicht mehr
verändert – nur Lese-Zugriff
Zeitraumbezug: Data Warehouses beinhalten zeitraumbezogene, historisierte
Daten
13
Merkmale
BestimmendeMerkmale:
Merkmale:
Bestimmende
‹Vereinheitlichung:aus
ausverschiedenen
verschiedenenDatenbeständen
Datenbeständeninineine
eine
‹Vereinheitlichung:
homogeneDatenwelt
Datenweltzusammengeführt
zusammengeführt
homogene
‹Themenausrichtung:auf
aufdie
dieInformationsbedürfnisse
Informationsbedürfnissedes
des
‹Themenausrichtung:
Anwendersausgerichtet
ausgerichtet
Anwenders
‹Zeitorientierung:Einbeziehung
Einbeziehungvon
vonhistorischen
historischenWerten
Werten(aber
(aber
‹Zeitorientierung:
auchvon
vonPlanzahlen)
Planzahlen)
auch
‹Dauerhaftigkeit:jederzeitige
jederzeitigeWiederholbarkeit
Wiederholbarkeiteiner
einerAbfrage
Abfrage
‹Dauerhaftigkeit:
14
Data Warehouse Einordnung
15
Data Warehouse Architektur
Data Marts (DM)
Endbenutzeranalysen
ASCII
Staging Area
Clients
Core DWH
Host
Relat.
DB
[…]
Extraktion
Transformation
Aggregation
Analyse
Metadaten-Management
Quelle : Diplomarbeit Herrera
16
Data Warehouse Anforderungen 1
z
z
z
Das Data Warehouse bietet einen Zugang zu allen relevanten
Daten des Unternehmens.
Die Daten eines Data Warehouses sind konsistent, d.h. frei
von logischen Widersprüchen
Daten im Data Warehouse können nach jeder beliebigen und
möglichen betrieblichen Kennzahl getrennt und kombiniert
werden
17
Data Warehouse Anforderungen 2
z
z
z
Das Data Warehouse besteht nicht nur aus Daten. Zum
Gesamtsystem gehören auch verschiedene Tools um die
Daten abzufragen, analysieren und darzustellen
Das Veröffentlichen der Daten ist die Kernaufgabe des Data
Warehouses. Die Daten werden an einem zentralen Ort
gesammelt, sorgfältig transformiert und qualitätsgesichert
Das Data Warehouse kann keine mangelhafte Datenqualität
beheben.
18
Data Warehouse Ziele
z
Ein Data Warehouse
z führt Daten aus unterschiedlichen internen und externen Quellen
zusammen, um mit Abfrage- und Analysewerkzeugen neue Informationen
zu gewinnen
z besitzt eine eigenen physische Datenhaltung, um operative Anwendungen
nicht zu beeinträchtigen
z nutzt sämtliche Datenformate: relationale Daten, unstrukturierten Text,
Fotos, Videos
z beinhaltet aggregierte Daten über einen längeren Zeitraum
19
Data Mart
Ein Data Mart ist eine logische und physikalische
Teilmenge eines Data Warehouse mit subjekt- oder
abteilungsspezifischem Charakter
Dabei ist es nicht erforderlich, die Daten
unmittelbar aus dem Data Warehouse zu
laden, sondern eine Übernahme direkt aus
den operativen Daten ist möglich.
20
Data Mart Eigenschaften
z
z
Data Marts sind abteilungs- oder themenbezogene Datenbanken, die eine
Untermenge der im zentralen Data Warehouse gespeicherten operativen Daten
enthalten
Data Marts werden eingeführt, um die Systemleistung bei Datenabfragen zu
verbessern und die Abhängigkeit von unternehmensweiten Warehouse-Daten zu
verringern.
21
Data-Mart Architektur
Data Marts (DM)
EndbenutzerAnalysen
ASCII
Clients
Staging Area
Host
Relat.DB
[…]
Extraktion
Transformation
Aggregation
Analyse
Metadaten-Management
Quelle : Diplomarbeit Herrera
22
Datenübernahme: ETL-Prozess
Die Datenübernahme ist ein dreistufiger Prozess:
z Extraktion: Selektion der Daten aus den Quellen und Ablage in einen
Zwischenspeicher. Arten:
z Periodische Extraktion
z Extraktion auf Anfrage
z Ereignisgesteuerte Extraktion
z Transformation: Beseitigung von Qualitätsmängeln der Daten aufgrund
z Inkorrekter Daten
z Inkonsistenter Daten
z Unvollständiger Daten
z Doppelter Daten
z Veralteter Daten
z Irrelevanter Daten
23
Transformation
z
Die Qualität wird durch mehrere Maßnahmen gesichert:
z Bereinigung durch Ausgleich syntaktischer und semantischer Mängel
z Harmonisierung durch die Vereinheitlichung unterschiedlicher Codierungen;
z.B. m/w oder 0/1 und Blank für Unternehmen
z Verdichtung durch Aggregation auf verschiedenen Stufen
z Anreicherung durch weitere Kennzahlen
24
Transformation: Konflikte bei der
Datenintegration
z
z
z
z
Semantische Konflikte: In zwei Datenquellen wird das gleiche
Objekt mit unterschiedlichen Attributen beschrieben
Beschreibungskonflikte: für Attribute der selben Objekte werden
synonyme Bezeichnungen, verschiedenen Datentypen,
Wertebereiche oder unterschiedliche Maßeinheiten verwendet
Falsche Daten: Eingabefehler oder veraltete Daten
Unterschiedliche Repräsentation: gleicher semantischer
Sachverhalt wird unterschiedlich abgebildet: Schulnote als 1 bis 6
oder als sehr gut bis unzureichend
25
Transformation: Konfliktbereinigung
z
z
z
z
Konvertierungs- und Normalisierungsfunktionen:
Zurückführung unterschiedlicher Einheiten auf einen festgelegten
Standard
Domänenspezifische Bereinigung: Korrektur der Daten durch
Hintergrundwissen aus dem Fachgebiet, z.B. Adressdaten
Domänenunabhängige Bereinigung: Zusammenführung
unterschiedlicher Datenmodelle durch Prüfung von Ähnlichkeiten
bezüglich der Objekte, z.B. entspricht die Bestellnummer in
Schema 1 derjenigen in Schema 2 mit einer gewissen
Wahrscheinlichkeit
Regelbasierte Bereinigung: automatische, programmgestützte
Anpassung von Objekten
26
Laden
Die Übernahme der Daten unterscheidet zwei Ausprägungen:
z Initiales Füllen
z Zyklische Aktualisierung:
z Komplette Datenübernahme bei jedem Zyklus
z Übernahme jeweiliger Änderungen – inkrementell
z Auswahl protokollierter Daten
27
Laden: Aktualisierung
z Vollständige Aktualisierung - Full Refresh. Der gesamte
Datenbestand der operativen Quellen wird geladen
z Inkrementelle Aktualisierung - Incremental Refresh
Nur die
Änderungen der operativen Daten werden geladen. Dabei
entstehen zwei Probleme :
z Erkennen und Identifizieren der Änderungen
z Einarbeitung der Änderungen in den Datenbestand unter
Berücksichtigung historischer Bestände.
28
Laden: Aktualisierung 2
z Wie aktuell müssen die bereitgestellten Daten sein ?
Daten des Vormonates, der vergangenen Woche oder von gestern ?
z In welcher Aggregationsform sollen die Daten vorliegen ?
Von Interesse sind keine einzelnen Aktivitäten, sondern
zusammengefasste Vorgänge.
29
ETL: Interne/Externe Datenquellen
Einkauf
Vertrieb
Lager/Bestände
Personal
Interne Informationsressourcen
Finanzen
Berichte
Analysen, Trends
?
Data Warehouse
Externe Informationsressourcen
Kunden
Lieferanten
Markt
Wettbewerb
30
ETL: Datenquellen und -arten
sammeln,
filtern,
bewerten
Operative Verfahren
bereinigen,
strukturieren,
ergänzen
Datenquelle
intern
extern
Online DatenBanken / Internet
Marktvolumen,
Marktanteile,
VerbrauchsKennzahlen, ...
PresseMeldungen,
Patente,
Gutachten,...
Auftragseingang,
Umsatz, Kosten
Deckungsbeitrag,
Produktivität, ...
KundenbesuchsBerichte,
Projektberichte, ...
quantitativ
qualitativ
Datenart
Nach: Meier, M., Fülleborn, A., Integration, externer Führungsinformationen ..., WI 41(1999)5, S 449 ff.
31
DW-Architektur im Überblick
LH
1993
1994
1995
1993
1994
1995
1993
1994
1995
Δ
DB
56
60
58
56
60
58
56
60
58
TUI
23
25
21
23
25
21
23
25
21
16
15
12
16
15
12
16
15
12
MOLAP
Δ
Δ
Δ
Datenquellen
Extraktion
ROLAP
Transformation
Warehouse-DB
Analyse-Schicht
Präsentation
Metadaten
Prozessmanagement
Quelle : sd&m
32
Meta-Datenverwaltung
z
Meta-Daten sind „Daten über Daten“
z Welche Daten liegen im Data Warehouse?
z In welcher Form existieren sie?
z Wer ist für die Pflege verantwortlich?
z Wann fand die letzte Aktualisierung statt?
z Welche Berichte sind vorgesehen?
33
Eigenschaften
z
z
z
z
Subjekt-orientierter Aufbau : Unternehmensdaten nach dem
Informationsbedarf des Managements
Zeitvariante Daten : Datenprotokollierung über längere Zeiträume
Nicht-flüchtige Sammlung von Daten : Aktualisierung der Datenbestände
in festgelegten Zeitabständen
Integrativer Inhalt : Verbindung entscheidungsrelevanter Daten aus
unterschiedlichen operativen Anwendungen
34
Gliederung
z
z
z
z
z
Ausgangssituation : Motiv und Hintergrund
Definition und Architektur
Operative Systeme vs Data Warehouse
OLAP und Beispiel
Data Mining
35
Vergleich : operativ vs. Data
Warehouse 1
Operative Systeme
Data Warehouse
Datenstruktur
Die Struktur operativer Systeme ist Ein Data Warehouse enthält
managementrelevante Objekte als
an der Abwicklung von
Dimension ohne in dritter
Geschäftsprozessen orientiert. Sie
Normalform vorzuliegen.
enthält keine Redundanzen
Detaillierungsgrad
Operative Systeme enthalten
detaillierte Daten
Operative Systeme enthalten
aktuelle Daten
Data Warehouses enthalten
verdichtete Daten
Zeitraumbezug
Data Warehouses bestehen aus
historischen, aktuellen und
prognostizierten Daten
36
Vergleich : operativ vs. Data
Warehouse 2
Operative Systeme
Data Warehouse
Aktualisierungszeitraum
Die Daten in einer operativen
Datenbank sind einer permanenten
Änderung unterlegen
Die Daten eines Data Warehouses
werden zu vordefinierten
Zeitpunkten durch die
Extraktionsprogramme aktualisiert
Systemlast
Die Auslastung operativer Systeme
Die Systemlast bei Data Warehouseist bekannt, insbesondere wann
Nutzung schwankt stark. Allerdings
Spitzenzeiten mit einer Vielzahl von
werden nur wenig Transaktionen
Transaktionen existieren
durchgeführt.
Verfügbarkeit
Operative Systeme haben einen
hohen Anspruch an die
Verfügbarkeit
Geringe Anforderungen an die
Verfügbarkeit.
37
Vergleich : operativ vs. Data
Warehouse 3
Laden
Einfügen
Operative Datenbank
Änderung
Data Warehouse
Löschung
Ersetzung
Daten werden auf Record-Basis
bearbeitet
Zugreifen
Daten werden ins Warehouse
geladen und dort zugegriffen.
Wenn ein „Snapshot“ gemacht
wird, verändern sich die Daten
anschließend nicht mehr.
38
Vergleich : operative vs.
Managementunterstützung
Merkmal
Operative DV-Systeme
Managementunterstützende
Systeme
Datenstruktur
flache, nicht hierarchische
Tabellen
multidimensionale Strukturen
Identifikationskriterium
eindimensional
mehrdimensional
Datenmanipulation
zeilenbezogen
sichtspezifisch
Datenmenge/
Transaktion
klein
umfangreich
Betrachtungsebene
detailliert
aggregiert
Zeithorizont
gegenwärtig
historisch, gegenwärtig,
zukünftig
39
Gliederung
z
z
z
z
z
Ausgangssituation : Motiv und Hintergrund
Definition und Architektur
Operative Systeme vs Data Warehouse
OLAP und Beispiel
Data Mining
40
12 OLAP-Regeln (nach Codd) –
Basisregeln 1
Mehrdimensionale Perspektive
Ein Bericht sollte durch „Slice und Dice“ per Mausklick
veränderbar sein
Intuitive Datenmanipulation
Einfache Navigation durch „Drill-up“, „Drill-down“ oder „Drillthrough“
Zugriffsmöglichkeiten
Ein Benutzer soll nicht wissen müssen, wo die gerade
verwendeten Daten herkommen
Datenintegration
Ein OLAP-System soll Daten in einem eigenständigen
Prozess übernehmen und ein „Drill-through“ gestatten
Client/Server Architektur
OLAP-Anwendungen werden über ein Netzwerk nach
diesem Verteilungsprinzip betrieben, um
ressourcenintensive Prozesse auf einem Server
auszuführen
41
Basisregeln 2
Unterstützung verschiedener
Analysemodelle
Categorical = historische Daten, Exegetical =
interaktive Analyse,
Contemplativ = „Wenn/dann“-Anaylse
Formulatic = formelbasierte Analyse
Mehrbenutzerfähigkeit
Es ist ein gleichzeitiger Zugriff mehrerer Benutzer
gestattet
Transparenz
Daten stammen aus integriertem Datenbestand
oder aus heterogenen externen Quellen
42
Spezielle Regeln
Trennung denormalisierter Daten
Daten in OLAP-Datenbanken werden denormalisiert
gespeichert
Trennung
OLAP-Daten sind von Produktivdaten getrennt
abzulegen
Uneingeschränkte Anzahl von
Dimensionen
OLAP-Datenbanken geben keine Einschränkung
bezüglich der Dimension vor
Null- und Fehlwerte
Da in einem Datenwürfel nicht jede Zelle gefüllt ist,
müssen leere Zellen einen Fehlwert tragen, der nicht
den Wert Null besitzt
43
Kritik
z
z
Unscharfe Trennung zwischen fachlich-konzeptionellen
Anforderungen und technischer Realisierung
Keine Klarheit, ob mehrdimensionale Datensichten ein eigenes
Datenmodell benötigen
44
Begriffe
]
OLAP = Online Analytical Processing
= “Analyse und Auswertung von multidimensional
aufbereiteten Daten, um Informationen für Unternehmensentscheidungen zu
gewinnen”
]
OLTP = Online Transaction Processing “Die operativen Geschäftsprozesse und ITSysteme eines Unternehmens“
MOLAP = Multidimensional OLAP auf Basis einer proprietären, multidimensionalen
Datenbank
]
]
]
ROLAP = Relational OLAP auf Basis einer relationalen Datenbank
Data Mart = spezielle Teildatenmenge eines DW, z.B. für eine bestimmte
Abteilung des Unternehmens, ist aufgebaut wie das DW selbst und wird auch mit
den gleichen Methoden und Tools ausgewertet.
45
OLAP-Werkzeuge
z
z
Würfel (Cube) als Synonym für OLAP-Datenbanken - 3 Dimensionen (bei 4 oder
mehr Dimensionen spricht man von sog. Hybercubes)
Individuelle Sicht auf die Daten des Würfels durch
z Pivotisierung: Daten aus verschiedenen Perspektiven nach verschiedenen
Kriterien analysieren
z Rotation: Vertauschen der Dimensionen
z Slice and Dice: herausschneiden einzelner Scheiben bzw. Betrachtung
kleinerer Teilwürfel
46
OLAP-Grundfunktionen
z
z
z
z
Slice (Schneiden): Einschränkung der Anzahl der Dimensionen
eines Würfels
Dice (Drehen): Vertauschen der Dimensionen eines Würfels und
dadurch Drehung
Drill-Down (Herunterbrechen): Verfeinerung der Dimesionen des
Würfels
Drill Through: Durchgriff auf die Daten des Ursprungssystems
47
Dimensionen und Fakten
1/3
z
Fakten entsprechen Kennzahlen, die für eine bestimmte Kombination von
Dimensionswerten Gültigkeit haben. Beispiel: „Erlös der Produktgruppe
Kühlschränke im Monat Dezember 2000 in München“
z
Eine typische Abfrage auf einem Data Warehouse-Datenbestand besteht darin,
eine oder mehrere Kennzahlen bezüglich einer bestimmten
Dimensionskombination darzustellen, wobei bzgl.
z einiger Dimensionen eingeschränkt wird
z anderer Dimensionen aufgerissen wird (Zeilen oder Spalten)
z der restlichen Dimensionen aggregiert wird
Quelle : sd&m
48
Dimensionen und Fakten
2/3
Dimensionen sind endliche Wertebereiche
z typische Dimensionen sind
z „Zeit“, einzelne Monate oder auch Kalendertage eines definierten
Zeitraums
z „Ort“, z.B. eine Postadresse
aber auch Kategorien, z.B.
z Produktgruppe: Kühlgeräte, Fernseher, ...
z Werttyp: Plan, Ist, Soll
z
Dimensionen sind häufig hierarchisch organisiert (Tag -> Monat -> Quartal ->
Jahr) und können auch noch weitere Merkmale haben (Kalenderwoche,
Wochentag, Feiertag)
Quelle : sd&m
49
Dimensionen und Fakten
3/3
z
z
z
Eine Kennzahl ist aggregierbar bezüglich einer Dimension, wenn es eine
fachlich sinnvolle (kommutative und assoziative) Aggregationsfunktion gibt
(zumeist Summe, gelegentlich auch Mittelwertbildung).
Beispiel:
z Der Umsatz einer Firma ist bezüglich der Dimensionen Zeit,
Verkaufsorganisation und Verkaufsort sinnvoll aggregierbar durch
Summenbildung.
z Der Kundenbestand ist durch Summierung zwar bezüglich der
Verkaufsorganisation aggregierbar, nicht jedoch bezüglich der
Zeitdimension; hier ist eine Mittelwertbildung sinnvoll
Entsprechend „verdichtete“ Ergebnisse heißen Aggregate. Die Abbildung der
Aggregationsfunktionen werden bei einem relationalen Data Warehouse in SQLStatements formuliert, die Berechnung leistet die Datenbank.
Quelle : sd&m
50
Beispiel
Produkt
Produkt-Nr
Filial-Nr
Dimensions-Relation
Branche
Region
Kunden-Nr
Datum
Anzahl
Umsatz
PKW
PC
Produktgruppe
Kaffee
Ost
West Nord
Region
Fahrzeuge
Elektronik
Lebensmittel
Branche
Quelle für folgende Beispiele : Prof. E. Rahm
51
Mehrdimensionale Datensicht
Hierarchische Dimensionierung
PKW
Zeit
Region
PC
Jahr
Kaffee
1Q
2Q
3Q
Fahrzeuge
Elektronik
Lebensmittel
Branche
Bundesland
Quartal
Ort
Monat
Woche
Zeit
Tag
52
Multidimensionale Daten
Fakt/Kennzahl
(z.B. Absatz)
Region
Produkt
Quartal
Dimensionen
Produkt
Region
Quartal
Absatz
Radio
Hessen
1
12000
Radio
Hessen
2
12800
Radio
Hessen
3
10400
Radio
Hessen
4
9500
Radio
Bayern
1
17300
Radio
Bayern
2
18200
Radio
Bayern
3
17900
Radio
Bayern
4
17100
53
Relational vs. Multidimensional
Bestellnr
Region
Branche
Zeit
Menge
1406
Ost
Fahrzeug
2Q
5
4123
West
Elektronik
1Q
58
PKW
7829
Nord
Fahrzeug
2Q
30
PC
5327
Ost
Lebensmittel
3Q
300
9306
Nord
Lebensmittel
1Q
25
2574
Ost
Elektronik
3Q
2
Kaffee
1Q
2Q
3Q
Fahrzeuge
Elektronik
Lebensmittel
Branche
Zeit
Relation : Untermenge des Kreuzproduktes aller Wertebereiche
Multidimensional : Kreuzprodukte aller Wertebereiche mit aggregiertem
Wert pro Kombination
54
Multidimensionale Strukturen
Unterschiedliche Ebenen der Datendarstellung
nach Informationsbedürfnis und organisatorischer Stellung
Zeit
Produkt
Ort
55
OLAP am Beispiel: Navigation
in einem 3D-Würfel
Gebietsleiter:
Alle Produkte und Monate
für ein Gebiet
Produktmanager:
Alle Gebiete und Monate
für ein Produkt
Umsatz
Produk t
Umsatz
Finanzmanager:
Alle Produkte und Gebiete
für einen Monat
Umsatz
t
e
i
b
e
G
Monat
Umsatz
Geschäftsleitung:
Alle Produkte und Gebiete
für alle Monate
Umsatz
56
Navigation in multidimensionalen
Daten
Gebiete 4
6
3 Kosten/Erlöse
Slicing
Erlös
Nord
Fracht
West
Einkaufspreis
Süd
2 Plan / Ist
Plan
Kühlgeräte
Fernseher
Videorecorder
Ist
5 Perioden
Jan
Drill Down,
Roll up
Feb
Mar
Kühlschrank
Gefrierschr.
Minibar
Dicing
1 Produktgruppen
1
4
Produkte
Quelle : sd&m
57
Multidimensionale OLAP (MOLAP)
z
z
z
z
z
z
Speicherung in multidimensionaler Datenbank (genauer Aufbau ist Geheimnis
des Herstellers) auf einem speziellen Server
Alle möglichen Aggregate sind vorberechnet!
Aufbau der multidimensionalen Datenbank (also Einladen der Grunddaten und
Berechnung der Aggregate) kann mehrere Stunden in Anspruch nehmen
insgesamt derzeit geringere Datenmengen speicherbar als beim ROLAPAnsatz
Zugriff auf den „Würfel“ ist extrem schnell, da keine Berechnungen mehr nötig.
Dafür muss der Würfel regelmäßig berechnet werden.
Werkzeuge (Server): Oracle-Express-Server, Hyperion-Essbase, Cognos
PowerPlay, u.a.
Quelle : sd&m
58
Relationales OLAP (ROLAP)
z
z
z
z
z
z
Speicherung in relationaler Datenbank (Stern- oder Snow-Flake Schema)
Die Ergebnismenge wird in der Datenbank berechnet und zum Client bzw.
Server übertragen.
Größe ist beschränkt, Würfel aber schnell modifiziert und neu erstellt
Anwender stellt die Abfragen mit grafischer Oberfläche zusammen, Tools
generieren die SQL-Zugriffe auf die Datenbank
Berechnung der Ergebnisse bei jedem Zugriff auf die Datenbank, kann je
nach Datenmenge mehrere Minuten in Anspruch nehmen
Werkzeuge (Clients): Business Objects, inSight, Crystal Info u.a
Quelle : sd&m
59
MOLAP oder ROLAP ?
z
z
MOLAP / Multidimensionale DB
+ Optimiert für den OLAP-Analyse (Zugriff auf Schichten im
multidimensionalen Würfel.)
+ Sehr schnell und Benutzerfreundlich
– Keine standardisierten Zugriffsmethoden (proprietäre Datenhaltung) und
Programmierschnittstellen
– i.A. komplexere Architektur als bei ROLAP
– Würfel müssen vorberechnet werden
ROLAP / Relationale DB
(Abbildung des mehrdimensionalen Würfels durch "Stern-Schema“)
+ Große Datenmengen möglich ( > 100 GB)
+ Gut für Standardreporting
+ offenes System
– langsam bei uneingeschränkten OLAP-Analysen
Quelle : sd&m
60
Relationale Modellierung
z
Die relationale Modellierung favorisiert zwei Vorschlaäge
z Star-Schema
z Snowflake-Schema
z
Beide berücksichtigen Fakten und Dimensionen
Star-Schema: für jede Dimension wird eine Tabelle eingerichtet. Diese
Tabellen sind nicht miteinander verknüpft, sondern stehen nur mit der
Faktentabelle über die Primärschlüssel in Beziehung.
Snowflake-Schema: normalisiertes Star-Schema, um keine redundanten
Einträge in den Dimensionstabellen zu haben; allerdings steigt die Anzahl der
Tabellenverknüpfungen über Joins
z
z
61
Star-Schema - Aufbau
z
Hauptkomponenten des Star-Schemas sind so genannten
Fakttabellen und Dimensionstabellen, wobei die
Dimensionstabellen sternförmig um die Fakttabellen mittels
Primary-Key / Foreign-Key Beziehungen angeordnet sind
62
Star-Schema - Beispiel 1
Denormalisierte Dimensionstabellen
Kunde
Zeit
Kunden-Nr
Kundenname
Beruf
Alter
Datum
Tag
Monat
Quartal
Jahr
Produkt
Produkt-Nr
Produktname
Produktgruppe
Branche
Hersteller
Farbe
Preis
Verkauf
Kunden-Nr
Produkt-Nr
Datum
Filiale
Anzahl
Umsatz
Zentrale Tabelle und eine Tabelle pro Dimension
Filialen
Filialname
Ort
Land
Region
63
Star-Schema - Beispiel 2
Zeit
Sitz
Zeit-Nr.
Q uartal-Nr.
Q uartalsname
Datum
Monat-Nr.
Monatsnam e
Tag-Nr.
W ochentag
Saison
Orts-ID
Region-Nr.
Regionalleiter
Länder-Nr.
PLZ
O rt
Kunde
Kunden-Nr.
Key Account-Nr.
Key Account-Nam e
Kundennam e
Kundentyp
Branche
Verkauf
Orts-ID
Zeit-Nr.
Kunden-Nr.
Produkt-Nr.
Um satz
Menge
Produkt
Produkt-Nr.
Produktnam e
Spartename
Spartenleiter
Produktlinien-Nr.
Produktlinie
Produktlinienleiter
Farbe
Modell-Nr.
64
Snowflake-Schema – Beispiel 1
Normalisierte Dimensionstabellen
MonatQ
Kunde
Zeit
Kunden-Nr
Kundenname
Beruf
Alter
Produkt
PGruppe
Produktgruppe
Branche
Verkauf
Kunden-Nr
Produkt-Nr
Datum
Filiale
Anzahl
Umsatz
Datum
Tag
Monat
Jahr
Filialen
Produkt-Nr
Produktname
Filialname
Produktgruppe
Ort
Hersteller
Farbe
Preis
Explizite Darstellung der Dimensionshierarchie
Monat
Quartal
OrtL
Ort
Land
LandR
Land
Region
65
Snowflake-Schema – Beispiel 2
K u n d e n a t t r ib u t e
K u n d e n -N r.
Kundennam e
K u n d e n ty p
B ra n c h e
Key Account
Kunde
K e y A c c o u n t-N r.
K e y A c c o u n t-N a m e
K u n d e n -N r.
K e y A c c o u n t-N r.
Q u a rta l
R e g io n
R e g io n -N r.
R e g i o n a l l e it e r
Land
L ä n d e r-N r.
L ä n d e r-N a m e
Lager
V erkau f
S it z
O r t s -ID
R e g io n -N r.
L ä n d e r-N r.
PLZ
PLZ
L a g e ro rt
L a g e r le ite r
O r ts -ID
Z e it-N r.
K u n d e n -N r.
P ro d u k t-N r.
U m s a tz
M enge
Q u a r t a l- N r .
Q u a rta ls n a m e
Z e it
P ro d u k t
P ro d u k t-N r.
P r o d u k tlin ie n -N r .
S p a rte n -N r.
S p a rte
S p a rte n -N r.
S p a rte n a m e
S p a rte n le ite r
M o n a t-N r.
M o n a ts n a m e
Tag
T a g -N r.
W o c h e n ta g
S a is o n
P ro d u k t
P ro d u k t-N r.
F a rb e
M o d e l l- N r .
M onat
Z e it-N r.
J a h r-N r.
Q u a r t a l- N r .
M o n a t-N r.
T a g -N r.
P r o d u k tlin ie
P r o d u k tlin ie n -N r .
P r o d u k t l i n i e n l e it e r
66
Snowflake-Schema - Aufbau
z
z
z
Das Snowflake-Schema besteht ebenfalls aus den beiden Komponenten
Faktentabelle und Dimensionstabelle. Die Dimensionstabellen werden
jedoch im Gegensatz zum Star-Schema normalisiert. Durch die
Normalisierung entstehen zusätzliche Tabellen.
Vorteil dieses Schemas ist die Vermeidung der redundanten Datenhaltung
und somit die Einsparung von Speicherplatz.
Nachteil dagegen ist die komplexere Modellstruktur und zusätzlich
notwendige Tabellen-Joins, die wiederum die Abfrage-Performance
verschlechtern
67
Gliederung
z
z
z
z
z
Ausgangssituation : Motiv und Hintergrund
Definition und Architektur
Operative Systeme vs Data Warehouse
OLAP und Beispiel
Data Mining
68
Data Mining: Motiv
69
Data Mining 1
DataMining
Miningversucht
versuchtauf
aufder
derBasis
Basisder
dervorhandenen
vorhandenenDaten
Dateneine
eine
Data
Mustererkennung,Segmentierung
Segmentierungund
undFaktorenanalyse,
Faktorenanalyse,um
umdie
die
Mustererkennung,
Faktorenzu
zuidentifizieren,
identifizieren,die
diesignifikanten
signifikantenEinfluss
Einflussauf
aufdie
dieKenngrößen
Kenngrößen
Faktoren
desUnternehmens
Unternehmensbesitzen.
besitzen.
des
FürErfolgsindikatoren
Erfolgsindikatorenwie
wieRentabilität,
Rentabilität,Marktanteil
Marktanteiloder
oderKundenbindung
Kundenbindung
Für
wirdanalysiert,
analysiert,welche
welcheKräfte
Kräftediese
diesebeeinflussen,
beeinflussen,so
sodass
dassein
ein
wird
vollständigesBild
Bildder
derUrsache-Wirkung-Beziehungen
Ursache-Wirkung-Beziehungenentsteht.
entsteht.
vollständiges
70
Data Mining 2
DataMining
Miningbezeichnet
bezeichneteinen
einenmehrstufigen
mehrstufigenProzess,
Prozess,inindem
dembisher
bisher
Data
unbekannteaber
aberwichtige
wichtigeZusammenhänge,
Zusammenhänge,Muster
Musterund
undTrends
Trendsdurch
durch
unbekannte
gezieltesAufbereiten
Aufbereitenund
undAuswerten
Auswertengroßer
großerDatenmengen
Datenmengenentdeckt
entdeckt
gezieltes
werden.
werden.
71
Data-Mining-Verfahren
z
z
Musterkennung
z Clusteranalyse
z Segmentierung
Musterbeschreibung
z Statistische Verfahren
z Assoziation - Warenkorbanalyse
72
Data Mining : Nutzung HypothesenTesting
Wie läuft die
Produktion
Berichten,
veröffentlichen
verteilen &
durchsehen
Wie entwickelt
sich meine
Abteilung ?
Entdecken
Wo steht aktuell
VB Maier ?
Soll ich den Vertrieb
unterstützen ?
Leistungsbemessung
Welche Abhängigkeiten zwischen
Produkten gibt es ?
Ad-hocAnfragen
Analyse
Verifizieren
Erkennen von
Zusammenhängen
73
Zusammenfassung
z
z
Problem : Integration heterogener Datenbestände und Bereinigung der
Primärdaten
Anforderungen
z Große Datenvolumina
z Multidimensionale Auswertung
z Temporäre Anfragen
z Notwendigkeit neuer Aggregate
z Spezielle Indexstrukturen
z Parallele Anfrageverarbeitung
z
z
http://www.dfki.de/~damit/DMC2003/index.html
http://www.cognos1.de/app/841/powerplay.jsp#
74
Web-Links
]
]
]
]
http://www.datawarehousing.com/
http://www.rkimball.com
http://www.olapcouncil.org
http://www.informationweek.de/
]
]
http://www.dwinfocenter.org/
http://www.dw-institute.com/
]
]
http://www.olapreport.com/
Marktanalysen.
http://www.dmreview.com/
]
http://www.olapinfo.de/index.html
Data Warehousing on the WWW
Ralph Kimballs Homepage
OLAP Council
Die Informationweek besitzt einen sehr
interessanten Data Warehousing-Bereich
The Data Warehousing Information
Center
Data Warehouse Institute: Hier gibt es
eine gute Sammlung von technischen
Whitepapers von verschiedenen Tool- Anbieter
The OLAP Report: Interessante und hilfreiche
Echte Fundgrube für Whitepapers,
Produktbesprechungen und Auflistung
von Anbietern für Spezialthemen.
Whitepapers und ausführliche Produktbeschreibung vieler OLAP-Werkzeuge.
75
76