Data Warehouse
Transcription
Data Warehouse
Data Warehouse Prof. Dr. W. Riggert Gliederung z z z z z Ausgangssituation : Motiv und Hintergrund Definition und Architektur Operative Systeme vs Data Warehouse OLAP und Beispiel Data Mining 2 Motiv Marktentwicklungen und Wettbewerb zwingen zu - kürzeren Entscheidungsprozessen - besserer Entscheidungsunterstützung durch Information - flacheren Strukturen - Business Process Reengineering Data Warehouse Technische Entwicklungen ermöglichen bessere Lösungen - starke Endbenutzerwerkzeuge - Client-Server Technologie - preisgünstige Hard- und Software Quelle : Software AG 3 Motiv Könnten Sie mir schnell das wichtigste auf einer Seite zusammenfassen ? 4 Ursache z Flut nicht relevanter Informationen erschwert das Herausfiltern entscheidungsbedeutender Informationen: z Im WWW findet keine Selektion statt z E-Mail-Verkehr steigt exponentiell z Moderne Informations- und Kommunikationstechnologien sind Wegbereiter der Datenflut, da Speicherkapazität keine limitierende Ressource darstellt 5 Hintergrund Hinter den Daten transaktionsorientierter Anwendungen verbergen sich wichtige Informationen, z.B. Aussagen über : ] Kaufverhalten ] Kundenwünsche ] Markttrends ] Qualitätssituation ] Geschäftsperformance ] Wettbewerber 6 Ist-Situation ] ] ] ] ] Die Daten sind in zu vielen Datenbanken verstreut und nicht vergleichbar. (Datumsformate, Währungen, etc.) Es gibt keinen zentralen Ort zur Speicherung externer Zahlen (z.B. Marktforschungen oder Daten über Konkurrenten.) Auf die vorhandenen Datenbanken ist Zugriff nur bedingt möglich. Es fällt schwer, aus den vorhandenen Systemen geeignete Daten zu extrahieren. Extraktion liegt in der Hand der SQL-Kenner. 7 Gliederung z z z z z Ausgangssituation : Motiv und Hintergrund Definition und Architektur Operative Systeme vs Data Warehouse OLAP und Beispiel Data Mining 8 Ziele Zusammenführung (Integration) und Verdichtung (Aggregation) von Daten aus mehreren heterogenen Quellen in einer zentralen Datenbank 9 Definition : Annäherung ] ] Nicht jede Datensammlung ist ein Data Warehouse! Ein Data Warehouse (DW) ist ein „Datenlager“, das nach einem bestimmten Konzept strukturiert ist, um flexible und schnelle Auswertungen zu ermöglichen 10 Definition - exakt 1 "Ein Data Warehouse ist eine ] Themenorientiert Die Daten werden nach dem betriebswirtschaftlichen Umfeld des Unternehmens organisiert. "Alles über Kunden, Produkte oder ..." ] Zeitorientiert Daten eines Data Warehouses werden langfristig gespeichert. Jedes Data Warehouse beinhaltet auch die Dimension Zeit. Periodische Ergänzung um aktuelle Daten, u.U. Verdichtung älterer Informationen 11 Definition - exakt 2 ] ] integriert Das Data Warehouse wird aus einer Vielzahl interner wie externer Datenquellen bewirtschaftet. Dabei spielt die Datenqualität eine wesentliche Rolle. Zusammenführung und Konsolidierung verteilter Daten Unveränderlich Die Daten werden persistent gespeichert. Daten sind nur lesbar. Datensammlung für Managemententscheidungen." (W.H. Inmon, "Building the Data Warehouse") 12 Data Warehouse Merkmale z z z z Themenorientierung: Data Warehouses befriedigen den Informationsbedarf bezüglich Sachverhalten, die das Handeln des Unternehmens bestimmen Integration: Data Warehouses vereinheitlichen die Daten der Vorsysteme: z Anpassung an Datenformate z Vereinheitlichung von Datumsfeldern z Umrechnung von Werteinheiten z Währungsumrechnungen Beständigkeit: Die im Data Warehouse abgelegten Daten werden nicht mehr verändert – nur Lese-Zugriff Zeitraumbezug: Data Warehouses beinhalten zeitraumbezogene, historisierte Daten 13 Merkmale BestimmendeMerkmale: Merkmale: Bestimmende Vereinheitlichung:aus ausverschiedenen verschiedenenDatenbeständen Datenbeständeninineine eine Vereinheitlichung: homogeneDatenwelt Datenweltzusammengeführt zusammengeführt homogene Themenausrichtung:auf aufdie dieInformationsbedürfnisse Informationsbedürfnissedes des Themenausrichtung: Anwendersausgerichtet ausgerichtet Anwenders Zeitorientierung:Einbeziehung Einbeziehungvon vonhistorischen historischenWerten Werten(aber (aber Zeitorientierung: auchvon vonPlanzahlen) Planzahlen) auch Dauerhaftigkeit:jederzeitige jederzeitigeWiederholbarkeit Wiederholbarkeiteiner einerAbfrage Abfrage Dauerhaftigkeit: 14 Data Warehouse Einordnung 15 Data Warehouse Architektur Data Marts (DM) Endbenutzeranalysen ASCII Staging Area Clients Core DWH Host Relat. DB […] Extraktion Transformation Aggregation Analyse Metadaten-Management Quelle : Diplomarbeit Herrera 16 Data Warehouse Anforderungen 1 z z z Das Data Warehouse bietet einen Zugang zu allen relevanten Daten des Unternehmens. Die Daten eines Data Warehouses sind konsistent, d.h. frei von logischen Widersprüchen Daten im Data Warehouse können nach jeder beliebigen und möglichen betrieblichen Kennzahl getrennt und kombiniert werden 17 Data Warehouse Anforderungen 2 z z z Das Data Warehouse besteht nicht nur aus Daten. Zum Gesamtsystem gehören auch verschiedene Tools um die Daten abzufragen, analysieren und darzustellen Das Veröffentlichen der Daten ist die Kernaufgabe des Data Warehouses. Die Daten werden an einem zentralen Ort gesammelt, sorgfältig transformiert und qualitätsgesichert Das Data Warehouse kann keine mangelhafte Datenqualität beheben. 18 Data Warehouse Ziele z Ein Data Warehouse z führt Daten aus unterschiedlichen internen und externen Quellen zusammen, um mit Abfrage- und Analysewerkzeugen neue Informationen zu gewinnen z besitzt eine eigenen physische Datenhaltung, um operative Anwendungen nicht zu beeinträchtigen z nutzt sämtliche Datenformate: relationale Daten, unstrukturierten Text, Fotos, Videos z beinhaltet aggregierte Daten über einen längeren Zeitraum 19 Data Mart Ein Data Mart ist eine logische und physikalische Teilmenge eines Data Warehouse mit subjekt- oder abteilungsspezifischem Charakter Dabei ist es nicht erforderlich, die Daten unmittelbar aus dem Data Warehouse zu laden, sondern eine Übernahme direkt aus den operativen Daten ist möglich. 20 Data Mart Eigenschaften z z Data Marts sind abteilungs- oder themenbezogene Datenbanken, die eine Untermenge der im zentralen Data Warehouse gespeicherten operativen Daten enthalten Data Marts werden eingeführt, um die Systemleistung bei Datenabfragen zu verbessern und die Abhängigkeit von unternehmensweiten Warehouse-Daten zu verringern. 21 Data-Mart Architektur Data Marts (DM) EndbenutzerAnalysen ASCII Clients Staging Area Host Relat.DB […] Extraktion Transformation Aggregation Analyse Metadaten-Management Quelle : Diplomarbeit Herrera 22 Datenübernahme: ETL-Prozess Die Datenübernahme ist ein dreistufiger Prozess: z Extraktion: Selektion der Daten aus den Quellen und Ablage in einen Zwischenspeicher. Arten: z Periodische Extraktion z Extraktion auf Anfrage z Ereignisgesteuerte Extraktion z Transformation: Beseitigung von Qualitätsmängeln der Daten aufgrund z Inkorrekter Daten z Inkonsistenter Daten z Unvollständiger Daten z Doppelter Daten z Veralteter Daten z Irrelevanter Daten 23 Transformation z Die Qualität wird durch mehrere Maßnahmen gesichert: z Bereinigung durch Ausgleich syntaktischer und semantischer Mängel z Harmonisierung durch die Vereinheitlichung unterschiedlicher Codierungen; z.B. m/w oder 0/1 und Blank für Unternehmen z Verdichtung durch Aggregation auf verschiedenen Stufen z Anreicherung durch weitere Kennzahlen 24 Transformation: Konflikte bei der Datenintegration z z z z Semantische Konflikte: In zwei Datenquellen wird das gleiche Objekt mit unterschiedlichen Attributen beschrieben Beschreibungskonflikte: für Attribute der selben Objekte werden synonyme Bezeichnungen, verschiedenen Datentypen, Wertebereiche oder unterschiedliche Maßeinheiten verwendet Falsche Daten: Eingabefehler oder veraltete Daten Unterschiedliche Repräsentation: gleicher semantischer Sachverhalt wird unterschiedlich abgebildet: Schulnote als 1 bis 6 oder als sehr gut bis unzureichend 25 Transformation: Konfliktbereinigung z z z z Konvertierungs- und Normalisierungsfunktionen: Zurückführung unterschiedlicher Einheiten auf einen festgelegten Standard Domänenspezifische Bereinigung: Korrektur der Daten durch Hintergrundwissen aus dem Fachgebiet, z.B. Adressdaten Domänenunabhängige Bereinigung: Zusammenführung unterschiedlicher Datenmodelle durch Prüfung von Ähnlichkeiten bezüglich der Objekte, z.B. entspricht die Bestellnummer in Schema 1 derjenigen in Schema 2 mit einer gewissen Wahrscheinlichkeit Regelbasierte Bereinigung: automatische, programmgestützte Anpassung von Objekten 26 Laden Die Übernahme der Daten unterscheidet zwei Ausprägungen: z Initiales Füllen z Zyklische Aktualisierung: z Komplette Datenübernahme bei jedem Zyklus z Übernahme jeweiliger Änderungen – inkrementell z Auswahl protokollierter Daten 27 Laden: Aktualisierung z Vollständige Aktualisierung - Full Refresh. Der gesamte Datenbestand der operativen Quellen wird geladen z Inkrementelle Aktualisierung - Incremental Refresh Nur die Änderungen der operativen Daten werden geladen. Dabei entstehen zwei Probleme : z Erkennen und Identifizieren der Änderungen z Einarbeitung der Änderungen in den Datenbestand unter Berücksichtigung historischer Bestände. 28 Laden: Aktualisierung 2 z Wie aktuell müssen die bereitgestellten Daten sein ? Daten des Vormonates, der vergangenen Woche oder von gestern ? z In welcher Aggregationsform sollen die Daten vorliegen ? Von Interesse sind keine einzelnen Aktivitäten, sondern zusammengefasste Vorgänge. 29 ETL: Interne/Externe Datenquellen Einkauf Vertrieb Lager/Bestände Personal Interne Informationsressourcen Finanzen Berichte Analysen, Trends ? Data Warehouse Externe Informationsressourcen Kunden Lieferanten Markt Wettbewerb 30 ETL: Datenquellen und -arten sammeln, filtern, bewerten Operative Verfahren bereinigen, strukturieren, ergänzen Datenquelle intern extern Online DatenBanken / Internet Marktvolumen, Marktanteile, VerbrauchsKennzahlen, ... PresseMeldungen, Patente, Gutachten,... Auftragseingang, Umsatz, Kosten Deckungsbeitrag, Produktivität, ... KundenbesuchsBerichte, Projektberichte, ... quantitativ qualitativ Datenart Nach: Meier, M., Fülleborn, A., Integration, externer Führungsinformationen ..., WI 41(1999)5, S 449 ff. 31 DW-Architektur im Überblick LH 1993 1994 1995 1993 1994 1995 1993 1994 1995 Δ DB 56 60 58 56 60 58 56 60 58 TUI 23 25 21 23 25 21 23 25 21 16 15 12 16 15 12 16 15 12 MOLAP Δ Δ Δ Datenquellen Extraktion ROLAP Transformation Warehouse-DB Analyse-Schicht Präsentation Metadaten Prozessmanagement Quelle : sd&m 32 Meta-Datenverwaltung z Meta-Daten sind „Daten über Daten“ z Welche Daten liegen im Data Warehouse? z In welcher Form existieren sie? z Wer ist für die Pflege verantwortlich? z Wann fand die letzte Aktualisierung statt? z Welche Berichte sind vorgesehen? 33 Eigenschaften z z z z Subjekt-orientierter Aufbau : Unternehmensdaten nach dem Informationsbedarf des Managements Zeitvariante Daten : Datenprotokollierung über längere Zeiträume Nicht-flüchtige Sammlung von Daten : Aktualisierung der Datenbestände in festgelegten Zeitabständen Integrativer Inhalt : Verbindung entscheidungsrelevanter Daten aus unterschiedlichen operativen Anwendungen 34 Gliederung z z z z z Ausgangssituation : Motiv und Hintergrund Definition und Architektur Operative Systeme vs Data Warehouse OLAP und Beispiel Data Mining 35 Vergleich : operativ vs. Data Warehouse 1 Operative Systeme Data Warehouse Datenstruktur Die Struktur operativer Systeme ist Ein Data Warehouse enthält managementrelevante Objekte als an der Abwicklung von Dimension ohne in dritter Geschäftsprozessen orientiert. Sie Normalform vorzuliegen. enthält keine Redundanzen Detaillierungsgrad Operative Systeme enthalten detaillierte Daten Operative Systeme enthalten aktuelle Daten Data Warehouses enthalten verdichtete Daten Zeitraumbezug Data Warehouses bestehen aus historischen, aktuellen und prognostizierten Daten 36 Vergleich : operativ vs. Data Warehouse 2 Operative Systeme Data Warehouse Aktualisierungszeitraum Die Daten in einer operativen Datenbank sind einer permanenten Änderung unterlegen Die Daten eines Data Warehouses werden zu vordefinierten Zeitpunkten durch die Extraktionsprogramme aktualisiert Systemlast Die Auslastung operativer Systeme Die Systemlast bei Data Warehouseist bekannt, insbesondere wann Nutzung schwankt stark. Allerdings Spitzenzeiten mit einer Vielzahl von werden nur wenig Transaktionen Transaktionen existieren durchgeführt. Verfügbarkeit Operative Systeme haben einen hohen Anspruch an die Verfügbarkeit Geringe Anforderungen an die Verfügbarkeit. 37 Vergleich : operativ vs. Data Warehouse 3 Laden Einfügen Operative Datenbank Änderung Data Warehouse Löschung Ersetzung Daten werden auf Record-Basis bearbeitet Zugreifen Daten werden ins Warehouse geladen und dort zugegriffen. Wenn ein „Snapshot“ gemacht wird, verändern sich die Daten anschließend nicht mehr. 38 Vergleich : operative vs. Managementunterstützung Merkmal Operative DV-Systeme Managementunterstützende Systeme Datenstruktur flache, nicht hierarchische Tabellen multidimensionale Strukturen Identifikationskriterium eindimensional mehrdimensional Datenmanipulation zeilenbezogen sichtspezifisch Datenmenge/ Transaktion klein umfangreich Betrachtungsebene detailliert aggregiert Zeithorizont gegenwärtig historisch, gegenwärtig, zukünftig 39 Gliederung z z z z z Ausgangssituation : Motiv und Hintergrund Definition und Architektur Operative Systeme vs Data Warehouse OLAP und Beispiel Data Mining 40 12 OLAP-Regeln (nach Codd) – Basisregeln 1 Mehrdimensionale Perspektive Ein Bericht sollte durch „Slice und Dice“ per Mausklick veränderbar sein Intuitive Datenmanipulation Einfache Navigation durch „Drill-up“, „Drill-down“ oder „Drillthrough“ Zugriffsmöglichkeiten Ein Benutzer soll nicht wissen müssen, wo die gerade verwendeten Daten herkommen Datenintegration Ein OLAP-System soll Daten in einem eigenständigen Prozess übernehmen und ein „Drill-through“ gestatten Client/Server Architektur OLAP-Anwendungen werden über ein Netzwerk nach diesem Verteilungsprinzip betrieben, um ressourcenintensive Prozesse auf einem Server auszuführen 41 Basisregeln 2 Unterstützung verschiedener Analysemodelle Categorical = historische Daten, Exegetical = interaktive Analyse, Contemplativ = „Wenn/dann“-Anaylse Formulatic = formelbasierte Analyse Mehrbenutzerfähigkeit Es ist ein gleichzeitiger Zugriff mehrerer Benutzer gestattet Transparenz Daten stammen aus integriertem Datenbestand oder aus heterogenen externen Quellen 42 Spezielle Regeln Trennung denormalisierter Daten Daten in OLAP-Datenbanken werden denormalisiert gespeichert Trennung OLAP-Daten sind von Produktivdaten getrennt abzulegen Uneingeschränkte Anzahl von Dimensionen OLAP-Datenbanken geben keine Einschränkung bezüglich der Dimension vor Null- und Fehlwerte Da in einem Datenwürfel nicht jede Zelle gefüllt ist, müssen leere Zellen einen Fehlwert tragen, der nicht den Wert Null besitzt 43 Kritik z z Unscharfe Trennung zwischen fachlich-konzeptionellen Anforderungen und technischer Realisierung Keine Klarheit, ob mehrdimensionale Datensichten ein eigenes Datenmodell benötigen 44 Begriffe ] OLAP = Online Analytical Processing = “Analyse und Auswertung von multidimensional aufbereiteten Daten, um Informationen für Unternehmensentscheidungen zu gewinnen” ] OLTP = Online Transaction Processing “Die operativen Geschäftsprozesse und ITSysteme eines Unternehmens“ MOLAP = Multidimensional OLAP auf Basis einer proprietären, multidimensionalen Datenbank ] ] ] ROLAP = Relational OLAP auf Basis einer relationalen Datenbank Data Mart = spezielle Teildatenmenge eines DW, z.B. für eine bestimmte Abteilung des Unternehmens, ist aufgebaut wie das DW selbst und wird auch mit den gleichen Methoden und Tools ausgewertet. 45 OLAP-Werkzeuge z z Würfel (Cube) als Synonym für OLAP-Datenbanken - 3 Dimensionen (bei 4 oder mehr Dimensionen spricht man von sog. Hybercubes) Individuelle Sicht auf die Daten des Würfels durch z Pivotisierung: Daten aus verschiedenen Perspektiven nach verschiedenen Kriterien analysieren z Rotation: Vertauschen der Dimensionen z Slice and Dice: herausschneiden einzelner Scheiben bzw. Betrachtung kleinerer Teilwürfel 46 OLAP-Grundfunktionen z z z z Slice (Schneiden): Einschränkung der Anzahl der Dimensionen eines Würfels Dice (Drehen): Vertauschen der Dimensionen eines Würfels und dadurch Drehung Drill-Down (Herunterbrechen): Verfeinerung der Dimesionen des Würfels Drill Through: Durchgriff auf die Daten des Ursprungssystems 47 Dimensionen und Fakten 1/3 z Fakten entsprechen Kennzahlen, die für eine bestimmte Kombination von Dimensionswerten Gültigkeit haben. Beispiel: „Erlös der Produktgruppe Kühlschränke im Monat Dezember 2000 in München“ z Eine typische Abfrage auf einem Data Warehouse-Datenbestand besteht darin, eine oder mehrere Kennzahlen bezüglich einer bestimmten Dimensionskombination darzustellen, wobei bzgl. z einiger Dimensionen eingeschränkt wird z anderer Dimensionen aufgerissen wird (Zeilen oder Spalten) z der restlichen Dimensionen aggregiert wird Quelle : sd&m 48 Dimensionen und Fakten 2/3 Dimensionen sind endliche Wertebereiche z typische Dimensionen sind z „Zeit“, einzelne Monate oder auch Kalendertage eines definierten Zeitraums z „Ort“, z.B. eine Postadresse aber auch Kategorien, z.B. z Produktgruppe: Kühlgeräte, Fernseher, ... z Werttyp: Plan, Ist, Soll z Dimensionen sind häufig hierarchisch organisiert (Tag -> Monat -> Quartal -> Jahr) und können auch noch weitere Merkmale haben (Kalenderwoche, Wochentag, Feiertag) Quelle : sd&m 49 Dimensionen und Fakten 3/3 z z z Eine Kennzahl ist aggregierbar bezüglich einer Dimension, wenn es eine fachlich sinnvolle (kommutative und assoziative) Aggregationsfunktion gibt (zumeist Summe, gelegentlich auch Mittelwertbildung). Beispiel: z Der Umsatz einer Firma ist bezüglich der Dimensionen Zeit, Verkaufsorganisation und Verkaufsort sinnvoll aggregierbar durch Summenbildung. z Der Kundenbestand ist durch Summierung zwar bezüglich der Verkaufsorganisation aggregierbar, nicht jedoch bezüglich der Zeitdimension; hier ist eine Mittelwertbildung sinnvoll Entsprechend „verdichtete“ Ergebnisse heißen Aggregate. Die Abbildung der Aggregationsfunktionen werden bei einem relationalen Data Warehouse in SQLStatements formuliert, die Berechnung leistet die Datenbank. Quelle : sd&m 50 Beispiel Produkt Produkt-Nr Filial-Nr Dimensions-Relation Branche Region Kunden-Nr Datum Anzahl Umsatz PKW PC Produktgruppe Kaffee Ost West Nord Region Fahrzeuge Elektronik Lebensmittel Branche Quelle für folgende Beispiele : Prof. E. Rahm 51 Mehrdimensionale Datensicht Hierarchische Dimensionierung PKW Zeit Region PC Jahr Kaffee 1Q 2Q 3Q Fahrzeuge Elektronik Lebensmittel Branche Bundesland Quartal Ort Monat Woche Zeit Tag 52 Multidimensionale Daten Fakt/Kennzahl (z.B. Absatz) Region Produkt Quartal Dimensionen Produkt Region Quartal Absatz Radio Hessen 1 12000 Radio Hessen 2 12800 Radio Hessen 3 10400 Radio Hessen 4 9500 Radio Bayern 1 17300 Radio Bayern 2 18200 Radio Bayern 3 17900 Radio Bayern 4 17100 53 Relational vs. Multidimensional Bestellnr Region Branche Zeit Menge 1406 Ost Fahrzeug 2Q 5 4123 West Elektronik 1Q 58 PKW 7829 Nord Fahrzeug 2Q 30 PC 5327 Ost Lebensmittel 3Q 300 9306 Nord Lebensmittel 1Q 25 2574 Ost Elektronik 3Q 2 Kaffee 1Q 2Q 3Q Fahrzeuge Elektronik Lebensmittel Branche Zeit Relation : Untermenge des Kreuzproduktes aller Wertebereiche Multidimensional : Kreuzprodukte aller Wertebereiche mit aggregiertem Wert pro Kombination 54 Multidimensionale Strukturen Unterschiedliche Ebenen der Datendarstellung nach Informationsbedürfnis und organisatorischer Stellung Zeit Produkt Ort 55 OLAP am Beispiel: Navigation in einem 3D-Würfel Gebietsleiter: Alle Produkte und Monate für ein Gebiet Produktmanager: Alle Gebiete und Monate für ein Produkt Umsatz Produk t Umsatz Finanzmanager: Alle Produkte und Gebiete für einen Monat Umsatz t e i b e G Monat Umsatz Geschäftsleitung: Alle Produkte und Gebiete für alle Monate Umsatz 56 Navigation in multidimensionalen Daten Gebiete 4 6 3 Kosten/Erlöse Slicing Erlös Nord Fracht West Einkaufspreis Süd 2 Plan / Ist Plan Kühlgeräte Fernseher Videorecorder Ist 5 Perioden Jan Drill Down, Roll up Feb Mar Kühlschrank Gefrierschr. Minibar Dicing 1 Produktgruppen 1 4 Produkte Quelle : sd&m 57 Multidimensionale OLAP (MOLAP) z z z z z z Speicherung in multidimensionaler Datenbank (genauer Aufbau ist Geheimnis des Herstellers) auf einem speziellen Server Alle möglichen Aggregate sind vorberechnet! Aufbau der multidimensionalen Datenbank (also Einladen der Grunddaten und Berechnung der Aggregate) kann mehrere Stunden in Anspruch nehmen insgesamt derzeit geringere Datenmengen speicherbar als beim ROLAPAnsatz Zugriff auf den „Würfel“ ist extrem schnell, da keine Berechnungen mehr nötig. Dafür muss der Würfel regelmäßig berechnet werden. Werkzeuge (Server): Oracle-Express-Server, Hyperion-Essbase, Cognos PowerPlay, u.a. Quelle : sd&m 58 Relationales OLAP (ROLAP) z z z z z z Speicherung in relationaler Datenbank (Stern- oder Snow-Flake Schema) Die Ergebnismenge wird in der Datenbank berechnet und zum Client bzw. Server übertragen. Größe ist beschränkt, Würfel aber schnell modifiziert und neu erstellt Anwender stellt die Abfragen mit grafischer Oberfläche zusammen, Tools generieren die SQL-Zugriffe auf die Datenbank Berechnung der Ergebnisse bei jedem Zugriff auf die Datenbank, kann je nach Datenmenge mehrere Minuten in Anspruch nehmen Werkzeuge (Clients): Business Objects, inSight, Crystal Info u.a Quelle : sd&m 59 MOLAP oder ROLAP ? z z MOLAP / Multidimensionale DB + Optimiert für den OLAP-Analyse (Zugriff auf Schichten im multidimensionalen Würfel.) + Sehr schnell und Benutzerfreundlich – Keine standardisierten Zugriffsmethoden (proprietäre Datenhaltung) und Programmierschnittstellen – i.A. komplexere Architektur als bei ROLAP – Würfel müssen vorberechnet werden ROLAP / Relationale DB (Abbildung des mehrdimensionalen Würfels durch "Stern-Schema“) + Große Datenmengen möglich ( > 100 GB) + Gut für Standardreporting + offenes System – langsam bei uneingeschränkten OLAP-Analysen Quelle : sd&m 60 Relationale Modellierung z Die relationale Modellierung favorisiert zwei Vorschlaäge z Star-Schema z Snowflake-Schema z Beide berücksichtigen Fakten und Dimensionen Star-Schema: für jede Dimension wird eine Tabelle eingerichtet. Diese Tabellen sind nicht miteinander verknüpft, sondern stehen nur mit der Faktentabelle über die Primärschlüssel in Beziehung. Snowflake-Schema: normalisiertes Star-Schema, um keine redundanten Einträge in den Dimensionstabellen zu haben; allerdings steigt die Anzahl der Tabellenverknüpfungen über Joins z z 61 Star-Schema - Aufbau z Hauptkomponenten des Star-Schemas sind so genannten Fakttabellen und Dimensionstabellen, wobei die Dimensionstabellen sternförmig um die Fakttabellen mittels Primary-Key / Foreign-Key Beziehungen angeordnet sind 62 Star-Schema - Beispiel 1 Denormalisierte Dimensionstabellen Kunde Zeit Kunden-Nr Kundenname Beruf Alter Datum Tag Monat Quartal Jahr Produkt Produkt-Nr Produktname Produktgruppe Branche Hersteller Farbe Preis Verkauf Kunden-Nr Produkt-Nr Datum Filiale Anzahl Umsatz Zentrale Tabelle und eine Tabelle pro Dimension Filialen Filialname Ort Land Region 63 Star-Schema - Beispiel 2 Zeit Sitz Zeit-Nr. Q uartal-Nr. Q uartalsname Datum Monat-Nr. Monatsnam e Tag-Nr. W ochentag Saison Orts-ID Region-Nr. Regionalleiter Länder-Nr. PLZ O rt Kunde Kunden-Nr. Key Account-Nr. Key Account-Nam e Kundennam e Kundentyp Branche Verkauf Orts-ID Zeit-Nr. Kunden-Nr. Produkt-Nr. Um satz Menge Produkt Produkt-Nr. Produktnam e Spartename Spartenleiter Produktlinien-Nr. Produktlinie Produktlinienleiter Farbe Modell-Nr. 64 Snowflake-Schema – Beispiel 1 Normalisierte Dimensionstabellen MonatQ Kunde Zeit Kunden-Nr Kundenname Beruf Alter Produkt PGruppe Produktgruppe Branche Verkauf Kunden-Nr Produkt-Nr Datum Filiale Anzahl Umsatz Datum Tag Monat Jahr Filialen Produkt-Nr Produktname Filialname Produktgruppe Ort Hersteller Farbe Preis Explizite Darstellung der Dimensionshierarchie Monat Quartal OrtL Ort Land LandR Land Region 65 Snowflake-Schema – Beispiel 2 K u n d e n a t t r ib u t e K u n d e n -N r. Kundennam e K u n d e n ty p B ra n c h e Key Account Kunde K e y A c c o u n t-N r. K e y A c c o u n t-N a m e K u n d e n -N r. K e y A c c o u n t-N r. Q u a rta l R e g io n R e g io n -N r. R e g i o n a l l e it e r Land L ä n d e r-N r. L ä n d e r-N a m e Lager V erkau f S it z O r t s -ID R e g io n -N r. L ä n d e r-N r. PLZ PLZ L a g e ro rt L a g e r le ite r O r ts -ID Z e it-N r. K u n d e n -N r. P ro d u k t-N r. U m s a tz M enge Q u a r t a l- N r . Q u a rta ls n a m e Z e it P ro d u k t P ro d u k t-N r. P r o d u k tlin ie n -N r . S p a rte n -N r. S p a rte S p a rte n -N r. S p a rte n a m e S p a rte n le ite r M o n a t-N r. M o n a ts n a m e Tag T a g -N r. W o c h e n ta g S a is o n P ro d u k t P ro d u k t-N r. F a rb e M o d e l l- N r . M onat Z e it-N r. J a h r-N r. Q u a r t a l- N r . M o n a t-N r. T a g -N r. P r o d u k tlin ie P r o d u k tlin ie n -N r . P r o d u k t l i n i e n l e it e r 66 Snowflake-Schema - Aufbau z z z Das Snowflake-Schema besteht ebenfalls aus den beiden Komponenten Faktentabelle und Dimensionstabelle. Die Dimensionstabellen werden jedoch im Gegensatz zum Star-Schema normalisiert. Durch die Normalisierung entstehen zusätzliche Tabellen. Vorteil dieses Schemas ist die Vermeidung der redundanten Datenhaltung und somit die Einsparung von Speicherplatz. Nachteil dagegen ist die komplexere Modellstruktur und zusätzlich notwendige Tabellen-Joins, die wiederum die Abfrage-Performance verschlechtern 67 Gliederung z z z z z Ausgangssituation : Motiv und Hintergrund Definition und Architektur Operative Systeme vs Data Warehouse OLAP und Beispiel Data Mining 68 Data Mining: Motiv 69 Data Mining 1 DataMining Miningversucht versuchtauf aufder derBasis Basisder dervorhandenen vorhandenenDaten Dateneine eine Data Mustererkennung,Segmentierung Segmentierungund undFaktorenanalyse, Faktorenanalyse,um umdie die Mustererkennung, Faktorenzu zuidentifizieren, identifizieren,die diesignifikanten signifikantenEinfluss Einflussauf aufdie dieKenngrößen Kenngrößen Faktoren desUnternehmens Unternehmensbesitzen. besitzen. des FürErfolgsindikatoren Erfolgsindikatorenwie wieRentabilität, Rentabilität,Marktanteil Marktanteiloder oderKundenbindung Kundenbindung Für wirdanalysiert, analysiert,welche welcheKräfte Kräftediese diesebeeinflussen, beeinflussen,so sodass dassein ein wird vollständigesBild Bildder derUrsache-Wirkung-Beziehungen Ursache-Wirkung-Beziehungenentsteht. entsteht. vollständiges 70 Data Mining 2 DataMining Miningbezeichnet bezeichneteinen einenmehrstufigen mehrstufigenProzess, Prozess,inindem dembisher bisher Data unbekannteaber aberwichtige wichtigeZusammenhänge, Zusammenhänge,Muster Musterund undTrends Trendsdurch durch unbekannte gezieltesAufbereiten Aufbereitenund undAuswerten Auswertengroßer großerDatenmengen Datenmengenentdeckt entdeckt gezieltes werden. werden. 71 Data-Mining-Verfahren z z Musterkennung z Clusteranalyse z Segmentierung Musterbeschreibung z Statistische Verfahren z Assoziation - Warenkorbanalyse 72 Data Mining : Nutzung HypothesenTesting Wie läuft die Produktion Berichten, veröffentlichen verteilen & durchsehen Wie entwickelt sich meine Abteilung ? Entdecken Wo steht aktuell VB Maier ? Soll ich den Vertrieb unterstützen ? Leistungsbemessung Welche Abhängigkeiten zwischen Produkten gibt es ? Ad-hocAnfragen Analyse Verifizieren Erkennen von Zusammenhängen 73 Zusammenfassung z z Problem : Integration heterogener Datenbestände und Bereinigung der Primärdaten Anforderungen z Große Datenvolumina z Multidimensionale Auswertung z Temporäre Anfragen z Notwendigkeit neuer Aggregate z Spezielle Indexstrukturen z Parallele Anfrageverarbeitung z z http://www.dfki.de/~damit/DMC2003/index.html http://www.cognos1.de/app/841/powerplay.jsp# 74 Web-Links ] ] ] ] http://www.datawarehousing.com/ http://www.rkimball.com http://www.olapcouncil.org http://www.informationweek.de/ ] ] http://www.dwinfocenter.org/ http://www.dw-institute.com/ ] ] http://www.olapreport.com/ Marktanalysen. http://www.dmreview.com/ ] http://www.olapinfo.de/index.html Data Warehousing on the WWW Ralph Kimballs Homepage OLAP Council Die Informationweek besitzt einen sehr interessanten Data Warehousing-Bereich The Data Warehousing Information Center Data Warehouse Institute: Hier gibt es eine gute Sammlung von technischen Whitepapers von verschiedenen Tool- Anbieter The OLAP Report: Interessante und hilfreiche Echte Fundgrube für Whitepapers, Produktbesprechungen und Auflistung von Anbietern für Spezialthemen. Whitepapers und ausführliche Produktbeschreibung vieler OLAP-Werkzeuge. 75 76