Markoff-Ketten und Googles PageRanking - Weblearn
Transcription
Markoff-Ketten und Googles PageRanking - Weblearn
Markoff-Ketten und Googles PageRanking Thomas Risse IIA, FB4, HSB Einführung Markoff-Ketten Markoff-Prozesse Markoff-Ketten und Googles PageRanking Definition Details Beispiel Web-Seiten Graphen Thomas Risse Institut für Informatik & Automation, IIA Fakultät E&I, Hochschule Bremen, HSB page rank Nutzen 6. Mai im Jahr der Mathematik 2008 Markoff-Ketten und Googles PageRanking Agenda Thomas Risse IIA, FB4, HSB Einführung Markoff-Ketten Markoff-Prozesse Definition Einführung Markoff-Ketten Markoff-Prozesse Details Beispiel Markoff-Ketten, Definition Web-Seiten Graphen page rank Markoff-Ketten, Details Markoff-Ketten, Beispiel Nutzen Beziehungen zwischen Web-Seiten gerichtete etikettierte Graphen page ranking Nutzen Markoff-Ketten und Googles PageRanking Einführung Thomas Risse IIA, FB4, HSB Einführung Markoff-Ketten Google Suche nach ’university usa’ liefert > 33 mio hits. 1 Havard 2 Berkley 3 Stanford 4 Yale 5 Boston page rank 6 Cornell Nutzen 7 Northeastern 8 Ohio State 9 Princeton 10 ... Markoff-Prozesse Definition Details Beispiel Web-Seiten Graphen in nur 0.14sec aus > 45 · 109 Web-Seiten auf > 150 · 106 websites, vgl. Netcraft Web Server Survey Markoff-Ketten und Googles PageRanking Markoff-Ketten Thomas Risse IIA, FB4, HSB Einführung Markoff-Ketten Markoff-Prozesse Markoff1 -Ketten modellieren probabilistische Prozesse wie Aktienkurse, Längen von Warteschlangen, probabilistische Zustandsautomaten. Definition Z.B. observiere periodisch System mit 2 Zuständen: ’up’ & ’down’ Details if 'up' nothing to do; if 'down' try to repair; Beispiel Web-Seiten Graphen page rank Nutzen Angenommen state(t) hängt nur von state(t-1) ab, dann definieren die Übergangswahrscheinlichkeiten pi |j = P (state(t ) = si |state(t − 1) = sj ) = const(i , j ) unabhängig von t eine Zeit-diskrete Markoff-Kette mit endlich vielen Zuständen. p0|1 p1|1 up = 1 down = 0 p1|0 1 Andrei Andreyevich Markoff (1856-1922) www-history.mcs.st-and.ac.uk/Biographies/Markoff.html p0|0 Markoff-Ketten und Googles PageRanking Markoff-Prozesse Thomas Risse IIA, FB4, HSB Einführung Markoff-Ketten Markoff-Prozesse Definition Details Beispiel Web-Seiten Markoff-Ketten sind spezielle Markoff-Prozesse, i.e. Verallgemeinerungen durch Abhängigkeit nicht nur vom vorangehenden Zustand, durch stetige Zeit (Prozesse) oder durch unendlich viele Zustände (Harris-Ketten) Anwendungen von Markoff-Ketten in unterschiedlichen Bereichen wie z.B. Graphen page rank Nutzen • Warteschlangen-Theorie, z.B. scheduling von Betriebssystemen • Muster-Erkennung, z.B. OCR, Sprache usw • Spiele, random walks • Erneuerungstheorie, z.B. Langzeit-Nutzen verschiedener Versicherungspolicen Markoff-Ketten und Googles PageRanking Markoff-Ketten, allgemeine Definition Thomas Risse IIA, FB4, HSB Einführung Markoff-Ketten Markoff-Prozesse Definition Details Beispiel Gegeben endlich viele oder abzählbar unendlich viele atomare Ereignisse Ei , Zustände eines Systems. (k ) Ei = System befindet sich beim k -ten Versuch, bei der k -ten (0) Beobachtung in Ei . Ei Web-Seiten (k ) (k ) pi |j = P Ei Graphen = System befindet sich initial in Ei . (k −1) |Ej bedingte Wahrscheinlichkeiten page rank Nutzen Def. Eine Folge von Versuchen/Beobachtungen eines Systems bildet eine Markoff-Kette genau dann, wenn (k ) (k ) pi |j = P Ei (k −1) |Ej (k ) (k −1) = P Ei |Ej (k −2) (1) für alle i , j , k . Eine solche Folge bildet eine homogene (k ) (0) , Ejk −2 , ..., Ej1 , Ejo Markoff-Kette ⇐⇒ pi |j = pi |j für alle i , j , k gilt. Markoff-Ketten und Googles PageRanking Thomas Risse IIA, FB4, HSB Einführung Markoff-Ketten Markoff-Prozesse Definition Details Markoff-Ketten, Details Markoff-Ketten sind durch die Matrix T = (pi |j )i ,j =1,...,n der Übergangswahrscheinlichkeiten mit 0 ≤ pi |j ≤ 1 und Pn i =1 pi |j = P (Ω|sj ) = P (Ω∩sj ) P (sj ) = 1 für j = 1, . . . , n bestimmt. = P (state(k ) = si ) i =1,...,n ist der (k ) x(k ) = xi i =1,...,n Wahrscheinlichkeitsverteilungsvektor im Schritt k , z.Zt. k mit Beispiel x(k ) = Tx(k −1) = Tk x(0) Web-Seiten Graphen page rank Nutzen Typische Fragestellungen sind • finde Gleichgewichtsverteilung x(∞) = limk →∞ x(k ) , i.e. x(∞) = limk →∞ Tk x(0) = limk →∞ T Tk x(0) = Tx(∞) , i.e. (T − I)x(∞) = 0, i.e. x(∞) ist EV mit ||x(∞) ||1 = Pn i =1 (∞) |xi | = 1 zum EW 1 von T • Erreichbarkeit (welche Zustände sind von Ausgangszustand erreichbar?) • Zerlegbarkeit, Ergodizität, Rückkehr etc. Markoff-Ketten und Googles PageRanking Markoff-Ketten, Beispiel Thomas Risse IIA, FB4, HSB Einführung Markoff-Ketten Markoff-Prozesse Definition Details (0) (1) x (0) + p0|1 x1 (0) (0) p1|0 x0 + p1|1 x1 p0|0 x0 = ! = p0|0 p1|0 p0|1 p1|1 (0) x0 ! = Tx(0) (0) x1 Beispiel p0|1 Web-Seiten Graphen page rank p1|1 up = 1 p0|0 down = 0 Nutzen p1|0 Z.B. Mit p0|0 T= 1 10 9 1 2 = 10 , p0|1 = 8 2 8 , 10 p1|1 = 9 10 und p1|0 = mit Gleichgewichtsverteilung x(∞) = 1 , 10 1 9 ist 8 1 c Markoff-Ketten und Googles PageRanking Thomas Risse IIA, FB4, HSB Beziehungen zwischen Web-Seiten Einführung Markoff-Ketten Markoff-Prozesse Definition Details Beispiel Graphen beschreiben Beziehungen zwischen Web-Seiten: pages = Knoten/Ecken; links zwischen pages = (gerichtete) Kanten; Web-Seiten Graphen page rank Nutzen inlinks zeigen auf eine Seite; outlinks einer Seite zeigen auf andere Seiten je mehr inlinks auf eine Seite zeigen, um so bedeutsamer die Seite inlinks von bedeutsamen WebSeiten sind bedeutsam Markoff-Ketten und Googles PageRanking Thomas Risse IIA, FB4, HSB WWW als gerichteter, etikettierter Graph Einführung Markoff-Ketten Markoff-Prozesse Ordne den Kanten eines Graphen Gewichte zu, z.B. TSP hier: Gewichte repräsentieren die relative Anzahl von outlinks Definition Details Beispiel Web-Seiten Graphen page rank Nutzen (ein Roboter kann nur Oi , die Menge aller outlinks eines Knoten i, bestimmen) Ordne Gewicht ti ,j = 1/|Oj | zu, wenn ein link von j nach i existiert, d.h. ein Surfer jede der outlinked Seiten mit Wahrscheinlichkeit 1/|Oj | besucht. Dann ist T = (ti ,j )i ,j =1,...,n eine stochastische Matrix, die Matrix der Übergangswahrscheinlichkeiten einer Markoff-Kette! Die Gleichgewichtsverteilung ist somit ein relatives Maß für die Bedeutung einer jeden Seite. Markoff-Ketten und Googles PageRanking Thomas Risse IIA, FB4, HSB Einführung Markoff-Ketten Markoff-Prozesse Definition Details Beispiel Web-Seiten Graphen page rank Nutzen page rank Bestimmung Um page ranks zu bestimmen, müssen sehr viele Web-Seiten und ihre links ausgewertet werden. 9 9 21 Stelle T ∈ R45·10 ×45·10 ≈ R2·10 durch eine dünn besetzte 9 12 13 Matrix T ∈ R45·10 ×(11vs273)4 ≈ R2·10 vs5·10 dar, wobei jedes tij ∈ R als float oder fix darzustellen ist, cp [5] vs www.boutell.com/newfaq/misc/sizeofweb.html • als EW/EV Problem Tr = r prüfe power iteration, d.h. etwa r(k ) = Tr(k −1) plus Normalisierung, prüfe QR iteration, Krylov subspace verwirf inverse iteration (löse Ty = x), Jacobi, spectrum slicing, divide&conquer Methoden (T nicht symmetrisch) • als normalisierte Lösung eines LGS (T − I)r = 0 prüfe Gauß, Gauß-Seidel, SOR, Conjugate Gradient • prüfe parallele Versionen eines jedes Verfahrens und vergleiche, [7] Markoff-Ketten und Googles PageRanking Nutzen Thomas Risse IIA, FB4, HSB Einführung Markoff-Ketten 1 Markoff-Prozesse Definition Details Beispiel Geld machen, s. patentierter PageRankTM Algorithmus Larry Page, president of Products, und Sergey Brin, president of Technology, gründeten Google in September 1998, s. www.google.de/intl/en/corporate/execs.html Web-Seiten Google Inc. reported revenues of $4.83 billion for the quarter ended December 31, 2007, an increase of 51% compared to the fourth quarter of 2006 and an increase of 14% compared to the third quarter of 2007, see Graphen page rank Nutzen http://investor.google.com/releases/2007Q4.html 2 page ranking Algorithmus kennenlernen 3 die Mathematik/Informatik wahrnehmen Markoff-Ketten und Googles PageRanking Referenzen Thomas Risse IIA, FB4, HSB [1] Einführung http://infolab.stanford.edu/ backrub/google.html Markoff-Ketten Markoff-Prozesse Definition Details Beispiel Web-Seiten Sergey Brin, Lawrence Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine; [2] eFactory: http://pr.efactory.de/d-index.shtml [3] google.com www.google.com/technology [4] Lawrence Page: Method for node ranking in a linked database; http://patft.uspto.gov/netacgi/nph-Parser?patentnumber=6, [5] Larry Page, Sergey Brin, Raajev Motwani, Terry Winograd: The PageRank Citation Ranking – Bringing Order to the Web; Graphen page rank Nutzen http://dbpubs.stanford.edu:8090/pub/1999-66 [6] Sepandar D. Kamvar: Stanford Web Matrix & Stanford-Berkeley Web Matrix & Basic PageRank Algorithm; www.kamvar.org/personalization/ [7] Ronald Shonkwiler, Lew Lefton: Parallel and Vector Scientific Computing; Cambridge University Press, 2006