Markoff-Ketten und Googles PageRanking - Weblearn

Transcription

Markoff-Ketten und Googles PageRanking - Weblearn
Markoff-Ketten und
Googles PageRanking
Thomas Risse
IIA, FB4, HSB
Einführung
Markoff-Ketten
Markoff-Prozesse
Markoff-Ketten und Googles PageRanking
Definition
Details
Beispiel
Web-Seiten
Graphen
Thomas Risse
Institut für Informatik & Automation, IIA
Fakultät E&I, Hochschule Bremen, HSB
page rank
Nutzen
6. Mai im Jahr der Mathematik 2008
Markoff-Ketten und
Googles PageRanking
Agenda
Thomas Risse
IIA, FB4, HSB
Einführung
Markoff-Ketten
Markoff-Prozesse
Definition
Einführung
Markoff-Ketten
Markoff-Prozesse
Details
Beispiel
Markoff-Ketten, Definition
Web-Seiten
Graphen
page rank
Markoff-Ketten, Details
Markoff-Ketten, Beispiel
Nutzen
Beziehungen zwischen Web-Seiten
gerichtete etikettierte Graphen
page ranking
Nutzen
Markoff-Ketten und
Googles PageRanking
Einführung
Thomas Risse
IIA, FB4, HSB
Einführung
Markoff-Ketten
Google Suche nach ’university usa’ liefert > 33 mio hits.
1
Havard
2
Berkley
3
Stanford
4
Yale
5
Boston
page rank
6
Cornell
Nutzen
7
Northeastern
8
Ohio State
9
Princeton
10
...
Markoff-Prozesse
Definition
Details
Beispiel
Web-Seiten
Graphen
in nur 0.14sec aus > 45 · 109 Web-Seiten auf > 150 · 106
websites, vgl. Netcraft Web Server Survey
Markoff-Ketten und
Googles PageRanking
Markoff-Ketten
Thomas Risse
IIA, FB4, HSB
Einführung
Markoff-Ketten
Markoff-Prozesse
Markoff1 -Ketten modellieren probabilistische Prozesse wie
Aktienkurse, Längen von Warteschlangen, probabilistische
Zustandsautomaten.
Definition
Z.B. observiere periodisch System mit 2 Zuständen: ’up’ & ’down’
Details
if 'up' nothing to do; if 'down' try to repair;
Beispiel
Web-Seiten
Graphen
page rank
Nutzen
Angenommen state(t) hängt nur von state(t-1) ab, dann
definieren die Übergangswahrscheinlichkeiten
pi |j = P (state(t ) = si |state(t − 1) = sj ) = const(i , j ) unabhängig
von t
eine Zeit-diskrete Markoff-Kette mit endlich vielen Zuständen.
p0|1
p1|1
up = 1
down = 0
p1|0
1
Andrei Andreyevich Markoff (1856-1922)
www-history.mcs.st-and.ac.uk/Biographies/Markoff.html
p0|0
Markoff-Ketten und
Googles PageRanking
Markoff-Prozesse
Thomas Risse
IIA, FB4, HSB
Einführung
Markoff-Ketten
Markoff-Prozesse
Definition
Details
Beispiel
Web-Seiten
Markoff-Ketten sind spezielle Markoff-Prozesse, i.e.
Verallgemeinerungen durch Abhängigkeit nicht nur vom
vorangehenden Zustand, durch stetige Zeit (Prozesse) oder
durch unendlich viele Zustände (Harris-Ketten)
Anwendungen von Markoff-Ketten in unterschiedlichen
Bereichen wie z.B.
Graphen
page rank
Nutzen
• Warteschlangen-Theorie, z.B. scheduling von
Betriebssystemen
• Muster-Erkennung, z.B. OCR, Sprache usw
• Spiele, random walks
• Erneuerungstheorie, z.B. Langzeit-Nutzen verschiedener
Versicherungspolicen
Markoff-Ketten und
Googles PageRanking
Markoff-Ketten, allgemeine Definition
Thomas Risse
IIA, FB4, HSB
Einführung
Markoff-Ketten
Markoff-Prozesse
Definition
Details
Beispiel
Gegeben endlich viele oder abzählbar unendlich viele
atomare Ereignisse Ei , Zustände eines Systems.
(k )
Ei
= System befindet sich beim k -ten Versuch, bei der k -ten
(0)
Beobachtung in Ei . Ei
Web-Seiten
(k )
(k )
pi |j = P Ei
Graphen
= System befindet sich initial in Ei .
(k −1) |Ej
bedingte Wahrscheinlichkeiten
page rank
Nutzen
Def. Eine Folge von Versuchen/Beobachtungen eines
Systems bildet eine Markoff-Kette genau dann, wenn
(k )
(k )
pi |j = P Ei
(k −1) |Ej
(k )
(k −1)
= P Ei |Ej
(k −2)
(1)
für alle i , j , k . Eine solche Folge bildet eine homogene
(k )
(0) , Ejk −2 , ..., Ej1 , Ejo
Markoff-Kette ⇐⇒ pi |j = pi |j für alle i , j , k gilt.
Markoff-Ketten und
Googles PageRanking
Thomas Risse
IIA, FB4, HSB
Einführung
Markoff-Ketten
Markoff-Prozesse
Definition
Details
Markoff-Ketten, Details
Markoff-Ketten sind durch die Matrix T = (pi |j )i ,j =1,...,n der
Übergangswahrscheinlichkeiten mit 0 ≤ pi |j ≤ 1 und
Pn
i =1
pi |j = P (Ω|sj ) =
P (Ω∩sj )
P (sj )
= 1 für j = 1, . . . , n bestimmt.
= P (state(k ) = si ) i =1,...,n ist der
(k ) x(k ) = xi
i =1,...,n
Wahrscheinlichkeitsverteilungsvektor im Schritt k , z.Zt. k mit
Beispiel
x(k ) = Tx(k −1) = Tk x(0)
Web-Seiten
Graphen
page rank
Nutzen
Typische Fragestellungen sind
• finde Gleichgewichtsverteilung x(∞) = limk →∞ x(k ) ,
i.e. x(∞) = limk →∞ Tk x(0) = limk →∞ T Tk x(0) = Tx(∞) ,
i.e. (T − I)x(∞) = 0, i.e. x(∞) ist EV mit
||x(∞) ||1 =
Pn
i =1
(∞)
|xi
| = 1 zum EW 1 von T
• Erreichbarkeit
(welche Zustände sind von Ausgangszustand erreichbar?)
• Zerlegbarkeit, Ergodizität, Rückkehr etc.
Markoff-Ketten und
Googles PageRanking
Markoff-Ketten, Beispiel
Thomas Risse
IIA, FB4, HSB
Einführung
Markoff-Ketten
Markoff-Prozesse
Definition
Details
(0)
(1)
x
(0)
+ p0|1 x1
(0)
(0)
p1|0 x0 + p1|1 x1
p0|0 x0
=
!
=
p0|0
p1|0
p0|1
p1|1
(0)
x0
!
= Tx(0)
(0)
x1
Beispiel
p0|1
Web-Seiten
Graphen
page rank
p1|1
up = 1
p0|0
down = 0
Nutzen
p1|0
Z.B. Mit p0|0
T=
1
10
9
1
2
= 10
, p0|1 =
8
2
8
,
10
p1|1 =
9
10
und p1|0 =
mit Gleichgewichtsverteilung x(∞)
=
1
,
10
1
9
ist
8
1
c
Markoff-Ketten und
Googles PageRanking
Thomas Risse
IIA, FB4, HSB
Beziehungen zwischen Web-Seiten
Einführung
Markoff-Ketten
Markoff-Prozesse
Definition
Details
Beispiel
Graphen beschreiben Beziehungen zwischen Web-Seiten:
pages = Knoten/Ecken;
links zwischen pages = (gerichtete) Kanten;
Web-Seiten
Graphen
page rank
Nutzen
inlinks zeigen auf eine Seite; outlinks einer Seite zeigen auf andere
Seiten
je mehr inlinks auf eine Seite zeigen, um so bedeutsamer die Seite
inlinks von bedeutsamen WebSeiten sind bedeutsam
Markoff-Ketten und
Googles PageRanking
Thomas Risse
IIA, FB4, HSB
WWW als gerichteter, etikettierter Graph
Einführung
Markoff-Ketten
Markoff-Prozesse
Ordne den Kanten eines Graphen Gewichte zu, z.B. TSP
hier: Gewichte repräsentieren die relative Anzahl von outlinks
Definition
Details
Beispiel
Web-Seiten
Graphen
page rank
Nutzen
(ein Roboter kann nur Oi , die Menge aller outlinks eines
Knoten i, bestimmen)
Ordne Gewicht ti ,j = 1/|Oj | zu, wenn ein link von j nach i
existiert, d.h. ein Surfer jede der outlinked Seiten mit
Wahrscheinlichkeit 1/|Oj | besucht.
Dann ist T = (ti ,j )i ,j =1,...,n eine stochastische Matrix, die
Matrix der Übergangswahrscheinlichkeiten einer
Markoff-Kette!
Die Gleichgewichtsverteilung ist somit ein relatives Maß für
die Bedeutung einer jeden Seite.
Markoff-Ketten und
Googles PageRanking
Thomas Risse
IIA, FB4, HSB
Einführung
Markoff-Ketten
Markoff-Prozesse
Definition
Details
Beispiel
Web-Seiten
Graphen
page rank
Nutzen
page rank Bestimmung
Um page ranks zu bestimmen, müssen sehr viele Web-Seiten
und ihre links ausgewertet werden.
9
9
21
Stelle T ∈ R45·10 ×45·10 ≈ R2·10 durch eine dünn besetzte
9
12
13
Matrix T ∈ R45·10 ×(11vs273)4 ≈ R2·10 vs5·10 dar, wobei jedes
tij ∈ R als float oder fix darzustellen ist,
cp [5] vs www.boutell.com/newfaq/misc/sizeofweb.html
• als EW/EV Problem Tr = r
prüfe power iteration, d.h. etwa r(k ) = Tr(k −1) plus
Normalisierung, prüfe QR iteration, Krylov subspace
verwirf inverse iteration (löse Ty = x), Jacobi, spectrum
slicing, divide&conquer Methoden (T nicht symmetrisch)
• als normalisierte Lösung eines LGS (T − I)r = 0
prüfe Gauß, Gauß-Seidel, SOR, Conjugate Gradient
• prüfe parallele Versionen eines jedes Verfahrens und
vergleiche, [7]
Markoff-Ketten und
Googles PageRanking
Nutzen
Thomas Risse
IIA, FB4, HSB
Einführung
Markoff-Ketten
1
Markoff-Prozesse
Definition
Details
Beispiel
Geld machen, s. patentierter PageRankTM Algorithmus
Larry Page, president of Products, und Sergey Brin,
president of Technology, gründeten Google in September
1998, s.
www.google.de/intl/en/corporate/execs.html
Web-Seiten
Google Inc. reported revenues of $4.83 billion for the
quarter ended December 31, 2007, an increase of 51%
compared to the fourth quarter of 2006 and an increase
of 14% compared to the third quarter of 2007, see
Graphen
page rank
Nutzen
http://investor.google.com/releases/2007Q4.html
2
page ranking Algorithmus kennenlernen
3
die Mathematik/Informatik wahrnehmen
Markoff-Ketten und
Googles PageRanking
Referenzen
Thomas Risse
IIA, FB4, HSB
[1]
Einführung
http://infolab.stanford.edu/ backrub/google.html
Markoff-Ketten
Markoff-Prozesse
Definition
Details
Beispiel
Web-Seiten
Sergey Brin, Lawrence Page: The Anatomy of a Large-Scale
Hypertextual Web Search Engine;
[2]
eFactory: http://pr.efactory.de/d-index.shtml
[3]
google.com www.google.com/technology
[4]
Lawrence Page: Method for node ranking in a linked database;
http://patft.uspto.gov/netacgi/nph-Parser?patentnumber=6,
[5]
Larry Page, Sergey Brin, Raajev Motwani, Terry Winograd: The
PageRank Citation Ranking – Bringing Order to the Web;
Graphen
page rank
Nutzen
http://dbpubs.stanford.edu:8090/pub/1999-66
[6]
Sepandar D. Kamvar: Stanford Web Matrix &
Stanford-Berkeley Web Matrix & Basic PageRank Algorithm;
www.kamvar.org/personalization/
[7]
Ronald Shonkwiler, Lew Lefton: Parallel and Vector Scientific
Computing; Cambridge University Press, 2006