Derivative Finanzinstrumente
Transcription
Derivative Finanzinstrumente
Derivative Finanzinstrumente Klaus Schindler Vorlesung an der Universität des Saarlandes c Sommersemester 2016 Version 16.1 Inhaltsverzeichnis Inhaltsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1. Derivative Finanzinstrumente 1.1. Sprechweisen . . . . . . . . . . . 1.2. Zinsen . . . . . . . . . . . . . . . 1.2.1. Anleihen . . . . . . . . . . . . . 1.3. Derivative Finanzinstrumente . . 1.3.1. Terminkontrakte und Futures . 1.3.2. Optionen . . . . . . . . . . . . . 2. Arbitragebeziehungen 2.1. Arbitragefreiheit . . . . . 2.2. Terminkontrakte . . . . . 2.3. Optionen . . . . . . . . . 2.3.1. Put-Call-Parität . . . . . 2.3.2. Konvexitätseigenschaften 3. 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. 3.9. 3.10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wahrscheinlichkeitsrechnung Zufall und Ereignisse . . . . . . . . . . . σ-Algebren . . . . . . . . . . . . . . . . Wahrscheinlichkeitsmaße . . . . . . . . . Zufallsvariablen und Messbarkeit . . . . Verteilung von Zufallsgrößen . . . . . . Approximationen der Normalverteilung Momente einer Zufallsgröße . . . . . . . Bedingte Wahrscheinlichkeit . . . . . . . Kovarianz, Korrelation . . . . . . . . . . Bedingte Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Stochastische Prozesse I 4.1. Zeitdiskrete stochastische Prozesse . . . . 4.1.1. Arithmetische Binomialprozesse . . . . . 4.1.2. Arithmetische Trinomialprozesse . . . . . 4.1.3. Geometrische Binomialprozesse . . . . . . 4.1.4. Allgemeine Irrfahrten . . . . . . . . . . . 4.1.5. Binomialprozesse mit zustandsabhängigen 4.2. σ-Algebren und Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zuwächsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 . . . . . . 5 5 6 6 8 8 11 . . . . . 17 18 19 22 23 24 . . . . . . . . . . 27 27 28 29 30 34 40 41 44 48 49 . . . . . . . 61 62 63 65 67 69 70 71 4.3. Martingal-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5. 5.1. 5.2. 5.3. 5.4. 5.5. Stochastische Prozesse II Der Wiener-Prozess . . . . . . . . . . . . Stochastische Integration . . . . . . . . . Stochastische Differentialrechnung . . . . Der Aktienkurs als stochastischer Prozess Stochastische Differentiation . . . . . . . 79 79 82 85 89 90 6. BLACK/SCHOLES-Optionsmodell 7. Eine analytische Lösung für europäische Optionen 8. 8.1. 8.2. 8.3. Das Binomialmodell für europäische Optionen 105 Aktien ohne Erträge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 Aktien mit stetigen Erträgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 Aktien mit diskreten Erträgen . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 101 9. Amerikanische Optionen 113 Die vorzeitige Ausübung amerikanischer Calls . . . . . . . . . . . . . . . . . . . . . . 116 Put-Call-Parität für amerikanische Optionen . . . . . . . . . . . . . . . . . . . . . . . 118 10. Das Trinomialmodell für amerikanische Optionen 121 11. Optionsmanagement (Portfolio-Insurance) 125 Literaturverzeichnis 131 Anhang 134 A. A.1. A.2. A.3. Integrationstheorie 135 Funktionen von endlicher Variation . . . . . . . . . . . . . . . . . . . . . . . . . 135 Riemann-Stieltjes-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 Der Satz von Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 B. Der Satz von Girsanov 139 B.1. Martingal-Darstellungssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 C. Portfolio-Strategien 143 D. Der Satz von Taylor 149 K APITEL 1 Derivative Finanzinstrumente Wir stellen in diesem Kapitel zunächst die wichtigsten Finanzinstrumente, die im Rahmen dieser Vorlesung benötigt werden, vor. Zur Vermeidung von Schwierigkeiten gehen wir nur in Ausnahmefällen auf Handelsusancen ein, obwohl diese den Preis eines Finanzinstrumentes entscheidend beeinflussen können. In der Regel vermeiden wir diese Probleme durch Normierungen oder zum Teil unrealistische Vereinbarungen, wie z.B. fehlende Transaktionskosten. Auch in der Praxis finden solche Vereinfachungen statt. Viele derivative Finanzinstrumente sind stark normiert, z.B. in Bezugsgröße, Laufzeit, Terminkurs, Ausübungskurs usw.. Dies vereinfacht den Handel, erhöht damit die Fungibilität und erleichtert die Bewertung der Finanzinstrumente. Für den Kunden maßgeschneiderte, nicht normierte Finanzinstrumente werden als OTC-Derivate (OTC=over the counter) bezeichnet und meist nicht an Terminbörsen gehandelt. Ihre Bewertung erfordert wegen der von der Norm abweichenden Eigenschaften eine geeignete Anpassung der Standardmodelle. 1.1. Sprechweisen Ein Portfolio (Portefeuille) ist die Zusammenfassung mehrerer Finanzinstrumente eines Investors zu einem Gesamtwert. Ein einzelnes Finanzinstrument innerhalb eines Portfolios wird als Position bezeichnet. Hierbei unterscheidet man zwischen einer long und einer short position. Im ersten Fall besteht die Position aus einem gekauften, im zweiten Fall aus einem verkauften Objekt (z.B. einer verkauften Anleihe oder verkauften Option). Als short selling werden short Positionen bezeichnet, bei denen man sich - unter Einschaltung einer Bank oder eines Brokers - Objekte, die einem nicht gehören, ausleiht und verkauft. Der short seller verpflichtet sich damit gleichzeitig, dem Besitzer der Objekte während der Leihzeit alle anfallenden Erträge und am Ende - durch einen Rückkauf an der Börse - die Objekte zu erstatten. Das Schließen einer Position bedeutet, dass man die Wertentwicklung des Portfolios unabhängig von dieser Position macht. Dies kann durch Verkauf dieser Position oder durch den Abschluss eines genauen Gegengeschäftes geschehen. Als spot price (Marktpreis) bezeichnen wir den Preis, zu dem ein Objekt gegen sofortige Zahlung und sofortige Auslieferung gehandelt wird1 . 1 Dies steht im Gegensatz zum sog. future price in Bemerkung 1.5 iii). Derivative Finanzinstrumente 1. Derivative Finanzinstrumente Kapitel 1 Anleihen 1.2. Zinsen Definition 1.1 Zinsen sind das Entgelt für die zeitweilige Überlassung einer Wertsumme2 . Üblicherweise werden Zinsen zu diskreten Zeitpunkten - den Zinszuschlagsterminen (ZZT) - gutgeschrieben und dann weiterverzinst (Zinseszins). In einer Zinsperiode (=Abstand benachbarter ZZTe) wächst ein Anfangskapital KAnf bei einem Periodenzinssatz ip damit auf KEnd = KAnf · (1 + ip ) Ist speziell ein nomineller Jahreszinssatz i bei ℓ ZZTen pro Jahr gegeben, d.h. liegt ein i Periodenzinssatz ip = vor, wächst ein Anfangskapital KAnf in einem Jahr insbesondere auf ℓ i ℓ KEnd = KAnf · (1 + )ℓ . Im Grenzübergang ℓ −→ ∞, wo jeder Augenblick ein ZZT ist, spricht man von stetiger Verzinsung. Dabei wächst das Anfangskapital in einem Jahr auf KEnd = KAnf · ei . i wird in diesem Fall als stetiger (Jahres-)Zins oder short rate bezeichnet. ❐ Da stetige Zinsen starke Rechenvorteile aufweisen (keine gemischte Zinsrechnung), wird dies bei Finanzderivaten in Zukunft vorausgesetzt. 1.2.1. Anleihen Als erstes Finanzinstrument betrachten wir Anleihen. Sie stellen wegen der vorab festgelegten Laufzeit im Prinzip ein einfaches Beispiel für ein Termingeschäft dar. Definition 1.2 Der Besitzer einer Anleihe (Bond) erhält zu einem zukünftigen Zeitpunkt t⋆ (Fälligkeitszeitpunkt) einen vorher vereinbarten Betrag R, der als Nominal-, Nenn- oder Rückzahlungswert der Anleihe bezeichnet wird. Werden außerdem zu diskreten Zeitpunkten t1 , . . . , tn vor t⋆ zusätzliche Couponzahlungen in Höhe C geleistet, spricht man von einer Couponanleihe, andernfalls von einer Nullcouponanleihe (Zerobond). ❐ Bemerkung 1.3 i) Der Wert At einer Anleihe zum (aktuellen) Zeitpunkt t berechnet sich als Summe aller mit dem Marktzins diskontierten zukünftigen Erträge, die mit der Anleihe verbunden 2 Diese Wertsumme muss nicht zwingend Geldform haben. Man betrachte als Beispiel etwa den Mietzins. 6 c Klaus Schindler SS 2016 Kapitel 1 1.2. Zinsen sind. Geht man von n Couponzahlungen C zu den Zeitpunkten t1 , . . . , tn , einem Nominalwert R zum Fälligkeitszeitpunkt t⋆ und einem (konstanten) stetigen Marktzins i aus, ergibt sich3 −i·(t⋆ −t) At = R · e + n X ℓ=1 C · e−i·(tℓ −t) . (1.1) Hierbei ist deutlich zwischen dem aktuellen (stetigen) Marktzinssatz i und dem nominellen (stetigen) Zinssatz inom der Anleihe zu unterscheiden. Letzterer bezieht sich immer auf den Nominalwert der Anleihe, d.h. der stetige nominelle Periodenzinssatz der Anleihe ist4 inom = ln 1 + C R und wird sich daher u.U. deutlich vom aktuellen Marktzinssatz i unterscheiden. Je nach dem, ob der Kurs der Anleihe unter, über oder gleich dem Rückzahlungswert ist, nennt man die Anleihe unter pari, über pari oder pari 5 . Anders ausgedrückt bedeutet dies, dass die Rendite (= effektiver Zinssatz) einer „sicheren“ Anleihe, bei der alle Zahlungen mit Wahrscheinlichkeit 1 eintreten, gleich dem aktuellen Marktzinssatz ist. Da die Couponzahlungen C und der Rückzahlungswert R bekannt sind, stellt Gleichung (1.1) eine umkehrbar eindeutige Beziehung zwischen dem Marktzins und dem Kurs einer Anleihe her, man spricht daher auch von Kursrechnung. Der Handel mit Anleihen ist daher ein Handel mit Zinssätzen. Gleichung (1.1) zeigt außerdem, dass ein Steigen des Marktzinses zu einem Absinken der Anleihekurse und umgekehrt ein Sinken des Marktzinses zu einem Anstieg der Anleihekurse führt. Im Falle eines Zerobonds wird Gleichung (1.1) besonders einfach. Wegen C = 0 ist der Wert des Zerobonds gleich dem diskontierten Rückzahlungswert ⋆ −t) At = R · e−i·(t (1.2) . Äquivalent hierzu gilt folgende Gleichung für den Marktzins i= ln(At ) − ln(R) t − t⋆ Im Folgenden bezeichnen wir mit At den Kurs eines Zerobonds mit Rückzahlungswert ⋆ 1. Für konstante stetige Zinsen gilt gemäß Gleichung (1.2) die Beziehung At = e−i·(t −t) , 3 Hierbei gehen wir stillschweigend davon aus, dass Zinssatz und Laufzeit die gleiche Zeiteinheit verwenden. Z.B. könnte i ein stetiger Jahreszinssatz sein und die Laufzeit in Jahren gemessen werden. 4 Hierbei wurde vorausgesetzt, dass die Couponzahlungen in regelmäßigem Abstand erfolgen. Ein direkter Vergleich von inom und i macht außerdem nur Sinn, wenn dieser Abstand gleich der bei i verwendeten Zeiteinheit ist. 5 Unter den in der letzten Fußnote erwähnten Voraussetzungen gilt, dass der Anleihekurs genau dann unter pari ist (At < R), wenn inom < i gilt. c Klaus Schindler SS 2016 7 Derivative Finanzinstrumente Grundlagen Derivative Finanzinstrumente Kapitel 1 1. Derivative Finanzinstrumente Terminkontrakte d.h. At ist der stetige Abzinsungsfaktor für den Zeitraum t⋆ −t. Im Fall zeitabhängiger deterministischer Zinsen i = i(t) gilt analog At = exp − Z t t⋆ (1.3) i(s)ds . In differentieller Form lautet Gleichung (1.3) dA dt = A · i(t) bzw. dA A = i(t) · dt Im Folgenden werden wir, wenn nicht anders erwähnt, von einem konstanten stetigen Zinssatz i und dem Zinsfaktor ei ausgehen. Bei nichtkonstanten Zinsen muss als Abzinsungsfaktor der Preis At eines Zerobond mit dem Nominalwert 1 verwendet werden. ii) Der Kauf bzw. Verkauf einer Anleihe stellt nichts anderes, als das Verleihen bzw. die Aufnahme von Geld zum aktuellen Zinssatz dar. Im Gegensatz zu Zerobonds, bei denen der Verkäufer sich verpflichtet, die gesamten Schulden inklusive Zinsen auf einen Schlag am Ende der Laufzeit zu Zahlen, erfolgen bei Couponanleihen zwischenzeitliche (nominelle!) Zinszahlungen, die vorab durch die Coupons festgelegt sind. Hierdurch wird das Ausfallrisiko verringert6 . Hier weisen Anleihen eine gewisse Ähnlichkeit zu Terminkontrakten, bei denen man zwischen Forwards und Futures (siehe Definition 1.4) unterscheidet, auf. Forward-Kontrakte ähneln Zerobonds, da bei ihnen alle durch den Kontrakt entstandenen Zahlungsverpflichtungen erst am Ende der Laufzeit erfüllt werden. Futures, bei denen während der Laufzeit Marginzahlungen anfallen, besitzen ein reduziertes Ausfallrisiko und ähneln daher Couponanleihen. ❐ 1.3. Derivative Finanzinstrumente Wir definieren nun die wichtigsten derivativen Finanzinstrumente. Die Bezeichnung Finanzderivat rührt daher, dass ihr Wert vom Wert anderer, an der Börse gehandelter Instrumente abhängt. Die dem Derivat zu Grunde liegenden Instrumente bezeichnen wir in Zukunft als underlying. Mathematisch gesehen sind Derivate also Funktionen, deren Inputvariablen als underlying bezeichnet werden. 1.3.1. Terminkontrakte und Futures Die im Folgenden definierten Terminkontrakte zählen zu den einfachsten unbedingten Termingeschäften. Diese müssen - im Gegensatz zu bedingten Termingeschäften wie z.B. Optionen - auf jeden Fall erfüllt werden. 6 Dies führt auch zum Unterschied zwischen effektivem Zinssatz (=Rendite) und nominellem Zinssatz. 8 c Klaus Schindler SS 2016 Kapitel 1 1.3. Derivative Finanzinstrumente Definition 1.4 Ein Terminkontrakt ist ein Vertrag zwischen zwei Parteien, bei dem sich der Käufer bzw. der Verkäufer des Kontraktes heute verpflichtet zu einem festgelegten zukünftigen Zeitpunkt t⋆ ein Objekt zu einem heute vereinbarten Preis K (Terminkurs) zu kaufen (Terminkauf ) bzw. zu verkaufen (Terminverkauf ). VK,t⋆ (St ) bezeichne den Wert dieses Terminkontraktes zum Zeitpunkt t, wobei St den spot price des underlying bezeichne. ❐ Bemerkung 1.5 i) Um sich mit Termingeschäften vertraut zu machen, ist es am einfachsten, zunächst nur den inneren Wert zu betrachten. Dieser gibt den Gewinn/Verlust an, den man bei sofortiger Fälligkeit oder Ausübung des Geschäftes machen würde. Bei einem Terminkauf ist der innere Wert zum Zeitpunkt t gleich St −K, bei einem Terminverkauf gleich K −St . Der pay-off ist speziell der innere Wert des Finanzinstrumentes am Verfallstag t⋆ . Nachfolgende Skizze gibt den pay-off eines Terminkaufs und eines Terminverkaufs in Abhängigkeit vom Preis St⋆ des Underlying an. Pay-off t⋆− K K er in uf S ka m T K Kurs St⋆ T m er in v er k a uf K − S t⋆ −K Man erkennt an den Pay-offs der unterschiedlichen Derivate sehr gut den Unterschied zwischen bedingten und unbedingten Termingeschäften (siehe hierzu etwa Beispiel 1.8 i) im Abschnitt über Optionen). ii) Der Forward Price Ft ist der Terminkurs zum Zeitpunkt t, für den der Wert des Terminkontraktes mit Fälligkeit t⋆ (siehe Satz 2.3) gleich Null ist, d.h. dass VFt ,t⋆ (St ) = 0 gilt. Bei Eröffnung eines Terminkontraktes wählt man den forward price als Terminkurs, so dass beim Kauf keine Zahlung erforderlich ist. Erst im Laufe der Zeit wird der Kontrakt einen positiven oder negativen Wert annehmen, was sich auch darin äußert, dass der forward price vom ursprünglichen forward price (=Terminkurs) abweicht. Offensichtlich gilt Ft⋆ = St⋆ zum Fälligkeitszeitpunkt t⋆ . c Klaus Schindler SS 2016 9 Derivative Finanzinstrumente Grundlagen Derivative Finanzinstrumente Kapitel 1 1. Derivative Finanzinstrumente Terminkontrakte iii) Futures sind standardisierte Terminkontrakte mit täglichem Verlust- bzw. Gewinnausgleich (Margin), d.h. sie werden von Tag zu Tag erfüllt und nicht erst am Ende der Laufzeit. Hierdurch wird das Erfüllungsrisiko ausgeschlossen bzw. stark gemindert, weil eventuelle Verluste bei den Geschäftspartnern auf die Kursschwankungen eines Tages beschränkt werden7 . Die Größe der täglichen Margin ist gleich der Änderung des Future-Preises. Analog zum Forward Price ist der Future Price dabei der Terminkurs, für den der Wert des Futures gleich Null ist. Forward- und Future-Price stimmen am Ende der Laufzeit mit dem Preis des underlying überein. iv) Die Spekulation (d.h. nicht abgesicherte Position) auf Terminmärkten weist wesentliche Unterschiede zur Spekulation auf den Spotmärkten auf. Z.B. erfordert der Erwerb eines Terminkontraktes keine Anfangszahlung. Dies und die üblicherweise hohe Bezugsgröße versieht den Investor mit einem wesentlich höheren Leverage. v) Da der pay-off negative Werte zulässt, kann der Wert von Terminkontrakten u. U. negativ sein. Bei Optionen werden dagegen durch die Vertragsbedingungen negative Pay-offs vermieden, wodurch eine Option immer einen nichtnegativen Wert besitzt (siehe auch Bemerkung 2.8 (1)). vi) Ein Terminverkauf darf nicht mit einem „short-selling“ verwechselt werden. ❐ Zur Erläuterung des Unterschieds zwischen Forward und Future betrachten wir im folgenden Beispiel zwei fiktive Öl-Terminkontrakte. Beispiel 1.6 Wir betrachten in der folgenden Tabelle die Entwicklung des Ölpreises (in [$/Barrel]) in den Jahren t = 0 bis t = 5, den Future-Preis und die zu leistenden Margins bei jährlichem Settlement8 . Zum Vergleich ist in der letzten Spalte noch ein Terminkontrakt mit Terminkurs K = 22, 04 [$/Barrel] angegeben. Beide Kontrakte sollen zum Zeitpunkt t⋆ = 5 fällig sein. Zeitpunkt t Spotprice St Futureprice Ft 0 1 2 3 4 5 17 18 16 15 14 14 22.04 22.16 18.70 16.64 14.75 14.00 Restlaufzeit T = t⋆ − t 5 4 3 2 1 0 7 Das Verfahren wird als mark-to-market bezeichnet. 8 In der Praxis findet natürlich ein tägliches Settlement statt. 10 c Klaus Schindler SS 2016 Margin Future Forward M = Ft − Ft−1 0 +0.12 −3.46 −2.06 −1.89 −0.75 − − − − − −8.04 Kapitel 1 1.3. Derivative Finanzinstrumente Die Tabelle zeigt, wie durch die zwischenzeitlichen Margins beim Future das Ausfallrisiko im Vergleich zum Forward deutlich reduziert wird. Die Nettosumme der Marginzahlungen liefert gerade liefert gerade die Abschlusszahlung beim Forward. ❐ 1.3.2. Optionen Definition 1.7 Eine Option ist ein Vertrag, der dem Käufer das Recht gibt, ein Objekt (underlying) am Ende oder während eines festen Zeitraumes (Laufzeit) zu einem festgelegten Betrag (Ausübungspreis) zu kaufen (Kaufoption, Call) oder zu verkaufen (Verkaufsoption, Put). Ist die Option erst am Ende der Laufzeit ausübbar, sprechen wir von einer europäischen Option, bei jederzeitiger Ausübbarkeit von einer amerikanischen Option. ❐ Bemerkung 1.8 i) Um sich mit Optionen vertraut zu machen, ist es zunächst wieder am einfachsten, nur den Pay-off, also den inneren Wert der Option zum Fälligkeitszeitpunkt t⋆ zu betrachten. Bei einem gekauften Call bzw. Put mit Ausübungskurs K ist dieser gleich max{St⋆ − K, 0} bzw. max{K − St⋆ , 0} und hat damit folgendes Aussehen: Pay-off − K , } 0 ⋆ a { t S ng m x ll o C l a K Kurs St⋆ −K Pay-off K P ut n lo g m a x { S − K t⋆ ,0 } K c Klaus Schindler SS 2016 Kurs St⋆ 11 Derivative Finanzinstrumente Grundlagen Derivative Finanzinstrumente 1. Derivative Finanzinstrumente Kapitel 1 Optionen Häufig arbeitet man anstelle des pay-off auch mit der sog. Ertrags- oder Gewinnfunktion, wo man den Pay-off noch mit der gezahlten oder erhaltenen Optionsprämie verrechnet. Dies ist finanzmathematisch jedoch unkorrekt, weil hierbei Zahlungen, die zu verschiedenen Zeitpunkten anfallen, ohne Berücksichtigung der Zinswirkung addiert werden. Ein Call short, d.h. der Verkauf einer Kaufoption mit Ausübungskurs K zum Preis C0 , liefert dann folgenden Pay-off bzw. folgende Gewinnfunktion: Pay-off Call short K − Kurs St⋆ m ⋆ {S ax t − , K 0 } = m i K n{ − } ,0 S⋆ t Ertrag Call t or sh C0 K Kurs St⋆ ii) Gerade zum ersten Verständnis von Portfolios, die sich aus mehreren Derivaten zusammen setzen, sind pay-off- bzw. Gewinn-Diagramme eine große Hilfe. Wir wollen dies an Hand eines gekauften Straddle demonstrieren. Dies ist eine Position, die sich aus je einem gekauften Call und Put mit gleichem Ausübungskurs K und gleicher Laufzeit zusammensetzt. Das Gewinndiagramm zeigt, dass der Besitzer eines Straddle auf steigende oder fallende Kurse setzt, da nur bei in etwa gleich bleibenden Kursen Verluste eintreten. Bezeichnen wir die Call- bzw. Putprämie mit C0 bzw. P0 , so hat das Gewinndiagramm eines Straddle folgendes Aussehen: 12 c Klaus Schindler SS 2016 Kapitel 1 1.3. Derivative Finanzinstrumente Gewinn/Verlust Straddle ✻ long Put K −P0 −C0 ✲ Kurs St⋆ long Call −(C0 + P0 ) iii) Liegt der Kurs des underlying über dem Ausübungskurs (S > K), so kann der Inhaber eines amerikanischen Call das Objekt statt zum Preis S zu dem günstigeren Preis K erwerben. Das Recht, das der amerikanische Call verbrieft, besitzt zu diesem Zeitpunkt daher mindestens den Wert S − K. Analog hierzu muss der amerikanische Put im Fall K > S mindestens den Wert K − S besitzen (siehe hierzu Bemerkung 2.8 (3) ). Aus diesem Grund wird bei einer ersten Beurteilung von Optionen häufig mit dem inneren Wert gearbeitet. Dieser innere Wert ist gleich max{S − K, 0} bei Calls und max{K − S, 0} bei Puts. Er gibt an, was man jetzt bei Ausübung der Option erhalten würde. Ist der innere Wert einer Option positiv, d.h. ist S > K bei Calls bzw. S < K bei Puts, spricht man von einer Option in-the-money. Gilt S ≈ K ist die Option at-the-money. Im Fall S < K bei Calls bzw. S > K bei Puts, liegt eine out-of-the-money Option vor. Der Betrag, um den der aktuelle Optionspreis den inneren Wert überschreitet, wird als Zeitwert bezeichnet. Schon hier sei darauf hingewiesen, dass der Preis europäischer Optionen unterhalb des inneren Wertes liegen kann (siehe dazu Kapitel 9). iv) Derivative Finanzinstrumente können zur Spekulation, aber auch zur Absicherung (Hedging) verwendet werden. v) Im Gegensatz zu Optionen (contingent claim, limited liability) verpflichten Terminkontrakte (siehe Definition 1.4) zum Kauf oder Verkauf. Optionen werden daher auch als bedingte und Terminkontrakte als unbedingte Termingeschäfte bezeichnet. In diesem Sinne ist ein europäischer Call ein „bedingter Terminkauf“, ein europäischer Put ein „bedingter Terminverkauf“. Da durch die Vertragsbedingungen bei Optionen negative Pay-offs vermieden werden, ergibt sich der Pay-off einer Kauf- bzw. Verkaufsoption, indem man alle negativen Pay-off-Werte beim Terminkauf bzw. -verkauf (Terminkurs = Ausübungskurs) durch 0 ersetzt. c Klaus Schindler SS 2016 13 Derivative Finanzinstrumente Grundlagen Derivative Finanzinstrumente 1. Derivative Finanzinstrumente Kapitel 1 Optionen vi) Neben den Standardoptionen (plain vanilla option) und deren Kombinationen werden zum Teil wesentlich komplexere Optionen am Markt gehandelt. So zum Beispiel (Kurs)wegabhängige Optionen wie - Asiatische Optionen (average rate option): der Ausübungskurs entsteht durch Mittelung über die Kurse des underlying eines bestimmten Zeitraumes - Lookback Optionen: der Ausübungskurs ist das Minimum bzw. Maximum der Kurse des underlying über einen bestimmten Zeitraum - Knockout Optionen: diese liefern eine konstante Zahlung (oder verfallen), wenn das underlying bestimmter Schranken über- oder unterschreitet Ein weiteres Beispiel für solche nicht standardisierte Optionen sind Optionen auf Optionen (compound option), bei denen das underlying selbst eine Option ist. In diesem Zusammenhang sollte beachtet werden, dass viele Finanzgeschäfte einen Optionsanteil besitzen (z.B. Wandelanleihen oder Bezugsrechte bei Aktien). vii) Die Angabe der Optionswerte bezieht sich im folgenden immer auf den Bezug eines Objektes, so dass in der Praxis bei der Optionspreisberechnung noch eine Multiplikation mit einem geeigneten Faktor erfolgen muss. viii) In den nachfolgenden Beweisen werden der Einfachheit halber meistens Aktienoptionen, bei denen das underlying eine Aktie ist, betrachtet. ❐ Variablen der Bewertung und Notationen Zeit: t = aktueller Zeitpunkt (oft auch t = 0), t⋆ = Fälligkeitszeitpunkt des Derivates. Die Laufzeit des betrachteten Geschäftes ist dann T = t⋆ − t. Preis des underlying: S bzw. St , S(t), (S, t) Ausübungskurs (Basispreis) bzw. Terminkurs: K Volatilität des underlying: σ, beschreibt das Schwankungsverhalten des underlying Bestandshaltekosten des underlying: Die Bestandshaltekosten ergeben sich als Summe aller Kosten (inklusive Opportunitätskosten), die der Besitzer des underlying tragen muss, verkleinert um eventuelle Erträge, die der Besitzer eines underlying erhält. Überwiegen im Spezialfall die Erträge die Kosten, ergeben sich daher negative Bestandshaltekosten, d.h. im Fall B < 0 liegen Erträge, im Fall B > 0 Kosten vor! 14 c Klaus Schindler SS 2016 Kapitel 1 1.3. Derivative Finanzinstrumente Wir unterscheiden diskrete Bestandshaltekosten B oder stetige Bestandshaltekosten b. So sind für ein underlying mit stetigen Lagerhaltungskosten ℓ und stetiger Dividendenrendite d (jeweils in %, bezogen auf das underlying) die stetigen Bestandshaltekosten b = i + ℓ − d. Der Zinssatz i stellt hierbei die Opportunitätskosten dar. stetiger Zinssatz: i eur am eur am Optionswerte: CK,t ⋆ und CK,t⋆ bzw. PK,t⋆ und PK,t⋆ bezeichnen die europäischen und amerikanischen Call- bzw. Putwerte mit Ausübungskurs K und Fälligkeitszeitpunkt t⋆ . Insgesamt gilt also Optionspreis = Funktion(St , K, t, t⋆, σ, i) c Klaus Schindler SS 2016 15 Derivative Finanzinstrumente Grundlagen Arbitragebeziehungen Zur Bewertung von Devisen, Zinsen, Wertpapieren, Derivaten und anderen Objekten auf Finanzmärkten sind verschiedene ökonomische Theorien entwickelt worden. Zu erwähnen sind in diesem Zusammenhang die Kaufkraftparitätstheorie für Wechselkurse, die Zinsstrukturtheorie, das CAPM (Capital-Asset-Pricing-Model) und das Black/Scholes-Modell zur Bewertung von Derivaten. Die Aussagen, die in den jeweiligen Modellen hergeleitet werden, basieren – wie alle wissenschaftlichen Modelle – auf bestimmten Denkansätzen. Eines der bekanntesten Grundaxiome, das wir im Folgenden auch stillschweigend voraussetzen, ist z.B., dass sich alle Marktteilnehmer rational verhalten. In den Gleichgewichtsmodellen (wie etwa dem CAPM) werden z.B. die Preise (bzw. Renditen) dadurch bestimmt, dass sie markträumend wirken, d.h. dass das Angebot gleich der aggregierten Nachfrage ist. In der Arbitragetheorie (wie etwa dem Black/Scholes-Modell) geht man davon aus, dass eine Arbitrage (risikoloser Gewinn) nicht möglich ist, da diese sofort1 von den Marktteilnehmern erkannt und über eine Preisanpassung eliminiert würde. In diesem und den nachfolgenden Kapiteln fordern wir diese Arbitragefreiheit und setzen zusätzlich einen perfekt funktionierenden Markt (efficient-market-Hypothese) voraus. Annahme: Der Finanzmarkt funktioniert perfekt, d.h. Soll- und Habenzinsen sind gleich. Es gibt keine Transaktionskosten, keine Steuern, keine Einschränkungen beim short-selling und keine Arbitrage. Alle Wertpapiere sind beliebig teilbar. Die unter diesen Voraussetzungen abgeleiteten Ergebnisse für Optionen und Terminkontrakte, die sich direkt aus den ökonomischen Eigenschaften dieser Finanzgeschäfte ergeben, sind ohne weitere Annahmen gültig. Spätere mathematische Optionspreismodelle müssen diesen Anforderungen genügen, andernfalls sind sie fehlerhaft. Wegen der einfacheren Darstellung gehen wir im folgenden immer davon aus, dass der Zinssatz während der Laufzeit konstant i ist. Ist dies nicht der Fall tritt an die Stelle des Diskontierungsfaktors ⋆ e−iT = e−i(t −t) der entsprechende Wert At eines Zerobonds (s. Bemerkung 1.3 i)). 1 Dies setzt den gleichen Informationsstand bei allen Marktteilnehmern und insbesondere eine unendlich große Informationsgeschwindigkeit voraus. 17 Arbitragebeziehungen K APITEL 2 ARBITRAGEBEZIEHUNGEN Kapitel 2 Terminkontrakte 2.1. Arbitragefreiheit Arbitragebeziehungen Eine zentrale Eigenschaft, die sich aus der Arbitragefreiheit ergibt ist, dass zwei Portfolios, die zu einem bestimmten Zeitpunkt den gleichen Wert haben, auch zu jedem früheren Zeitpunkt wertgleich sein müssen. Genauer gilt folgender Satz. Satz 2.1 Hat ein Portfolio in einem perfekten Markt zu einem Zeitpunkt t⋆ (mit Sicherheit) einen positiven Wert, so gilt dies auch zu jedem früheren Zeitpunkt, sofern das Portfolio nicht von außen verändert werden kann. ❑ Beweis: Bezeichne VP (t) den Wert eines Portfolios P zum Zeitpunkt t und gelte VP (t⋆ ) > 0. Dann ist zu zeigen, dass gilt: ∀t 6 t⋆ : VP (t) > 0 Wir führen den Beweis indirekt, indem wir annehmen, dass VP (t) < 0 zu einem Zeitpunkt t 6 t⋆ gilt. Kauft man Portfolio P zum Zeitpunkt t, so bedeutet dies, dass man den Betrag −VP (t) > 0 erhält. Hält man Portfolio P bis zum Zeitpunkt t⋆ und verkauft es zum Zeitpunkt t⋆ (Dies ist nur möglich, weil es nicht von außen verändert werden kann!), erhält man zusätzlich noch den Betrag VP (t⋆ ) > 0. Insgesamt hat der Kauf des Portfolios einen risikolosen Gewinn zum Zeitpunkt t⋆ in Höhe ⋆ −t) −VP (t) ei(t | {z >0 } + VP (t⋆ ) > 0 | {z } >0 erbracht, was einen Widerspruch zur Arbitragefreiheit darstellt. Bemerkung 2.2 Angewendet wird Satz 2.1 meistens in folgender Form: Für zwei Portfolios A und B, die nicht von außen verändert werden können, gelten in einem perfekten Markt folgende Aussagen: VA (t⋆ ) 6 VB (t⋆ ) =⇒ ∀t 6 t⋆ : VA (t) 6 VB (t) VA (t⋆ ) = VB (t⋆ ) =⇒ ∀t 6 t⋆ : VA (t) = VB (t) Zum Beweis bilde man ein Portfolio P bestehend aus Portfolio B long und Portfolio A short. Dann gilt VP (t⋆ ) = VB (t⋆ ) − VA (t⋆ ) > 0 und es kann Satz 2.1 angewendet werden. ❐ 18 c Klaus Schindler SS 2016 Arbitragebeziehungen Kapitel 2 2.2. Terminkontrakte Satz 2.3 Sei K der Terminkurs eines zum Zeitpunkt t⋆ fälligen Terminkaufs auf ein underlying mit dem Kurs St . Mit VK,t⋆ (St ) bezeichnen wir den Wert des Terminkaufs. a) Fallen während der Laufzeit T =t⋆ −t auf das underlying nur diskrete Bestandshaltekosten2 im Gesamtwert Bt (bezogen auf den Zeitpunkt t) an, so gilt VK,t⋆ (St ) = St − Bt − K· e−iT . (2.1) Der Forward Price Ft ist in diesem Fall gleich Ft = (St −Bt )· eiT . b) Werden stetige Bestandshaltekosten b auf das Objekt vorausgesetzt, so gilt VK,t⋆ (St ) = St · e(b−i)T −K· e−iT (2.2) Der Forward Price Ft ist in diesem Fall gleich Ft = St · ebT . ❑ Beweis: Wir wollen der Einfachheit voraussetzen, dass das underlying eine Aktie mit diskreten Dividenden mit dem Barwert Dt bzw. stetigem Dividendenertrag d (also d = i − b) ist. a) Wir betrachten zum Zeitpunkt t zwei Portfolios A und B mit folgendem Aussehen Portfolio A : Terminkauf der Aktie zum Terminkurs K, fällig zum Zeitpunkt t⋆ . Portfolio B: Kauf einer Aktie. Verkauf eines Zerobonds mit Nominalwert K und eines Zerobonds mit Barwert Dt , Fälligkeitszeitpunkt jeweils t⋆ . Da mit den Dividendenerträgen der Aktie in Portfolio B die Anleihe mit Barwert Bt zurückgezahlt wird, haben beide Portfolios zum Zeitpunkt t⋆ den gleichen Wert, nämlich St⋆ − K. Daher gilt zum Zeitpunkt t ebenfalls die Gleichheit, also VK,t⋆ (St ) = St − Dt − K· e−iT . b) Besitzt die Aktie eine stetige Dividendenrendite d kann ähnlich argumentiert werden. Wieder betrachten wir zwei Portfolios A und B zum Zeitpunkt t, wobei A wie im Beweis von Teil a) gewählt wird. Portfolio B hat folgendes Aussehen Portfolio B: Kauf von e(b−i)T Aktien. Verkauf eines Zerobonds im Nominalwert K. 2 Man beachte, dass Bt < 0 gelten kann. c Klaus Schindler SS 2016 19 Arbitragebeziehungen 2.2. Terminkontrakte ARBITRAGEBEZIEHUNGEN Kapitel 2 Terminkontrakte Arbitragebeziehungen Wird die Dividende direkt in die Aktie reinvestiert, enthält Portfolio B zum Zeitpunkt t⋆ genau eine Aktie. Unter Berücksichtigung der Anleihe hat Portfolio B zum Zeitpunkt t⋆ den Wert St⋆ − K, d.h. den gleichen Wert wie Portfolio A . Daher muss wie in Teil a) die Wertgleichheit der beiden Portfolios zum Zeitpunkt t gelten, also VK,t⋆ (St ) = e(b−i)T ·St − K· e−iT . Bemerkung 2.4 Der Beweis des letzten Satzes zeigt insbesondere, dass Terminkontrakte durch ein Portfolio mit Anleihen und Objekten dupliziert werden können. Im Gegensatz zur dynamischen Duplikation (siehe Kapitel 6) wird der Aufbau des Duplikationsportfolios zu Beginn der Laufzeit festgelegt und beibehalten, unabhängig davon, wie der spätere Kursverlauf aussieht. Entscheidend bei dieser Argumentation ist, dass kein Teil von Portfolio A oder Portfolio B von außen verändert werden kann, wie zum Beispiel bei short-Positionen in amerikanischen Calls oder Puts. ❐ Beispiel 2.5 i) Betrachte den Terminkauf einer 5-Jahres Anleihe, die zum Kurs 900 e gehandelt wird. Der Terminkurs betrage 910 e, die Laufzeit des Kontraktes ein Jahr. Couponzahlungen von 60 e fallen in 6 bzw. 12 Monaten (letztere kurz vor Fälligkeit des Kontraktes) an. Der stetige Jahreszins für 6 bzw. 12 Monate betrage 9% bzw. 10%. In diesem Fall ist 1 St = 900, K = 910, i = 0.10, T = 1, D = 60· e−0.09· 2 +60· e−0.10 = 111.65 Der Wert des Terminkaufs ist dann3 VK,t⋆ (St ) = 900 − 111.65 − 910 e−0.10 = −35.05. Der Käufer dieses Kontraktes erhält also Fall +35.05 e. Der Forward Price Ft beträgt Ft = (St −D)· eiT = 788.35 e· e0.1 = 871.26 e. ii) Betrachte einen Dollar Terminkauf. In diesem Fall liegt ein stetiger Dividendenertrag d in Höhe des amerikanischen Zinssatzes vor. Bezeichnet S den Dollarkurs, i den inländischen Zinssatz, so ist der Forward Price gleich Ft = St · e(i−d)T . Für i>d ergibt sich ein Report St < Ft (Zinsaufschlag), für i<d ergibt sich ein Deport St > Ft (Zinsabschlag)4. ❐ 3 Beim Kauf der Anleihe wird vorausgesetzt, dass keine Stückzinsen anfallen. Andernfalls ist der Wert des Terminkaufs um die entsprechend abgezinste Größe zu verringern, da K um die Stückzinsen erhöht wird. 4 Preisnotiz, nicht Mengennotiz! 20 c Klaus Schindler SS 2016 Arbitragebeziehungen Kapitel 2 2.2. Terminkontrakte Beweis: Nehmen wir an, dass der Future Kontrakt eine Laufzeit von n Tagen besitzt. K bezeichne den Forward Price am Ende des 0-ten Tages (Kontraktbeginn), Fℓ sei der Future Price am Ende des ℓ−ten Tages, ρ der stetige Tageszinssatz5 . Wir konstruieren zwei Portfolios. Portfolio A : Kauf eines Zerobonds mit Nominalwert K und eines Terminkontraktes mit Forward Price K. Fälligkeit jeweils in n Tagen. Portfolio B: Kauf von Futures derart, dass zu Beginn des ℓ−ten Tages genau e(ℓ−n)ρ Futures im Portfolio vorhanden sind (ℓ = 0, 1, . . . , n). Kauf eines Zerobonds mit Nominalwert F0 und Fälligkeit in n Tagen. Wir zeigen nun, dass beide Portfolios zum Zeitpunkt t⋆ den gleichen Wert haben. Am Ende des n-ten Tages (= Verfallszeitpunkt t⋆ ) hat Portfolio A den Wert St⋆ . Der Wert von Portfolio B zum Zeitpunkt t⋆ ergibt sich, indem wir den täglichen Gewinn (Verlust) der Futureposition bis zum n-ten Tag aufzinsen und zur Anleiheposition addieren. Der Gewinn (bzw. Verlust) der e(ℓ−n)ρ Futures am Tag ℓ ist (Fℓ − Fℓ−1 ) e(ℓ−n)ρ , aufgezinst also (Fℓ − Fℓ−1 ) e(ℓ−n)ρ · e(n−ℓ)ρ = Fℓ − Fℓ−1 . Der Gesamtgewinn(/verlust) der Futures am Ende von Tag n ist daher n X ℓ=1 (Fℓ − Fℓ−1 ) = Fn − F0 . Zusammen mit der Anleiheposition hat daher Portfolio B zum Zeitpunkt t⋆ den Wert (Fn − F0 ) + F0 = Fn = St⋆ . Da beide Portfolios zum Zeitpunkt t⋆ den gleichen Wert haben, muss dies auch für den Zeitpunkt 0 gelten. Da die Futures und der Terminkontrakt zu Beginn den Wert 0 haben, liefert die Wertgleichheit der beiden Portfolios K e−nρ = F0 e−nρ und damit K = F0 . Der Beweis des letzten Satzes zeigt, dass bei konstanten Zinsen Forward-Kontrakte mittels Future-Kontrakten mit gleichem Verfallszeitpunkt in einem dynamischen Roll-overVerfahren dupliziert werden können. Das Verfahren soll im folgenden anhand der Ölkontrakte aus Beispiel 1.6 demonstriert werden. 5 Erfolgt das Settlement nicht täglich, sondern in anderen Perioden, läuft der Beweis entsprechend. c Klaus Schindler SS 2016 21 Arbitragebeziehungen Satz 2.6 Ist der Zinssatz während der Laufzeit konstant, so sind Future und Forward Price gleich. ❑ ARBITRAGEBEZIEHUNGEN Kapitel 2 Optionen Beispiel 2.7 Daten: i = 4.2%, ℓ = 1.0%, b = 5.2%, jeweils stetig p.a., t⋆ = 5, jährliches Settlement Spotpreis St , Futurepreis Ft = St ebT . Arbitragebeziehungen t St Ft Futureanzahl ft im Jahr t 0 1 2 3 4 5 17 18 16 15 14 14 22.04 22.16 18.70 16.64 14.75 14.00 e−5i ≈ 0.81 e−4i ≈ 0.85 e−3i ≈ 0.88 e−2i ≈ 0.92 e−i ≈ 0.96 1 Restlaufzeit T =t⋆ −t 5 4 3 2 1 0 Margin total aufgezinst (Ft −Ft−1 ) · ft (Ft −Ft−1 )·ft · eiT 0 +0.12 e−4i −3.46 e−3i −2.06 e−2i −1.89 e−i −0.75 0 +0.12 e−4i e4i −3.46 e−3i e3i −2.06 e−2i e2i −1.89 e−i ei −0.75 −8.04 Zum Zeitpunkt t⋆ =5 ergibt sich als Preis für den Kauf eines Barrel Öls gerade der ursprüngliche Terminkurs K=S0 ebT =22.04 [ $/Barrel ]. Kosten für den Kauf von einem Barrel Öl: Aufgezinste Futurekosten (Margins): 14.00 $ 08.04 $ Total: 22.04 $ ❐ 2.3. Optionen Wir wollen nun mit ähnlichen Methoden Aussagen für Optionen herleiten. Die elementarsten dieser Aussagen geben wir im folgenden Satz ohne Beweis an, da sie eine einfache Übung für den Umgang mit Arbitragetabellen darstellen. Satz 2.8 (Elementareigenschaften von Optionen) Für Optionen gelten folgende elementare Relationen (1) Optionspreise sind nicht-negativ, da eine Ausübung nur stattfindet, wenn es im Interesse des Optionshalters liegt. (2) Zum Verfallszeitpunkt t⋆ besitzen (die ansonsten gleiche) amerikanische und europäische Option denselben Wert, nämlich den inneren Wert. (3) Eine amerikanische Option muss mindestens zu ihrem inneren Wert gehandelt werden. Diese Relation gilt für europäische Optionen im allgemeinen nicht6 . 6 Grund hierfür ist, dass eine europäische Option nur indirekt über ein Termingeschäft zum heutigen Zeitpunkt ausgeübt werden kann. Im Fall eines europäischen Call führt ein Terminverkauf mit Terminkurs K und Fälligkeit t⋆ zu (St ebT −K) e−iT = St e−dT −K e−iT . Der hierbei auftretende Abzinsungsfaktor kann den Optionspreis unter den inneren Wert der Option drücken (siehe hierzu Kapitel 9). 22 c Klaus Schindler SS 2016 Arbitragebeziehungen Kapitel 2 2.3. Optionen OK,t⋆2 (St⋆1 ) > Innerer Wert zum Zeitpunkt t⋆1 = OK,t⋆1 (St⋆1 ) Für europäische Optionen ist diese Aussage im allgemeinen nicht erfüllt. (5) Eine amerikanische Option hat mindestens den gleichen Wert wie die ansonsten identische europäische Option. (6) Calls bzw. Puts sind als Funktion des Ausübungskurses monoton fallend bzw. monoton wachsend. Dies gilt für amerikanische und europäische Optionen. ❑ 2.3.1. Put-Call-Parität Satz 2.9 (Put-Call-Parität für europäische Optionen) Ein Portfolio, das je einen europäischen Call long und einen europäischen Put short enthält, mit gleichem Verfallszeitpunkt t⋆ und Ausübungskurs K auf das gleiche underlying, dupliziert einen Terminkauf mit Terminkurs K und Fälligkeit t⋆ . Insbesondere folgt: a) Fallen während der Optionslaufzeit T =t⋆ −t auf das underlying Bestandshaltekosten mit dem Barwert Bt an, so gilt: CK,t⋆ (St ) − PK,t⋆ (St ) = St − K e−iT −Bt b) Fallen während der Optionslaufzeit T =t⋆ −t auf das underlying stetige Bestandshaltekosten b auf das Objekt an, so gilt: CK,t⋆ (St ) − PK,t⋆ (St ) = St e(b−i)T −K e−iT ❑ Beweis: In beiden Fällen (diskrete/stetige Bestandshaltekosten) betrachten wir folgende Portfolios: Portfolio A : 1.) Kaufe den Call 2.) Verkaufe den Put Portfolio B: 1.) Terminkauf des Objekts zum Terminkurs K, Fälligkeit t⋆ Für den Wert der Portfolios zum Zeitpunkt t⋆ gilt dann: Position 1.) 2.) Summe Portfolio A Portfolio B Wert zum Zeitpunkt t⋆ K < St⋆ K > St⋆ 0 −(K − St⋆ ) St⋆ − K 0 Wert zum Zeitpunkt t⋆ K < St⋆ K > St⋆ St⋆ − K St⋆ − K St⋆ − K Position 1.) Summe St⋆ − K c Klaus Schindler SS 2016 St⋆ − K St⋆ − K 23 Arbitragebeziehungen (4) Bezeichnen OK,t⋆1 und OK,t⋆2 den Wert zweier - bis auf die Laufzeit - gleicher amerikanischer Optionen mit t⋆1 6 t⋆2 , so gilt OK,t⋆1 6 OK,t⋆2 . Dies folgt aus der Ungleichung Kapitel 2 ARBITRAGEBEZIEHUNGEN Optionen Um Arbitragemöglichkeiten zu verhindern, müssen daher beide Portfolios zum Zeitpunkt t den gleichen Wert haben, d.h. es gilt Arbitragebeziehungen CK,t⋆ (St ) − PK,t⋆ (St ) = VK,t⋆ (St ) . Ersetzt man VK,t⋆ (St ) durch den in Satz 2.3 bestimmten Wert (siehe Formel (2.1) bzw. (2.2)), erhält man die Behauptung. Bemerkung 2.10 Man beachte, dass der Beweis des letzten Satzes nur für europäische Optionen funktioniert. Liegen amerikanische Optionen vor, muss mit einer vorzeitigen Ausübung des short gehaltenen Call gerechnet werden. ❐ 2.3.2. Konvexitätseigenschaften Satz 2.11 Der Preis O einer Option (amerikanisch oder europäisch) ist als Funktion des Ausübungskurses konvex, d.h. es gilt OλK1+(1−λ)K2 ,t⋆ (St ) 6 λOK1 ,t⋆ (St ) + (1 − λ)OK2,t⋆ (St ). ❑ Beweis: Es genügt Calls zu betrachten. Für Puts läuft der Beweis analog. Für λ ∈ [0, 1] und K1 < K2 betrachten wir folgendes Portfolio zum Zeitpunkt t: 1) Kaufe λ Calls mit Ausübungskurs K1 2) Kaufe (1−λ) Calls mit Ausübungskurs K2 3) Verkaufe 1 Call mit Ausübungskurs K := λK1 + (1−λ)K2 Dieses Portfolio besitzt zum Zeitpunkt t den Wert λCK1,t⋆ (St ) + (1−λ)CK2 ,t⋆ (St ) − CλK1 +(1−λ)K2 ,t⋆ (St ) Liquidiert man das Portfolio vollständig zu einem beliebigen Zeitpunkt t̃ (etwa im Fall der vorzeitigen Ausübung der short-Position im Fall amerikanischer Optionen), so ergibt sich für den Wert des Portfolios: Position 1) 2) 3) Summe 24 St̃ 6 K1 0 0 0 0 Wert zum Zeitpunkt t̃ K1 < St̃ 6 K K < St̃ 6 K2 λ(St̃ − K1 ) λ(St̃ − K1 ) 0 0 0 −(St̃ − K) λ(St̃ − K1 ) (1−λ)(K2 − St̃ ) c Klaus Schindler SS 2016 K2 < St̃ λ(St̃ − K1 ) (1−λ)(St̃ − K2 ) −(St̃ − K) 0 Arbitragebeziehungen Kapitel 2 2.3. Optionen λCK1 ,t⋆ (St ) + (1−λ)·CK2 ,t⋆ (St ) − CλK1 +(1−λ)K2 ,t⋆ (St ) > 0 Beispiel 2.12 Wir betrachten drei Kaufoptionen auf die SCHMERZBANK A.G. mit gleicher Laufzeit und den Ausübungskursen K1 = 190 , K = 200 , K2 = 220. Die Optionspreise seien Ausübungskurs K1 = 190 K = 200 K2 = 220 Optionspreis 30.6 e 26.0 e 14.4 e Nach dem letzten Satz muss gelten: 2 C ⋆ (St ) 3 K1 ,t + 13 CK2 ,t⋆ (St ) > C 2 K1 + 1 K2 ,t⋆ (St ) 3 3 Diese Bedingung ist verletzt und kann durch folgendes Arbitrageportfolio genutzt werden: 1) Kaufe 2 3 Calls mit Ausübungskurs K1 2) Kaufe 1 3 Calls mit Ausübungskurs K2 3) Verkaufe 1 Call mit Ausübungskurs K := 32 K1 + 31 K2 Zum jetzigen Zeitpunkt liefert dieses Portfolio den Cashflow +0.80 e. Zum Verfalls- bzw. Liquidationszeitpunkt t̃ der Optionen liefert das Portfolio folgenden Payoff: Position 1) 2) 3) Summe St̃ 6 190 0 0 0 0 Wert zum Zeitpunkt t̃ 190 < St̃ 6 200 200 < St̃ 6 220 2 2 (St̃ − 190) (St̃ − 190) 3 3 0 0 0 −(St̃ − 200) 2 1 (St̃ − 190) (220 − St̃ ) 3 3 220 < St̃ − 190) − 220) −(St̃ − 200) 0 2 (St̃ 3 1 (St̃ 3 Das Portfolio liefert für Aktienkurse St̃ zwischen 190 und 220 zusätzlich noch einen positiven Cashflow von maximal 20 3 ❐ e. Satz 2.13 Für zwei europäische Calls (bzw. Puts) mit gleicher Laufzeit, gleichem Verfallsdatum t⋆ und den Ausübungskursen K2 > K1 gilt: 0 6 CK1 ,t⋆ (St ) − CK2 ,t⋆ (St ) 6 e−iT (K2 − K1 ) c Klaus Schindler SS 2016 25 Arbitragebeziehungen Da λ(St̃ − K1 ) > 0 und (1−λ)(K2 − St̃ ) > 0 gilt, ist der Wert des Portfolios zum Zeitpunkt t̃ größer gleich Null. Damit keine Arbitrage möglich ist, muss das Portfolio auch zum Zeitpunkt t einen nichtnegativen Wert besitzen. Es gilt also ARBITRAGEBEZIEHUNGEN Kapitel 2 Optionen bzw. Arbitragebeziehungen 0 6 PK2 ,t⋆ (St ) − PK1 ,t⋆ (St ) 6 e−iT (K2 − K1 ) Sind die Optionswerte als Funktion des Ausübungskurses differenzierbar, folgt speziell −1 6 − e−iT 6 ∂C ∂K 6 0 bzw. 0 6 ∂P ∂K 6 e−iT 6 1 ❑ Beweis: Es genügt, den Beweis für Calls zu führen. Hierzu betrachten wir folgendes Arbitrageportfolio zum Zeitpunkt t: 1) Kaufe einen Call mit Ausübungskurs K2 2) Verkaufe einen Call mit Ausübungskurs K1 3) Kaufe Anleihen im Nominalwert (K2 − K1 ) fällig zum Zeitpunkt t⋆ . Zum Zeitpunkt t⋆ gilt für den Wert des Portfolios: Position 1) 2) 3) Summe Wert zum Zeitpunkt t⋆ St⋆ 6 K1 K1 < St⋆ < K2 K2 6 St⋆ 0 0 St⋆ − K2 0 −(St⋆ − K1 ) −(St⋆ − K1 ) K2 − K 1 K2 − K 1 K2 − K1 K2 − K 1 K2 − St⋆ 0 Der Wert des Portfolios zum Zeitpunkt t⋆ ist offensichtlich nicht-negativ. Folglich muss dies auch für den Wert zum Zeitpunkt t gelten, d.h. e−iT (K2 − K1 ) + CK2 ,t⋆ (St ) − CK1 ,t⋆ (St ) > 0 26 c Klaus Schindler SS 2016 K APITEL 3 Wahrscheinlichkeitsrechnung 3.1. Zufall und Ereignisse Lässt man einen Stein aus 10 m Höhe fallen, so kann mit den Newtonschen Gesetzen der Aufprallzeitpunkt berechnet werden, bevor das Experiment ausgeführt wird. Komplexe Systeme (Aktienkurs zu einem bestimmten Zeitpunkt, Tageshöchsttemperatur an einem bestimmten Ort) lassen sich dagegen nicht exakt (deterministisch) beschreiben, weil der - das System bestimmende - zukünftige Umweltzustand zufällig ist und daher nur ungenau vorausgesagt werden kann, wie sich das System zeitlich entwickelt. Die meisten der in der Natur auftretenden Systeme besitzen diese komplexe innere Struktur, hängen also vom jeweils eintretenden Umweltzustand und damit mehr oder minder stark vom Zufall ab. Sie können nicht befriedigend durch ein deterministisches Modell beschrieben werden. Zur Beschreibung dieser Systeme, die wegen ihrer Komplexität schwer oder nur ungenau gemessen werden können, muss man daher Vermutungen (Prognosen) über den zukünftigen nicht deterministischen, stochastischen Charakter unserer Umwelt abgeben. Genau genommen gibt es keine deterministischen Prozesse. Prozesse dieses Namens haben lediglich die Eigenschaft, dass der Einfluss des Zufalls im Rahmen der Messgenauigkeit des jeweiligen Experimentes vernachlässigt werden kann. Wegen dieser Unmöglichkeit, den zukünftigen Umweltzustand und alle damit verbundenen Größen exakt vorherzusagen, ist man auch nur in der Lage, eine Bandbreite bzw. Teilmenge von möglicherweise eintretenden Umweltzuständen anzugeben. Definition 3.1 Ω bezeichne im Folgenden eine Menge von möglichen Umweltzuständen ω, deren Eintritt nicht vorhersehbar ist. Ein Umweltzustand ω ∈ Ω ist dabei als Zusammenfassung aller Zustände und Konstellationen, welche die betrachteten Größen beeinflussen, zu verstehen. Die Menge Ω wird als Zustands- oder Ergebnisraum, Teilmengen von Ω werden als Ereignisse bezeichnet. Ist ein Zustand ω ∈ Ω eingetreten, so sagen wir, „Das Ereignis A ist eingetreten“, wenn ω ∈ A gilt. Im Fall ω ∈ / A sagt man, „Das Ereignis A ist nicht eingetreten“. Ein Ereignis wird als bekannt bezeichnet, wenn es eingetreten oder nicht eingetreten ist. ❐ Wahrscheinlichkeitsrechnung Kapitel 3 Ereignisse und σ-Algebren 3.2. σ-Algebren Mit dem Eintreten eines Zustandes ω sind nicht nur einzelne Ereignisse sondern auch zusammengesetzte Ereignisse bekannt1 . Sind nämlich A und B bekannte Ereignisse, so gilt dies aus mengentheoretischen Gründen z.B. auch für ∁A, A ∩ B oder A ∪ B. Ein System A von beobachtbaren Ereignissen, das diese mehr oder minder naheliegenden mengentheoretischen Eigenschaften besitzt, wird als σ-Algebra bezeichnet. Genauer definiert man: Wahrscheinlichkeitsrechnung Definition 3.2 Ein System A von Teilmengen der Menge Ω heißt eine σ-Algebra in Ω, wenn es folgende Eigenschaften erfüllt: (A1) Ω ∈ A (A2) A ∈ A =⇒ ∁A ∈ A (A3) A1 , A2 , · · · ∈ A =⇒ ∞ S i=1 ❐ Ai ∈ A Ein Paar (Ω, A), bestehend aus einem Zustandsraum Ω und einer σ-Algebra A ⊂ ℘(Ω) wird als Messraum bezeichnet. ❐ Beispiel 3.3 Wir betrachten den Zustandsraum Ω = {KKZ, KZK, ZKK, KZZ, ZZK, ZKZ, KKK, ZZZ}. Interpretiert man die Einzelelemente von Ω als Ergebnis dreier aufeinanderfolgender Münzwürfe, wobei K für Kopf, und Z für Zahl steht, so beschreibt die Teilmenge A := {KKK, KKZ, KZK, KZZ} das Ereignis, dass im ersten Wurf Kopf, die Teilmenge B := {KZK, ZZK, KZZ, ZZZ}, das Ereignis, dass im zweiten Wurf Zahl erscheint. Der Durchschnitt der beiden Ereignisse A ∩ B = {KZZ, KZK} beschreibt dann das Ereignis, dass der 1. Wurf Kopf und der 2. Wurf Zahl geliefert hat. Drei Beispiele für mögliche σ-Algebren in Ω sind: A0 = {∅, Ω} A1 = A2 = 1 ∅, Ω, {KKK, KKZ, KZK, KZZ}, {ZZZ, ZZK, ZKZ, ZKK} ℘(Ω) ❐ I.d.R. sind Ereignisse bekannt, nicht jedoch der eingetretene Zustand ω bzw. das eingetretene Elementarereignis {ω}. Dies führt u.a. zum Begriff der bedingten Wahrscheinlichkeit (siehe hierzu Abschnitt 3.8). 28 c Klaus Schindler SS 2016 Stochastik Kapitel 3 3.3. Wahrscheinlichkeitsmaße Zwar kann man i.A. nicht voraussagen, welche Ereignisse zukünftig eintreten, jedoch ist es oft möglich, eine Einschätzung abzugeben, mit welchen Ereignissen in einer gegebenen σ-Algebra eher zu rechnen ist und welche weniger plausibel sind. Dies wird präzisiert durch die Angabe von Werten zwischen 0 und 1, die man als Wahrscheinlichkeit bezeichnet. Ist A ⊂ Ω ein Ereignis, so bezeichne P(A) im Folgenden immer die (für einen Marktteilnehmer subjektive) Wahrscheinlichkeit dafür, dass das Ereignis A eintritt. Man nennt P ein Wahrscheinlichkeitsmaß. Wiederum aufgrund mengentheoretischer Überlegungen macht es Sinn, von diesem Maß gewisse Eigenschaften zu fordern. Sind z.B. A und B disjunkte Ereignisse, d.h. sind die Mengen A und B disjunkt, sollte P(A ∪B) · = P(A) + P(B) gelten. Außerdem sollte die Wahrscheinlichkeit für alle Ereignisse aus der gegebenen σ-Algebra berechnet werden können. Dies führt zu folgender Definition. Definition 3.4 Sei A eine σ-Algebra im Zustandsraum Ω. Eine Funktion P : A → [0, 1] heißt Wahrscheinlichkeitsmaß auf A, wenn gilt 1.) P(Ω) = 1 2.) P ist σ-additiv, d.h. für jede Folge paarweise disjunkter Mengen A1 , A2 , . . . gilt: P ∞ S · Ai i=1 = ∞ X P(Ai ). ❐ i=1 Das Tripel (Ω, A, P) wird als Wahrscheinlichkeitsraum bezeichnet. ❐ Beispiel 3.5 Betrachten wir Beispiel 3.3 mit der Annahme, dass bei jedem Münzwurf die Wahrscheinlichkeit für Kopf p und für Zahl q := 1−p sei. Im Fall der Unabhängigkeit der einzelnen Würfe sind die Wahrscheinlichkeiten der (einelementigen) Elementarereignisse A = {ω} bekannt. Z.B. gilt: P({KKK}) = p3 , P({KZK}) = p2 q, P({ZZZ}) = q 3 Die Wahrscheinlichkeit eines beliebigen Ereignisses A ergibt sich dann nach Eigenschaft 2.) eines Wahrscheinlichkeitsmaßes als Summe der Wahrscheinlichkeiten der in A liegenden Elementarereignisse, d.h., P(A) = X P({ω}). ω∈A Z.B. gilt P({KKK, KKZ, KZK, KZZ}) = p3 + 2p2 q + pq 2 = p was nur eine andere Formulierung dafür ist, dass die Wahrscheinlichkeit für Kopf im ersten Wurf p beträgt. P ist also ein Wahrscheinlichkeitsmaß auf der σ-Algebra A = ℘(Ω). ❐ c Klaus Schindler SS 2016 29 Wahrscheinlichkeitsrechnung 3.3. Wahrscheinlichkeitsmaße Wahrscheinlichkeitsrechnung Kapitel 3 Wahrscheinlichkeitsmaße Bemerkung 3.6 In einem Wahrscheinlichkeitsraum (Ω, A, P) gelten folgende häufig verwendete Eigenschaften (siehe auch das Übungsprogramm). i) 1) P(A∪B) + P(A∩B) = P(A) + P(B) 2) A ⊂ B =⇒ P(A) 6 P(B) 3) A ⊂ B =⇒ P(B\A) = P(B) − P(A) ii) Für eine aufsteigende Folge von Mengen Aℓ ∞ ℓ=1 definiert man lim Aℓ := ℓ→∞ ∞ S Aℓ . ℓ=1 Wahrscheinlichkeitsrechnung Das Wahrscheinlichkeitsmaß P ist „stetig“, d.h. für jede „monoton wachsende“ Folge A1 ⊂ A2 ⊂ A3 . . . von Ereignissen aus A, gilt lim P(Aℓ ) = P(lim Aℓ ) . ℓ→∞ ℓ→∞ iii) Bei der konkreten Bestimmung des Wahrscheinlichkeitsmaßes sind zwei Konzepte zu unterscheiden. Zum einen die subjektive Wahrscheinlichkeit, die angibt, wieviel man auf das Eintreten eines Ereignisses wetten würde und im Gegensatz hierzu die Laplacesche Wahrscheinlichkeit, die über die relative Häufigkeit berechnet wird. ❐ 3.4. Zufallsvariablen und Messbarkeit So elegant und allgemein das Konzept des Wahrscheinlichkeitsraumes gehalten ist2 , so wenig praktikabel erscheint es, da eine vollständige Bestimmung des gesamten Zustandsraumes Ω auf Grund seiner Komplexität i.A. unmöglich oder viel zu aufwändig wäre3 . Man wird sich daher nur auf die Daten bzw. Ereignisse konzentrieren, an denen man wirklich interessiert ist. Diese Größen, wie z.B. Aktienkurse oder Temperaturen, deren Werte direkt vom jeweiligen zufälligen zukünftigen Umweltzustand abhängen, bezeichnet man als Zufallsgrößen. Definition 3.7 Eine Abbildung auf dem Zustandsraum Ω Z:Ω→ R d mit ω 7→ Z(ω) bezeichnet man als Zufallsgröße. Im Fall d=1 spricht man von einer Zufallsvariable. Im Fall d>1 ist Z ein Vektor von Zufallsvariablen, d.h. es gilt Z = (Z1 , . . . , Zd ) und man spricht von einem d-dimensionalen Zufallsvektor. ❐ 2 Dieses grundlegende axiomatische Modell geht auf den russischen Mathematiker Kolmogoroff zurück. 3 Warum bzw. wie sollte man Informationen über die momentane Zahl der Neutrinos sammeln? 30 c Klaus Schindler SS 2016 Stochastik Kapitel 3 3.4. Zufallsvariablen und Messbarkeit Beispiel 3.8 i) Sei (Ω, A) ein Messraum. Einfachstes Beispiel einer Zufallsvariablen ist die Indikatorfunktion A : Ω → einer Menge A ⊂ Ω. Diese Funktion ist definiert durch R A (ω) := 1 falls ω ∈ A 0 falls ω 6∈ A A (ω) ✻ ✛ ω✲ ✲ A Ω Treppenfunktionen (siehe folgende Skizze für eine Treppenfunktion mit n=5 Stufen) sind Linearkombinationen von Indikatorfunktionen, also Funktionen der Form T := n X k=1 αk · Ak R mit αk ∈ , Ak ⊂Ω . α2 ✻T (ω) α5 α1 α3 ✛ A1 ✲✛ ✲✛ A3 ✲✛ A2 A4 ✲✛A5✲ ω✲ Ω α4 ii) Sei Ω := {KKZ, KZK, ZKK, KZZ, ZZK, ZKZ, KKK, ZZZ} wie in Beispiel 3.3. S0 , u und d seien vorgegebene reelle Zahlen mit 0<d<u. Wir definieren Z : Ω → durch: R Z(ω) := S0 ·u3 S0 ·u2d S0 ·ud2 S0 ·d3 falls falls falls falls ω ω ω ω = KKK ∈ {KKZ, KZK, ZKK} ∈ {KZZ, ZZK, ZKZ} = ZZZ Z ist eine Zufallsvariable4 auf dem Zustandsraum Ω. 4 Wählt man S0 als festen Vektor des ❐ Rd liefert das Beispiel einen Zufallsvektor. c Klaus Schindler SS 2016 31 Wahrscheinlichkeitsrechnung 1 Wahrscheinlichkeitsrechnung Kapitel 3 Wahrscheinlichkeitsmaße Statt alle möglichen Ereignisse zu betrachten, wird man seine Aufmerksamkeit auf die Ereignisse konzentrieren, die mit einer gegebenen Zufallsgröße Z zu tun haben. Da auf Grund des vorher schon erwähnten nicht vorhersehbaren stochastischen Charakters unserer Umwelt nur eine Bandbreite von in Frage kommenden zukünftigen Umweltzuständen angegeben werden kann (Ereignisse), ist es bei einer gegebenen ZV Z auch sinnvoller, nach dem Eintreten eines Intervalls von Werten von Z, statt nach dem Eintreten einzelner Werte zu fragen. Von Interesse sind also vor allem die Ereignisse in Ω, für die Z Werte innerhalb eines vorgegebenen Intervalls annimmt, also die Urbilder Wahrscheinlichkeitsrechnung Z −1 (]−∞, x]) = {ω∈Ω | −∞ < Z(ω) 6 x} =: {Z 6 x}. „Beherrschbar“ ist eine Zufallsgröße Z nur, wenn diese Ereignisse beobachtbar bzw. „messbar“ sind, d.h. wenn man die Eintrittswahrscheinlichkeit dieser Ereignisse berechnen kann. Mathematisch bedeutet dies, dass sie im Definitionsbereich des Wahrscheinlichkeitsmaßes liegen, also Elemente der σ-Algebra sein müssen. Diese Messbarkeit ist eine Minimalforderung, die wir in Zukunft von allen Zufallsgrößen verlangen werden. Definition 3.9 Eine Zufallsgröße Z : Ω → ∀x ∈ R d R d heißt5 messbar bzgl. der σ-Algebra A, wenn gilt: : {Z6x} ∈ A. Hierbei ist {Z 6 x} eine Kurznotation für die Menge der Umweltzustände ω∈Ω, die bei der Funktion Z = (Z1 , . . . , Zd ) zu Werten unterhalb von x = (x1 , . . . , xd ) führen, d.h.: {Z 6 x} = {ω∈Ω | Z(ω) 6 x} = {ω∈Ω | Z1 (ω) 6 x1 , . . . , Zd (ω) 6 xd }. Beispiel 3.10 i) Die Indikatorfunktion A (ω) = A :Ω→ ❐ R aus Beispiel 3.8 i) definiert durch 1 falls ω ∈ A 0 falls ω 6∈ A ist genau dann messbar bzgl. einer σ-Algebra A, wenn A ∈ A gilt. Es ist nämlich { 5 A Ω falls 16x 6 x} = ∁A falls 0 6 x < 1 ∅ falls x<0 Da die von den Intervallen in R erzeugte σ-Algebra nach dem französischen Mathematiker E.Borel benannt ist, spricht man auch von einer Borel-messbaren Funktion. Da diese σ-Algebra von rationalen Intervallen erzeugt wird, genügt es, Ereignisse {Z 6 x} mit rationalem x zu untersuchen. 32 c Klaus Schindler SS 2016 Stochastik Kapitel 3 3.4. Zufallsvariablen und Messbarkeit ii) Sei die ZV Z : Ω → Z(ω) := R definiert wie in Beispiel 3.8, d.h. gelte S0 ·u3 S0 ·u2d S0 ·ud2 S0 ·d3 falls falls falls falls ω ω ω ω = KKK ∈ {KKZ, KZK, ZKK} ∈ {KZZ, ZZK, ZKZ} = ZZZ Wahrscheinlichkeitsrechnung Für die Messbarkeit von Z sind die Mengen {ω∈Ω | Z(ω) 6 x} zu bestimmen. Beachtet man, dass wegen 0 < d < u die Relation 0 < S0 ·d3 < S0 ·ud2 < S0 ·u2 d < S0 ·u3 gilt, folgt {Z 6 x} = für {ZZZ} für {KZZ, ZZK, ZKZ, ZZZ} für {KZZ, ZZK, ZKZ, ZZZ, KKZ, KZK, ZKK} für Ω für ∅ S0 ·d3 S0 ·ud2 S0 ·u2 d S0 ·u3 6 6 6 6 x x x x x < S0 ·d3 < S0 ·ud2 < S0 ·u2 d < S0 ·u3 Damit ist Z nicht messbar bzgl. der σ-Algebra A1 = ∅, Ω, {KKK, KKZ, KZK, KZZ}, {ZZZ, ZZK, ZKZ, ZKK} aus Beispiel 3.3, jedoch (trivialerweise) messbar bzgl. der σ-Algebra ℘(Ω). ❐ Bemerkung 3.11 Am einfachsten ist die Messbarkeit einer Zufallsgröße Z dadurch zu garantieren, dass man für A die kleinste σ-Algebra wählt, die von allen Mengen der Form {Z 6 x} erzeugt wird. Man nennt sie die von Z = (Z1 , . . . , Zn ) erzeugte σ-Algebra und schreibt σ(Z) oder σ(Z1 , . . . , Zn ). A enthält nur die Ereignisse (Informationen), die durch Beobachtung der ZV Z1 , . . . , Zn zur Verfügung stehen (Informationseffizienz). In Beispiel 3.10 ii) ist dies die σ-Algebra, die von den Ereignissen {ZZZ}, {KZZ, ZZK, ZKZ, ZZZ} und {KZZ, ZZK, ZKZ, ZZZ, KKZ, KZK, ZKK} erzeugt wird. ❐ Auf folgende häufig gebrauchte Eigenschaften messbarer Funktionen sei kurz hingewiesen. Satz 3.12 ist genau dann A-messbar, wenn eine der folgenden vier äquivalenten a) f : Ω → Bedingungen erfüllt ist: R i) ∀α∈ R : {f 6 α} ∈ A c Klaus Schindler SS 2016 33 Wahrscheinlichkeitsrechnung Kapitel 3 Wahrscheinlichkeitsmaße R : {f > α} ∈ A iii) ∀α∈R : {f > α} ∈ A iv) ∀α∈R : {f < α} ∈ A b) Sind f, g : Ω → R zwei A-messbare Funktionen, so liegen die Mengen {f ii) ∀α∈ < g}, {f 6 g}, {f = g} und {f 6= g} in A. Hierbei ist {f < g} die Kurzdarstellung der Menge {ω∈Ω | f (ω) < g(ω)}. Die übrigen Mengen sind analog zu verstehen. Wahrscheinlichkeitsrechnung c) Alle „algebraisch zulässigen Verknüpfungen“ (z.B. Produkte und Linearkombinationen) messbarer Funktionen liefern wiederum messbare Funktionen. d) Ist (fk )∞ k=1 eine Folge A-messbarer Funktionen auf Ω, so ist jede der folgenden Funk6 tionen A-messbar: i) sup fk ii) inf fk k→∞ k→∞ iii) lim fk ❑ k→∞ Die Charakterisierung von Zufallsvariablen erfolgt überwiegend durch Kenngrößen (Momente) wie Erwartungswert oder Varianz, deren Wert durch Integration der Zufallsgrößen berechnet wird. Diese Integration erfolgt analog zum Riemann-Integral (siehe Bemerkung 3.20). Man definiert zunächst das Integral für Treppenfunktionen und approximiert anschließend die zu integrierende Zufallsgröße durch Treppenfunktionen. Wesentlich ist hierbei folgender Approximationssatz (zum Beweis siehe Anhang Satz A.6). Satz 3.13 Sei f eine messbare Funktion auf dem Messraum (Ω, A). Dann existiert eine Folge (Tn )∞ n=1 messbarer Treppenfunktionen, die punktweise gegen f konvergiert, d.h. für jedes ω∈Ω gilt lim Tn (ω) = f (ω). ❑ n→∞ 3.5. Verteilung von Zufallsgrößen Definition 3.14 Sei Z : Ω → d eine messbare Zufallsgröße auf dem Messraum (Ω, A). Die Eintrittswahrscheinlichkeiten aller zu Z = (Z1 , . . . , Zd ) gehörenden Ereignisse7 wird Wahrscheinlichkeitsverteilung oder (kumulative) Verteilung der Zufallsgröße Z genannt. Die gesamte Verteilung wird bereits durch die Funktion R FZ : R d → [0, 1] x 7→ FZ (x) := P({Z 6 x}) = P({Z1 6 x1 , . . . , Zd 6 xd }), 6 7 Die Funktionen sind dabei punktweise definiert, also z.B. lim fk (x) = lim fk (x). k→∞ k→∞ Dazu gehören z.B. auch Ereignisse der Form {a 6 Z 6 b}, deren Vereinigung usw. 34 c Klaus Schindler SS 2016 Stochastik Kapitel 3 3.5. Verteilung von Zufallsgrößen bestimmt, weswegen FZ als Verteilungsfunktion der Zufallsgröße Z bezeichnet8 wird. FZ (x) gibt an, wie groß die Wahrscheinlichkeit ist, dass Z Werte im d-dimensionalen Intervall (Quader) ] − ∞, x1 ] × · · · × ] − ∞, xd ] annimmt. Ist FZ differenzierbar, so wird FZ′ als Wahrscheinlichkeitsdichte oder kurz Dichte von Z bezeichnet9 . ❐ Beispiel 3.15 definiert wie in Beispiel 3.8 ii) bzw. 3.10 ii). Zur Bestimmung der Sei die ZV Z : Ω → Verteilungsfunktion sind die Werte FZ (x) = P({Z 6 x}) zu bestimmen. Wegen R P(∅) = 0 Wahrscheinlichkeitsrechnung P({ZZZ}) = q 3 P({KZZ, ZZK, ZKZ, ZZZ}) = q 3 + 3pq 2 P({KZZ, ZZK, ZKZ, ZZZ, KKZ, KZK, ZKK }) = q 3 + 3pq 2 + 3p2 q P(Ω) = q 3 + 3pq 2 + 3p2 q + p3 = 1 ist die Verteilungsfunktion FZ der Zufallsvariablen Z gegeben durch: FZ (x) = P({Z 6 x}) = 0 q3 q 3 + 3pq 2 q 3 + 3pq 2 + 3p2 q 1 für für für für für S0 ·d3 S0 ·ud2 S0 ·u2 d S0 ·u3 6 6 6 6 x x x x x < S0 ·d3 < S0 ·ud2 < S0 ·u2 d < S0 ·u3 Der Graph von FZ hat folgendes für diskrete Zufallsvariablen typische Aussehen (siehe hierzu das allgemeine Beispiel 3.17 iv) bzw. v)): FZ (x) ✻ q 3 + 3pq 2 + 3p2 q + p3 1 q 3 + 3pq 2 + 3p2 q q 3 + 3pq 2 q3 ✲x 3 2 S0 d S0 ud 2 S0 u d S0 u 3 ❐ Bemerkung 3.16 i) Verteilungsfunktionen sind typischerweise rechtsseitig stetig, mit linksseitigem Grenzwert und werden in der Literatur häufig mit dem französischen Akronym cadlàg („continue à droite limite à gauche“) bezeichnet. 8 Man spricht auch von der gemeinsamen Verteilungsfunktion der Zufallsvariablen Z1 bis Zd . 9 Besitzt Z = (Z1 , . . . , Zd ) eine Dichte, so auch die einzelnen Komponenten Zi . c Klaus Schindler SS 2016 35 Wahrscheinlichkeitsrechnung Kapitel 3 Wahrscheinlichkeitsmaße ii) Da der, das zufällige Geschehen steuernde Wahrscheinlichkeitsraum (Ω, A, P) i.a. nicht bzw. nicht vollständig bekannt ist, bieten Verteilungsfunktionen eine besonders einfache Möglichkeit, die Wahrscheinlichkeiten P({a<Z6b}) berechnen. Unter Verwendung des Riemann-Stieltjes-Integral gilt nämlich (sofern FZ stetig ist) A.5 f) P({a < Z 6 b}) = FZ (b) − FZ (a) = Z b a dFZ (x). Ist die Verteilungsfunktion FZ differenzierbar, lassen sich diese Wahrscheinlichkeiten als Riemann-Integral berechnen, da nach Satz A.5 d) des Anhangs gilt Wahrscheinlichkeitsrechnung Z b a A.5 d) dFZ (x) = Z b a FZ′ (x)dx . Ist FZ stetig differenzierbar, d.h. ist FZ′ sogar stetig, gilt für infinitesimale Änderungen dx insbesondere P({x < Z 6 x+dx}) = FZ (x+dx) − FZ (x) = FZ′ (x)dx = dFZ (x) . Die Dichte FZ′ (x) ist also ein Maß dafür, wie groß die Chance ist, dass Z einen Wert in der Nähe von x annimmt. FZ′ (x) gibt in diesem Fall nicht an, wie groß die Wahrscheinlichkeit ist, dass Z den Wert x annimmt. Für stetiges FZ′ gilt nämlich nach dem Hauptsatz der Differential- und Integralrechnung P({Z=x}) = Z x x FZ′ (t)dt = FZ (x) − FZ (x) = 0 iii) Die Verteilung FZ einer Zufallsvariable Z wird oft auch das Bildmaß von P unter Z genannt und dann mit PZ oder Z(P) bezeichnet, weil Z das Wahrscheinlichkeitsmaß P auf die reellen Zahlen „transportiert“. D.h., durch PZ (]a, b]) := P({a < Z 6 b}) = Z b a dFZ (x) wird ein Wahrscheinlichkeitsmaß auf der von den Intervallen (Quadern) erzeugten σAlgebra (Borelmengen) definiert. Alle Integrale bzgl. PZ können mit Hilfe des von der Verteilungsfunktion FZ erzeugten Riemann-Stieltjes-Integrals berechnet werden. (Die genaue Aussage findet man in Bemerkung 3.20 ii) - iv).) In diesem Sinne gestattet es der Verteilungsbegriff, die Arbeit mit mehreren unterschiedlichen Zufallsgrößen (auf evtl. verschiedenen Zustandsräumen) auf einen gemeinsamen Raum zu übertragen. Existiert eine Dichte ϕ, gilt also PZ (]a, b]) = Differentialschreibweise durch dPZ (x) = ϕ(x)dx oder dPZ (x) dx Rb a dPZ (x) = Rb a ϕ(x)dx, wird dies oft in = ϕ(x) notiert. Unter welchen Voraussetzungen für zwei beliebige Maße Q und P eine Dichtefunktion ϕ mit dQ = ϕdP existiert, wird im Satz von Radon-Nikodym (siehe Anhang Satz A.7) geklärt. 36 c Klaus Schindler SS 2016 Stochastik Kapitel 3 3.5. Verteilung von Zufallsgrößen iv) Bei gleicher Zufallsvariable X führt eine Änderung des Wahrscheinlichkeitsmaßes zu einer Änderung der Verteilung. Andererseits können unterschiedliche Zufallsgrößen die gleiche Verteilung besitzen. Hierzu betrachte man folgendes Beispiel. Definiert man bei dem Würfelexperiment in Beispiel 3.8 zwei verschiedene Zufallsvariablen X und Y durch Y (ω) := 2 falls ω ∈ {KKK, KKZ} , 0 sonst 2 falls ω ∈ {ZZZ, ZZK} , 0 sonst so produziert X mit Wahrscheinlichkeit p2 den Wert 2 und mit Wahrscheinlichkeit 1 − p2 den Wert 0. Y dagegen liefert mit Wahrscheinlichkeit q 2 den Wert 2 und mit Wahrscheinlichkeit 1 − q 2 den Wert 0. Offensichtlich hängen die Verteilungen von der „Kopfwahrscheinlichkeit“ p, also vom Wahrscheinlichkeitsmaß P ab. Damit besitzen 1 ❐ X und Y genau dann die gleiche Verteilung, wenn p = q = gilt. 2 Beispiel 3.17 i) Normalverteilungen stellen die wichtigste Klasse von Verteilungen mit Dichten dar (Man beachte hierzu auch Abschnitt 3.6.). Sie sind durch zwei Parameter µ, σ 2 charakterisiert. Die Wahrscheinlichkeitsdichten lauten ϕµ,σ2 (x) = √ 1 2πσ · e− 2 (x−µ)2 2σ 2 . x2 Die Verteilung mit Dichte ϕ0,1 (x) = √12π · e− 2 , für die also µ=0, σ 2 =1 gilt, heißt Standardnormalverteilung. Es gilt folgender Zusammenhang: ϕµ,σ2 (x) = 1 σ ϕ0,1 x−µ σ Für die Aussage „Z ist normalverteilt mit Parametern µ, σ 2 “ hat sich die Schreibweise „Z ∼ Nµ,σ2 “ oder „Z ∼ Nµ,σ “ eingebürgert. Mit N (x) bezeichnen wir im Folgenden auch den Wert der Standardnormalverteilung an der Stelle x, also N (x) = Z x −∞ ϕ0,1 (t)dt = 1 √ 2π Z x t2 −∞ e−( 2 ) dt. ii) Analog zum eindimensionalen Fall heißt der Zufallsvektor Z = (Z1 , . . . , Zd ) d-dimensional normalverteilt (oder: Z1 , . . . , Zd sind gemeinsam normalverteilt), wenn die mehrdimensionale Verteilungsfunktion FZ eine Dichte ϕ besitzt, die folgendes Aussehen hat: ϕ(x) = s det Σ−1 (2π)d · e− 2 (x−µ) Σ 1 t −1 (x−µ) Hierbei ist µ der Erwartungsvektor und Σ die sog. Varianz-Kovarianzmatrix. c Klaus Schindler SS 2016 37 Wahrscheinlichkeitsrechnung X(ω) := Wahrscheinlichkeitsrechnung Kapitel 3 Wahrscheinlichkeitsmaße iii) Eine ZV Y heißt lognormalverteilt, wenn ln(Y ) normalverteilt ist. Anders ausgedrückt: „Ist Z normalverteilt, so ist Y = eZ lognormalverteilt“. Besitzt Z eine Nµ,σ2 -Verteilung, so ist die Dichte von Y = eZ gegeben durch f (x) = 1 ·ϕ 2 (ln(x)) x µ,σ 0 für x > 0 für x 6 0 Wahrscheinlichkeitsrechnung iv) Die Verteilung einer diskreten ZV Z, die - wie etwa in Beispiel 3.7 - nur endlich viele verschiedene Werte z1 < z2 < · · · < zn annimmt10 , wird vollständig bestimmt durch die Wahrscheinlichkeiten P({Z=zk }), wegen {Z6x} = · S zk 6x {Z=zk }. Die Verteilungsfunktion weist deswegen an den Stellen z=zk Sprünge der Höhe P({Z=zk }) auf. Es gilt nämlich P({a < Z 6 b}) = X P({Z=zk }), also FZ (x) = P({Z6x}) = X P({Z=zk }) . zk 6x a<zk 6b Die folgende Skizze zeigt das prinzipielle Aussehen der Verteilungsfunktion solcher diskreter Zufallsgrößen. FZ (x) ✻ P({Z=z1 }) + P({Z=z2 }) P({Z=z1 }) z1 z2 z3 z4 Speziell gilt für die Verteilungsfunktion einer Indikatorfunktion 0 falls x < 0 F A (x) = 1 − P(A) falls 0 6 x < 1 1 falls 1 6 x 10 Dies ist automatisch erfüllt, wenn z.B. Ω endlich ist. 38 c Klaus Schindler SS 2016 ✲x z5 . . . . . . A (A ∈ A): Stochastik Kapitel 3 3.5. Verteilung von Zufallsgrößen F A (x) ✻ 1 1 − P(A) ✲x 1 v) Die einfachsten Beispiele von Zufallsgrößen, die nur endlich viele Werte annehmen, bilden Zufallsgrößen, die nur 2 bzw. 3 Werte annehmen können, z.B. ±1 oder −1, 0, +1. Sie bilden die Basis der Bi- bzw. Trinomialverfahren, mit deren Hilfe auf dem Rechner diskrete Zufallsprozesse erzeugt werden können (siehe Kapitel 5). In diesem Zusammenhang treten binomialverteilte Zufallsgrößen auf. Sind Y1 , . . . , Yn unabhängige Zufallsgrößen11 , die nur die beiden Werte 0 und 1 annehmen, mit der Verteilung P({Yk =1}) = p , P({Yk =0}) = 1−p , so ist ihre Summe Z := n P k=1 k = 1, . . . , n , Yk , d.h. die Anzahl der Einsen in der Stichprobe Y1 , . . . , Yn , binomialverteilt mit Parametern n, p, d.h. es gilt Z= n X k=1 Yk , P({Z=m}) = n m p (1−p)n−m m , FZ (x) = X n k6x k pk (1−p)n−k . Für die Aussage „Z ist binomialverteilt mit Parametern n, p“ hat sich die Schreibweise „Z ist Bn,p -verteilt“ eingebürgert. ❐ Bemerkung 3.18 Eine Bn,p -verteilte Zufallsgröße Y kann näherungsweise durch eine Nnp,np(1−p) -verteilte Zufallsgröße Z ersetzt werden, wenn n groß ist, in dem Sinn (siehe Bemerkung 3.20 v)), dass P({a < Y < b}) ≈ P({a < Z < b}) . (3.1) Eine genauere Aussage liefert der zentrale Grenzwertsatz, der allgemein für unabhängige und identisch verteilte Zufallsvariablen gilt. In der klassischen Statistik macht man sich dieses Ergebnis zunutze, um die für größere n aufwändige Berechnung von Binomialwahrscheinlichkeiten zu umgehen. Umgekehrt weist die approximative Austauschbarkeit von binomialund normalverteilten Zufallsgrößen aber auch einen Weg, auf der Normalverteilung aufbauende stetige Zufallsprozesse durch Binomialprozesse anzunähern. Diese sind auf dem Rechner leicht zu simulieren und werden bei der Modellierung des zeitlichen Verlaufs von Aktienkursen benötigt. ❐ 11 Dies soll bedeuten, dass sich die Werte der einzelnen Zufallsvariablen Yi nicht gegenseitig beeinflussen. Für eine genauere Definition siehe Abschnitt 3.8 auf Seite 44. c Klaus Schindler SS 2016 39 Wahrscheinlichkeitsrechnung 0 Wahrscheinlichkeitsrechnung Kapitel 3 Normalverteilung 3.6. Approximationen der Normalverteilung Die Berechnung der Werte der Normalverteilung N bereitet Probleme, da das Integral N (x) = 1 2π Z x −∞ t2 e−( 2 ) dt nicht exakt berechnet werden kann. Bei praktischen Anwendungen ist man daher auf Approximationen der Normalverteilung angewiesen. In der Literatur (beispielsweise [13]) findet man verschiedene Näherungsformeln. Nachfolgend wollen wir einige vorstellen12 . x2 Wahrscheinlichkeitsrechnung a) N (x) ≈ 1 − (a1 t + a2 t2 + a3 t3 ) e− 2 , t= 1 , 1 + bx mit b = 0.332672527, a1 = 0.17401209, a2 = −0.04793922, a3 = 0.373927817. Der Approximationsfehler hat unabhängig von x die Größenordnung O(10−5). x2 b) N (x) ≈ 1 − (a1 t + a2 t2 + a3 t3 + a4 t4 + a5 t5 ) e− 2 , t= 1 , 1 + bx mit b = 0.231641888, a1 = 0.127414796, a2 = −0.142248368, a3 = 0.71070687, a4 = −0.726576013, a5 = 0.530702714. Der Fehler dieser Approximation liegt unabhängig von x bei O(10−7). c) N (x) ≈ 1 − 1 2(a1 x + a2 x2 + a3 x3 + a4 x4 + a5 x5 )8 , mit a1 = 0.099792714, a2 = −0.044320135, a3 = 0.009699203, a4 = −0.000098615, a5 = 0.00581551. Der Fehler dieser Approximation liegt unabhängig von x bei O(10−5). d) Als letzte Möglichkeit wollen wir hier noch die Taylorreihendarstellung angeben: ∞ x2n+1 1 X (−1)n n n!2 (2n + 1) 2π n=0 x3 1 x5 x7 √ x− 1 + 2 − 3 1!2 3 2!2 5 3!2 7 2π N (x) = 1 2 +√ = 1 2 + +··· . Mit Hilfe dieser Reihe kann die Normalverteilung beliebig genau angenähert werden, wobei natürlich mit der Genauigkeit auch die Anzahl der benötigten Summanden und somit die Anzahl der arithmetischen Operationen steigt. Ein Vergleich aller vier Näherungsformeln ist in der Tabelle 1 enthalten. Die Taylorreihe wurde beim ersten Summanden, der betragsmäßig kleiner als 10−5 ist, abgebrochen. Die Spalte „iter“ gibt dabei die Nummer des letzten Summanden der Taylorreihe an. 12 Die Formeln gelten für x > 0. Für x < 0 ist N (x) = 1 − N (−x) anzuwenden. 40 c Klaus Schindler SS 2016 Stochastik Kapitel 3 3.7. Momente einer Zufallsgröße Methode-a 0.8413517179 0.8643435425 0.8849409364 0.9032095757 0.9192515822 0.9331983332 0.9452030611 0.9554336171 0.9640657107 0.9712768696 0.9772412821 x 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 Methode-b 0.8413447362 0.8643338948 0.8849302650 0.9031994476 0.9192432862 0.9331927690 0.9452007087 0.9554345667 0.9640697332 0.9712835061 0.9772499371 Methode-c 0.8413516627 0.8643375717 0.8849298369 0.9031951398 0.9192361959 0.9331845052 0.9451929907 0.9554288709 0.9640670474 0.9712842148 0.9772538334 Methode-d 0.8413441191 0.8643341004 0.8849309179 0.9031993341 0.9192427095 0.9331930259 0.9452014728 0.9554342221 0.9640686479 0.9712839202 0.9772496294 iter 6 7 7 8 8 9 9 10 10 11 12 Tabelle 1 3.7. Momente einer Zufallsgröße Momente sind Kenngrößen von Zufallsvariablen. Die zwei wichtigsten Momente sind der Erwartungswert und die Varianz. Erwartungswert und Varianz bestimmen im Allgemeinen eine Verteilung nicht eindeutig, sie können aber einen ersten Eindruck von der Verteilung vermitteln. Da es unmöglich ist, vorab anzugeben, welchen Funktionswert eine stochastische nicht deterministische Größe annimmt („realisiert“), liegt es nahe, bei einer ZV den „mittleren“ Funktionswert anzugeben. Für eine deterministische Funktion f : → , mit dem endlichen Definitionsbereich = {x1 , . . . , xn }, ist dies die Summe der Funktionswerte, gewichtet 1 mit der relativen Häufigkeit ihres Auftretens13 D R D n n X 1 f¯ := n f (xk ) . k=1 D = [a, b] wird f¯ entsprechend durch das Integral Bei nicht-endlichem Definitionsbereich dx als relative Häufigkeit interpretiert werden kann von f definiert, wobei der „Faktor“ f¯ := 1 b−a Z b a b−a f (x)dx. Der im Mittel zu erwartende Funktionswert einer Zufallsvariablen Z wird analog definiert als Summe bzw. Integral aller möglichen Werte x, die Z annehmen kann, gewichtet mit der jeweiligen Eintrittswahrscheinlichkeit P({x < Z 6 x + dx}) = dFZ (x), also Z := 13 Z R xdFZ (x) Da bei der deterministischen Funktion f alle Funktionswerte f (xk ) gleich „wahrscheinlich“ verteilt sind, kann der Faktor n1 als Eintrittswahrscheinlichkeit und f¯ als Erwartungswert interpretiert werden. c Klaus Schindler SS 2016 41 Wahrscheinlichkeitsrechnung Approximation der Normalverteilung Wahrscheinlichkeitsrechnung Kapitel 3 Erwartungswert, Varianz Dieser Wert ist ein Maß dafür, in welchem Bereich mit den Werten von Z zu rechnen ist und stellt die unter der momentan gegebenen Wahrscheinlichkeitsinformation bestmögliche Prognose dar, die über den Ausgang des Zufallsexperimentes Z gemacht werden kann (Man beachte hierzu auch den Abschnitt 3.8 auf Seite 44 ff.). Definition 3.19 a) Der Erwartungswert definiert durch: Wahrscheinlichkeitsrechnung E[Z] = Z Rd E(Z) einer Zufallsgröße Z ist ihr mittlerer Funktionswert. Er ist xdFZ (x) b) Die Varianz var(Z) einer Zufallsgröße Z ist ein Maß dafür, wie stark Z im Mittel um ihren Erwartungswert herum variiert (streut). Man definiert sie daher als erwartete quadratische Abweichung, die Z vom eigenen Erwartungswert besitzt, d.h. E var(Z) = E |Z − (Z)| 2 Die Varianz besitzt als quadratische Größe eine andere Einheit als Z. Ein besseres Gefühl für die Größe der Variabilität von Z liefert daher die Standardabweichung s(Z), die wie (Z) in derselben Einheit wie Z gemessen wird. E s(Z) := q var(Z) . ❐ Bemerkung 3.20 i) Da der Erwartungswert einer Zufallsvariable sehr stark vom vorgegebenen Wahrscheinlichkeitsmaß abhängt, sollte im Zweifelsfall P geschrieben werden. E ii) Der Umweg über Verteilungsfunktionen wird vermieden, wenn man die klassische Integrationstheorie auf Funktionen Z : Ω → verallgemeinert, indem man den Definitionsbereich Ω in kleine Teilmengen dω zerlegt und dann Z durch Treppenfunktionen approximiert (siehe nachfolgende Skizze). Das Integral einer Treppenfunktion T ist dabei wie üblich als Summe aller durch T gegebenen „Rechteckflächen“ definiert. Diese ergibt sich als „Grundseite mal Höhe“, wobei die „Größe“ der Grundseite dω in Ermangelung eines Längenbegriffs auf Ω durch P(dω) gemessen wird. Das Maß des Rechtecks ist daher Z(ω)P (dω) (siehe nachfolgende Skizze). Formal erhält man14 : R E(Z) = Z Ω Z(ω)P (dω) = Z Ω Z(ω)dP (ω). Wesentlich bei dieser Integration ist, dass sich jede messbare Funktion als Grenzwert von messbaren Treppenfunktionen darstellen lässt (siehe Satz 3.13). 14 Wir verwenden hierbei analog zur Integralrechnung die Schreibweise dP (ω) für P (dω). 42 c Klaus Schindler SS 2016 Stochastik Kapitel 3 Z(ω) 3.7. Momente einer Zufallsgröße Z(ω)P(dω) ✻ ✠ E(Z) ✲ ω∈Ω dω Das so definierte Integral stellt eine Verallgemeinerung des Riemann-Integrals dar und besitzt z.T. deutlich „angenehmere“ Eigenschaften als dieses. Z.B. gilt (ohne auf die genauen Voraussetzungen einzugehen): lim Z n→∞ Ω fn dµ = Z lim fn dµ Ω n→∞ R iii) Nimmt die Zufallsgröße Z : Ω → d nur endlich viele Werte z1 , . . . , zn an15 , gilt nach Beispiel 3.17 iv) und Satz A.5 g) (siehe Anhang): E(Z) = Z A.5 g) Rd xdFZ (x) = n X k=1 zk P ({Z = zk }) iv) Besitzt Z die Verteilungsfunktion FZ und ist g(Z) eine Funktion der Zufallsvariablen Z, so gilt für den Erwartungswert von g(Z), sofern dieser existiert E(g(Z)) = Z +∞ −∞ g(x)dFZ (x). Insbesondere ergeben sich daraus folgende Spezialfälle: E(Z) = E(Z ) = 2 var(Z) = = = E( A) = Z +∞ −∞ Z +∞ −∞ Z xdFZ (x), x2 dFZ (x) [x − (Z)]2 dFZ (x) −∞ Z +∞ | E +∞ −∞ E 2 x dFZ (x) − 2 (Z) {z E = (Z 2 ) } E(Z ) − [E(Z)] 2 Z +∞ −∞ 2 Z | E +∞ −∞ 2 xdFZ (x) + [ (Z)] {z E = (Z) } (Varianz-Zerlegungssatz) Z | +∞ −∞ dFZ (x) {z =1 } 3.17 xdF A (x) = P(A). Die letzte Gleichung zeigt insbesondere, dass die Wahrscheinlichkeit eines Ereignisses gleich dem Erwartungswert der Indikatorfunktion des Ereignisses ist. 15 Dies ist automatisch erfüllt, wenn Ω endlich ist. c Klaus Schindler SS 2016 43 Wahrscheinlichkeitsrechnung |{z} Wahrscheinlichkeitsrechnung Kapitel 3 Bedingte Wahrscheinlichkeit v) Eine Nµ,σ2 -verteilte Zufallsgröße Z hat Mittelwert µ und Varianz σ 2 . Der 2σ-Bereich um µ enthält mit mehr als 95% Wahrscheinlichkeit Beobachtungen von Z P({µ − 2σ < Z < µ + 2σ}) ' 0, 95 . Eine Bn,p -verteilte Zufallsgröße Z hat Erwartungswert np und Varianz np(1 − p). Die Approximation (3.1) in Bemerkung 3.18 ist also so gewählt, dass die näherungsweise einander ersetzenden binomial- und normalverteilten Zufallsgrößen identische Erwartungswerte und Varianzen besitzen. Die folgende Tabelle liefert die Erwartungswerte und Varianzen der bisher behandelten Verteilungen. Wahrscheinlichkeitsrechnung Verteilung von Z E(Z) var(Z) Dichte von Z Nµ,σ2 -Normalverteilung µ σ2 ϕµ,σ2 (x) Lognormalverteilung Z = eY mit (Y ) = µ, var(Y ) = σ 2 Bn,p E e(µ+ σ2 ) 2 2 (e(σ ) −1) e(2µ+σ np N np(1 − p) 2) 1 ϕ 2 (ln(x)) x µ,σ keine E vi) Allgemeiner werden für eine ZV Z und n ∈ die Größen (sofern existent) (|Z|n ), (Z n ) bzw. [(Z − E(Z))n ] als n-tes absolutes Moment, n-tes Moment bzw. n-tes zentriertes Moment von Z bezeichnet. Insbesondere ist der Erwartungswert das erste Moment, die Varianz das zweite zentrierte Moment. Vereinfacht gesprochen ist eine Verteilung durch die Kenntnis aller Momente eindeutig bestimmt. ❐ E E 3.8. Bedingte Wahrscheinlichkeit Interessiert man sich für mehrere Ereignisse gleichzeitig (z.B. die Kurse verschiedener Aktien) so ist es von großem Interesse zu erfahren, ob ein Zusammenhang zwischen diesen besteht und wie diese Abhängigkeit gemessen werden kann. Der intuitive Begriff der Unabhängigkeit zweier Ereignisse A, B wird präzisiert durch die folgende Überlegung. Nehmen wir an, dass ein Experiment durchgeführt wird, bei dem wir uns für das Ereignis A interessieren. Der Ausgang des Experimentes sei ω, was wir jedoch nicht oder nicht vollständig erkennen können. Wahrnehmbar sind stattdessen nur die Auswirkungen des eingetretenen Zustandes auf andere messbare Zufallsgrößen, d.h. wir erfahren nur, dass ein anderes Ereignis B eingetreten ist16 , also ω ∈ B gilt. I.A. wird diese zusätzliche Information unsere Einschätzung über die Eintrittswahrscheinlichkeit des Ereignisses A verändern, da diese ab sofort relativ zu B gemessen werden muss. Sie ist 0, wenn A und B disjunkt sind und 1, wenn B ⊂ A gilt, da dann A ebenfalls eingetreten ist. Allgemein werden wir A um so wahrscheinlicher halten, je „größer“ der „Anteil“ der Menge B in der Menge A, d.h. je größer A ∩ B ist. 16 I.A. werden natürlich mehrere andere Ereignisse beobachtet. 44 c Klaus Schindler SS 2016 Stochastik Kapitel 3 3.8. Bedingte Wahrscheinlichkeit B A∩ B Unsere Einschätzung für das Eintreten von A unter der Annahme, dass B mit P(B) > 0 eingetreten ist, lautet daher P(A ∩ B) . P(B) Wir werden die Ereignisse A und B als unabhängig empfinden, wenn diese relative Wahrscheinlichkeit P(A) ist, d.h. wenn die Kenntnis über ω ∈ B unsere Einschätzung für das Eintreten von A nicht ändert. Dies führt zu folgender Definition. Definition 3.21 Ist (Ω, A, P) ein Wahrscheinlichkeitsraum und B ∈ A ein Ereignis mit P(B) > 0, so ist P(· | B) : A → [0, 1] A 7→ P(A|B) := P(A ∩ B) P(B) ein Wahrscheinlichkeitsmaß auf (Ω, A), welches bedingte Wahrscheinlichkeit unter (der Hypothese) B genannt und mit P(· | B) bezeichnet wird. a) Zwei Ereignisse A, B ∈ A heißen unabhängig, wenn gilt: P(A ∩ B) = P(A) · P(B). Im Fall P(B) > 0 ist dies genau dann erfüllt, wenn P(A|B) = P(A) gilt. Allgemeiner heißt eine Folge von Ereignissen (Ai )i∈I unabhängig, wenn für jede endliche Teilmenge J ⊂ I gilt: P T i∈J Ai = Y P(Ai ) i∈J b) Eine Folge von σ-Algebren (Ai )i∈I heißt unabhängig, wenn jede Folge von Ereignissen (Ai )i∈I mit Ai ∈ Ai für i ∈ I unabhängig ist. c) Eine Folge von Zufallsvariablen (Zi )i∈I heißt unabhängig, wenn die von ihnen erzeugte Folge von σ-Algebren σ(Zi ) unabhängig ist. ❐ i∈I c Klaus Schindler SS 2016 45 Wahrscheinlichkeitsrechnung A Wahrscheinlichkeitsrechnung Kapitel 3 Unabhängigkeit Beispiel 3.22 Betrachten wir einen zweifachen Münzwurf mit der Wahrscheinlichkeit p für Kopf K und der Wahrscheinlichkeit q := 1 − p für Zahl Z bei jedem Wurf (0 < p < 1). i) Gegeben seien die Ereignisse A := „Einmal Kopf, einmal Zahl“ und B := „Kopf beim ersten Wurf“, d.h. A = {KZ, ZK}, B = {KK, KZ}. Dann gilt Wahrscheinlichkeitsrechnung P(A) P(B) P(A) · P(B) P(A ∩ B) = = = = 2pq p2 + pq = p(p + q) = p 2p2 q pq, so dass A und B genau dann unabhängig sind, wenn 2p2 q = pq gilt. Dies ist äqui1 valent zu p = . Man erkennt hier, dass die Unabhängigkeit von Ereignissen vom 2 Wahrscheinlichkeitsmaß abhängt. Erfährt man, dass im ersten Wurf Kopf gefallen ist (B ist eingetroffen), so ist die bedingte Wahrscheinlichkeit für A P(A | B) = Ist p = q = 1 2 P(A ∩ B) P(B) = pq p folgt P(A | B) = = q. 1 , 2 was in diesem Fall nicht weiter überraschend ist, da die Wahrscheinlichkeit für Zahl im zweiten Wurf 1 2 beträgt. Geht man jedoch von einer „Kopfwahrscheinlichkeit“ p = 0, 01 aus, so ist die Eintrittswahrscheinlichkeit von A (vor dem ersten Wurf) ziemlich gering, es gilt P(A) = 0, 0198. Hier führt die Information, dass B (Kopf) im ersten Wurf eingetreten ist, für A zur bedingten Wahrscheinlichkeit P(A | B) = q = 0, 99. Dies liegt daran, dass im zweiten Wurf eine sehr hohe Wahrscheinlichkeit für Zahl und damit für A vorliegt. ii) Wir betrachten die σ-Algebren G = H = 46 ∅, Ω, {KKK, KKZ, KZK, KZZ}, {ZKK, ZKZ, ZZK, ZZZ} ∅, Ω, {KKK, ZKK, KKZ, ZKZ}, {KZK, ZZK, KZZ, ZZZ} c Klaus Schindler SS 2016 Stochastik Kapitel 3 3.8. Bedingte Wahrscheinlichkeit Bemerkung 3.23 i) Zwei Ereignisse A und B sind genau dann unabhängig, wenn die von ihnen erzeugten σ-Algebren σ(A) := {∅, Ω, A, ∁A} und σ(B) := {∅, Ω, B, ∁B} unabhängig sind. ii) Die Abhängigkeit oder Unabhängigkeit von Ereignissen, σ-Algebren oder Zufallsvariablen wird wesentlich vom betrachteten Wahrscheinlichkeitsmaß bestimmt, wie etwa Beispiel 3.22 i) zeigt. iii) Zwei Zufallsgrößen Z1 , Z2 sind nach Definition 3.21 genau dann unabhängig, wenn P({a1 < Z1 < b1 , a2 < Z2 < b2 }) = P({a1 < Z1 < b1 } ∩ {a2 < Z2 < b2 }) = P({a1 < Z1 < b1 }) · P({a2 < Z2 < b2 }), R für alle ai , bi ∈ gilt, d.h., Wahrscheinlichkeiten von Ereignissen, die vom Wert des Zufallsvektors Z=(Z1 , Z2 ) abhängen, lassen sich faktorisieren. In diesem Fall ist die gemeinsame Verteilung von Z gleich dem Produkt der eindimensionalen Verteilungen von Z1 und Z2 (Randverteilungen), d.h. es gilt FZ (x1 , x2 ) = FZ1 (x1 ) · FZ2 (x2 ) . Besitzt Z sogar eine Dichte, ist diese daher das Produkt der Dichten von Z1 und Z2 . Grob gesprochen sind also zwei Zufallsgrößen Z1 und Z2 unabhängig, wenn jedes Ereignis, das durch Z1 definiert ist, unabhängig von jedem Ereignis ist, das durch Z2 gegeben ist. Für eine genauere Aussage beachte man Satz 3.25. iv) Die häufig auftretenden bedingten Wahrscheinlichkeiten der Form P{a1 < Z1 < b1 | a2 < Z2 < b2 } spiegelt unsere Einschätzung wider, mit welchen Werten von Z1 wir eher rechnen bzw. welche wir für unplausibel halten, wenn wir schon wissen, dass eine andere Zufallsgröße Z2 bestimmte Werte angenommen hat. Unsere Meinung über die Wahrscheinlichkeiten der Werte von Z1 wird durch unsere Vorabinformation über Z2 nicht geändert, wenn Z1 gar nicht von Z2 abhängt, wenn also Z1 und Z2 unabhängig sind. ❐ c Klaus Schindler SS 2016 47 Wahrscheinlichkeitsrechnung G und H enthalten die Information, die sich bei einem dreimaligen Münzwurf durch den ersten bzw. zweiten Wurf ergeben, nämlich Kopf oder Zahl im ersten bzw. Kopf oder Zahl im zweiten Wurf. Nach dem ersten Wurf steht für alle Ereignisse aus G nicht jedoch für die Ereignisse aus H - fest, ob sie eingetreten sind oder nicht. Dies liegt an der Unabhängigkeit der beiden σ-Algebren, da bei einer Serie von Würfen die einzelnen Würfe unabhängig voneinander erfolgen und so die Wahrscheinlichkeit für eine bestimmte Wurfserie das Produkt der einzelnen Wurfwahrscheinlichkeiten ist. ❐ Wahrscheinlichkeitsrechnung Kapitel 3 Kovarianz, Korrelation Definition 3.24 Sind Z1 , . . . , ZN unabhängige Zufallsgrößen, die alle die gleiche Verteilung haben, d.h. R : P({a < Z ∀i, j∀a, b ∈ i 6 b}) = P({a < Zj 6 b}), so nennen wir sie unabhängig identisch verteilt (kurz: u.i.v.). ❐ Wahrscheinlichkeitsrechnung Ohne auf die genauen Voraussetzungen einzugehen, zitieren wir zwei intuitiv verständliche Eigenschaften unabhängiger Zufallsgrößen. Zum Beweis genügt es, Indikatorfunktionen zu betrachten, da messbare Funktionen Grenzwerte von Treppenfunktionen sind (siehe Satz 3.13). Satz 3.25 Sind Z1 , Z2 unabhängige Zufallsvariablen und g, h : R → R stetige Funktionen, so gilt: a) Die Zufallsvariablen g(Z1 ) und h(Z2 ) sind ebenfalls unabhängig. b) E g(Z )·h(Z ) h 1 2 i = E[g(Z )]·E[h(Z )]. Insbesondere gilt E[Z ·Z ] = E[Z ]·E[Z ]. 1 2 1 2 1 2 ❑ Dem folgenden Satz kommt im wahrsten Sinne des Wortes eine „zentrale“ Bedeutung innerhalb der Wahrscheinlichkeitstheorie zu. Satz 3.26 (Zentraler Grenzwertsatz) Sei X1 , X2 , X3 , . . . eine Folge u.i.v. Zufallsvariablen mit endlichem Erwartungswert µ und endlicher Standardabweichung σ > 0. Definiert man die Partialsummen Sn := X1 +· · ·+Xn , so konvergiert für n → ∞ die Verteilung von Sn − n · µ √ σ n 1 = √ σ n n X i=1 (Xi − µ) gegen die Standardnormalverteilung N0,1 . ❑ 3.9. Kovarianz, Korrelation Liegen zwei ZV nicht unabhängige Z1 , Z2 vor, ist die Frage, ob es möglich ist, den Grad der Abhängigkeit zu messen. Ein mögliches Maß für die Abhängigkeit von Z1 , Z2 ergibt sich aus folgender Überlegung: Z − (Z)beschreibt die Abweichung der Zufallsgröße Z von ihrem Prognosewert (Z). E E Daher ist Z1 − (Z1 ) E E Z2 − (Z2 ) ein Maß für das gemeinsame Abweichungsverhalten, dessen Vorzeichen angibt, ob beide tendenziell in die gleiche (+) oder in die entgegengesetzte Richtung (−) ihres jeweiligen Erwartungswertes abweichen. Definition 3.27 Wir definieren die Kovarianz cov(Z1 , Z2 ) bzw. die Korrelation corr(Z1 , Z2 ) der Zufallsvariablen Z1 und Z2 durch 48 c Klaus Schindler SS 2016 Stochastik Kapitel 3 3.10. Bedingte Erwartung cov(Z1 , Z2 ) = E (Z − E(Z ))(Z − E(Z )) corr(Z1 , Z2 ) = cov(Z1 , Z2 ) s(Z1 ) · s(Z2 ) bzw. 1 1 2 2 = E[Z 1 E E · Z2 ] − [Z1 ] · [Z2] . ❐ ii) Die Abhängigkeit von ZV kann in komplizierter Form vorliegen, die durch die Kovarianz nur eingeschränkt zu erfassen ist. Sind jedoch Z1 , Z2 speziell gemeinsam (bivariat) normalverteilt, gibt die Kovarianz in der Tat den Grad ihrer Abhängigkeit an. In diesem Fall ist Unabhängigkeit gleichbedeutend mit Korrelation gleich Null, während vollständige Abhängigkeit gleichbedeutend mit Korrelation +1 (Z1 ist groß, wenn Z2 groß ist) oder Korrelation −1 (Z1 ist groß, wenn Z2 klein ist) ist. iii) Aus der Definition folgt direkt die Bilinearität der Kovarianz: cov( n P i=1 λi Xi , Z) = n P i=1 λi · cov(Xi , Z) = cov(Z, n P i=1 λ i Xi ) . iv) Für unabhängige Zufallsgrößen Z1 , . . . , ZN gilt allgemein cov(Zi , Zj ) = 0 für i 6= j , woraus eine nützliche Rechenregel für unabhängige ZVen folgt X N var j=1 Zj = N X var(Zj ) . j=1 Für normalverteilte Zufallsvariablen gilt die Umkehrung dieser Aussage, d.h. in diesem Fall folgt aus cov(Z1 , Z2 )=0 schon die Unabhängigkeit von Z1 und Z2 . Für beliebige Zufallsvariablen ist dieser Schluss jedoch falsch. ❐ 3.10. Bedingte Erwartung Die Verwendung unterschiedlicher Informationen wird zu unterschiedlichen Einschätzungen der Zukunft, d.h. zu verschiedenen Wahrscheinlichkeitsmaßen führen. Implizit werden damit auch die Vorhersagen (Erwartungswerte) für eine vorgegebene ZV Z verändert. Der Begriff der bedingten Erwartung - eine Erweiterung des Erwartungswertbegriffs - berücksichtigt den jeweiligen Informationsstand und führt zum Begriff des Martingals. c Klaus Schindler SS 2016 49 Wahrscheinlichkeitsrechnung Bemerkung 3.28 i) Die Korrelation hat den Vorteil, immer zwischen −1 und +1 zu liegen und skaleninvariant (dimensionsunabhängig) zu sein. Wahrscheinlichkeitsrechnung Kapitel 3 Bedingte Erwartung Wie im Abschnitt 3.8 gesehen, führt eine neue Information, z.B. ein Ereignis B zu einer Veränderung des bisherigen Wahrscheinlichkeitsmaßes P und damit zu einer Neubewertung der bisherigen Meinungen und Prognosen17 . Vom Zeitpunkt des Eintretens von B sind daher alle ZV mit Hilfe dieses revidierten Maßes zu bewerten. Man spricht vom bedingten Wahrscheinlichkeitsmaß und bezeichnet es mit P(·|B). Folgerichtig tritt an die Stelle des Erwartungswertes P (Z) einer ZV Z der bedingte Erwartungswert P(·|B) (Z) und an die Stelle der Verteilungsfunktion FZ tritt die bedingte Verteilungsfunktion FZ|B . E E Definition 3.29 Sei Z : Ω → d eine Zufallsvariable und B ∈ A mit P(B) > 0. Wahrscheinlichkeitsrechnung R a) Die Verteilungsfunktion von Z bzgl. des bedingten Wahrscheinlichkeitsmaßes P(·|B) wird als bedingte Verteilungsfunktion von Z unter (der Hypothese) B bezeichnet und man schreibt FZ|B . Es gilt also FZ|B (x) := P {Z 6 x} | B = P {Z 6 x} ∩ B P(B) . b) Der Erwartungswert einer Zufallsvariable Z bzgl. des bedingten Wahrscheinlichkeitsmaßes P(·|B) wird als bedingter Erwartungswert von Z unter (der Hypothese) B bezeichnet und man schreibt [Z | B]. Es gilt also E E[Z | B] = Z Ω Z(ω)dP(ω|B) = Z Rd xdFZ|B (x). ❐ Bemerkung 3.30 Nach Bemerkung 3.20 gilt für jedes Ereignis A bei gegebenem Wahrscheinlichkeitsmaß Q E Q h A i = Q(A), also insbesondere für Q = P(·|B): E[ Wegen A |B] A∩B E = = P(·|B) ( A ) A P(A|B) = = = 17 · B = P(A|B) (3.2) folgt aber: 1 P(A ∩ B) P(B) Z 1 A∩B (ω)dP(ω) P(B) Ω Z B (ω) dP(ω) A (ω) · P(B) Ω Man kann B auch als mögliches zukünftiges Ereignis betrachten und fragen, wie sich die Einschätzung über die Wahrscheinlichkeiten verändert, falls dieses Ereignis eintritt. 50 c Klaus Schindler SS 2016 Stochastik Kapitel 3 3.10. Bedingte Erwartung Einsetzen in Gleichung (3.2) liefert E[ A |B] = Z A (ω) Ω · B (ω) P(B) dP(ω). Da sich jede messbare Funktion als Linearkombination von Indikatorfunktionen approximieren lässt, gilt diese Beziehung auch für beliebige Zufallsvariablen Z, d.h. es gilt E[Z | B] P(·|B) (Z) E = P Z· B P(B) (3.3) ist also eine Dichtefunktion von P(·|B) bzgl. P (·). In Kurzform wird dies in der fol- genden Form notiert: P(·|B) = B P(B) · P(·) oder P(dω|B) = B P(B) · P(dω). Dies bedeutet, dass der Erwartungswert einer ZV Z bzgl. des bedingten Wahrscheinlichkeitsmaßes P(·|B) gleich dem Erwartungswert von Z · B bzgl. des ursprünglichen WahrP(B) scheinlichkeitsmaßes P ist. Zieht man in Gleichung (3.3) den konstanten Faktor erhält man folgende Darstellung E[Z | B] = 1 · P(B) E P [Z · B] 1 P(B) vor, (3.4) Gleichung (3.4) zeigt, dass der bedingte Erwartungswert nichts anderes als eine gewichtete Mittelung der Funktionswerte über der Menge B und damit eine Verallgemeinerung des Erwartungswertes (über Ω) ist. [Z|B] gibt an, mit welchem Wert von Z gerechnet wird, wenn das Ereignis B eingetreten ist (bzw. eintreten würde). ❐ E Versucht man die Überlegungen aus Bemerkung 3.30 zu verallgemeinern, erweist sich die Voraussetzung P(B) > 0 als großes Hindernis, da die uns interessierenden Ereignisse der Form {Z = x} die Eintrittswahrscheinlichkeit 0 haben, wenn Z eine stetige Verteilung besitzt. Zudem wird i.A. nicht nur ein Ereignis (mit B ist z.B. auch ∁B bekannt), sondern im Extremfall eine ganze σ-Algebra I von Ereignissen (Informationen) vorliegen, z.B. die von vorgegebenen ZV Z1 , . . . , Zn erzeugte σ-Algebra σ(Z1 , . . . , Zn ). Da das Eintreten von Ereignissen vom eingetretenen Umweltzustand ω abhängt, wird man eine bedingte Erwartung als eine von ω und der gegebenen Informationsmenge I abhängige Zufallsgröße definieren, die u.a. Gleichung (3.4) genügt. Wir wollen diese allgemeine Definition der bedingten Erwartung zunächst in einem Spezialfall motivieren. Hierzu gehen wir davon aus, dass B1 , B2 , . . . eine Folge disjunkter Mengen mit P(Bi ) > 0 S und · Bi = Ω ist18 . Als Informations-σ-Algebra betrachten wir die von den Bi erzeugte σ-Algebra I := σ(B1 , B2 , . . . ). B(ω) bezeichne das - auf Grund der Disjunktheit - eindeutig bestimmte Ereignis Bj , das den Umweltzustand ω∈Ω enthält. 18 Man spricht von einer Zerlegung von Ω. Durch die Disjunktheit wird erreicht, dass jeder Umweltzustand in genau einem Ereignis Bj liegt. c Klaus Schindler SS 2016 51 Wahrscheinlichkeitsrechnung B P(B) E = Wahrscheinlichkeitsrechnung Kapitel 3 Bedingte Erwartung R Ist Z : Ω → d eine ZV, so definieren wir gemäß voriger Überlegung die bedingte Erwartung von Z bezüglich der σ-Algebra I als Zufallsgröße Y : Ω → d gegeben durch Y (ω) := R E[Z | B(ω)]. Da Y für alle ω ∈ Bi den konstanten Wert Y = X i E[Z|B ] · i E[Z|B ] annimmt, gilt offensichtlich i (3.5) Bi . Daraus ergeben sich zwei charakteristische Eigenschaften von Y Wahrscheinlichkeitsrechnung 1.) Y ist I-messbar und 2.) ∀A ∈ I : Z A Z(ω)dP(ω) = Z Y (ω)dP(ω). A Eigenschaft 1.) folgt direkt aus der Darstellung in Gleichung (3.5). Zum Nachweis von Eigenschaft 2.) betrachten wir ein beliebiges Ereignis A∈I. Wegen I = σ(B1 , B2 , . . . ) und S der Disjunktheit der Bi lässt sich A in der Form A= · Bj darstellen. Aus der paarweisen j∈J Disjunktheit der Mengen Bi ergibt sich dann Z A Y (ω)dP(ω) = XZ Bj j∈J = XZ Ω j∈J = = XZ Ω j∈J = X j∈J Gl. (3.4) = Z A i Bj (ω)dP(ω) E[Z|B ] · | i E[Z|B ] · j E[Z|B ] j XZ j∈J = Y (ω) Ω ≡ 0 für i6=j und damit: Y (ω)dP(ω) XZ X j∈J Bi · Bj Z |Ω Bi (ω) · {z Bj (ω) dP(ω) =0 f ür i6=j Bj (ω)dP(ω) } Bj (ω)dP(ω) Z(ω)dP(ω) {z P(Bj ) } Bj Z(ω)dP(ω) Eigenschaften 1.) und 2.) sind typisch für die bedingte Erwartung und gestatten daher, diesen Begriff für beliebige σ-Algebren I zu definieren19 . Dies führt zu folgendem Satz (bzw. Definition). 19 Entscheidend geht dabei der Satz von Radon-Nikodym ein (siehe Anhang A.7). Dieser besagt grob gesprochen, dass bei zwei R R vorgegebenen Maßen P und Q eine Dichtefunktion f mit dQ = f · dP existiert, d.h. Z(ω)dQ(ω) = Z(ω)f (ω)dP(ω). 52 c Klaus Schindler SS 2016 Stochastik Kapitel 3 3.10. Bedingte Erwartung Satz 3.31 Sei Z eine integrierbare Zufallsvariable auf (Ω, A, P) und I ⊂ A eine σ-Algebra. Dann existiert bis auf P-fast-sichere Gleichheit genau eine Zufallsvariable Y auf Ω, welche folgende zwei Bedingungen erfüllt: 1.) Y ist I-messbar Z A Y dP = Z A ZdP. Man bezeichnet Y als bedingte Erwartung von Z unter der Information (Hypothese) I und schreibt Y = [Z|I] oder Y = I [Z]. Wird speziell I von den Zufallsvariablen Z1 , . . . , Zn ❑ erzeugt, d.h. gilt I = σ(Z1 , . . . , Zn ), schreibt man [Z | Z1 , . . . , Zn ]. E E E Bemerkung 3.32 i) Wählt man in Eigenschaft 2.) von Satz 3.31 speziell A = Ω, so folgt E E[Z | I] = E[Z]. E[Z|I] ist daher ein unverzerrter I-messbarer Schätzer von Z. Eine ZV Z zu prognostizieren heißt also, eine andere ZV Y zu bestimmen, die 1.) I-messbar, d.h. an die gegebene Informationsmenge I in dem Sinne angepasst ist, dass sie nicht mehr als die vorhandene Information enthält und 2.) die „bestmögliche“ Approximation für Z ist, d.h. Z und Y liefern für jedes Ereignis A aus der Informationsmenge I die gleichen bedingten Erwartungswerte E[Y | A] = E[Z | A] ⇐⇒ Z A Y (ω)dP(ω) = Z A Z(ω)dP(ω) Betrachtet man speziell die Informationsmenge I0 = {∅, Ω}, d.h. liegt keine Information vor, so ist in diesem Sinn die konstante ZV Y ≡ (Z) mit E Y : ω 7→ E(Z), die beste I0 -messbare Vorhersage für Z. Es gilt in diesem Fall also (siehe hierzu auch Satz 3.35). E[Z | I ] ≡ E[Z] 0 ii) Eigenschaft 2.) der bedingten Erwartung liefert folgende äquivalente Formulierung. Eine I-messbare ZV Z0 ist genau dann gleich der bedingten Erwartung ∀I-messbaren X : Z Ω XZ0 dP = Z Ω XZdP E[Z | I], wenn (3.6) Dies folgt daraus, dass jede I-messbare ZV X mittels Linearkombinationen von Indikatorfunktionen A approximiert werden kann. c Klaus Schindler SS 2016 53 Wahrscheinlichkeitsrechnung 2.) ∀A∈I : Wahrscheinlichkeitsrechnung Kapitel 3 Bedingte Erwartung iii) Es sei nochmals darauf hin gewiesen, dass die bedingte Erwartung eine Zufallsgröße und daher nur bis auf Mengen vom Maß 0 eindeutig bestimmt ist. Insbesondere ist die bedingte Erwartung abhängig vom vorgegebenen Wahrscheinlichkeitsmaß, das daher zur Vermeidung von Zweideutigkeiten in manchen Situationen mit angegeben wird. Man schreibt dann z.B. P [Z | I]. Im Falle eines Maßwechsels ändert sich daher auch die bedingte Erwartung (siehe hierzu auch Satz 3.36). ❐ E Wahrscheinlichkeitsrechnung Beispiel 3.33 Wir betrachten folgendes Zufallsexperiment. Man wirft eine Münze. Fällt Zahl Z ist das Experiment beendet. Fällt dagegen Kopf K wird ein Bleistift auf eine horizontale Ebene geworfen und der Winkel α zwischen der Bleistiftspitze und Richtung Norden gemessen. Die Ergebnismenge lautet also Ω = {Z} ∪ {(K, α) | α∈[0, π]}. Wir definieren nun auf Ω die ZV Z : Ω → durch R Z(ω) := −1 falls ω = Z α falls ω = (K, α) Will man den Erwartungswert von Z berechnen, bietet sich die in Bemerkung 3.32 i) er[Z|I] bedingter Erwartungen mit einer geeignet gewählten wähnte Eigenschaft [Z] = E EE σ-Algebra I an. Bezeichnet B das Ereignis, dass Zahl beim Münzwurf fällt, wählen wir die σ-Algebra20 I := {∅, Ω, B, ∁B}. Wie zu Beginn dieses Abschnittes gesehen, gilt E[Z | I] = E[Z | B]· B E + [Z | ∁B]· ∁B Beträgt die Wahrscheinlichkeit für Zahl p, so ergibt sich wegen [ ∁B ] = P (∁B) = 1−p der Erwartungswert von Z durch E E[Z] = = = E[ B] = P (B) = p und E E[Z | I] E E[Z | B]· + E[Z | ∁B]· E[Z | B] · p + E[Z | ∁B] · (1−p) = −p + ∁B B π 2 · (1−p) Hierbei wurde verwendet, dass für den Fall des Eintretens von B der Erwartungswert von π ❐ Z gleich −1 ist und beim Wurf des Bleistiftes der Erwartungswert beträgt. 2 Der folgende Satz präzisiert, in welchem Sinn die bedingte Erwartung Vorhersage für Z bei gegebener Information I ist. 20 I ist gleich der von der Indikatorfunktion 54 B erzeugten σ-Algebra σ( c Klaus Schindler SS 2016 B ). E[Z|I] die beste Stochastik Kapitel 3 3.10. Bedingte Erwartung Satz 3.34 Sei Z eine quadratintegrierbare ZV auf dem Wahrscheinlichkeitsraum (Ω, A, P) und I ⊂ A E[Z|I] den Erwartungswert E |Z − Y | I-messbaren Zufallsvariablen auf Ω, d.h. es gilt E Z − E 2 [Z|I] = min Y I−messbar E |Z − Y | 2 2 in der Menge der ❑ Im folgenden Satz werden einige später benötigte Eigenschaften der bedingten Erwartung zusammengestellt. Sie zeigen, dass der Übergang von Z zu [Z|I] als eine Art „Glättung“ von Z bzgl. I angesehen werden kann. Mit dieser Glättung ist im Sinne unserer bisherigen Interpretationen ein Verlust an Information über Z verbunden. E Satz 3.35 Seien Z, Z1 , Z2 integrierbare Zufallsvariablen auf (Ω, A, P) und I ⊂ A eine σ-Algebra in A. Dann gelten die folgenden Aussagen P-fast sicher: E b) Gilt Z > Z P-fast sicher, so gilt E[Z |I] > E[Z |I]. c) Gilt Z > 0 P-fast sicher und E[Z|I] = 0 P-fast sicher, so folgt Z = 0. a) E[α·Z 1 E + β·Z2 |I] = α· [Z1 |I] + β· [Z2 |I] 2 1 2 1 d) Ist g(x1 , x2 ) eine stetige Funktion und X eine I-messbare ZV auf Ω, so gilt E[g(Z, X)|I] = E[g(Z, c)|I] . c=X Insbesondere folgt E[X·Z | I] = X · E[Z|I], E[X|I] = E[X|A] = X und E[1|I] = E[1|A] = 1. e) Für σ-Algebren H ⊂ I ⊂ A gilt das sog. Tower Law: E E[Z|I] H = E[Z|H] = E E[Z|H] I d) f) Sind die ZV Z und die σ-Algebra I stochastisch unabhängig, d.h. sind σ(Z) und I unabhängig, so gilt E[Z|I] = E[Z]. ❑ Da wir häufig verschiedene Wahrscheinlichkeitsmaße auf Ω betrachten, ist es nützlich zu wissen, wie sich die bedingten Erwartungen bei einem Maßwechsel verändern. Seien hierzu Q c Klaus Schindler SS 2016 55 Wahrscheinlichkeitsrechnung eine σ-Algebra. Dann minimiert Wahrscheinlichkeitsrechnung Kapitel 3 Bedingte Erwartung und P zwei Wahrscheinlichkeitsmaße. Q besitze bzgl. P die Dichte f , d.h. es gilt21 dQ = f ·dP bzw. in Integralform Z Ω Z(ω)dQ(ω) = Z Ω Z(ω)f (ω)dP(ω) (3.7) Daraus folgt (sofern Q(B) > 0): E 1 Q(B) P(B) Q(B) P(B) Q(B) Gl (3.4) Q [Z|B] = = Wahrscheinlichkeitsrechnung = Z B · · Z(ω)dQ(ω) 1 P(B) E · Z B Z(ω)f (ω)dP(ω) P [Z·f |B] Setzt man in Gleichung (3.7) speziell Z = Q(B) = Z B (ω)dQ(ω) Ω = Z Ω (3.8) B erhält man B (ω)f (ω)dP(ω) = P(B) E P [f |B], und Division liefert 1 . P [f |B] P(B) = Q(B) E Einsetzen in Gleichung (3.8) ergibt schließlich E Q [Z|B] EP [Z·f |B] EP [f |B] = . Dieses Ergebnis lässt sich wie bei der Konstruktion der bedingten Erwartung auf beliebige σ-Algebren verallgemeinern und liefert folgenden Satz. Satz 3.36 (Regel von Bayes) Seien Q und P zwei Wahrscheinlichkeitsmaße auf (Ω, A) mit dQ = f · dP und sei I eine σ-Algebra in A. Ist Z eine A-messbare Zufallsvariable, so gilt: E Q [Z|I] = E [Z·f |I] E [f |I] P ❑ P Beweis: Wir beweisen zunächst die Gleichung E Q 21 1 f I = 1 . P [f | I] E (3.9) f wird in der Literatur als Radon-Nikodym-Ableitung bezeichnet und mit 56 c Klaus Schindler SS 2016 dQ dP notiert. Stochastik Kapitel 3 3.10. Bedingte Erwartung E 1 ergibt sich aus der I-Messbarkeit von P [f | I]. Z.z. bleibt Die I-Messbarkeit von E [f P |I] die Integraleigenschaft 2.) der bedingten Erwartung. Sei hierzu A∈I beliebig. Dann gilt Ω A· E Q 1 I · f E P [f |I] dQ EP [f |I] I-messbar = Ω EQ Definition = Z Ω 1 ·dQ=dP f Z = Ω EP Definition = Z ZΩ f ·dP=dQ = Ω Also gilt E Q 1 I · f E P [f |I] = E Q [1 Z A· E Q 1 f E A · 1 f A · E A · f dP A · 1 dQ · · E P [f |I] P [f |I] P [f |I] I dQ dQ dP Wahrscheinlichkeitsrechnung Z | I] = 1 Mit Gleichung (3.9) können wir nun die gesuchte Gleichung E Q [Z|I] = E [Z·f |I] E [f |I] P P beweisen. Sei hierzu wieder A∈I beliebig. Dann gilt Z Ω A · Z dQ dQ=f ·dP = Definition = EP = = EQ EP[Zf |I] I-messbar = (3.9) = ZΩ Ω dP= f1 ·dQ Definition Z Z Ω Z Ω Z Ω Z Ω A · Z · f dP A · A · A A A E P [Z·f | I] dP E [Zf |I] · f1 dQ 1 · E E [Zf |I] · I dQ f 1 · E [Zf |I] · E I dQ f 1 · E [Zf |I] · E [f |I] dQ P Q P P Q P P E [Zf |I] Damit erfüllt EP [f |I] Eigenschaft 2.) der bedingten Erwartung von Z. Die I-Messbarkeit, P d.h. Eigenschaft 1.) der bedingten Erwartung, ergibt sich aus der Messbarkeit von und P [f |I]. E E P [Zf |I] Es liegt nun nahe, auch andere Begriffe, die vom gegebenen Wahrscheinlichkeitsmaß beeinflusst werden in Abhängigkeit von der gegebenen Informations-σ-Algebra I zu definieren. Hierzu soll zunächst die bzgl. eines einzelnen Ereignisses B bedingte Wahrscheinlichkeit P(·|B) (siehe Abschnitt 3.8) verallgemeinert werden, d.h. wir wollen die bzgl. einer σ-Algebra I bedingte Wahrscheinlichkeit P(·|I) definieren. Wie schon im Fall der bedingten Erwartung ist die bedingte Wahrscheinlichkeit eine Zufallsvariable. Da im unbedingten Fall P(A) = E[ A] c Klaus Schindler SS 2016 57 Wahrscheinlichkeitsrechnung Kapitel 3 Bedingte Erwartung gilt, liegt es nahe, die bzgl. der σ-Algebra I bedingte Wahrscheinlichkeit folgendermaßen zu definieren. Definition 3.37 Die bzgl. der σ-Algebra I bedingte Wahrscheinlichkeit P(.|I) ist definiert durch P(·|I) : A → {Z | Z ist I-messbare ZV} A 7→ P(A|I) := [ A |I] . E Wahrscheinlichkeitsrechnung Wird speziell I von den Zufallsvariablen Z1 , . . . , Zn erzeugt, d.h. gilt I = σ(Z1 , . . . , Zn ), schreibt man P(·|Z1 , . . . , Zn ). ❐ Bemerkung 3.38 i) Es sei nochmals darauf hingewiesen, dass für jedes Ereignis A ∈ A die bedingte Wahrscheinlichkeit P(A|I) = [ A |I] eine ZV ist. Da nach Eigenschaft 2.) der bedingten Erwartung E Z G E[Z|I](ω)dP(ω) = Z G Z(ω)dP(ω) = Z für alle G ∈ I gilt, heißt dies speziell für Z = Z G Z P(A|I)(ω)dP(ω) = ZG 2.) = E[ ZG = Ω Z(ω) · Ω G (ω)dP(ω) A A |I](ω)dP(ω) A (ω)dP(ω) A (ω) · G (ω)dP(ω) = P(A ∩ G) ii) Die bedingte Wahrscheinlichkeit P(A|I) weist zum Wahrscheinlichkeitsmaß P analoge Eigenschaften auf, z.B.: 1.) Für alle A ∈ A gilt: ∀ω∈Ω : 0 6 P(A|I)(ω) 6 1. 2.) Ist (Aℓ )∞ ℓ=1 eine Folge disjunkter Mengen in A, so gilt P ∞ S · Aℓ |I (ω) = ℓ=1 ∞ X ℓ=1 P(Aℓ |I)(ω) 3.) Für A, B ∈ A mit A ⊂ B gilt P(B\A|I)(ω) = P(B|I)(ω) − P(A|I)(ω) 4.) Ist (Aℓ )∞ ℓ=1 eine isotone Folge mit lim Aℓ = A, so folgt die Stetigkeitsaussage ℓ→∞ P(A|I)(ω) = P( lim Aℓ |I)(ω) = lim P(Aℓ |I)(ω) ℓ→∞ 58 ℓ→∞ c Klaus Schindler SS 2016 ❐ Stochastik Kapitel 3 3.10. Bedingte Erwartung Mit Hilfe der bedingten Wahrscheinlichkeit P(·|I) kann nun auch analog zum „klassischen“ Fall der Begriff der bedingten Verteilung bzw. der bedingten Verteilungsfunktion eingeführt werden. Im unbedingten Fall ist die Verteilungsfunktion FZ der ZV Z definiert durch FZ (x) = P({Z6x}), was folgende Definition nahe legt. FZ|I (x) = P({Z6x} | I) = E[ {Z6x} | I]. Wird speziell I von den Zufallsvariablen Z1 , . . . , Zn erzeugt, d.h. gilt I = σ(Z1 , . . . , Zn ), ❐ schreibt man FZ|Z1 ,...,Zn . Bemerkung 3.40 i) Da die bedingte Wahrscheinlichkeit P(A|I) für jedes Ereignis A eine ZV ist, stellt FZ|I eine Funktion in zwei Variablen dar. Genauer gilt FZ|I : Ω × R → [0, 1] (ω, x) 7→ FZ|I (x) (ω) = P({Z6x}|I)(ω) ii) Analog zur bedingten Wahrscheinlichkeit weist auch die bedingte Verteilungsfunktion ähnliche Eigenschaften wie die unbedingte Verteilungsfunktion auf. So lässt sich der (unbedingte) Erwartungswert [Z] als Riemann-Stieltjes-Integral bzgl. der (unbedingten) Verteilungsfunktion darstellen, denn es gilt nach Definition 3.19 (siehe Kapitel 3, Abschnitt 3.7) E E[Z] = Z R xdFZ (x). dFZ (x) ist dabei zu lesen als FZ (x+dx) − FZ (x) = P({x < Z 6 x+dx}). Die analoge Aussage gilt für die bedingte Erwartung: E[Z|I](ω) = Z R xdFZ|I (x)(ω) = Z R xP({x < Z 6 x+dx}|I)(ω). ❐ Beispiel 3.41 Wir betrachten erneut Beispiel 3.33 mit Ω = {Z} ∪ ({K} × [0, π]) = {Z} ∪ {(K, α) | α∈[0, π]} und der ZV Z : Ω → , definiert durch: R Z(ω) := −1 falls ω = Z α falls ω = (K, α) c Klaus Schindler SS 2016 59 Wahrscheinlichkeitsrechnung Definition 3.39 Die bedingte Verteilungsfunktion FZ|I der ZV Z unter der Hypothese I ist definiert durch Wahrscheinlichkeitsrechnung Kapitel 3 Bedingte Erwartung I sei die von dem Ereignis B = {Z} erzeugte σ-Algebra, d.h. I = σ( B ) = {∅, B, ∁B, Ω}. Wir bestimmen die bedingte Verteilungsfunktion FZ|I . Hierzu berechnen wir zunächst die Ereignisse {Z6x}. Es gilt {Z6x} = falls falls falls falls ∅ B B ∪ ({K} × [0, x]) Ω x < −1 −1 6 x < 0 06x<π π6x E[·|I] = E[·|B] · + E[·|∁B] · E[ |B] · + E[ |∁B] · Wie in Beispiel 3.33 gesehen, gilt Wahrscheinlichkeitsrechnung P(A|I) = E[ A |I] = = B A B P(A ∩ B) P(B) · B und daher ∁B A + ∁B P(A ∩ ∁B) P(∁B) · ∁B Damit ergibt sich schließlich FZ|I (x) = P({Z6x}|I) = = 60 P({Z6x} ∩ B) P(B) ∅ ≡0 B B + Ω x π ∁B ≡1 · B + P({Z6x} ∩ ∁B) P(∁B) · ∁B falls x < −1 falls −1 6 x < 0 falls 0 6 x < π falls π6x ❐ c Klaus Schindler SS 2016 K APITEL 4 Stochastische Prozesse I Zufallsgrößen werden meistens zu verschiedenen Zeitpunkten betrachtet. Die realisierten Werte liefern dann eine Zeitreihe. Typische Beispiele sind täglich, monatlich oder jährlich erhobene Wirtschaftsdaten (Aktienkurse, Arbeitslosenziffern, Absatzzahlen). Daher liegt es nahe, zeitliche Folgen von Zufallsgrößen zu untersuchen. bezeichne im Folgenden eine nichtleere „Zeitmenge“ reeller Zahlen und (Ω, A, P) einen Wahrscheinlichkeitsraum. T Definition 4.1 Ein stochastischer Prozess ist eine Familie (Xt )t∈T von ZV auf demselben Wahrscheinlichkeitsraum (Ω, A, P). Nehmen die Zufallsgrößen Xt Werte im d an, spricht man von einem stochastischen Prozess der Dimension d. Bei gegebenem ω∈Ω wird die Funktion R · X (ω) : T→R d mit t 7→ Xt (ω) als Realisation, Trajektorie oder Pfad des Prozesses bzw. Kursbaum bezeichnet. ❐ Bemerkung 4.2 i) Man beachte, dass für festes t die Größe Xt (·) eine Zufallsvariable ist. ii) Obwohl dies in Definition 4.1 nicht gefordert wird, sind überwiegend die Fälle von Interesse, bei denen Zusammenhänge zwischen den Größen Xt für unterschiedliche t bestehen. Beschreibt (Xt )t∈T z.B. einen Aktienkursprozess, so wird im allgemeinen das zukünftige Verhalten Xu mit u>t vom vergangenen Preisverlauf und evtl. weiteren, bis zum Zeitpunkt t eingetretenen Ereignissen, abhängen. Wir betrachten drei Typen von Indexmengen : T • T = {t , t , . . . , t • T = {t N mit N∈ und t0 < t1 < · · · < tN . Man spricht in diesem Fall von Prozessen in diskreter Zeit mit endlichem Zeithorizont 1, 0 1 i | i∈ N} N } mit t ∈R, t 0 i i < ti+1 für alle i∈ T 2 lim ti = ∞. Man erhält i→∞ in diesem Fall Prozesse in diskreter Zeit mit unendlichem Zeithorizont 2, • Ist ein Intervall der reellen Zahlen sich Prozesse in stetiger Zeit. 1 N sowie R (oft gilt T = [0, T ] mit T 6 +∞), ergeben T = {0, 1, . . . , N } vorausgesetzt werden Wegen der Bijektivität der Abbildung ℓ 7→ tℓ kann o.B.d.A. T = N vorausgesetzt werden Wegen der Bijektivität der Abbildung ℓ 7→ tℓ kann o.B.d.A. 0 Wahrscheinlichkeitsrechnung Kapitel 4 Irrfahrten iii) Ein Aktien-Portfolio wird durch einen Vektor beschrieben und ist damit ein Beispiel für einen mehrdimensionalen Prozess. Da ein d-dimensionaler Prozess aus d eindimensionalen Prozessen besteht, genügt es, reellwertige Prozesse zu betrachten. iv) Es liegt nahe, die Eigenschaften eine stochastischen Prozesses (Xt )t∈T mit den Begriffen zu beschreiben, die wir zur Charakterisierung von ZV verwendet haben, also Erwartungswert, Verteilung, Varianz, Kovarianz usw.. Im Gegensatz zu früher sind wegen der Zeitabhängigkeit stochastischer Prozesse alle Größen i.A. jedoch zeitabhängig. Ohne zu sehr in die Tiefe zu gehen, seien einige dieser Begriffe hier kurz aufgeführt. T 1) Für t1 , . . . , tn ∈ bezeichne Ft1 ,...,tn die gemeinsame Verteilungsfunktion der ZV Xt1 , . . . , Xtn , d.h. für z = (z1 , . . . , zn ) gilt FXt1 ,...,Xtn (z1 , . . . , zn ) := P({Xt1 6z1 , . . . , Xtn 6zn }) T N Die Menge {FXt1 ,...,Xtk | ti ∈ , k∈ } wird als endlichdimensionale Verteilung des Prozesses (Xt )t∈T bezeichnet. Analog zu Abschnitt 3.10 ist der Begriff der bedingten Verteilung definiert. Stochastische Prozesse I 2) Die Erwartungswertfunktion von (Xt )t∈T gibt an, welchen Wert der Prozess zu einem beliebigen Zeitpunkt t im Mittel besitzt und ist definiert durch t 7→ E[X ] t 3) Die Beziehungen zwischen den ZV des stochastischen Prozesses (Xt )t∈T wird beschrieben durch die Varianz- bzw. Autokovarianzfunktion, definiert durch t 7→ var(Xt ) bzw. (t, h) 7→ cov(Xt , Xt−h ) ❐ 4.1. Zeitdiskrete stochastische Prozesse In diesem Kapitel beschränken wir uns zunächst auf die Konstruktion zeitdiskreter stochastischer Prozesse und deren Eigenschaften. Hierbei wählen wir o.B.d.A. = 0 . Da oftmals nur die absolute Änderung (Zuwachs) (∆X)t := Xt+1 − Xt des Ausgangsprozesses (Xt )t∈T wahrgenommen wird und da offensichtlich T N Xt = X0 + t−1 X (∆X)k (4.1) k=0 gilt, kann der Prozess (Xt )t∈T mit Hilfe des Differenzenprozesses Zk := (∆X)k untersucht werden. Dieser hat häufig angenehmere Verteilungseigenschaften, als der Ausgangsprozess3 . Gleichung (4.1) bietet zudem die Möglichkeit, den stochastischen Prozess (Xt )t∈T indirekt zu 3 Für kleine Zeitdifferenzen entspricht (∆X)t dem „Differential“ des Prozesses. Dies wird in Kapitel 5 mit den Begriffen „Stochastische Differentiation“ und dem Lemma von Itô präzisiert. 62 c Klaus Schindler SS 2016 Stochastische Prozesse I Kapitel 4 4.1. Zeitdiskrete stochastische Prozesse erzeugen, indem man den Differenzenprozess (Zt )t∈T mit geeigneten Verteilungseigenschaften vorgibt. Hierdurch wird der Prozess (Xt )t∈T mit Hilfe einer stochastischen Differenzengleichung4 beschrieben. Zur Vereinfachung betrachten wir in diesem Kapitel nur einfache Irrfahrten, d.h. zeitdiskrete Prozesse mit unabhängig identisch verteilten Zuwächsen. Definition 4.3 a) Ein stochastischer Prozess in diskreter Zeit mit u.i.v. absoluten Änderungen, wird als Irrfahrt oder Random Walk bezeichnet. b) Eine Irrfahrt, bei der die absoluten Änderungen nur endlich viele Werte annehmen, heißt arithmetische Irrfahrt. Nehmen die Zuwächse nur zwei bzw. drei Werte an, spricht man von einem arihmetischen Binomial- bzw. arihmetischen Trinomialprozess. ❐ 4.1.1. Arithmetische Binomialprozesse Stochastische Prozesse I Definition 4.4 Ein stochastischer Prozess (Xt )t∈N0 , bei dem die absoluten Zuwächse Zk = (∆X)k • nur zwei Werte u > 0 bzw. −d < 0 annehmen können5 , • unabhängig identisch verteilt und • unabhängig vom Anfangswert X0 sind, wird als arithmetischer Binomialprozess 6 bzw. als einfache oder arithmetische Irrfahrt bezeichnet. Der arithmetische Binomialprozess hat daher die Form Xt = X0 + t−1 X (4.2) Zk , k=0 wobei X0 , Z1 , Z2 , . . . unabhängig sind, mit der Verteilung P({Zk = u}) = p , P({Zk = −d}) = 1−p, für alle k. ❐ Bei einem Binomialprozess kann sich der Pfad - ausgehend von einem festen Anfangswert X0 = a - nur innerhalb eines Netzes von Verbindungen der Punkte (t, Xt ) bewegen, wobei N Xt = a + n · u − m · d , wobei n, m ∈ 0 , = a + n · (u+d) − t · d für n = 0, . . . , t n+m=t 4 Die stetige Variante, die wir in Kapitel 5 untersuchen, wird als stochastische Differentialgleichung bezeichnet. 5 Die Bezeichnungen u bzw. d beziehen sich auf die englischen Worte up bzw. down. 6 Die Verwendung der Vorsilbe „bi-“ bezieht sich darauf, dass jeder Zuwachs nur „zwei“ Werte annehmen kann. Das Adjektiv „arithmetisch“ erklärt sich durch die Analogie zu (deterministischen) arithmetischen Folgen, bei denen Zuwächse immer gleich sind. Die Bezeichnung steht - analog zum deterministischen Fall - im Gegensatz zum geometrischen Prozess, dessen Logarithmus ein arithmetischer Prozess ist. c Klaus Schindler SS 2016 63 Wahrscheinlichkeitsrechnung Kapitel 4 Irrfahrten Xt = a + n·u − m·d bedeutet, dass der Prozess vom Zeitpunkt 0 bis zum Zeitpunkt t insgesamt n-mal gewachsen und m-mal gefallen ist (siehe nachfolgende Skizze im Fall t=7). Kurs X77 X66 Arithmetischer Binomialprozess Xjk = X0 + k·u + (j−k)·d t = 7, j = 1, . . . , n, k = 0, . . . , j p 1−p p 1−p p p 1−p p 1−p p 1−p p 1−p p 1−p p 1−p p X55 X44 X33 X22 X11 X0 p 1−p X10 X32 b p 1−p X31 1−p X21 b X20 X43 1−p X42 X54 X53 p p 1−p p 1−p 1−p 1−p Stochastische Prozesse I 2 X64 b X63 1−p 1−p p 1−p p p 1−p p 1−p 1−p p 1−p p 1−p p 1−p 1−p p X30 X41 X40 X51 X50 3 4 X62 X61 X60 1−p 5 6 X76 X75 X74 b p p X52 = Erwartungswertfunktion = mögliche Realisation 1 X65 b b p 1−p b b p p X73 X72 X71 X70 Zeit t 7 Beim arithmetischen Binomialprozess mit Startwert X0 ergibt sich wegen der Unabhängigkeit der absoluten Zuwächse und wegen (Zk ) = (u+d)·p − d in Abhängigkeit von t eine arithmetische Folge als Erwartungswertfunktion, nämlich E t 7→ E(X ) = E(X ) + t · [(u+d)·p − d] . 0 t Das Vorzeichen des Terms (u+d)·p − d entscheidet, ob die Irrfahrt einen Trend (Drift) nach oben oder nach unten besitzt, d.h. ob der Prozess sich im Mittel vom Startwert nach oben oder unten weg bewegt. Liegt kein Trend vor, d.h. ist (u+d)·p − d = 0, spricht man von einer symmetrischen Irrfahrt. Mit wachsender Zeit t kann Xt immer mehr verschiedene Werte annehmen, und die Variabilität wächst. Da die Zuwächse Zk in (4.2) unabhängig sind und zudem var(Zk ) = var(Z1 ) für alle k gilt, lautet die Varianzfunktion von Xt nach Bemerkung 3.28 iv) t 7→ var(Xt ) = var(X0 ) + t · var(Z1 ) , wächst also linear mit der Zeit, die Standardabweichung s(Xt ) mit der Rate Yk = bzw. umgekehrt Zk + d u+d = 1 wenn Zk = u 0 wenn Zk = −d Zk = (u+d)·Yk − d , 64 c Klaus Schindler SS 2016 √ t. Mit Stochastische Prozesse I Kapitel 4 Trinomialprozesse kann der Binomialprozess mit Hilfe der Binomialverteilung dargestellt werden. Man erhält X t = X0 + t−1 X Zk = X0 + (u+d)· k=0 t−1 X k=0 Yk − td = X0 + (u+d)·Bt − td mit der nach Beispiel 3.17 v) Bt,p -verteilten Zufallsgröße Bt = t−1 X Yk . k=0 Bei gegebener Verteilung des Anfangswertes X0 kann die Verteilung von Xt mit Hilfe der Binomialverteilung Bt,p dargestellt werden. Da −td als deterministischer Prozess unabhängig von Bt ist, liefert Bemerkung 3.20 iv) im Fall X0 =0 die Varianzfunktion var(Xt ) = var (u+d)·Bt = (u+d)2 ·var(Bt ) = t(u+d)2 ·p·(1−p). Für große t ergibt sich nach Bemerkung 3.18 Für p = 1 ,u 2 , t·(u+d)2 ·p·(1−p) . Stochastische Prozesse I Verteilung von Xt ≈ Nt[(u+d)p−d] = d = ∆x erhalten wir beispielsweise Verteilung von Xt ≈ N0 , t·(∆x)2 . 4.1.2. Arithmetische Trinomialprozesse Ein Trinomialprozess kann auch Seitwärtsbewegungen darstellen, wodurch er „natürlicher“ als der Binomialprozess wirkt, bei dem zu jedem Zeitpunkt eine Änderung stattfindet. Definition 4.5 Ein stochastischer Prozess (Xt )t∈N0 bei dem die absoluten Zuwächse Zk = (∆X)k • nur drei Werte u1 , u2 , u3 mit u1 < u2 < u3 annehmen können7 , • unabhängig identisch verteilt und • unabhängig vom Anfangswert X0 sind, wird als arithmetischer Trinomialprozess bezeichnet. Er hat daher die Form Xt = X0 + t−1 X (4.3) Zk , k=0 wobei X0 , Z1 , Z2 , . . . unabhängig sind und alle Zk die gleiche Verteilung haben P(Zk = ui) = pi (i = 1, 2, 3), mit p1 + p2 + p3 = 1. 7 ❐ „Natürlich“ wirkt z.B. u2 = 0. c Klaus Schindler SS 2016 65 Wahrscheinlichkeitsrechnung Kapitel 4 Irrfahrten Das folgende Bild beschreibt das prinzipielle Verhalten eines Trinomialbaumes. Aufwärtsbewegungen sind blau, Abwärtsbewegungen rot gekennzeichnet. Seitwärtsbewegungen (hier gleich bleibende Kurse durch u2 =0) werden mit einer grünen Linie dargestellt. 5,0 X5 Kurs Arithmetischer Trinomialprozess Xjkℓ = X0 + k·u3 + ℓ·u1 + (j − k− ℓ) ·u2 n = 5, j = 1, . . . , n, k + ℓ ≤ j p 4,0 X4 4,0 r X5 q p 3,0 X3 p 3,0 r X4 4,1 X5 3,0 r X5 p q p 2,0 X2 p 2,0 r X3 Stochastische Prozesse I q p p 2,1 X3 q 3,1 X4 1,0 rr q pp p X2 X4 p q q p r 2,1 X4 b 1,1 X2 b rr b q r p p q qq p r 1,1 X3 p r 2,2 X4 1,1 X4 p X0 0,0 b r X1 q 0,0 r 0,0 q r p p q q 0,1 X1 X2 0,1 r X2 q 1,2 X3 p r q X3 p q q 0,2 X3 q p q rr q r p r q p X4 1,3 X4 X4 p r q p q q 0,3 X4 X5 2,2 X5 1,1 X5 2,3 X50,0 X5 1,2 X5 X5 1,3 X5 0,2 q r p r b 2,1 X5 0,1 q r 0,2 r 0,3 X3 p r q 0,1 q r p r 1,2 X4 3,2 X5 1,0 q r p X4 X5 p 0,0 q r 0,1 r 0,2 X2 X3 p r 1,0 X4 3,1 X5 2,0 q r p 1,0 X3 r 2,0 r b 1,0 X1 p X5 1,4 X5 0,3 r X5 p q q 0,4 X4 = Erwartungswertfunktion = mögliche Realisation 1 66 2 0,4 r X5 q 0,5 X5 3 c Klaus Schindler SS 2016 4 5 Zeit Stochastische Prozesse I Kapitel 4 Geometrische Binomialprozesse Die exakte Verteilung der Xt lässt sich nicht auf die Binomialverteilung zurückführen, aber es gilt ähnlich wie für den Binomialprozess: E(X ) t = E(X ) + t · E(Z ) = E(X ) + t · (p 0 1 0 var(Xt ) = var(X0 ) + t · var(Z1 ), wobei 3 · u 3 + p2 · u 2 + p1 · u 1 ) var(Z1 ) = p3 u23 + p2 u22 + p1 u21 − (p3 u3 + p2 u2 + p1 u1 )2 und für große t ist Xt näherungsweise NE(Xt ),var(Xt ) -verteilt. Trinomialschemata, bei denen die Wahrscheinlichkeiten p3 , p1 , p2 allerdings im Sinne von Abschnitt 4.1.4 zeit- und zustandsabhängig sein dürfen, werden von manchen Autoren benutzt, um die Black-Scholes-Gleichung näherungsweise zu lösen. Hinter der Idee, reale Prozesse mittels einer „Arithmetischen Irrfahrt“ zu modellieren, steckt die Annahme, dass die absoluten Änderungen in einer Zeiteinheit unabhängig voneinander und immer von derselben Größenordnung sind. Letzteres ist gerade für wirtschaftliche Zeitreihen oft nicht erfüllt. Saisonale Schwankungen von z.B. monatlichen Absatzzahlen sind typischerweise absolut wesentlich größer, wenn der Absatz sich im Jahresmittel auf hohem Niveau bewegt. Nur die relativen (prozentualen) Änderungen sind über die Zeit stabil und hängen nicht davon ab, wie groß die Werte des Prozesses Xt gerade sind. Analog zur arithmetischen Irrfahrt stellt man daher einen Prozess (Xt )t∈N0 mit Hilfe der relativen Änderungen Rk := Xk+1 Xk dar Xt = X0 · X1 X0 · X2 X1 ··· Xt−1 Xt−2 · Xt Xt−1 = X0 · t−1 Y Rk k=0 und fordert dann geeignete Verteilungseigenschaften für die relativen Zuwächse Rk . Man spricht daher von einer geometrischen Irrfahrt, wenn die relativen Zuwächse u.i.v. sind. Definition 4.6 X Ein stochastischer Prozess (Xt )t∈N0 bei dem die relativen Zuwächse Rk := k+1 Xk • nur zwei Werte u > 1 bzw. 1 > d > 0 annehmen können, • unabhängig identisch verteilt und • unabhängig vom Anfangswert X0 sind, heißt geometrischer Binomialprozess oder geometrische Irrfahrt. Er hat daher die Form Xt = X0 · t−1 Y (4.4) Rk k=0 wobei X0 , R1 , R2 , . . . unabhängig sind, mit der Verteilung P({Rk = u}) = p, P({Rk = d}) = 1−p . c Klaus Schindler SS 2016 ❐ 67 Stochastische Prozesse I 4.1.3. Geometrische Binomialprozesse Wahrscheinlichkeitsrechnung Kapitel 4 Irrfahrten X77 Kurs p Geometrischer Binomialprozess Xjk = X0 ·uk ·d j−k (u · d = 1) t = 7, j = 1, . . . , n, k = 0, . . . , j X66 p 1−p X55 p X76 X65 p X11 p 1−p X54 p 1−p p 1−p X33 X22 p 1−p X44 1−p X43 b b 1−p b b p X32 p X75 b p X64 p 1−p p 1−p p 1−p p 1−p X53 X74 b p X0 b 1−p X10 p b 1−p 1−p X21 X20 p 1−p 1−p p X31 p 1−p X42 X41 1−p X30 p p 1−p X40 1−p X52 1−p X51 p X50 1−p p 1−p p 1−p Stochastische Prozesse I = Erwartungswertfunktion = mögliche Realisation 1 2 3 4 E 5 X63 1−p X62 X73 p 1−p X61 p X60 1−p p 1−p 6 X72 X71 X70 7 Zeit Da (Rk ) = (u−d)·p + d, folgt aus (4.4) mit den Rechenregeln für unabhängige Zufallsgrößen, dass die Erwartungswertfunktion (Xt ) eine geometrisch Folge ist, d.h. mit exponentieller Rate steigt oder fällt, je nachdem ob (Rk ) > 1 oder (Rk ) < 1 ist: E E E E(X ) = E(X ) · (E(R )) = E(X ) · [(u−d)·p + d] t Wenn 0 1 t 0 t . E(R ) = 1 gilt, bleibt der Prozess im Mittel stabil. Dies ist der Fall, wenn k p= 1 1−d u−d . Für d = , d.h. für einen Prozess, der nach zwei Zeiteinheiten wieder den Ausgangszustand u erreicht haben kann, vereinfacht sich diese Beziehung zu p= 1 u+1 . Aus (4.4) folgt durch Logarithmieren ln(Xt ) = ln(X0 ) + t−1 X ln(Rk ) . k=0 Der logarithmierte geometrische Binomialprozess X̃t = ln(Xt ) ist also ein arithmetischer Binomialprozess mit Anfangswert ln(X0 ) und absoluten Zuwächsen Zk = ln(Rk ), für die gilt P({Zk = ln(u)}) = p, P({Zk = ln(d)}) = 1−p . Für große t ist X̃t annähernd normalverteilt, Xt = eX̃t also näherungsweise lognormalverteilt. 68 c Klaus Schindler SS 2016 Stochastische Prozesse I Kapitel 4 Allgemeine Irrfahrten Bemerkung 4.7 Ist (Xt )t∈T ein geometrischer Binomialprozess, so folgt wegen Zt = Xt+1 − Xt = Xt ·(Rt − 1) = Xt ·(u−1) für Rt = u Xt ·(d−1) für Rt = d dass (Xt )t∈T kein Prozess mit unabhängigen absoluten Zuwächsen ist. Vielmehr sind die absoluten Änderungen vom erreichten Kursniveau abhängig. ❐ 4.1.4. Allgemeine Irrfahrten Arithmetische Bi- und Trinomialprozesse sind einfache Beispiele allgemeiner Irrfahrten mit unabhängigen absoluten Zuwächsen, d.h. stochastischer Prozesse Xt = X0 + t−1 X Zk , t = 1, 2, . . . mit unabhängig identisch verteilten absoluten Zuwächsen Z1 , Z2 , . . . , die außerdem unabhängig von X0 sind. Die Verteilung der Zuwächse kann dabei völlig beliebig sein. Die einzelnen Zk können endlich oder abzählbar viele Werte annehmen, wie beim Bi- oder Trinomialprozess, sie können aber auch einen kontinuierlichen Wertebereich haben. Ein Beispiel für eine Irrfahrt mit komplizierterer Verteilung und kontinuierlichem Wertebereich ist die Gaußsche Irrfahrt. Diese entsteht, wenn man die Zuwächse als unabhängig und identisch Nµ,σ2 -verteilt wählt. Der Einfachheit halber starte der Prozess in 0, d.h. es sei X0 =0. Aus den Eigenschaften der Normalverteilung folgt dann, dass zu jedem Zeitpunkt t der Wert Xt des Prozesses Nµt,σ2 t -verteilt ist und dass je endlich viele Werte X1 , . . . , Xt jeweils gemeinsam normalverteilt sind. Der zentrale Grenzwertsatz für u.i.v. Zufallsgrößen zeigt, dass für große t dies approximativ für alle Irrfahrten gilt, wenn X0 = 0 und var(Z1 ) endlich ist, d.h. Verteilung von Xt ≈ Nt·E(Z1 ),t·var(Z1 ) . Irrfahrten sind Prozesse mit unabhängigen absoluten Zuwächsen und haben daher insbesondere auch die Eigenschaft, dass keine Nachwirkung besteht, d.h. die absolute Änderung Zt+1 des Prozesses von der Zeit t zur Zeit t+1 ist unabhängig von den Werten X0 , . . . , Xt des Prozesses in der Vergangenheit bis zur Zeit t. Allgemeiner ist dann für beliebige s > 0 der absolute Zuwachs des Prozesses im Zeitintervall [t, t+s] Xt+s − Xt = Zt + · · · + Zt+s−1 unabhängig von X0 , . . . , Xt . Ist die Kenntnis aller X0 , . . . , Xt gegeben, so ist folglich X̂t+1 := Xt + (Zt ) die beste Vorhersage 8 für Xt+1 . Solange ein Aktienkurs isoliert betrachtet wird, E 8 Dies ist so zu verstehen, dass für eine Prognose P die quadratische Abweichung E[(Xt+1 − P)2 ] zum tatsächlich eingetretenen Wert Xt+1 zu erwarten ist. Die Prognose P = X̂t+1 minimiert diese Abweichung. c Klaus Schindler SS 2016 69 Stochastische Prozesse I k=0 Wahrscheinlichkeitsrechnung Kapitel 4 Irrfahrten trifft diese Aussage für den Aktienkursprozess oft in guter Näherung zu9 . Prozesse mit unabhängigen Zuwächsen sind automatisch Markoff-Prozesse, d.h. Prozesse bei denen die zukünftige Entwicklung (Zuwachs) nur von Xt abhängt und nicht mehr von den weiter zurückliegenden Werten X0 , . . . , Xt−1 . Mathematisch bedeutet dies, dass die bedingte Verteilung nur von der unmittelbaren Vergangenheit abhängt, d.h. P(· | Xt , Xt−1 , . . . , X0 ) = P(· | Xt ) Man spricht von der Markoff-Eigenschaft. Für zeitdiskrete Prozesse bedeutet diese P(at+1 < Xt+1 < bt+1 | Xt = c, at−1 < Xt−1 < bt−1 , . . . , a0 < X0 < b0 ) = P(at+1 < Xt+1 < bt+1 | Xt = c) = P(at+1 − c < Zt+1 < bt+1 − c). Wenn Xt = c bekannt ist, ändern zusätzliche Informationen über die Werte von X0 , . . . , Xt−1 die Einschätzung, in welchem Bereich Xt+1 vermutlich liegen wird, nicht. Stochastische Prozesse I Bemerkung 4.8 Heuristisch betrachtet liegt die Markoff-Eigenschaft nahe an deterministischen Modellen, bei denen nach Festlegung des Startwertes der zukünftige Verlauf genau bestimmt ist. ❐ 4.1.5. Binomialprozesse mit zustandsabhängigen Zuwächsen Einfache Irrfahrten und damit auch Binomial- und Trinomialprozesse beschreiben den Verlauf eines Aktienkurses bestenfalls lokal. Sie gehen davon aus, dass die Verteilung der absoluten Zuwächse Zt = ∆Xt stets dieselbe ist - unabhängig davon, ob der Kurs mittlerweile deutlich über oder unter dem Anfangskurs X0 liegt. Geometrische Irrfahrten lassen den absoluten Zuwachs ∆Xt = (Rt − 1)·Xt vom erreichten Kursniveau Xt abhängen und sind damit keine Prozesse mit unabhängigen absoluten Zuwächsen. Will man den Aktienkursverlauf über einen größeren Bereich modellieren, sind jedoch auch diese Prozesse noch zu einfach, um den Einfluss des erreichten Kursniveaus auf die zukünftige Entwicklung zu beschreiben. Eine einfache Klasse von Prozessen, die diesen Effekt berücksichtigen, sind die Binomialprozesse mit zustandsabhängigen (und eventuell auch zeitabhängigen) absoluten Zuwächsen: Xt+1 = Xt + Zt , mit P(Zt =u) = p(Xt , t), P(Zt =−d) = 1−p(Xt , t) (4.5) Die absoluten Zuwächse sind jetzt weder unabhängig noch identisch verteilt, da die Verteilung von Zt vom erreichten Kursniveau Xt und eventuell auch von der Zeit abhängt. 9 Schon vor über hundert Jahren postulierte Bachelier (hier für den Fall E(Zk ) = 0 für alle k): „Die beste Vorhersage X̂t+1 für den Kurs Xt+1 von morgen ist der Kurs Xt von heute.“ Siehe hierzu [1]. 70 c Klaus Schindler SS 2016 Stochastische Prozesse I Kapitel 4 4.2. σ-Algebren und Information Die Funktion p ordnet jedem möglichen Wert x des Prozesses zur Zeit t eine Wahrscheinlichkeit p(x, t) zu. Stochastische Prozesse, die nach (4.5) konstruiert werden, haben immer noch die Markoff-Eigenschaft. Entsprechend lassen sich geometrische Binomialprozesse mit zustandsabhängigen relativen Zuwächsen definieren (für d < 1 < u): Xt+1 = Rt ·Xt , mit P(Rt =u) = p(Xt , t), P(Rt =d) = 1−p(Xt , t) (4.6) Prozesse der Form (4.5) und (4.6) sind in dieser Allgemeinheit in erster Linie für theoretische Untersuchungen geeignet, da es ohne weitere Annahmen schwierig ist, die Wahrscheinlichkeiten p(x, t) aus Beobachtungen des tatsächlichen Aktienkursverlaufs zu schätzen. Diese allgemeinen Binomial- und auch die analog definierten Trinomialmodelle eignen sich jedoch zur numerischen Lösung von Differentialgleichungen wie z.B. der Black-Scholes-Gleichung für amerikanische Optionen. Die Bildung des Erwartungswertes von Zufallsgrößen ist das formale Äquivalent zu dem heuristischen Begriff der Vorhersage. Um eine solche Vorhersage zum Zeitpunkt t machen zu können, benutzt man die Menge It der Informationen, die bis zu diesem Zeitpunkt angefallen ist. Fasst man die Informationsmenge It als die Menge aller Ereignisse auf, bei denen man zum Zeitpunkt t entscheiden kann, ob sie eingetreten sind oder nicht, liegt es nahe, diese Informationsmenge als σ-Algebra zu modellieren. Es entsteht damit eine Folge von immer größer werdenden σ-Algebren, weil die Informationsmenge im Laufe der Zeit anwächst und außerdem anzunehmen ist, dass Entscheidungsträger die vergangenen Daten nicht vergessen. Man spricht von einer Filtration. Definition 4.9 Eine Familie (It )t∈T von σ-Algebren in Ω heißt Filtration in A, falls folgendes gilt: 1.) ∀t ∈ T:I t ⊂ A, 2.) für alle t1 , t2 ∈ T mit t 1 6 t2 gilt It1 ⊂ It2 . Das Quadrupel (Ω, A, P, (It )t∈T ) heißt filtrierter Raum. ❐ Bemerkung 4.10 Bei der Modellierung von Preisen im Zeitablauf wird Definition 4.9 wie folgt interpretiert: i) In der Menge Ω sind die möglichen Umweltzustände zusammengefasst. Ein Umweltzustand ω ∈ Ω ist dabei als Zusammenfassung aller Zustände und Konstellationen, welche die betrachteten Preise beeinflussen, zu verstehen. ii) A enthält Teilmengen (Ereignisse) von Ω, von denen nach Ablauf der Zeit entschieden werden kann, ob sie eingetreten sind oder nicht. c Klaus Schindler SS 2016 71 Stochastische Prozesse I 4.2. σ-Algebren und Information Wahrscheinlichkeitsrechnung Kapitel 4 σ-Algebren und Information iii) P(A) sei für einen Marktteilnehmer die (subjektive) Wahrscheinlichkeit, dass das Ereignis A eintritt. Alle Marktteilnehmer seien sich dabei über die Nullmengen von P, d.h. die Ereignisse, die als unmöglich gelten10 , einig. iv) Die σ-Algebra It enthält diejenigen Mengen aus A, von denen ein Marktteilnehmer zum Zeitpunkt t entscheiden kann, ob sie eingetreten sind oder nicht. Diese sollen für alle Marktteilnehmer gleich sein. Durch Forderung 2.) der Definition wird eine Nicht-Vergesslichkeit modelliert: wenn man bereits zum Zeitpunkt t1 (6 t2 ) entscheiden kann, ob eine Teilmenge A von Ω eingetreten ist, dann weiß man dies auch noch zum T S späteren Zeitpunkt t2 . Oft fordert man, dass It = A und It = {∅, Ω} gilt, was man T t∈ T t∈ bei endlichem Zeithorizont als „Am Ende des Betrachtungszeitraumes ist sämtliche Information verfügbar“ bzw. als „Zum Startpunkt der Zeit ist über die Zukunft noch nichts bekannt“ interpretieren kann. ❐ Stochastische Prozesse I Sind (Ω, A, P) und (It )t∈T mit obiger Interpretation gegeben und bezeichnet (St )t∈T einen eindimensionalen stochastischen Prozess, bei dem man St (ω) als Preis eines Wirtschaftsgutes zum Zeitpunkt t und bei Umweltzustand ω interpretiert, so ist für einen Marktteilnehmer zum Zeitpunkt t der Wert von St bekannt, er kann daher insbesondere für alle Intervalle entscheiden, ob St in A liegt. Daher muss die Menge St−1 (A) in It liegen. Formal A⊂ heißt dies, dass St bzgl. der σ-Algebra It messbar ist. Dies ist Inhalt der nachfolgenden Definition. R Definition 4.11 Ein stochastischer Prozess (St )t∈T heißt an die Filtration (It )t∈T adaptiert, falls St für alle t ∈ eine It -messbare Funktion ist. ❐ T Bemerkung 4.12 Die von den ZV Su erzeugten σ-Algebren It := σ(Su | u 6 t) bilden die einfachste Filtration bzgl. der (St )t∈T adaptiert ist. Nach Definition der erzeugten σ-Algebra (siehe Bemerkung 3.11) wird hierdurch die kleinste Filtration definiert, bezüglich der ein vorgegebener Prozess (St )t∈T adaptiert ist. Sie wird daher auch als kanonische Filtration bezeichnet. Die kanonische Filtration kann in obigem Zusammenhang folgendermaßen interpretiert werden: zu jedem Zeitpunkt t ∈ wird über den unbekannten Umweltzustand nur die Information vewendet, die durch Beobachten des Preisprozesses (St )t∈T zustandekommt. Solche Märkte bezeichnet man als informationseffizient (Markteffizienzhypothese). ❐ T Um zukünftig Schreibarbeit zu sparen, wird die folgende Bezeichnung eingeführt. 10 Zu beachten ist, dass bei Ereignissen mit der Eintrittswahrscheinlichkeit 0 nicht ausgeschlossen ist, dass sie dennoch eintreten. 72 c Klaus Schindler SS 2016 Stochastische Prozesse I Kapitel 4 4.2. σ-Algebren und Information Bezeichnung 4.13 Ein Marktmodell M ist ein TupelM = (Ω, A, P, , (It )t∈T , (St )t∈T ), wobei T 1. (Ω, A, P) ein Wahrscheinlichkeitsraum, 2. ∅ = 6 T ⊂ R eine (Zeit-)Menge, 3. (It )t∈T eine Filtration in A und 4. (St )t∈T ein an (It )t∈T adaptierter d-dimensionaler stochastischer Prozess sei. Ferner gelte 5. S It = A und T t∈ (d) T It = {∅, Ω} sowie T t∈ 6. St (ω) > 0 für alle t ∈ T und alle ω ∈ Ω. Bemerkung 4.14 Forderung 6. aus Bezeichnung 4.13 ergibt sich aus folgender Überlegung: Um auch negative Preise (zum Beispiel von Terminkontrakten) mit obigem Marktmodell erfassen zu können, wurde nicht gefordert, dass alle Preise positiv sind. Um jedoch zu einem diskontierten Markt übergehen zu können, soll wenigstens ein stets positiver Preisprozess existieren, welcher als d-te Komponente modelliert wird11 . Dieser muss nicht notwendigerweise deterministisch sein. Entscheidend ist, dass er zu allen Zeitpunkten und bei allen Umweltzuständen positiv ist, was u.a. der Preisprozess einer Aktie oder auch der Preisprozess eines Zerobonds (Nullkuponanleihe) normalerweise erfüllt. Ebenfalls verzichtet wurde auf die Forderung der Existenz eines risikolosen Zerobonds, da diese für die folgende Theorie nicht notwendig ist. ❐ Beispiel 4.15 Als Zeitmenge wird = {0, 1, 2} betrachtet, die Menge der möglichen Umweltzustände sei Ω = {ω11 , ω12 , ω21 , ω22 }. Vorhanden seien eine Aktie sowie ein deterministischer Zerobond, deren gemeinsamer Preisprozess gegeben sei durch T S0 = (10, 10)T , S1 (ω) = 11 (12, 11) : ω ∈ {ω21 , ω22 } , S2 (ω) = (9, 11)T : ω ∈ {ω11 , ω12 } T Häufig wird auch die erste Komponente gewählt. c Klaus Schindler SS 2016 (15, 12)T : ω (13, 12)T : ω (12, 12)T : ω (8, 12)T : ω = ω22 = ω21 = ω12 = ω11 73 Stochastische Prozesse I (i) Dabei bezeichnet (St )t∈T die i-te Komponente von St , den Preisprozess des i-ten Gutes (Basistitel). Diese Preisprozesse werden als exogen vorgegeben angesehen. Weiterhin sollen für die Interpretation des Marktmodells bzw. seiner Bausteine die Ausführungen aus Bemerkung 4.10 gelten. ❑ Wahrscheinlichkeitsrechnung Kapitel 4 Martingale 1 A sei gleich ℘(Ω), P({ω}) = für alle ω ∈ Ω und zum Zeitpunkt t = 0, 1, 2 sei jeweils 4 nur die bis dahin durch die Preise verfügbare Information gegeben, d.h. I0 = {∅, Ω}, I1 = {∅, {ω11, ω12 }, {ω21 , ω22 }, Ω} und I2 = ℘(Ω). 15 12 12 11 13 12 12 12 10 10 9 11 Stochastische Prozesse I 8 12 Der Zerobond steigt also - beginnend bei 10 [GE] zum Zeitpunkt 0 - jeden Zeitpunkt um 1[GE]. Die Aktie kann ausgehend vom Wert 10 [GE] zum Zeitpunkt 0 entweder auf einen Wert von 9 [GE] fallen oder auf 12 [GE] steigen. Liegt ihr Wert zum Zeitpunkt 1 bei 9 [GE], so besteht die Möglichkeit, dass die Aktie weiter fällt (auf 8 [GE]), sie kann sich jedoch auch erholen und auf 12 [GE] zum Zeitpunkt 2 steigen. Ist die Aktie zum Zeitpunkt 1 auf 12 [GE] gestiegen, so steigt sie weiter, und zwar auf 13 [GE] oder auf 15 [GE]. ❐ 4.3. Martingal-Prozesse Der Begriff Martingal stand ursprünglich für ein faires Spiel, bei dem der zu erwartende Spielgesamtstand nach dem nächsten Spiel gerade gleich dem momentanen Spielstand ist und nicht von dem früheren Spielverlauf beeinflusst wird. Bezeichnet bei einem Spiel St den kumulierten Gewinn bzw. Verlust zum Zeitpunkt t, so ist das Spiel fair, wenn der erwartete Gesamtgewinn/Verlust zu jedem späteren Zeitpunkt gleich dem jetzigen Gesamtgewinn/Verlust ist, d.h. wenn [St2 |It1 ] = St1 für t1 6 t2 gilt (P-fast sicher). Hierbei sei vorausgesetzt, dass der stochastische Prozess (It )t∈T eine Filtration in A sei. Formal führt das zu folgender Definition. E Definition 4.16 Ein an die Filtration (It )t∈T adaptierter stochastischer Prozess (St )t∈T auf dem Wahrscheinlichkeitsraum (Ω, A, P) heißt P-Martingal, falls gilt: 74 c Klaus Schindler SS 2016 Stochastische Prozesse I Kapitel 4 E[S |I ] = S P-fast sicher für alle t , t 2.) E[kS k] < ∞ für alle t ∈ T . 1.) t2 t1 t1 1 2 4.3. Martingal-Prozesse ∈ T mit t1 6 t2 , ❐ t Bemerkung 4.17 i) Die Martingaleigenschaft eines Prozesses ist sowohl von der Filtration (It )t∈T als auch vom Maß P abhängig. Ändert man das zu Grunde liegende Maß oder die Filtration, so ist der Prozess im allgemeinen kein Martingal mehr. ii) Ist nur die Bedingung 1.) der Definition erfüllt, so spricht man von einem lokalen oder verallgemeinerten Martingal. iii) Ersetzt man das Gleichheitszeichen in Punkt 1.) der Martingaldefinition durch ein > oder 6 spricht man von einem Submartingal bzw. einem Supermartingal. Beispiel 4.18 i) Betrachten wir ein Glücksspiel, bei dem man pro Spielrunde 1 e setzt. Mit Wahrscheinlichkeit p gewinnt man 1 e, mit Wahrscheinlichkeit 1−p verliert man seinen Einsatz. Der Gewinn bzw. Verlust Xi des i-ten Spiels ist dann gegeben durch: Xi = +1 mit Wahrscheinlichkeit p −1 mit Wahrscheinlichkeit 1−p Der Gesamtgewinn (bzw. Gesamtverlust) Sn nach n Spielen ist daher gegeben durch Sn = n X Xi . i=1 Wir nehmen an, dass die Ergebnisse Xi der einzelnen Spiele stochastisch unabhängig sind. Betrachtet man die kanonische Filtration (It )t∈N mit I0 := {∅, Ω}, In := σ(X1 , . . . , Xn ), E so ist Sn offenbar In -messbar, woraus mit Satz 3.35 d) die Aussage [Sn |In ] = Sn folgt. Da Xj für alle j>m stochastisch unabhängig von der σ-Algebra Im ist, liefert c Klaus Schindler SS 2016 75 Stochastische Prozesse I iv) Bei Martingalprozessen wird nur eine Aussage über die bedingten Erwartungen und nicht wie bei Markoff-Prozessen über die bedingte Verteilung getroffen. ❐ Wahrscheinlichkeitsrechnung Kapitel 4 Satz 3.35 f) in diesem Fall außerdem E[S n | Im ] = = ES E[S + m n P E[X |I Xj | Im E | Im ] + j = E[X ]. Dies ergibt für alle n > m j n P Xj | Im j=m+1 E[X | I P E[X ] n P = Sm + m] j j=m+1 m Martingale m] j=m+1 n = Sm + j j=m+1 = Sm + (n−m) · (2p−1) also E[S n+1 | In ] 1 2 Stochastische Prozesse I Im Fall p = < Sn falls p < = Sn falls p = > Sn falls p > 1 2 1 2 1 2 ergibt sich die Martingaleigenschaft, d.h. ein faires Spiel. Im Fall p > 1 1 2 liegt ein für den Spieler günstiges Submartingal vor, im Fall p < ein für den Spieler 2 ungünstiges Supermartingal. ii) Ist (St )t∈T mit den gleichen Bezeichnungen wie in Definition 4.16 ein Martingal, so ist die Voraussage (Erwartungswert) für die Änderung ∆St von St im Zeitraum t bis t+∆t unter der aktuellen Information It nach den Martingaleigenschaften gleich E[∆S t | It ] = E[S t+∆t −St | It ] = E[S t+∆t E | It ] − [St | It ] = St − St = 0. Damit ist die Voraussage für die Änderung von St in einem beliebigen Zeitintervall der Länge t gleich 0. Es ist also bei Martingalen nicht möglich, die Richtung zukünftiger Änderungen vorauszusagen. Weist ein Prozess einen Trend auf, kann er m.a.W. kein Martingal sein. Insbesondere ist der Preis eines Zerobonds kein Martingal12 . iii) Sind (Ω, A, P) sowie eine Filtration (It )t∈T gegeben, so kann aus einer zeitunabhängigen (integrierbaren) Zufallsvariable X auf (Ω, A, P) in natürlicher Weise ein Martingal konstruiert werden13 . Definiert man nämlich Mt := [X|It ], so ist (Mt )t∈T ein P-Martingal bezüglich (It )t∈T . Dies folgt daraus, dass E E 1.) Mt = [X|It ] nach Definition der bedingten Erwartung automatisch It -messbar und damit (Mt )t∈T trivialerweise an (It )t∈T adaptiert ist, 12 Es sei denn, dass der Zinssatz i Null ist. 13 Später wird der Payoff des betrachteten Derivates die Rolle der ZV X übernehmen. 76 c Klaus Schindler SS 2016 Stochastische Prozesse I Kapitel 4 4.3. Martingal-Prozesse 2.) nach Definition der Filtration It1 ⊂It2 für t1 6t2 gilt und wegen des Tower Law (Satz 3.35 e)) daher E[M t2 |It1 ] = = EE E[X|I [X|It2 ]It1 t1 ] = Mt1 (P-fast sicher) 3.) mit X auch E[X|I ] = M t t für t ∈ T integrierbar ist. ❐ Definition 4.19 a) Zwei Wahrscheinlichkeitsmaße Q und P auf dem Messraum (Ω, A) heißen zueinander äquivalent, falls gilt ∀A ∈ A : P(A) = 0 ⇐⇒ Q(A) = 0. b) Sei (St )t∈T ein an die Filtration (It )t∈T adaptierter stochastischer Prozess auf dem Wahrscheinlichkeitsraum (Ω, A, P). Ein zu P äquivalentes Wahrscheinlichkeitsmaß Q heißt äquivalentes Martingalmaß zu P, falls (St )t∈T ein Q-Martingal bezüglich (It )t∈T ist. EMM bezeichne die Menge aller zu P äquivalenten Martingalmaße. ❐ Bemerkung 4.20 i) Sind P und Q äquivalente Wahrscheinlichkeitsmaße, so gilt eine Aussage genau dann P-fast sicher, wenn sie Q-fast sicher gilt. ii) Die Menge der zu P äquivalenten Martingalmaße hängt nicht nur von P, sondern auch von der gegebenen Filtration (It )t∈T und vom gegebenen Prozess (St )t∈T ab. iii) Liegt nur ein lokales Martingal vor spricht man entsprechend in Definition 4.19 von einem äquivalenten lokalen Martingalmaß. iv) Der zur Konstruktion der bedingten Erwartung erforderliche Satz von Radon-Nikodym (siehe Anhang Satz A.7) benötigt die sog. absolute Stetigkeit des Maßes Q bzgl. P (Schreibweise Q ≪ P), d.h. wenn gilt: P(A) = 0 =⇒ Q(A) = 0 c Klaus Schindler SS 2016 77 Stochastische Prozesse I Die Martingal-Eigenschaft eines Prozesses (Xt ) hängt sowohl vom Wahrscheinlichkeitsmaß als auch von der Filtration, die gegeben sind, ab (siehe Bemerkung 4.17). Eine zentrale Frage ist, ob ein Wahrscheinlichkeitsmaß Q existiert, so dass (Xt ) ein Q-Martingal bezüglich einer vorgegebenen Filtration ist. Um keine „Wahrscheinlichkeits-Information“ zu verlieren, sollte Q zum ursprünglichen Maß P äquivalent sein, d.h. die gleichen Nullmengen wie P besitzen. Die folgende Definition fasst diesen Äquivalenzbegriff genauer. Wahrscheinlichkeitsrechnung Kapitel 4 Martingale Die in Definition 4.19 eingeführte Äquivalenz zweier Maße P und Q bedeutet daher, dass P bzgl. Q und Q bzgl. P absolut stetig ist. ❐ Beispiel 4.21 Gegeben seien die Daten aus Beispiel 4.15. Dann ist (St )t=0,1,2 kein P-Martingal bezüglich (It )t=0,1,2 , da [S1 |I0 ] = (10.5, 11)T nicht P-fast sicher gleich S0 = (10, 10)T ist. (2) (2) Da Q [S1 |I0 ] = 11 6= S0 = 10 für alle Wahrscheinlichkeitsmaße Q auf (Ω, A) gilt, ist die Menge EMM leer. (1) Ferner rechnet man leicht nach, dass die erste Komponente St=0,1,2 des Prozesses (St )t=0,1,2 E E 1 1 2 1 unter dem Maß Q mit Q({ω11 }) = , Q({ω12 }) = , Q({ω21 }) = und Q({ω22 }) = ein 2 6 9 9 Q-Martingal bezüglich (It )t=0,1,2 ist. ❐ Stochastische Prozesse I 78 c Klaus Schindler SS 2016 K APITEL 5 Stochastische Prozesse II Dieser Abschnitt stellt das Handwerkszeug bereit, das für die Bewertung von Optionen benötigt wird. Dabei spielen stochastische Prozesse in stetiger Zeit, die als Lösungen stochastischer Differentialgleichungen definiert werden, eine wesentliche Rolle. Um diese Begriffe verständlich zu machen, benutzen wir Approximationen durch stochastische Prozesse in diskreter Zeit und verwenden als Grundlage die Kapitel 3 und 4. Aktienkurse sind eigentlich zeitdiskrete Prozesse, die wir durch zeitstetige Prozesse approximieren, da man mit diesen wesentlich leichter analytisch rechnen kann, wie der Itô-Kalkül in Abschnitt 5.5 zeigen wird. Zur Simulation solcher Prozesse auf dem Rechner oder zur numerischen Berechnung von Optionswerten, werden Prozesse in stetiger Zeit wieder durch Prozesse in diskreter Zeit angenähert. Wir wechseln also je nach Bedarf zwischen diskreter und stetiger Zeit. Zunächst soll auf möglichst einfache Art und Weise der Wiener-Prozess (arithmetisch Brownsche Bewegung) als erstes Beispiel für einen zeitstetigen Prozess konstruiert werden. Er stellt als Prozess gewissermaßen das Analogon zu einer normalverteilten ZV dar. Danach werden wir mittels Integration bzw. Differentiation daraus komplexere zeitstetige Prozesse konstruieren. 5.1. Der Wiener-Prozess N t Gegeben sei das feste Zeitintervall [0, t], das wir in n Teilintervalle (n∈ ) der Länge ∆t = n zerlegen. Wir betrachten nun den in 0 startenden arithmetischen Binomialprozess (X(n) τ )τ ∈T 1 mit den Parametern p=1−p= und u=d=∆x über der Zeitmenge 2 T= =t n z }| { o 0, ∆t, 2·∆t, . . . , n·∆t X(n) τ startet also in 0 und steigt (bzw. fällt) jeweils nach einer Zeitspanne von ∆t mit Wahrscheinlichkeit 21 um ∆x (bzw. −∆x). ∆x sei hierbei eine noch genauer zu bestimmende Größe. Zwischen diesen Sprüngen sei der Prozess konstant oder werde linear interpoliert. 1 Zur Zeit t = n·∆t hat der Prozess dann wegen X(n) 0 =0, u=d=∆x und p=1−p= 2 gemäß Abschnitt 4.1.1 folgenden Erwartungswert bzw. Varianz E[X (n) t ] = n · (u+d)·p − d = 0 2 2 var(X(n) = t ) = n · (u+d) ·p·(1−p) = n·(∆x) t ·(∆x)2 ∆t Wahrscheinlichkeitsrechnung Kapitel 5 Der Wiener Prozess Wir beschleunigen jetzt den Prozess, indem wir die Zahl n der Sprünge immer größer und damit die Zeitspanne ∆t= nt zwischen zwei aufeinanderfolgenden Beobachtungen, immer kleiner werden lassen (beachte: t ist fest!). Damit der Grenzprozess lim X(n) t n→∞ in vernünftigem Sinn existiert, muss lim var(X(n) t ) = lim n→∞ ∆t→0 (∆x)2 ·t ∆t existieren. Allerdings sollte dieser Grenzwert nicht Null oder unendlich sein, da der Grenzprozess ansonsten deterministisch oder unkontrollierbar und damit für uns uninteressant wäre. Die einzige Möglichkeit, einen von Null verschiedenen endlichen Grenzwert zu erhal√ ten, ist ∆x = b· ∆t (b konstant) zu wählen, so dass gilt: 2 lim var(X(n) t ) = b ·t n→∞ Da X(n) t nach Bemerkung 3.18 iii) für große n approximativ normalverteilt ist, genauer X(n) t ≈ N0,n·(∆x)2 = N0,b2 ·n·∆t = N0,b2 ·t , hat der Grenzprozess (xt )t>0 , den wir aus X(n) durch den Grenzübergang n → ∞ mit t √ ∆x = b· ∆t erhalten, folgende Eigenschaften: i) xt ist N0,b2 t -verteilt für alle t > 0. Stochastische Prozesse II ii) (xt )t>0 hat unabhängige absolute Zuwächse, d.h. für 0 6 s < t ist xt − xs unabhängig von xs (da die approximierende Irrfahrt unabhängige absolute Zuwächse hat) iii) xt ist homogen, d.h. die Verteilung vom Zuwachs xt − xs ist N0,b2 ·(t−s) -verteilt, hängt also nur von der Länge t−s des betrachteten Zeitintervalls ab (dies folgt aus (i) und (ii) und den Eigenschaften der Normalverteilung). Definition 5.1 Ein zeitstetiger Prozess (xt )t>0 mit den Eigenschaften (i) - (iii) heißt (Arithmetischer) Wiener-Prozess oder (Arithmetisch) Brownsche Bewegung mit Start in 0 (x0 =0). Den StandardWiener-Prozess, der durch die Wahl b=1 entsteht, bezeichnen wir im Folgenden mit (Wt )t>0 . ❐ Bemerkung 5.2 i) Der Standard-Wiener-Prozess hat für alle 0 6 s < t folgende Eigenschaften1 E[W ] = 0, var(W ) = t, cov(W , W ) = min{s, t} = s, corr(W , W ) = t 1 t t s s t r s t Die Aussage über die Kovarianz folgt wegen der Unabhängigkeit der Änderung Wt − Ws von Ws aus cov(Wt , Ws ) = cov((Wt − Ws ) + Ws , Ws ) = cov(Wt − Ws , Ws ) + cov(Ws , Ws ) = 0 + var(Ws ) = s. 80 c Klaus Schindler SS 2016 Stochastische Prozesse II Kapitel 5 5.1. Der Wiener-Prozess ii) Wie bei jedem stochastischen Prozess in stetiger Zeit können wir eine Realisation oder einen Pfad des Wiener-Prozesses als zufällig ausgewählte Funktion der Zeit auffassen. Man kann mit beträchtlichem Aufwand zeigen, dass die Pfade mit Wahrscheinlichkeit 1 stetig sind, d.h. der Wiener-Prozess hat keine Sprünge: P({Wt ist stetig als Funktion von t}) = 1. Wt fluktuiert extrem stark, d.h. die Pfade sind stetig, aber sehr erratisch und man kann zeigen, dass die Pfade mit Wahrscheinlichkeit 1 nirgends differenzierbar sind2 . Als Prozess mit unabhängigen absoluten Zuwächsen ist der Wiener-Prozess automatisch ein Markoff-Prozess. Dies bedeutet, dass für 0 6 s < t gilt P(Wt < b | Ws = x, Information über Wτ , τ < s) = P(Wt < b | Ws = x). Dies folgt aus Wt = Ws + (Wt − Ws ), weil der absolute Zuwachs Wt − Ws unabhängig von Ws ist (siehe auch Abschnitt 3.8 über bedingte Wahrscheinlichkeiten). Aus den Eigenschaften (i) – (iii) lässt sich die bedingte Verteilung von Wt , gegeben die Kenntnis von Ws = x, explizit angeben. Sie ist Nx,t−s . Dies ergibt sich aus der Darstellung Wt = Ws + (Wt − Ws ) = x + (Wt − Ws ), da der absolute Zuwachs (Wt − Ws ) eine N0,t−s -verteilte Größe ist. Die bedingte Wahrscheinlichkeit ist daher Z b −∞ ϕx,t−s (y)dy . ❐ Der Wiener-Prozess fluktuiert um seinen Erwartungswert 0 und wird dementsprechend durch symmetrische Irrfahrten approximiert. Geht man bei der Approximation des WienerProzesses statt von einer symmetrischen von einer beliebigen einfachen Irrfahrt mit Drift aus , so besitzt der stetige Grenzprozess einen Trend oder eine Drift, d.h. er wächst oder fällt im Mittel. Z.B. folgt mit p6= 21 und u=d=∆x E[X (n) t ] = n·(2p−1)·∆x = (2p−1)·t· ∆x ∆t (∆x)2 ∆t √ a ∆t √ erhalten a2 ∆t + b2 2 var(X(n) = 4p·(1−p)·t· t ) = n·4p·(1−p)·(∆x) Für ∆x = √ a2 ∆t + b2 · √ ∆t und p = E[X (n) t 1 2 1+ wir für alle t: 2 ] = a·t, var(X(n) t ) = b ·t Mit den gleichen Überlegungen wie vorher folgt, dass der durch ∆t → 0 entstehende Grenzprozess (xt )t>0 sich qualitativ wie der Wiener-Prozess verhält. Da er die Drift a·t besitzt, 2 √ = N ·∆t∆t = √N∆t keinen endlichen Dies ergibt sich aus der Überlegung, dass der Differenzenquotient ∆W √ ∆t Grenzwert besitzt, weil der Wienerprozess sich proportional zu ∆t und nicht wie differenzierbare Funktionen proportional zu ∆t ändert (N ist hierbei eine normalverteilte Größe). c Klaus Schindler SS 2016 81 Stochastische Prozesse II P(Wt < b | Ws = x) = Wahrscheinlichkeitsrechnung Kapitel 5 Stochastische Integration wächst oder fällt der Prozess im Mittel, je nachdem, ob a > 0 oder a < 0 gilt. Außerdem besitzt (xt )t>0 im Zeitraum t die Varianz b2 t. Man spricht daher vom allgemeinen WienerProzess mit Driftrate a und Varianzrate b2 , dies ist die Drift bzw. Varianz pro Zeiteinheit. Es gilt xt = at + bWt . Der allgemeine Wiener-Prozess ergibt sich also als Summe eines deterministischen linearen Prozesses und eines Vielfachen des Standard-Wiener-Prozesses und ist Nat,b2 t -verteilt. 5.2. Stochastische Integration Stochastische Prozesse II Wir konstruieren nun mit Hilfe des Wiener-Prozesses komplexere stochastische Prozesse, die als Modell für Aktienkurse dienen. Diese Prozesse definieren wir als Integral bzw. als Lösung von Differentialgleichungen. Da die auftretenden Funktionen Zufallsgrößen sind, benötigt man jedoch stochastische Varianten der Differential- und Integralrechnung. Hierzu führen wir das sog. Itô-Integral ein, dessen Konstruktion (wie stets bei Integralen ein Grenzwert von Summen) der des deterministischen Riemann-Stieltjes-Integrals ähnelt. Man spricht von einem stochastischen Integral, da im Unterschied zum deterministischen Fall bzgl. dem Wiener-Prozess (genauer einem Pfad des Wiener-Prozesses) integriert wird. Da der Integrand ebenfalls zufällig - d.h. ein Pfad eines stochastischen Prozesses - sein kann, muss man allerdings sehr vorsichtig bzgl. der wechselseitigen stochastischen Abhängigkeit von Integrand und Wiener-Prozess sein. Wir fordern daher im Folgenden, dass der zu integrierende Prozess (yt )t>0 nicht antizipierend ist, d.h. dass yt bis zum Zeitpunkt s keine Informationen über die zukünftigen absoluten Zuwächse Wt − Ws (t > s) des Wiener-Prozesses enthält. Insbesondere sind ys und Wt − Ws unabhängig. Für eine genauere Diskussion beachte man Bemerkung 5.4 ii). Definition 5.3 Das Itô-Integral It des Prozesses (yt )t>0 bzgl. des Wiener-Prozesses Wt ist definiert durch It := Z In = n X t 0 ys dWs = lim In , (5.1) n→∞ wobei k=1 y(k−1)∆t · (Wk∆t − W(k−1)∆t ) , ∆t = t n (5.2) Der Grenzwert ist ein Grenzwert von Zufallsgrößen im quadratischen Mittel, d.h. es gilt E (I t − In ) 2 = E Z 0 t ys dWs − In 2 n→∞ −→ 0. Der durch diese Integration entstehende stochastische Prozess It wird als Itô-Prozess bezeichnet. ❐ 82 c Klaus Schindler SS 2016 Stochastische Prozesse II Kapitel 5 5.2. Stochastische Integration Bemerkung 5.4 i) Entscheidend bei der Definition des Itô-Integrals ist, dass die Summanden von In jeweils ein Produkt von zwei unabhängigen Zufallsgrößen sind: • dem Wert y(k−1)∆t des integrierten Prozesses am linken Rand3 des „kleinen“ Zeitintervalls [(k − 1)∆t, k∆t] und • dem Zuwachs Wk∆t − W(k−1)∆t des Wiener-Prozesses in diesem Intervall. ii) Bezeichne (It )t>0 die die Informationsentwicklung beschreibende Filtration. Wie in Abschnitt 4.2 beschrieben, ist It die σ-Algebra mit der bis zur Zeit t verfügbaren Information. Sie besteht aus solchen Ereignissen, von denen bis zur Zeit t feststeht, ob sie eingetroffen sind oder nicht. Es gilt also (siehe Definition 4.9) 1. s < t =⇒ Is ⊂ It : die verfügbare Information wächst mit der Zeit 2. {Wt < b} ∈ It : Wiener-Prozess ist an die Informationsentwicklung adaptiert 3. für s < t ist Wt −Ws unabhängig von Is : der Wiener-Prozess besitzt unabhängige absolute Zuwächse (Eigenschaft ii) in Definition 5.1.) iii) Der Wert des Itô-Integrals hängt im Gegensatz zum Riemann-Stieltjes-Integral entscheidend davon ab, welcher Wert der Zufallsgröße ys in Formel (5.2) verwendet wird. Würde man dort statt (k−1)·∆t eine beliebige Stelle t(n, k) im Intervall [(k−1)·∆t, k·∆t] wählen, ergäbe sich für das Itô-Integral folgende Definition: Z 0 t ys dWs := lim n→∞ n X k=1 yt(n,k) · Wk∆t − W(k−1)∆t . Die Wirkung dieser veränderten Definition soll am Beispiel yt = Wt demonstriert werden, d.h. wir integrieren den Wiener-Prozess nach dieser veränderten Definition bzgl. sich selbst4 . Nach Definition des Itô-Integrals muss insbesondere auch E Z 0 t Ws dWs = E lim In = lim n→∞ n→∞ E[I ] n gelten5 . Mit den Rechenregeln für die Kovarianzen des Wiener-Prozesses (siehe Bemerkung 5.2 auf Seite 80) ergibt sich wegen [Ws ] = 0: E 3 Der Hauptgrund für diese Wahl ist, dass der durch das Integral beschriebene Prozess dann immer ein Martingal (siehe Definition 4.16) ist. Siehe hierzu auch Teil iii) dieser Bemerkung. 4 Man beachte Beispiel 5.5 ii) für das „richtige“ Ergebnis. R 12 R 5 2 . Wegen Ω |f |(ω)dP (ω) 6 Ω f (ω)dP (ω) c Klaus Schindler SS 2016 83 Stochastische Prozesse II Die wesentliche Eigenschaft nicht antizipierend (vorwegnehmend) zu sein bedeutet dann, dass der zu integrierende Prozess (yt )t>0 an die Filtration (It )t>0 adaptiert ist, d.h. es gilt {yt <b} ∈ It . Intuitiv bedeutet dies, dass yt keine Information über die Zukunft t + ∆t, d.h. Ereignisse aus It+∆t \It enthält. Wahrscheinlichkeitsrechnung E[I ] n = = 5.2 = E X n k=1 n X Kapitel 5 Wt(n,k) · (Wk∆t − W(k−1)∆t ) Stochastische Integration cov(Wt(n,k) , Wk∆t ) − cov(Wt(n,k) , W(k−1)∆t ) k=1 n X k=1 t(n, k) − (k−1)·∆t Für t(n, k) = (k−1)·∆t - den Fall des Itô-Integrals - erhalten wir als Ergebnis 0, für t(n, k) = k·∆t jedoch n·∆t = t. Für passend gewählte Folgen t(n, k) könnten wir jeden Wert zwischen 0 und t als Erwartungswert des stochastischen Integrals erhalten. Um Rt 0 Ws dWs also einen eindeutigen Wert zuzuweisen, müssen wir uns - im Gegensatz zur klassischen Integration - auf eine Folge t(n, k) einigen. ❐ Die folgenden Beispiele sollen die Berechnung von Itô-Integralen illustrieren und zeigen, dass sie teilweise anderen Rechenregeln als gewöhnliche Integrale folgen. Beispiel 5.5Z t i) Es ist dWs = Wt , denn nach Definition folgt 0 Z t dWs = lim n→∞ 0 n X (Wk∆t − W(k−1)∆t ) n·∆t=t = k=1 | {z Wn·∆t −W0 W =0 0 (Wt − W0 ) = Wt . } Stochastische Prozesse II Hier verhalten sich Itô- und Riemann-Stieltjes-Integral gleich (Satz A.5 f)). ii) Es gilt Z t 0 Ws dWs = 1 (Wt 2 2 (5.3) − t) Im Vergleich hierzu liefert das Riemann-Stieltjes-Integral für stetig differenzierbare Funktionen f mit f0 = f (0) = 0 die Aussage (siehe Satz A.5 d)) Z t 0 fs dfs = 1 2 f . 2 t t Das stochastische Integral (5.3) enthält dagegen noch den Zusatzterm − , da der 2 lokale Zuwachs des Wiener-Prozesses über ein Intervall der Länge ∆t von der Grö√ ßenordnung seiner Standardabweichung ∆t ist. Der entsprechende Zuwachs einer differenzierbaren Funktion f ist proportional zu ∆t, also für ∆t → 0 wesentlich kleiner. 2 2 Da sich bei Summation der Differenzen Wk∆t − W(k−1)∆t alle Terme bis auf den ersten 84 c Klaus Schindler SS 2016 Stochastische Prozesse II Kapitel 5 5.3. Stochastische Differentialrechnung und letzten wegheben und wegen n∆t = t und W0 = 0, ergibt sich Gleichung (5.3) aus folgender Rechnung: Z t 0 Ws dWs = lim n→∞ = lim n→∞ 1 2 = n X k=1 n X k=1 lim n→∞ 1 2 W 2 t = W(k−1)∆t · Wk∆t − W(k−1)∆t 1 2 Wk∆t 2 X n − 2 − W(k−1)∆t − (Wk∆t − W(k−1)∆t )2 2 2 (Wk∆t − W(k−1)∆t ) − k=1 | 1 2 lim n→∞ {z Wt2 −W02 n X 1 n k=1 } n X k=1 Wk∆t − W(k−1)∆t n· Wk∆t − W(k−1)∆t 2 2 Der Grenzwert ist nach dem Gesetz der großen Zahlen der Erwartungswert der nach 2 Eigenschaft iii) des Wiener-Prozesses u.i.v. Zufallsgrößen n· Wk∆t − W(k−1)∆t n 1 X n· Wk∆t n k=1 − W(k−1)∆t 2 E n· W = k∆t − W(k−1)∆t 2 = n·var(Wk∆t − W(k−1)∆t ) = n·∆t = t. ❐ 5.3. Stochastische Differentialrechnung In diesem Abschnitt wird das vorher definierte Ito-Integral in Differentialform dargestellt, was zur Definition der Ito-Prozesse in Form stochastischer Differentialgleichungen führt. Orientiert man sich am deterministischen Fall, fällt auf, dass fast alle komplizierteren dynamischen Vorgänge durch Gleichungen, die das momentane Änderungsverhalten des Prozesses angeben, beschrieben werden. Man empfindet dies auch als natürlich, weil alle in der Natur und Ökonomie auftretenden Prozesse so wahrgenommen werden6 . Die Angabe des Änderungsverhaltens beschreibt den Zusammenhang zwischen der Zukunft, also den Zeitpunkten t+1, t+∆t bzw. infinitesimal t+dt und der Gegenwart t eines Prozesses. Die momentane Änderung eines stochastischen oder deterministischen Prozesses Xt wird im Folgenden angegeben durch die Größe (∆X)t := Xt+1 − Xt falls Xt zeitdiskret bzw. dXt = Xt+dt − Xt := lim Xt+∆t − Xt ∆t→0 6 Z.B. werden Aktien durch die Folge ihrer Kursänderungen wahrgenommen. c Klaus Schindler SS 2016 85 Stochastische Prozesse II lim n→∞ Wahrscheinlichkeitsrechnung Kapitel 5 Stochastische DGLen falls Xt zeitstetig ist. Man nennt (∆X)t die Differenz und dXt das Differential von X zum Zeitpunkt t. Die daraus resultierenden, das Änderungsverhalten beschreibenden Gleichungen, werden als Differenzen- oder Differentialgleichungen bezeichnet. Sie liefern implizite Beschreibungen des Prozesses, indem der Zusammenhang zwischen den Werten von X in Vergangenheit und Zukunft beschrieben wird7 . Das folgende Beispiel soll diese Begriffe sowohl im deterministischen als auch im stochastischen Fall etwas näher erläutern. Auffallend, aber nicht weiter überraschend bei den folgenden sehr einfachen Prozessen ist, dass die Lösung stochastischer Gleichungen wesentlich schwieriger zu berechnen ist, als die analoge deterministische Gleichung. Beispiel 5.6 i) Durch die für alle t zu erfüllende Differenzengleichung (∆X)t = Z, Z fest (5.4) wird das Änderungsverhalten eines arithmetischen Prozesses beschrieben. In expliziter Form lautet Gleichung (5.4) Xt+1 = Xt + Z Ist Z eine reelle Zahl, ergibt8 sich die arithmetische Folge Xt = X0 + Z · t als Lösung. Ist Z eine ZV, die nur die zwei Werte u oder −d annimmt, ergibt sich der arithmetische Binomialprozess aus Kapitel 4.1.1. Die stetige Variante der Differenzengleichung (5.4) ist die Differentialgleichung Stochastische Prozesse II dXt = Zdt, Z fest (5.5) In expliziter Form lautet Gleichung (5.5) Xt+dt = Xt + Z · dt. Eine einfache Integration auf beiden Seiten von Gleichung (5.5) zeigt, dass im deterministischen Fall hierdurch analog zur zeitdiskreten Situation der Prozess Xt = X0 + Z · t beschrieben wird. ii) Durch die für alle t zu erfüllende Differenzengleichung (∆X)t Xt = Z, Z fest (5.6) 7 Spielt die weiter zurückliegende Zeit für den Prozess ebenfalls eine Rolle, treten Differenzen bzw. Ableitungen höherer Ordnung auf. So wird z.B. durch Xt+1 = 5Xt −9Xt−1 +3Xt−2 bzw. äquivalent (∆3 X)t = 2(∆2 X)t − 2(∆X)t − 2Xt ein Vorgang beschrieben, bei dem nicht nur die unmittelbare, sondern auch die bis 3 Perioden weiter zurückliegende Vergangenheit Einfluss nimmt. 8 Die Eindeutigkeit der Lösung wird erst durch Vorgabe des Startwertes X0 erreicht. 86 c Klaus Schindler SS 2016 Stochastische Prozesse II Kapitel 5 5.3. Stochastische Differentialrechnung wird das Änderungsverhalten eines geometrischen Prozesses beschrieben. In expliziter Form lautet Gleichung (5.6) Xt+1 = (1 + Z) · Xt Ist Z eine reelle Zahl, ergibt sich die geometrische Folge Xt = X0 (1 + Z)t = X0 et·ln(1+Z) . Ist Z eine ZV, die nur die zwei Werte u oder d annimmt, erhält man den geometrischen Binomialprozess aus Kapitel 4.1.3. Die stetige Variante der Differenzengleichung (5.6) ist die Differentialgleichung dXt Xt = Zdt, Z fest (5.7) Wie in Teil i) folgt im deterministischen Fall (Z ∈ ln(Xt ) − ln(X0 ) = Z t 0 dXs = Xs Z t 0 R) mittels Integration Zds = Z · t. Dies liefert den geometrischen Prozess Xt = X0 · eZ·t . ❐ Beispiel 5.6 legt es nahe, den allgemeinen Wiener-Prozess mit Driftrate a und Varianzrate b intuitiv in differentieller Form darzustellen durch dxt = a · dt + b · dWt , (5.8) obwohl Wt gar nicht differenzierbar ist. Integration von Gleichung (5.8) liefert xt = xt − x0 = Z 0 t dxt = Z 0 t ads + Z 0 t bdWs , R woraus sich unter Verwendung der in Beispiel 5.5 i) hergeleiteten Beziehung 0t dWs = Wt wieder die explizite Form xt = at + bWt ergibt. Gleichung (5.8) geht davon aus, dass der lokale Trend, dessen Größe die Driftrate a wiedergibt, und die lokale Variabilität, beschrieben durch den Parameter b, stets konstant sind. Eine wesentlich größere und zum Modellieren vieler Vorgänge in Natur und Wirtschaft besser geeignete Klasse stochastischer Prozesse erhält man, wenn a und b in (5.8) explizit von der Zeit und vom erreichten Niveau abhängen dürfen. Definition 5.7 (xt )t>0 heißt allgemeiner Itô-Prozess, wenn er folgende stochastische Gleichung erfüllt: dxt = α(xt , t)dt + β(xt , t)dWt (5.9) ❐ c Klaus Schindler SS 2016 87 Stochastische Prozesse II 2 Wahrscheinlichkeitsrechnung Kapitel 5 Aktienkurs-Prozesse Bemerkung 5.8 i) Für deterministische Prozesse (xt )t>0 sind nach dem Hauptsatz der Differential- und Integralrechnung die Differentialschreibweise (5.9) und die Integralschreibweise xt − x0 = Z t 0 α(xs , s)ds + Z t (5.10) β(xs , s)dWs 0 äquivalent. Wie jedoch schon auf Seite 81 bemerkt, ist Wt und damit xt nicht differenzierbar, so dass die Verwendung der Differentiale dWt und dxt keinen Sinn ergibt. Präzise wird eine Lösung von (5.9) als ein stochastischer Prozess definiert, der die Integralgleichung (5.10) erfüllt. Die stochastische DGL (5.9), die wir wegen des eingangs geschilderten besseren Verständnisses jedoch weiterhin verwenden, ist in diesem Sinn nur eine einprägsame Kurzschreibweise der Integralgleichung (5.10). Intuitiv bedeutet Gleichung (5.9) ∆xt = xt+∆t − xt = α(xt , t)(t + ∆t − t) + β(xt , t)(Wt+∆t − Wt ) = α(xt , t)∆t + β(xt , t)∆Wt d.h. die absolute Änderung des Prozesses in einem kleinen Intervall der Länge ∆t nach der Zeit t ist α(xt , t) · ∆t zuzüglich einer zufälligen N0,β 2 (xt ,t)∆t -verteilten Fluktuation β(xt , t)(Wt+∆t − Wt ). ii) Wegen Rt t′ = Rt 0 − R t′ 0 folgt für 0 6 t′ < t aus Gleichung (5.10): xt = x + t′ Stochastische Prozesse II Z t t′ α(xs , s)ds + Z t t′ β(xs , s)dWs . Da der Zuwachs des Wiener-Prozesses zwischen t′ und t nicht von den Ereignissen bis zur Zeit t′ abhängt, folgt, dass ein Itô-Prozess die Markoff-Eigenschaft besitzt. iii) Diskrete Approximationen der DGL (5.9) und der Integralgleichung (5.10), die sich auch für Simulationen von Itô-Prozessen eignen, erhalten wir, wenn wir den Prozess zwischen 0 und t nur in regelmäßigen Abständen k∆t, (k = 0, . . . , n), n∆t = t, beobachten. W −W Mit Xk = xk∆t und Zk = k∆t √ (k−1)∆t erhält man ∆t Xk+1 − Xk = α(Xk , k) · ∆t + β(Xk , k) · Zk+1 · √ ∆t √ bzw. mit den Abkürzungen αk (x) = α(x, k)∆t, βk (x) = β(x, k) ∆t: Xn − X0 = n X αk−1 (Xk−1 ) + k=1 n X k=1 βk−1 (Xk−1 ) · Zk mit unabhängig, identisch verteilten N0,1 -Zufallsgrößen Z1 , Z2 , . . . . 88 c Klaus Schindler SS 2016 ❐ Stochastische Prozesse II Kapitel 5.4. Der 5 Aktienkurs als stochastischer Prozess 5.4. Der Aktienkurs als stochastischer Prozess Aktienkurse sind an sich stochastische Prozesse in diskreter Zeit, die wegen der eingeschränkten Messgenauigkeit auch nur diskrete Werte annehmen. Dennoch werden stochastische Prozesse in stetiger Zeit als Modelle benutzt, da sie rechnerisch nicht so aufwändig wie diskrete Modelle - z.B. der Binomial- oder Trinomialprozess - sind. Letztere sind jedoch oft anschaulicher und eignen sich besonders für Simulationen. Der allgemeine Wiener-Prozess dxt = adt + bdWt eignet sich nicht als Aktienkursmodell, da er zum einen negative Aktienkurse zulassen würde, zum anderen die lokale Variabilität größer ist, wenn der Kurs selbst sich auf hohem Niveau bewegt. Daher wird in einem allgemeinen Ansatz der Börsenkurs St einer Aktie als Itô-Prozess modelliert: dSt = α(St , t)dt + β(St , t)dWt In diesem Modell stehen die unbekannten Funktionen α(x, t) und β(x, t). Eine brauchbare, einfache Variante, in der nur noch zwei Modellparameter a und b unbekannt sind, erhält man durch folgende Überlegung: Die Rendite als prozentualer Zuwachs des eingesetzten Kapitals soll im Mittel nicht vom aktuellen Kurs bei Kauf der Aktien und schon gar nicht von der Einheit abhängen ( e, $, £, U, . . . ), in der der Aktienwert gemessen wird. Außerdem soll die mittlere, d.h. zu erwartende Rendite wie bei anderen Anlageformen proportional zur Länge des Anlagezeitraums sein. Zusammen ergibt sich die Forderung t St Da = E[S t+dt St − St ] = a · dt E[dW ] = 0, ist diese Bedingung bei gegebenem Anfangskurs S t t Stochastische Prozesse II E[dS ] erfüllt, wenn α(St , t) = a · St . Darüberhinaus wird analog angesetzt β(St , t) = b · St , was die Tatsache berücksichtigt, dass die absolute Größe der Kursfluktuationen sich proportional ändert, wenn wir den Kurs in einer anderen Einheit messen. Zusammengefasst modellieren wir den Aktienkurs St als Lösung der stochastischen DGL dSt = a · St dt + b · St · dWt (5.11) a ist die (pro Zeiteinheit) zu erwartende momentane Rendite, b die zu erwartende momentane Volatilität (Variabilität) der Aktie. Ein solcher Prozess (St )t>0 heißt geometrisch Brownsche Bewegung, da die relativen Preisänderungen eine arithmetische Brownsche Bewegung bilden, d.h. dSt = a dt + b dWt . St c Klaus Schindler SS 2016 89 Wahrscheinlichkeitsrechnung Kapitel 5 Stochastische Differentiation Mit Itôs Lemma lässt sich zeigen (siehe Beispiel 5.12 ii)), dass yt = ln(St ) normalverteilt9 , d.h. St = eyt lognormalverteilt ist. Da die arithmetisch Brownsche Bewegung yt durch einen arithmetischen Binomialprozess At approximiert werden kann und eAt ein geometrischer Binomialprozess ist, können geometrisch Brownsche Bewegungen durch geometrische Binomialprozesse approximiert werden. Bemerkung 5.9 Speziell für b = 0 liefert die geometrisch Brownsche Bewegung die Differentialgleichung dS S = adt. Diese besitzt die Lösung St = S0 eat , wobei S0 der Kurs zum Zeitpunkt 0 ist. Durch b = 0 wird St zu einer deterministischen Größe, die sich wie eine Anleihe mit der sicheren stetigen Rendite a verhält. ❐ 5.5. Stochastische Differentiation Ein entscheidendes Hilfsmittel beim Umgang mit stochastischen Differentialgleichungen ist das Lemma von Itô. Ist (St )t>0 ein Itô-Prozess der Form dSt = α(St , t) dt + β(St , t) dWt , (5.12) Stochastische Prozesse II so entsteht fast zwangsweise die Frage, welche Eigenschaften stochastische Prozesse haben, die sich im funktionalen Sinn aus St „ableiten“ lassen. Die Frage lautet also, ob und gegebenenfalls welcher stochastischen DGL „derivative“ Prozesse der Form zt = f (St , t) genügen, wobei wir davon ausgehen, dass f eine hinreichend oft differenzierbare Funktion in zwei Veränderlichen ist. Es sei nochmals darauf hingewiesen, dass aus Verständnisgründen zwar der Differentialkalkül verwendet wird, dieser jedoch für die stochastischen Größen keinen Sinn macht. Die entsprechenden Gleichungen sind daher immer in integrierter Form zu interpretieren. Zur Herleitung der stochastischen DGL für zt = f (St , t) verwenden wir die Taylordarstellung von f (Satz D.2 des Anhangs). Diese liefert für die Änderung ∆zt : ∆zt = ∆f (St , t) = ∂f ∆St ∂x + (5.13) ∂f ∆t ∂t + 1 2 ∂2f (∆St )2 ∂x2 + 2· ∂2f ∆St ∆t ∂x∂t + ∂2f (∆t)2 ∂t2 Genügt St einem allgemeinen Itô-Prozess, so gilt +··· ∆St = α(St , t)∆t + β(St , t)∆Wt . Ersetzt man ∆St in Gleichung (5.14) durch diesen Ausdruck (zunächst bei den Termen zweiter Ableitung), so folgt: ∆zt = 9 ∂f ∂f ∆S + ∆t ∂x ∂t 1 ∂2f (α∆t + β∆Wt )2 + 2 ∂x2 ∂2f ∂2f +2 (α∆t + β∆Wt )∆t + 2 (∆t)2 ∂x∂t ∂t yt startet in ln(S0 ) und ist Nat− 21 b2 t,b2 t -verteilt. 90 c Klaus Schindler SS 2016 +··· Stochastische Prozesse II Kapitel 5 Ausmultiplizieren unter Berücksichtigung von ∆Wt = 5.5. Stochastische Differentiation √ 3 ∆t und ∆Wt · ∆t = (∆t) 2 liefert10 : ∂2f 2 (α (∆t)2 + 2αβ∆Wt ∆t + β 2 (∆Wt )2 ) ∂x2 ∂2f ∂2f 2 2 +2 +··· (α(∆t) + β∆Wt ∆t) + 2 (∆t) ∂x∂t ∂t 2 3 ∂ f 2 1 (α (∆t)2 + 2αβ(∆t) 2 + β 2 ∆t 2 2 ∂x 3 ∂2f ∂2f 2 2 2 +··· (α(∆t) + β(∆t) ) + 2 (∆t) +2 ∂x∂t ∂t ∆zt = ∂f ∆St ∂x + ∂f 1 ∆t + ∂t 2 = ∂f ∆St ∂x + ∂f ∆t + ∂t Da Terme der Form (∆t)1+c mit c>0 beim Grenzübergang ∆t → 0 schneller als ∆t gegen Null konvergieren, können diese gegenüber ∆t vernachlässigt werden. Damit ergibt sich ∆zt = ∂f ∆St ∂x + ∂f ∂t + 1 ∂2f 2 β (St , t) 2 ∂x2 ∆t und mit ∆St = α(St , t)∆t + β(St , t)∆Wt folgt ∆zt = ∂f ∂f α(St , t) + ∂x ∂t + 1 ∂2f 2 β (St , t) 2 ∂x2 ∆t + ∂f ∂x β(St , t)∆Wt . Im Grenzübergang ∆t → 0 erhält man damit folgenden Satz. Satz 5.10 (Lemma von ITÔ) Sei St ein allgemeiner Itô-Prozess, d.h. gelte dSt = α(St , t)dt + β(St , t)dWt . df (St , t) = = ∂f (St , t) 1 ∂ 2 f (St , t) 2 ∂f (St , t) β (St , t)dt (5.14) dSt + dt + ∂x ∂t 2 ∂x2 ∂f (St , t) ∂f (St , t) 1 ∂ 2 f (St , t) 2 ∂f (St , t) β (St , t) dt + α(St , t) + + β (St , t)dWt 2 ∂x ∂t 2 ∂x ∂x ❑ Bemerkung 5.11 Ist St ein deterministischer Prozess, gilt β(St , t) ≡ 0 und Formel (5.14) reduziert sich zur klassischen Differentialdarstellung. ❐ Beispiel 5.12 i) Ist St = µ·t + σ·Wt ⇐⇒ dSt = µ·dt + σ·dWt eine arithmetische Brownsche Bewegung (µ, σ konstant), so ist zt := eSt eine geometrisch Brownsche Bewegung. Wendet man das Lemma von Itô auf die Funktion f (x) = ex an und beachtet, dass ∂f (x) ∂x 10 = ∂ 2 f (x) ∂x2 = ex und ∂f (x) ∂t =0 Genauer gilt nach Eigenschaft iii) des Standard-Wienerprozesses Wt auf Seite 80: E[|∆Wt| · ∆t] = (∆t) 32 c Klaus Schindler SS 2016 E[|∆W |] = t √ ∆t bzw. 91 Stochastische Prozesse II Ist f (x, t) eine 2-mal partiell differenzierbare Funktion, so wird durch f (St , t) wiederum ein allgemeiner Itô-Prozess definiert. Dieser genügt der Gleichung Wahrscheinlichkeitsrechnung Kapitel 5 Stochastische Differentiation gilt, so ergibt sich für zt die stochastische DGL: dzt = 1 ∂ 2 f (St ) 2 ∂f (St ) ·σ ·µ + ∂x 2 ∂x2 + ∂f (St ) ∂t dt + ∂f (St ) ·σ·dWt ∂x = (eSt ·µ + 21 eSt ·σ 2 + 0)dt + eSt ·σ·dWt = (µ+ 21 σ 2 )·zt dt + zt ·σdWt zt = eSt ist also eine geometrisch Brownsche Bewegung, wobei die momentane Rendite dzt den Erwartungswert µ + 21 σ 2 und die Volatilität σ besitzt. zt ii) Der Aktienkurs St genüge einem geometrischen Wiener-Prozess (geometrisch Brownsche Bewegung), d.h. dSt = µ·St dt + σ·St dWt . Es liegt also ein spezieller Itô-Prozess mit α(S, t) = µ·St , β(S, t) = σ·St vor. 1.) Wir betrachten den Logarithmus zt = ln(St ). Für f (x) = ln(x) haben wir ∂f (x) ∂x = 1 x , ∂ 2 f (x) ∂x2 =− 1 x2 und ∂f (x) ∂t = 0. Itôs Lemma liefert dann die folgende stochastische DGL für zt : Stochastische Prozesse II dzt = ∂f (St )·µ·St ∂x = 1 µSt St − + 1 ∂2f (St )·σ 2 ·St2 2 ∂x2 1 1 2 2 σ St 2 St2 + 0 dt + + ∂f ∂t dt + ∂f (St )·σ·dWt ∂x 1 σSt dWt St = (µ− 21 σ 2 )dt + σdWt Der Logarithmus eines geometrischen Wiener-Prozesses St ist also ein arithme1 tischer Wiener-Prozess mit Driftrate µ − σ 2 und Varianzrate σ 2 , d.h. St ist 2 lognormalverteilt. Dies ist gerade die Umkehrung von Beispiel i). 2.) Untersuchen wir nun das stochastische Verhalten des zu St gehörenden Terminkurses Ft . Wie in Satz 2.3 hergeleitet, ist bei stetigen Bestandshaltekosten b der ⋆ Forward Price Ft = St eb(t −t) . ⋆ −t) Mit f (x, t) := x · eb(t ∂f ∂x ⋆ −t) = eb(t , ∂f ∂t liefert Itô’s Lemma unter Verwendung der Ableitungen = −b · f (x, t) , ∂2f ∂x2 =0 für Ft die stochastische Differentialgleichung: 92 c Klaus Schindler SS 2016 Stochastische Prozesse II ⋆ −t) dFt = eb(t ⋆ −t) = eb(t Kapitel 5 ⋆ −t) dSt − bSt eb(t 5.5. Stochastische Differentiation dt + 0 ⋆ −t) (µSt dt + σSt dWt ) − bSt eb(t ⋆ −t) = (µ−b)St eb(t ⋆ −t) dt + σ eb(t dt St dWt = (µ−b)Ft dt + σFt dWt Stochastische Prozesse II Dies bedeutet, dass der Terminkurs Ft ebenfalls ein geometrischer Wiener-Prozess ist mit der gleichen Volatilität wie St , jedoch mit einer zu erwartenden momentanen Rendite µ − b pro Zeiteinheit. ❐ c Klaus Schindler SS 2016 93