Kriging

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springenZur Suche springen
Farbliche Darstellung von Ertragswerten eines Ackers nach einerKriging-Interpolation

UnterKriging (oder auch: Krigen) versteht man eingeostatistisches Prognose- und Interpolationsverfahren, mit dem man eine räumlich verorteteVariable an Orten, an denen sie nicht gemessen wurde, durch umliegendeMesswerteinterpolieren oder auchannähern kann. Stark vereinfacht könnte man sagen, diese Prognose ist eine Artgewichteter Mittelwert aus allen oder einigen der bekannten Messwerte einerStichprobe. Außerhalb der Geostatistik ist das Verfahren alsGaußprozess-Regression bekannt.[1]

Der südafrikanische BergbauingenieurDanie Krige entwickelte 1951 für den Goldbergbau eine Interpolationsmethode, die auf der Abhängigkeit der Messwerte von den Abständen basiert, die zwischen den zugehörigen Messpunkten liegen. Der französische Mathematiker und IngenieurGeorges Matheron veröffentlichte 1960 die Arbeit „Krigeage d’un Panneau Rectangulaire par sa Périphérie“[2], welche die theoretische Grundlage der von Danie Krige entwickelten Methode schuf und sie nach ihm benannte.

Der wesentliche Vorteil gegenüber einfacheren Methoden wie beispielsweise derInversen Distanzwichtung ist die Berücksichtigung der räumlichenVarianz, die sich mit Hilfe vonSemivariogrammen ermitteln lässt. Die Semivarianz beschreibt, wie die Unterschiede zwischen den Messwerten zunehmen bzw. die Ähnlichkeit zwischen den Messwerten abnimmt, wenn der Abstand zwischen den Messpunkten größer wird. Sie eignet sich also dafür, die Gewichte der Mittelwertsbildung zu bestimmen, indem sie für näher gelegene Stichprobenwerte größere Gewichte, und für entferntere Stichprobenwerte kleinere Gewichte vergibt. Für einen gesuchten Wert werden dabei die Gewichte der in die Berechnung einfließenden Messwerte so bestimmt, dass der Prognosefehler möglichst gering ist. Der Prognosefehler hängt dabei von der Qualität des Variogramms bzw. der Variogrammfunktion ab, also wie gut das Semivariogrammmodell die tatsächlicheräumliche Autokorrelation beschreibt.

Bei einfacheren Interpolationsverfahren können bei Häufung der Messpunkte Probleme auftreten. Dies wird beim Kriging vermieden und zwar durch die Berücksichtigung der statistischen Abstände zwischen der in die Berechnung eines Punktes einfließenden Nachbarn und Optimierung der gewichteten Mittel. Tritt an einer Stelle eineClusterung auf, werden die Gewichte der Punkte innerhalb dieses Clusters gesenkt.

Unter Kriging versteht man die Bestimmung derbesten linearen Prognose (oder Vorhersage) (englischer KurzbegriffBLP,best linear prediction) eines Messwertes an einem nicht beobachteten Ort auf der Basis von Messwerten an beobachteten Orten. Dabei werden die Messwerte als Realisierungen von Zufallsvariablen (zufälliger Messungen) modelliert, die einZufallsfeld mit bekannterErwartungswertfunktion undKovarianzfunktion bilden. Werden in einem allgemeineren Kontext unbekannte Parameter in der Erwartungswertfunktionunverzerrt (erwartungstreu) geschätzt, so ergibt sich das Konzept derbesten linearen unverzerrten Prognose (englischer KurzbegriffBLUP,best linear unbiased prediction).

Inhaltsverzeichnis

Modellannahme

[Bearbeiten |Quelltext bearbeiten]

Die Messwertey0,y1,,yn{\displaystyle y_{0},y_{1},\dots ,y_{n}} eines interessierenden Merkmals an den Ortenx0,x1,,xn{\displaystyle x_{0},x_{1},\dots ,x_{n}} werden als Realisierungen von reellwertigenZufallsvariablenY(x0),Y(x1),,Y(xn){\displaystyle Y(x_{0}),Y(x_{1}),\dots ,Y(x_{n})} aufgefasst, die einZufallsfeld(Y(x))xX{\displaystyle (Y(x))_{x\in {\mathcal {X}}}} mit der IndexmengeX={x0,x1,,xn}{\displaystyle {\mathcal {X}}=\{x_{0},x_{1},\dots ,x_{n}\}} bilden.[3] Eigenschaften dergemeinsamen Wahrscheinlichkeitsverteilung des Zufallsfeldes sind dieErwartungswertfunktion

μ(x)=E[Y(x)],xX{\displaystyle \mu (x)=\mathbb {E} [Y(x)],\quad x\in {\mathcal {X}}}

und dieKovarianzfunktion

k(x,z)=Cov[(Y(x),Y(z)],x,zX.{\displaystyle k(x,z)=\mathrm {Cov} [(Y(x),Y(z)],\quad x,z\in {\mathcal {X}}\;.}

Im Spezialfall einesgaußschen Zufallsfeldes liegt durch die Erwartungswertfunktion und die Kovarianzfunktion diemultivariate Wahrscheinlichkeitsverteilung der ZufallsvariablenY(x0),Y(x1),,Y(xn){\displaystyle Y(x_{0}),Y(x_{1}),\dots ,Y(x_{n})} alsmultivariate Normalverteilung fest.

Statistische Fragestellung und Kriging-Lösung

[Bearbeiten |Quelltext bearbeiten]

Das Kriging beantwortet die Aufgabenstellung, einen Prognosewerty^(x0){\displaystyle {\hat {y}}(x_{0})} an einemnicht beobachteten Ortx0{\displaystyle x_{0}} auf der Basis beobachteter Messwertey(x1),,y(xn){\displaystyle y(x_{1}),\dots ,y(x_{n})} an den Ortenx1,,xn{\displaystyle x_{1},\dots ,x_{n}} anzugeben. Im einfachsten Fall, wenn die Erwartungswertfunktion bekannt ist, handelt es sich um ein Prognoseverfahren. In Fällen, in denen Parameter der Ewartungswertfunktion geschätzt werden müssen, handelt es sich um eine kombiniertes Schätz- und Prognoseverfahren.

Bekannte Parameter

[Bearbeiten |Quelltext bearbeiten]

Der einfachste Fall liegt vor, wenn die Erwartungswertfunktion und die Kovarianzfunktion bekannt sind. In diesem Fall ist diebeste lineare Prognose (BLP) durch

y^(x0)=μ0+(yμ)TK1k{\displaystyle {\hat {y}}(x_{0})=\mu _{0}+(\mathbf {y} -{\boldsymbol {\mu }})^{T}\mathbf {K} ^{-1}\mathbf {k} }

gegeben. Dabei gelten die folgenden Bezeichnungen:

Der hochgestellte IndexT{\displaystyle T} bezeichnet dieTransponierung undK1{\displaystyle \mathbf {K} ^{-1}} bezeichnet die invertierte Matrix.

Geschätzte Parameter

[Bearbeiten |Quelltext bearbeiten]

Wenn die Erwartungswertfunktion unbekannt ist und durch eine bekannte Funktionm:XRp{\displaystyle m:{\mathcal {X}}\to \mathbb {R} ^{p}} und einen unbekannten ParametervektorβRp{\displaystyle {\boldsymbol {\beta }}\in \mathbb {R} ^{p}} in der Form

μ(x)=m(x)Tβ,xX{\displaystyle \mu (x)=m(x)^{T}{\boldsymbol {\beta }},\quad x\in {\mathcal {X}}}

dargestellt werden kann, ergibt sich ein kombiniertes Schätz- und Prognoseproblem, das durch die Angabe derbesten linearen unverzerrten Prognose (BLUP) gelöst werden kann. Diese führt dann zum Prognosewert

y^(x0)=m(x0)Tβ^+(yMβ^)TK1k{\displaystyle {\hat {y}}(x_{0})=m(x_{0})^{T}{\hat {\boldsymbol {\beta }}}+(\mathbf {y} -\mathbf {M} {\boldsymbol {\hat {\beta }}})^{T}\mathbf {K} ^{-1}\mathbf {k} }

mit dem Schätzwert

β^=(MTK1M)1MTK1y{\displaystyle {\hat {\boldsymbol {\beta }}}=(\mathbf {M} ^{T}\mathbf {K} ^{-1}\mathbf {M} )^{-1}\mathbf {M} ^{T}\mathbf {K} ^{-1}\mathbf {y} }

für den unbekannten Parametervektorβ{\displaystyle {\boldsymbol {\beta }}}. Dabei istM:=[m(x1)m(xn)]T{\displaystyle \mathbf {M} :=[m(x_{1})\cdots m(x_{n})]^{T}} eine (n×p{\displaystyle n\times p})-Matrix, bei der in deri{\displaystyle i}-ten Zeile der Vektorm(xi)T{\displaystyle m(x_{i})^{T}} steht.

Beste lineare Prognose (BLP)

[Bearbeiten |Quelltext bearbeiten]

Minimierung des mittleren quadratischen Prognosefehlers

[Bearbeiten |Quelltext bearbeiten]

Die beste lineare Prognose beruht auf der Minimierung desmittleren quadratischen Prognosefehlers

E[(Y^(x0)Y(x0))2]{\displaystyle \mathbb {E} \left[\left({\hat {Y}}(x_{0})-Y(x_{0})\right)^{2}\right]}

zwischen der PrognoseY^(x0){\displaystyle {\hat {Y}}(x_{0})} und der nicht beobachteten ZufallsvariableY(x0){\displaystyle Y(x_{0})}.[3] Dabei wird bei der Minimierung die Menge der zulässigen Funktionen auf lineare Funktionen der Form

Y^(x0)=a0+i=1naiY(xi),a0,a1,,anR{\displaystyle {\hat {Y}}(x_{0})=a_{0}+\sum _{i=1}^{n}a_{i}Y(x_{i}),\quad a_{0},a_{1},\dots ,a_{n}\in \mathbb {R} }

beschränkt.[3] DieY(xi){\displaystyle Y(x_{i})} sind die zufälligen Messungen an den Stellenx1,,xn{\displaystyle x_{1},\dotsc ,x_{n}},a0{\displaystyle a_{0}} ist eine Konstante ist und die Koeffizientena1,,an{\displaystyle a_{1},\dots ,a_{n}} sind Gewichte der einzelnen Messungen. Die Bildung des Erwartungswertes bezieht sich sowohl auf die ZufallsvariableY(x0){\displaystyle Y(x_{0})} als auch auf die ZufallsvariablenY(x1),,Y(xn){\displaystyle Y(x_{1}),\dots ,Y(x_{n})}, die inY^(x0){\displaystyle {\hat {Y}}(x_{0})} eingehen.

Die Parameterλ0,λ1,,λn{\displaystyle \lambda _{0},\lambda _{1},\dots ,\lambda _{n}} der besten linearen Prognose im Sinn der Minimierung des mittleren quadratischen Prognosefehlers sind die Komponenten der Minimalstelle(λ0,λ1,,λn){\displaystyle (\lambda _{0},\lambda _{1},\dots ,\lambda _{n})} mit der Eigenschaft

E[(λ0+i=1nλiY(xi)Y(x0))2]=min(a0,a1,,an)TRn+1E[(a0+i=1naiY(xi)Y(x0))2].{\displaystyle \mathbb {E} \left[\left(\lambda _{0}+\sum _{i=1}^{n}\lambda _{i}Y(x_{i})-Y(x_{0})\right)^{2}\right]=\min _{(a_{0},a_{1},\dots ,a_{n})^{T}\in \mathbb {R} ^{n+1}}\mathbb {E} \left[\left(a_{0}+\sum _{i=1}^{n}a_{i}Y(x_{i})-Y(x_{0})\right)^{2}\right]\;.}

Sie hängen nur von der Erwartungswertfunktion und der Kovarianzfunktion des Zufallsfeldes(Y(x))xX{\displaystyle (Y(x))_{x\in {\mathcal {X}}}} ab.[3] Für den Parametervektorλ=(λ1,,λn)T{\displaystyle {\boldsymbol {\lambda }}=(\lambda _{1},\dots ,\lambda _{n})^{T}} gilt[4]

λ=K1k{\displaystyle {\boldsymbol {\lambda }}=\mathbf {K} ^{-1}\mathbf {k} }

und für den Parameterλ0{\displaystyle \lambda _{0}} gilt[4]

λ0=μ0μTλ{\displaystyle \lambda _{0}=\mu _{0}-{\boldsymbol {\mu }}^{T}{\boldsymbol {\lambda }}}.

Aus den bekannten Parameternμ0{\displaystyle \mu _{0}},μ{\displaystyle {\boldsymbol {\mu }}},k{\displaystyle \mathbf {k} } undK{\displaystyle \mathbf {K} } können die Parameterλ0{\displaystyle \lambda _{0}} undλ{\displaystyle {\boldsymbol {\lambda }}} bestimmt werden.

Der Minimalwert des mittleren quadratischen Prognosefehlers istk0kTK1k{\displaystyle k_{0}-\mathbf {k} ^{T}\mathbf {K} ^{-1}\mathbf {k} } mitk0=Var[Y(x0)]=k(Y(x0),Y(x0)){\displaystyle k_{0}=\mathrm {Var} [Y(x_{0})]=k(Y(x_{0}),Y(x_{0}))}.[4]

Bester linearer Prognoswert

[Bearbeiten |Quelltext bearbeiten]

Für gegebene Messwertey=(y(x1),,y(xn))T{\displaystyle \mathbf {y} =(y(x_{1}),\dots ,y(x_{n}))^{T}} als Realisierungen der ZufallsvariablenY(x1),,Y(xn){\displaystyle Y(x_{1}),\dots ,Y(x_{n})} ist dann der Wert

y^(x0)=λ0+i=1nλiy(xi)=μ0μTλ+yTλ=μ0+(yμ)TK1k{\displaystyle {\hat {y}}(x_{0})=\lambda _{0}+\sum _{i=1}^{n}\lambda _{i}y(x_{i})=\mu _{0}-{\boldsymbol {\mu }}^{T}{\boldsymbol {\lambda }}+\mathbf {y} ^{T}{\boldsymbol {\lambda }}=\mu _{0}+(\mathbf {y} -{\boldsymbol {\mu }})^{T}\mathbf {K} ^{-1}\mathbf {k} }

der beste lineare Prognosewert für die Messung am Ortx0{\displaystyle x_{0}}.Der beste lineare Prognosewert ist eine Realisierung der Zufallsvariablen

Y^(x0)=λ0+i=1nλiY(xi),{\displaystyle {\hat {Y}}(x_{0})=\lambda _{0}+\sum _{i=1}^{n}\lambda _{i}Y(x_{i})\;,}

die als beste lineare Prognose bezeichnet wird.Derzufällige Prognosefehler (die zufällige Prognoseabweichung)Y^(x0)Y(x0){\displaystyle {\hat {Y}}(x_{0})-Y(x_{0})} hat den Erwartungswert 0 und die Varianzk0kTK1k{\displaystyle k_{0}-\mathbf {k} ^{T}\mathbf {K} ^{-1}\mathbf {k} }.

Anmerkungen

[Bearbeiten |Quelltext bearbeiten]
min(a0,a1,,an)TRn+1E[(a0+i=1naiY(xi)Y(x0))2]{\displaystyle \min _{(a_{0},a_{1},\dots ,a_{n})^{T}\in \mathbb {R} ^{n+1}}\mathbb {E} \left[\left(a_{0}+\sum _{i=1}^{n}a_{i}Y(x_{i})-Y(x_{0})\right)^{2}\right]}
zwar das Minimum, nicht aber die Minimalstelle eindeutig. Für zwei verschiedene minimierende Parametervektoren(λ0(1),λ1(1),,λn(1)){\displaystyle (\lambda _{0}^{(1)},\lambda _{1}^{(1)},\dots ,\lambda _{n}^{(1)})} und(λ0(2),λ1(2),,λn(2)){\displaystyle (\lambda _{0}^{(2)},\lambda _{1}^{(2)},\dots ,\lambda _{n}^{(2)})} gilt in diesem Fall
E[(λ0(1)+i=1nλi(1)Y(xi)(λ0(2)+i=1nλi(2)Y(xi))))2]=0,{\displaystyle \mathbb {E} \left[\left(\lambda _{0}^{(1)}+\sum _{i=1}^{n}\lambda _{i}^{(1)}Y(x_{i})-\left(\lambda _{0}^{(2)}+\sum _{i=1}^{n}\lambda _{i}^{(2)}Y(x_{i}))\right)\right)^{2}\right]=0,}
sodass zwar die Parameter nicht eindeutig sind, aber der prognostizierte Wert
y^(x0)=λ0(1)+i=1nλi(1)y(xi)=λ0(2)+i=1nλi(2)y(xi){\displaystyle {\hat {y}}(x_{0})=\lambda _{0}^{(1)}+\sum _{i=1}^{n}\lambda _{i}^{(1)}y(x_{i})=\lambda _{0}^{(2)}+\sum _{i=1}^{n}\lambda _{i}^{(2)}y(x_{i})}
eindeutig ist.[4]
μ0|1,,n=λ0+i=1nλiy(xi){\displaystyle \mu _{0|1,\dots ,n}=\lambda _{0}+\sum _{i=1}^{n}\lambda _{i}y(x_{i})}
und
σ0|1,,n2=k0kTK1k.{\displaystyle \sigma _{0|1,\dots ,n}^{2}=k_{0}-\mathbf {k} ^{T}\mathbf {K} ^{-1}\mathbf {k} \;.}

Beste lineare unverzerrte Prognose (BLUP)

[Bearbeiten |Quelltext bearbeiten]

Wenn für das Zufallsfeld(Y(x))xX{\displaystyle (Y(x))_{x\in {\mathcal {X}}}} die Erwartungswertfunktionund die Kovarianzfunktion bekannt sind, kann der beste lineare Prognosewert (BLP) für den Ortx0{\displaystyle x_{0}} basierend auf Messwerteny1,,yn{\displaystyle y_{1},\dots ,y_{n}} an den Ortenx1,,xn{\displaystyle x_{1},\dots ,x_{n}} einfach, wie im vorausgegangenen Abschnitt angegeben, berechnet werden.

Wenn aber, was eher typisch ist, die Erwartungswert- und Kovarianzfunktion teilweise unbekannt sind, sind verschiedene einschränkte Modellannahmen erforderlich, um die Zahl der unbekannten Parameter so zu senken, dass diese mit den vorhandenen Beobachtungen schätzbar sind. Es entsteht dann ein kombiniertes Schätz- und Prognoseproblem.Ein bestimmtes Verfahren, bei dem die unbekannten Parameter im Rahmen eines linearen Modellansatzes unverzerrt (erwartungstreu) geschätzt werden, heißt dannbeste lineare unverzerrte Prognose (BLUP).

Beispiel

[Bearbeiten |Quelltext bearbeiten]

Ein einfaches Beispielmodell beruht auf den beiden folgenden stark vereinfachenden Annahmen:

  • Die Erwartungswertfunktion ist konstant, d. h.
μ(x)=μfür alle xX,{\displaystyle \mu (x)=\mu \quad {\text{für alle }}x\in {\mathcal {X}}\;,}
wobei der Parameterμ{\displaystyle \mu } unbekannt ist.
  • Die Kovarianzfunktion ist
k(x,z)=σ2ed(x,z)für alle x,zX,{\displaystyle k(x,z)=\sigma ^{2}e^{-d(x,z)}\quad {\text{für alle }}x,z\in {\mathcal {X}}\;,}
wobei der Parameterσ2>0{\displaystyle \sigma ^{2}>0} bekannt ist. Dabei bezeichnetd(x,y)=xz{\displaystyle d(x,y)=\|x-z\|} dieeuklidische Distanz zwischen den Ortenx{\displaystyle x} undz{\displaystyle z}. Die Distanz kann zweidimensional in der Fläche, im dreidimensionalen Raum oder allgemeiner in einemd{\displaystyle d}-dimensionalen Raum gemessen werden, in dem die euklidische Distanz definiert ist.

DieKorrelationsfunktion ist in diesem Fall durch

ϱ(x,y)=ed(x,z)>0für alle x,zX{\displaystyle \varrho (x,y)=e^{-d(x,z)}>0\quad {\text{für alle }}x,z\in {\mathcal {X}}}

gegeben. Mit zunehmender Distanz nimmt die Korrelation ab. Mit abnehmender Distanz nähert sich die Korrelation dem Wert Eins.Da die Koordinaten der Orte als bekannt vorausgesetzt sind, können die Distanzen und damit die Werte der Kovarianzfunktion bestimmt werden.

Parameterschätzung

[Bearbeiten |Quelltext bearbeiten]

Im Beispielmodell gibt es den unbekannten Parameterμ{\displaystyle \mu }. Da die beiden Parameterμ{\displaystyle \mu } undσ2{\displaystyle \sigma ^{2}} zugleich der Erwartungswert und die Varianz dern{\displaystyle n} beobachtbaren ZufallsvariablenY(x1),,Y(xn){\displaystyle Y(x_{1}),\dots ,Y(x_{n})} sind, also

E[Y(xi)]=μ,Var[Y(xi)]=σ2für i=1,,n{\displaystyle \mathbb {E} [Y(x_{i})]=\mu ,\quad \mathrm {Var} [Y(x_{i})]=\sigma ^{2}\quad {\text{für }}i=1,\dots ,n}

gilt, scheint bei oberflächlicher Betrachtung ein Standardproblem der statistischen Schätztheorie vorzuliegen. Dies ist aber nicht der Fall, da bei Standardproblemen der statistischen Schätztheorie von stochastisch unabhängigen Beobachtungen ausgegangen wird. In diesem Beispiel sind aber alle Beobachtungspaare positiv korreliert, wobei die Korrelation für ein Paar(Y(xi),Y(xj)){\displaystyle (Y(x_{i}),Y(x_{j}))} durched(xi,xj){\displaystyle e^{-d(x_{i},x_{j})}} gegeben ist.

Die Schätzung des Parametersμ{\displaystyle \mu } aus gegebenen beobachteten Werteny(x1),,y(xn){\displaystyle y(x_{1}),\dots ,y(x_{n})} kann in diesem Modellzusammenhang mit Hilfe derverallgemeinerten Methode der kleinsten Quadrate erfolgen, die es ermöglicht, bei der Schätzung eine gegebene Korrelationsstruktur zwischen den beobachtbaren Variablen zu berücksichtigen.[6] Im Fall unkorrelierter Variablen führt diegewöhnliche Methode der kleinsten Quadrate zu dem üblichen Schätzwert

y¯=1nTy1nT1n=1ni=1nyi{\displaystyle {\bar {y}}={\frac {\mathbf {1} _{n}^{T}\mathbf {y} }{\mathbf {1} _{n}^{T}\mathbf {1} _{n}}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}}

für den Parameterμ{\displaystyle \mu }. Dabei bezeichnet1n=(1,,1)TRn{\displaystyle \mathbf {1} _{n}=(1,\dots ,1)^{T}\in \mathbb {R} ^{n}} den Einsvektor der Dimensionn{\displaystyle n}. Dagegen ergibt sich im hier vorliegenden Fall korrelierter Beobachtungen mit der verallgemeinerte Methode der kleinsten Quadrate der Schätzwert

μ^=1nTK1y1nTK11n=(1nTK11n)11nTK1y{\displaystyle {\hat {\mu }}={\frac {\mathbf {1} _{n}^{T}\mathbf {K} ^{-1}\mathbf {y} }{\mathbf {1} _{n}^{T}\mathbf {K} ^{-1}\mathbf {1} _{n}}}=(\mathbf {1} _{n}^{T}\mathbf {K} ^{-1}\mathbf {1} _{n})^{-1}\mathbf {1} _{n}^{T}\mathbf {K} ^{-1}\mathbf {y} }

für den Parameterμ{\displaystyle \mu }, der im Allgemeinen nicht mit dem arithmetischen Mittelwerty¯{\displaystyle {\bar {y}}} übereinstimmt. Das sich die Komponenten des Gewichtsvektors(1nTK11n)11nTK1{\displaystyle (\mathbf {1} _{n}^{T}\mathbf {K} ^{-1}\mathbf {1} _{n})^{-1}\mathbf {1} _{n}^{T}\mathbf {K} ^{-1}} zu Eins addieren, wie man durch Rechtsmultiplikation mit dem Vektor1n{\displaystyle \mathbf {1} _{n}} unmittelbar verifiziert, handelt es sich um einengewogenen arithmetischen Mittelwert der beobachteten Wertey(x1),,y(xn){\displaystyle y(x_{1}),\dots ,y(x_{n})}.

Im Spezialfall eines gaußschen Zufallsfeldes ist diemultivariate Wahrscheinlichkeitsverteilung der ZufallsvariablenY(x1),,Y(xn){\displaystyle Y(x_{1}),\dots ,Y(x_{n})} durch die Erwartungswertfunktion und die Kovarianzfunktion alsmultivariate Normalverteilung vollständig festgelegt, so dass es möglich ist, den Parameterμ{\displaystyle \mu } bei gegebenen Werteny(x1),,y(xn){\displaystyle y(x_{1}),\dots ,y(x_{n})} durch dieMaximum-Likelihood-Methode zu bestimmen.[7]

Prognose

[Bearbeiten |Quelltext bearbeiten]

Wäre der Parameterμ{\displaystyle \mu } bekannt, so ergäbe sich der beste lineare Prognosewert für den Messwerty(x0){\displaystyle y(x_{0})}, wie oben angegeben, als

μ+(yμ1n)TK1k,{\displaystyle \mu +(\mathbf {y} -\mu \mathbf {1} _{n})^{T}\mathbf {K} ^{-1}\mathbf {k} ,}

wobei der mittlere quadratische Prognosefehler durchk0kTK1k{\displaystyle k_{0}-\mathbf {k} ^{T}\mathbf {K} ^{-1}\mathbf {k} } gegeben ist.

Wenn in einem ersten Schritt ein Schätzwertμ^{\displaystyle {\hat {\mu }}} für den Parameterμ{\displaystyle \mu } bestimmt ist, kann in einem zweiten Schritt mit der geschätzten Erwartungswertfunktion

m^(x)=μ^für alle xX,{\displaystyle {\hat {m}}(x)={\hat {\mu }}\quad {\text{für alle }}x\in {\mathcal {X}}\;,}

der beste lineare Prognosewert so bestimmt werden, als ob die Erwartungswertfunktion bekannt sei.[8] Es ergibt sich dann

y^(x0)=μ^+(yμ^1n)TK1k{\displaystyle {\hat {y}}(x_{0})={\hat {\mu }}+(\mathbf {y} -{\hat {\mu }}\mathbf {1} _{n})^{T}\mathbf {K} ^{-1}\mathbf {k} }

als bester linearer unverzerrter Prognosewert.Der mittlere quadratische Prognosefehler erhöht sich durch den zufälligen Schätzfehler, der durch die Parameterschätzung verursacht ist. Der mittlere quadratische Prognosefehler der besten linearen unverzerrten Prognose ist durch

k0kTK1k+(11nTK1k)21nTK11n{\displaystyle k_{0}-\mathbf {k} ^{T}\mathbf {K} ^{-1}\mathbf {k} +{\frac {(1-\mathbf {1} _{n}^{T}\mathbf {K} ^{-1}\mathbf {k} )^{2}}{\mathbf {1} _{n}^{T}\mathbf {K} ^{-1}\mathbf {1} _{n}}}}

gegeben, wobei der letzte Term auf die Schätzung des Parametersμ{\displaystyle \mu } zurückzuführen ist.[8][9]

Allgemeiner Fall

[Bearbeiten |Quelltext bearbeiten]

Der allgemeine Fall des Kriging, in dem eine beste lineare unverzerrte Prognose durchführbar ist, liegt vor, wenn die Erwartungswertfunktion teilweise unbekannt ist und durch eine bekannte vektorwertige Funktionm:XRp{\displaystyle \mathbf {m} :{\mathcal {X}}\to \mathbb {R} ^{p}} mitpN{\displaystyle p\in \mathbb {N} } und einen unbekannten ParametervektorβRp{\displaystyle {\boldsymbol {\beta }}\in \mathbb {R} ^{p}} in der Form

μ(x)=m(x)Tβ,xX{\displaystyle \mu (x)=\mathbf {m} (x)^{T}{\boldsymbol {\beta }},\quad x\in {\mathcal {X}}}

dargestellt werden kann. Es ergibt sich dann aus dem Ziel, eine Prognose fürY(x0){\displaystyle Y(x_{0})} abzugeben, ein kombiniertes Schätz- und Prognoseproblem, da für eine Prognose implizit der unbekannte Parametervektorβ{\displaystyle {\boldsymbol {\beta }}} geschätzt werden muss. Die beste lineare unverzerrte Prognose kann mit einem zweistufigen Vorgehen gewonnen werden, bei dem zunächst der Parametervektorβ{\displaystyle {\boldsymbol {\beta }}} in einem linearen Modell geschätzt wird und dann mit den gewonnenen Schätzwerten formal eine beste lineare Prognose so berechnet wird, als ob die Schätzwerte die unbekannten Parameter seien.[8]

Parameterschätzung

[Bearbeiten |Quelltext bearbeiten]

Der unbekannte Parametervektorβ{\displaystyle {\boldsymbol {\beta }}} wird im Rahmen des linearen Modells

Y(x)=m(x)Tβ+ε(x),xX{\displaystyle Y(x)=\mathbf {m} (x)^{T}{\boldsymbol {\beta }}+\varepsilon (x),\quad x\in {\mathcal {X}}}

gesehen, wobei das Zufallsfeld(ε(x))xX{\displaystyle (\varepsilon (x))_{x\in {\mathcal {X}}}} die konstante ErwartungswertfunktionE[ε(x)]=0{\displaystyle \mathbb {E} [\varepsilon (x)]=0} für allexX{\displaystyle x\in {\mathcal {X}}} und dieselbe Kovarianzfunktion wie das Zufallsfeld(Y(x))xX{\displaystyle (Y(x))_{x\in {\mathcal {X}}}} hat. Hierbei handelt es sich zunächst nur um eine andere, inhaltlich äquivalente Schreibweise für das Zufallsfeld(Y(x))xX{\displaystyle (Y(x))_{x\in {\mathcal {X}}}}, indem manε(x):=Y(x)μ(x){\displaystyle \varepsilon (x):=Y(x)-\mu (x)} für allexX{\displaystyle x\in {\mathcal {X}}} definiert. Diese Schreibweise macht es aber möglich, die Theorie linearer Regressionsmodelle mit korrelierten Fehlertermen anzuwenden und den Schätzwert

β^=(MTK1M)1MTK1y{\displaystyle {\hat {\boldsymbol {\beta }}}=(\mathbf {M} ^{T}\mathbf {K} ^{-1}\mathbf {M} )^{-1}\mathbf {M} ^{T}\mathbf {K} ^{-1}\mathbf {y} }

für den unbekannten Parametervektorβ{\displaystyle {\boldsymbol {\beta }}} als beste lineare unverzerrte Schätzung mit bekannter Kovarianzmatrix zu bestimmen. Dabei bezeichnetM:=[m(x1)m(xn)]T{\displaystyle \mathbf {M} :=[\mathbf {m} (x_{1})\cdots \mathbf {m} (x_{n})]^{T}} eine (n×p{\displaystyle n\times p})-Matrix, bei der in deri{\displaystyle i}-ten Zeile der Vektorm(xi)T{\displaystyle \mathbf {m} (x_{i})^{T}} steht.[8]

Prognose

[Bearbeiten |Quelltext bearbeiten]

Die besten linearen unverzerrten Prognose ergibt sich, wenn der Prognosewert analog zum Vorgehen bei der besten linearen Prognose mit bekannter Erwartungsfunktion so bestimmt wird, als ob der Schätzwert der Parameter wäre. Damit ergibt sich der Prognosewert

y^(x0)=m(x0)Tβ^+(yMβ^)TK1k.{\displaystyle {\hat {y}}(x_{0})=\mathbf {m} (x_{0})^{T}{\hat {\boldsymbol {\beta }}}+(\mathbf {y} -\mathbf {M} {\hat {\boldsymbol {\beta }}})^{T}\mathbf {K} ^{-1}\mathbf {k} \;.}

Der mittlere quadratische Prognosefehler der besten linearen unverzerrten Prognose ist durch

k0kTK1k+γT(MTK1M)1γ{\displaystyle k_{0}-\mathbf {k} ^{T}\mathbf {K} ^{-1}\mathbf {k} +{\boldsymbol {\gamma }}^{T}(\mathbf {M} ^{T}\mathbf {K} ^{-1}\mathbf {M} )^{-1}{\boldsymbol {\gamma }}}

mit

γ=m(x0)MTK1k{\displaystyle {\boldsymbol {\gamma }}=\mathbf {m} (x_{0})-\mathbf {M} ^{T}\mathbf {K} ^{-1}\mathbf {k} }

gegeben, wobei der letzte Term auf die Schätzung des Parametervektorsβ{\displaystyle {\boldsymbol {\beta }}} zurückzuführen ist.[8]

Spezialfälle des Kriging

[Bearbeiten |Quelltext bearbeiten]
  • Beimeinfachen Kriging (simple Kriging) ist die Erwartungswertfunktion konstant,
μ(x)=μ{\displaystyle \mu (x)=\mu } für allexX,{\displaystyle x\in {\mathcal {X}}\;,}
und der Parameterμ{\displaystyle \mu } ist bekannt. In diesem Fall kommt die beste lineare Prognose zur Anwendung.
  • Beimgewöhnlichen Kriging (ordinary Kriging) ist die Erwartungswertfunktion konstant, aber der gemeinsame Erwartungswert ist unbekannt und muss aus den beobachteten Werten geschätzt werden. In diesem Fall kommt die beste lineare unverzerrte Prognose zur Anwendung. Das oben ausgeführte Beispiel ist ein Fall des gewöhnlichen Kriging.
  • Beimuniversalen Kriging (universal Kriging) ist die Erwartungswertfunktion nicht konstant und wird durch einenlinearen Regressionsansatz modelliert. In diesem Fall kommt die beste lineare unverzerrte Prognose zur Anwendung, wobeiRegressionsparameter mitgeschätzt werden.
  • Unterbayesianischem Kriging (bayesian Kriging) versteht man ein Verfahren bei dem der Schritt der Parameterschätzung mit Hilfe bayesianischer Schätzverfahren durchgeführt wird.
  • DasIndikator-Kriging ist ein Spezialfall bei dem die beobachteten Werte nur die Werte 0 und 1 annehmen, beispielsweise den Wert 0, wenn ein Grenzwert nicht überschritten ist, und den Wert 1, wenn ein Grenzwert überschritten ist.
  • Bei derinversen Distanzgewichtung (oder Distanzwichtung) ist der Prognosewert dergewogene arithmetische Mittelwert
y^(x0)=i=1ngiy(xi)i=1ngi{\displaystyle {\hat {y}}(x_{0})={\frac {\sum _{i=1}^{n}g_{i}y(x_{i})}{\sum _{i=1}^{n}g_{i}}}}
der beobachteten Werte mit den positiven Gewichten
gi=1d(x0,xi)für i=1,,n.{\displaystyle g_{i}={\frac {1}{d(x_{0},x_{i})}}\quad {\text{für }}i=1,\dots ,n\;.}
Wie das obige Beispiel zeigt, ergibt sich dieser Fall als beste lineare unverzerrte Prognose, und damit als Spezialfall des gewöhnlichen Kriging, wenn die Erwartungswertfunktion konstant ist und die Kovarianzfunktion die spezielle Form
k(x,z)={k0für x=z=x0αd(x0,z)für x=zx00für xz,x,zX{\displaystyle k(x,z)={\begin{cases}k_{0}&{\text{für }}x=z=x_{0}\\\alpha \cdot d(x_{0},z)&{\text{für }}x=z\neq x_{0}\\0&{\text{für }}x\neq z\end{cases}},\quad x,z\in {\mathcal {X}}}
mitk0>0{\displaystyle k_{0}>0} undα>0{\displaystyle \alpha >0} hat. In diesem Fall istk{\displaystyle \mathbf {k} } derNullvektor,K1{\displaystyle \mathbf {K} ^{-1}} ist eine Diagonalmatrik mit den Diagonalelementen1/(αd(x0,xi){\displaystyle 1/(\alpha d(x_{0},x_{i})} füri=1,,n{\displaystyle i=1,\dots ,n} und der Schätzwert(1nTK11n)11nTK1y{\displaystyle (\mathbf {1} _{n}^{T}\mathbf {K} ^{-1}\mathbf {1} _{n})^{-1}\mathbf {1} _{n}^{T}\mathbf {K} ^{-1}\mathbf {y} } vereinfacht sich zum gewogenen arithmetische Mittelwerti=1ngiy(xi)/i=1ngi{\displaystyle \sum _{i=1}^{n}g_{i}y(x_{i})/\sum _{i=1}^{n}g_{i}}, da sich der Faktorα{\displaystyle \alpha } herauskürzt.

Abweichende Interpretationen und Verallgemeinerungen

[Bearbeiten |Quelltext bearbeiten]

Teilweise wird in anwendungsnahen Darstellungen zugunsten einer vereinfachten Terminologie das Interpolations- und Prognoseproblem mit Begriffen aus der statistischen Schätztheorie beschrieben.[10] Dadurch verschwimmt der Unterschied zwischen dem Schätzen eines unbekannten Parameters durch eineSchätzfunktion und der Prognose des Wertes einer Zufallsvariablen.

Im engeren Sinn bezeichnet Kriging die oben beschriebene Modellierungsmethode der zu schätzenden Parameter durch ein lineares Modell und die dann explizit angebbaren Lösungen im Sinn der besten linearen unverzerrten Prognose. Teilweise wird Kriging aber auch allgemeiner, orientiert an der Fragestellung des Kringing, für andere methodische Vorgehensweisen verwendet. So werden im Bereich des maschinellen Lernens Methoden der Gaußprozess-Regression basierend auf gaußschen Zufallsfeldern als Kriging bezeichnet.[1][11][12] Die klassische Kriging-Methode benötigt keine Normalverteilungsannahme und verarbeitet nur die Informationen der Erwartungswert- und Kovarianzfunktion im Rahmen einer linearen Modellstruktur mit klassischen statistischen Methoden. Dagegen wird bei der Gaußprozess-Regression durch eine weitgehende Annahme einer multivariaten Normalverteilung für alle Zufallsvariablen die Möglichkeit eröffnet, für die multivariate Normalverteilung zur Verfügung stehende Methoden zur Bestimmung von Prognoseverteilungen als bedingten Wahrscheinlichkeitsverteilungen zu verwenden.[13]

Literatur

[Bearbeiten |Quelltext bearbeiten]
  • Danie G. Krige:A statistical approach to some basic mine valuation problems on the Witwatersrand. In:J. of the Chem., Metal. and Mining Soc. of South Africa. 52 (6), 1951, S. 119–139.
  • Rudolf Dutter:Mathematische Methoden in der Technik. Band 2:Geostatistik. B.G. Teubner Verlag, Stuttgart 1985,ISBN 3-519-02614-7.
  • J. P. Chiles, P. Delfiner:Geostatistics: Modeling Spatial Uncertainty. Wiley, New York 1999,ISBN 0-471-08315-1.
  • Michael Leonhard Stein:Interpolation of Spatial Data – Some Theory for Kriging (= Springer Series in Statistics). Springer, New York 1999,ISBN 978-1-4612-7166-6,doi:10.1007/978-1-4612-1494-6. 

Weblinks

[Bearbeiten |Quelltext bearbeiten]
Commons: Kriging – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

[Bearbeiten |Quelltext bearbeiten]
  1. abMohamed A. Bouhlel, Joaquim R. R. A. Martins:Gradient-enhanced kriging for high-dimensional problems. In:Engineering with Computers.Band 35,Nr. 1, 1. Januar 2019,ISSN 1435-5663,doi:10.1007/s00366-018-0590-x.  Siehe Abschnitt2.1 Conventional kriging
  2. Centre de Géosciences/Géostatistique, Publications & documentation. Abgerufen am 18. April 2024. 
  3. abcdMichael L. Stein:Interpolation of Spatial Data – Some Theory for Kriging.Abschnitt 1.2Best linear Prediction, S. 2. 
  4. abcdefMichael L. Stein:Interpolation of Spatial Data – Some Theory for Kriging.Abschnitt 1.2Best linear Prediction, S. 3. 
  5. Michael L. Stein:Interpolation of Spatial Data – Some Theory for Kriging.Abschnitt 1.4An example of a poor BLP, S. 6–9. 
  6. Michael L. Stein:Interpolation of Spatial Data – Some Theory for Kriging.Abschnitt 1.5Best linear unbiased prediction, S. 7–9. 
  7. Michael L. Stein:Interpolation of Spatial Data – Some Theory for Kriging.Abschnitt 6.4Likelihood Methods, S. 169–175. 
  8. abcdeMichael L. Stein:Interpolation of Spatial Data – Some Theory for Kriging.Abschnitt 1.5Best linear unbiased prediction, S. 8. 
  9. Die im Beispiel angegebenen Formeln ergeben sich aus der allgemeineren Darstellung in M. L. Stein,Interpolation of Spatial Data – Some Theory for Kriging, S. 7–8 mit den folgenden Spezialisierungen der dort verwendeten Notation:p=1{\displaystyle p=1},β=μ{\displaystyle {\boldsymbol {\beta }}=\mu },m(x)=1{\displaystyle \mathbf {m} (\mathbf {x} )=1},M=1n{\displaystyle \mathbf {M} =\mathbf {1} _{n}}.
  10. Jörg Benndorf:Angewandte Geodatenanalyse und -Modellierung – Eine Einführung in die Geostatistik für Geowissenschaftler und Geoingenieure. Springer Vieweg, Wiesbaden 2023,ISBN 978-3-658-39980-1,Kap. 7Geostatistische Verfahren zur räumlichen Interpolation - Kriging, S. 157–201,doi:10.1007/978-3-658-39981-8. 
  11. Carl Edward Rasmussen, Christopher K. I. Williams:Gaussian Processes for Machine Learning. MIT Press, Cambridge / London 2006,ISBN 0-262-18253-X,S. 30 (gaussianprocess.org [PDF]). 
  12. Robert B. Gramacy:Surrogates – Gaussian Process Modeling, Design, and Optimization for the Applied Siences (= Texts in Statistical Science). CRC Press, Boca Raton / London / New York 2020,ISBN 978-1-03-224255-2,S. 143 (gramacy.com [PDF]). 
  13. Carl Edward Rasmussen, Christopher K. I. Williams:Gaussian Processes for Machine Learning. MIT Press, Cambridge / London 2006,ISBN 0-262-18253-X,S. 16 (gaussianprocess.org [PDF]). 
Normdaten (Sachbegriff):GND:4339232-5(lobid,OGND,AKS)
Abgerufen von „https://de.wikipedia.org/w/index.php?title=Kriging&oldid=254096093
Kategorien: