Variogramm

Machen wir uns zunächst anhand eines gedachten Beispiels mit der Problematik vertraut: Stellen Sie sich ein digitales Geländemodell vor und entnehmen Sie diesem Stichproben. Der Wert einer Stichprobe entspricht also ihrer Meereshöhe. Benachbarte Stichproben könnten z. B. zufällig entlang eines Talbodens gleicher Meereshöhe entnommen worden sein. Ein anderes Stichprobenpaar etwa derselben Distanz zueinander stammt z. B. aus einem Höhenrücken. Wenn Sie nun die Werte beider Paare vergleichen, stellen Sie eine Übereinstimmung oder zumindest eine Ähnlichkeit der Werte fest. Sodann vergleichen wir Stichproben in grösserer Entfernung zueinander. Kann sein, dass sie ähnliche Werte aufweisen, wahrscheinlicher ist jedoch, dass sich die Werte (also die Meereshöhen) unähnlicher werden.

Die Methode der Variographie führt genau diesen paarweisen Vergleich für sämtliche unserer Stichproben durch: Jeder Punkt wird mit jedem verglichen. Dies können also in Abhängigkeit von der Anzahl unserer Stichproben eine ganze Menge von Punktepaaren werden. Genau beträgt diese Anzahl = n*(n-1)/2 (n ... Anzahl der Stichproben). Sie fragen sich nun vielleicht zu Recht: „Wo bleibt denn da die Distanz zwischen den Punkten?“ Gleichzeitig mit dem Vergleich „jeder-mit-jedem“ wird auch die Distanz (und die Richtung) der Paare zueinander miterfasst!

Niederschlagswerte

3 Lags (Lag0, Lag1 und Lag2) um einen Datenpunkt (Wert 58) sind hier dargestellt. Die Zahlen sind hier die Werte schweizerischer Niederschlags-Messstationen.

Die Wertepaare:
für Lag0
58,65
58,91
58,54
58,72

für Lag1
58,45
58,64
58,82
usw.

Aus diesen zahlreichen Wertepaaren wird nun als Mass für die Ähnlichkeit (und wir interpretieren in ihr auch eine „Abhängigkeit“) die sogenannte „Semivarianz“ berechnet. Die Formel dafür lautet wie folgt:

Formel für die Semivarianz

γ (h)

... Semivarianz für die Distanz h

N (h)

...Anzahl der Wertepaare innerhalb der Distanz h

v_{i}, v_{j}

... Werte an den Positionen i bzw. j

In einfachen Worten ausgedrückt ist die Semivarianz das halbierte Quadrat der Differenzen zwischen den Wertepaaren. Dieser Parameter wird jeweils für ein Distanzintervall h berechnet – nur die Wertepaare innerhalb dieser Distanz gehen in die Berechnung ein. Diese Distanz h nennt man „Lag“. Tragen Sie alle Wertepaare eines Lags auf einem Scatterplot auf, dann erhalten Sie den sogenannten h-Scatterplot.
Aus den Semivarianzen pro Lag wird das empirische (oder auch experimentelle) Semivariogramm als Kurvengraphik erstellt (bewegen Sie den Mauszeiger über die Lag-Punkte, um den zugehörigen h-Scatterplot für die ersten 8 Lags einzublenden):

Das Semivariogramm (Mauszeiger über den Lag-Punkten zeigt zugehörigen h-Scatterplot bis Lag 7)

Können Sie sich vorstellen, warum in den h-Scatterplots der niedrigen Distanzen deutlich weniger Punkte vorhanden sind als in jenen der höheren Lags? (Klicken Sie hier für mehr Informationen)

Auf der x-Achse sehen Sie die zunehmende Distanz zwischen den Punktepaaren, auf der y-Achse die Semivarianz pro Lag. Die Kreissymbole auf der Kurve markieren die einzelnen Lags. Als Lag-Intervall finden Sie in diesem Beispiel 15000. Wie interpretieren wir so eine Kurve? Je ähnlicher die Wertepaare pro Lag sind, desto niedriger ist die Semivarianz für diesen Lag; je unähnlicher, desto höher steigt die Semivarianz und damit die Kurve an. Diese Kurve bestätigt uns daher: Auf niedrige Distanzen sind die Werte unserer Daten einander ähnlicher. Es besteht ein unmittelbarer Zusammenhang zwischen der Entfernung der Datenpunkte und deren Werteähnlichkeit! Zwei Kennzahlen sollten Sie sich merken, die Ihnen helfen, diese Kurve zu beschreiben:

Range – jene Distanz h, ab welcher die Kurve abflacht.
Sill – der Semivarianz-Wert für die Position, an welcher die Kurve ihren Range erreicht.

Wenn das Lag-Intervall im Beispiel oben 15000 beträgt, warum befindet sich das erste Lag (= Lag 0 bzw. h0) dann nicht im Koordinaten-Ursprung? Einfach darum, weil die Punktepaare im Lag 0 eine gewisse Distanz zueinander aufweisen. Deren mittlerer Abstand ist nun die Position für Lag 0 auf der x-Achse. Warum aber startet die Kurve nicht bei der Semivarianz 0, also auf der x-Achse? Weil die Daten im Lag 0 nicht alle identisch sind (dies ist meistens der Fall). Darum kommt der Ursprung der Semivariogramm-Kurve in der Regel etwas oberhalb der x-Achse zu liegen. Diesen Effekt nennt man Nugget-Effekt. Nugget-Effekt darum, weil diese Methodik aus dem Bereich der geologischen Exploration stammt. In Proben auf Gold können Nuggets punktuell auftreten, d. h. die Werte von unmittelbar benachbarten Proben können sich deutlich unterschieden.

a) Lag 0 umfasst alle Punktepaare innerhalb des ersten Lags. Die Durchschnittsdistanz zwischen den Punkten markiert den Lag auf der x-Achse; b) Die Punktepaare in Lag 0 weisen unterschiedliche Werte auf, daher ist auch die Semivarianz nicht gleich 0, sondern beginnt etwas oberhalb der x-Achse (= Nugget-Effekt)

In der einfachsten Form werden die Wertepaare von jedem Punkt nach allen Richtungen gebildet, und Sie erstellen ein isotropes Semivariogramm. Als Erweiterung und Verfeinerung der Methodik können Variogramm-Programme Punktepaare in spezifischen Richtungen bilden, damit erkennen Sie z. B., ob die Werte in Ihren Daten in manche Richtungen höhere räumliche Abhängigkeiten aufweisen. Denken Sie an das eingangs geschilderte Beispiel mit den Meereshöhen: Verläuft in Ihren Daten z. B. ein Tal in N-S-Richtung, dann weisen Punkte in dieser Richtung deutlich höhere Ähnlichkeit auf als in W-E-Richtung! Das Resultat ist nun ein anisotropes Semivariogramm. Wenn Sie an dieser Stelle bereits das Ziel aus den Augen verloren haben: Alle diese Informationen über die räumliche Abhängigkeit und ihre Struktur können wir für die Schätzung der unbekannten Werte verwenden.

Verwenden Sie den folgenden interaktiven Semivarianz-Calculator und geben Sie jeweils Wertepaare ein. Wählen Sie zunächst ähnliche Werte (bis 99), anschliessend variieren Sie die Werte und lassen Sie sie zunehmend unähnlicher werden. Beobachten Sie, wie sich die Semivarianz ändert! Beachten Sie auch, wie einfach die Semivarianz-Formel umgesetzt wird.

Semivarianz Calculator

Was passiert, wenn Sie für alle Punkte denselben Wert eingeben? Ist es von Bedeutung, in welcher Reihenfolge Sie die Wertepaare eingeben? (Klicken Sie hier für mehr Informationen)