Learning Portal

Lernportal - Propensity Score Matching

Propensity Score Matching (PSM) ist eine innovative Bewertungsmethode, deren Hauptmerkmal die Minimierung von Selektionsverzerrungen bei Programmbewertungen ist, die durch beobachtbare Merkmale verursacht werden. Sie ermöglicht genaue und zuverlässige Vergleiche zwischen Programmteilnehmern und Nicht-Teilnehmern und erhöht gleichzeitig die Glaubwürdigkeit der Ergebnisse.

Three farmers with laptop

Grundlagen

Kurz und bündig

Fortgeschrittenes Werkzeug

Matching-Methoden gehören zur Familie der quasi-experimentellen Bewertungsmethoden. Die Technik des Propensity Score Matching (PSM) ist derzeit eines der fortschrittlichsten und wirksamsten Instrumente, die bei der Bewertung verschiedener Programme eingesetzt werden. Man kann zwei Arten von PSM-Ansätzen unterscheiden:

  1. standardmäßiges, konventionelles oder binäres PSM; und
  2. verallgemeinertes PSM.

Minimierung der Verzerrung

Das PSM ist ein leistungsfähiger quasi-experimenteller Ansatz, mit dem Selektionsverzerrungen aufgrund der beobachtbaren Merkmale von Teilnehmern und Nicht-Teilnehmern minimiert werden können. Selektionsverzerrungen treten auf, wenn sich die Teilnehmer eines Programms systematisch von den Nicht-Teilnehmern unterscheiden. Diese systembedingten Unterschiede können auf spezifische Merkmale von Teilnehmern und Nicht-Teilnehmern zurückzuführen sein, die anhand von in den entsprechenden Datenquellen verfügbaren Variablen (Observablen) beobachtet werden können. So können beispielsweise Betriebe in bestimmten Sektoren oder mit einer bestimmten wirtschaftlichen oder physischen Größe stärker zur Teilnahme an einem Programm motiviert sein. Diese Verzerrung kann minimiert werden, indem Teilnehmer mit Nicht-Teilnehmern verglichen werden, die aufgrund ihrer beobachtbaren Merkmale die gleiche Wahrscheinlichkeit hatten, an einem Programm teilzunehmen, sich aber dagegen entschieden. Diese Wahrscheinlichkeit wird durch den so genannten Propensity Score gemessen, der für jede Einheit auf der Grundlage einer Reihe von beobachtbaren Merkmalen, die nicht durch ein Programm beeinflusst werden, berechnet wird.

Ein Vergleich der ähnlichen

Beim binären PSM geht es darum, aus einer Gruppe von Nicht-Teilnehmern Einheiten zu finden, die den Programmteilnehmern in Bezug auf die Merkmale vor dem Programm ähnlich sind. Jeder Teilnehmer wird mit einem oder mehreren beobachtungsmäßig ähnlichen Nicht-Teilnehmern auf der Grundlage ihrer entsprechenden Propensity Scores zusammengebracht. Anschließend wird die durchschnittliche Ergebnisdifferenz zwischen den beiden Gruppen berechnet, um den durchschnittlichen Behandlungseffekt des Programms zu schätzen. In der Praxis können verschiedene Techniken oder Algorithmen verwendet werden, um Teilnehmer und Nicht-Teilnehmer auf der Grundlage des Propensity Scores zu vergleichen. Dazu gehören das Nearest Neighbour (NN)-Matching, das Calliper- und Radius-Matching, das Stratifikations- und Intervall-Matching, das Kernel-Matching oder das Local Linear Matching (LLM).

Vor- und Nachteile

Vorteile

Nachteile

  • Effektiv bei der Suche nach geeigneten Kontrollgruppen (kontrafaktischen Gruppen).
  • Funktioniert gut, wenn die Programmteilnahme ausschließlich von den beobachtbaren Merkmalen einer Einheit (z. B. Betrieb, Person, Gemeinde, Region) beeinflusst wird.
  • Wenn eine Selektionsverzerrung durch unbeobachtete Merkmale wahrscheinlich vernachlässigbar ist, dann bietet PSM einen guten Vergleich mit randomisierten Schätzungen.
  • Ermöglicht die unkomplizierte Berechnung von Indizes wie ATT (durchschnittlicher Behandlungseffekt bei Behandelten), ATE (durchschnittlicher Behandlungseffekt) und ATNT (durchschnittlicher Behandlungseffekt bei Nichtbehandelten).
  • Stützt sich stark auf die Annahme, dass die beobachtbaren Merkmale, die zur Schätzung des Propensity Score verwendet werden, alle Unterschiede zwischen den geförderten Einheiten und der Vergleichsgruppe vor der Programmdurchführung erklären.
  • Kann keine plausiblen Ergebnisse liefern, wenn beobachtbare Merkmale fehlen, die Leitungsunterschiede erklären.
  • PSM ist eine datenintensive Methode.

Wann ist sie anzuwenden?

Diese Technik kann angewandt werden, wenn vor der Durchführung eines Programms genügend Daten zur Verfügung stehen, um Teilnehmer und Nicht-Teilnehmer zu vergleichen. Sie geht davon aus, dass die Wahrscheinlichkeit der Teilnahme an einem Programm hauptsächlich durch Merkmale beeinflusst wird, die beobachtet und durch entsprechende Variablen beschrieben werden können, die für beide Gruppen verfügbar sind. Darüber hinaus kann diese Technik nur angewandt werden, wenn es möglich ist, den Wert eines Wirkungsindikators bzw. von Wirkungsindikatoren zum Zeitpunkt der Bewertung und nicht vor der Durchführung eines Programms zu berechnen.

Bei der Anwendung einer binären PSM-Methode zur Ermittlung einer gültigen Kontrollgruppe muss sichergestellt werden, dass es keine systembedingten Unterschiede bei unbeobachteten Merkmalen zwischen den durch ein Programm geförderten Einheiten und den angepassten Vergleichseinheiten gibt, die das Ergebnis beeinflussen könnten. Diese Methode wird keine vernünftigen Ergebnisse liefern, wenn andere wichtige beobachtbare Merkmale nicht in das Modell einbezogen werden, das die Unterschiede erklärt.

Vorbedingungen

  • Ein gutes Verständnis der Bedingungen, die die Wahrscheinlichkeit der Teilnahme an einem Programm bestimmen.
  • Umfangreiche Daten über Programmteilnehmer und Nicht-Teilnehmer vor der Durchführung des Programms, die die Beobachtung der wichtigsten Merkmale ermöglichen, die die Wahrscheinlichkeit der Teilnahme an einem Programm beeinflussen.
  • Fähigkeit, den Wert der Wirkungsindikatoren für die entsprechenden Gruppen von Teilnehmern und Nicht-Teilnehmern während einer Bewertung zu berechnen.
  • Hohe quantitative Fähigkeiten des Evaluators.

Die Technik kann angewandt werden, um die Auswirkungen der GAP-Unterstützung auf die Entwicklung der Werte der in der folgenden Tabelle aufgeführten Wirkungsindikatoren zu bewerten.

Indikator für die Auswirkungen des EPLR Indikator für die Auswirkungen des GAP-Strategieplans
I.01 - Landwirtschaftlicher Unternehmensgewinn I.2 - Entwicklung des landwirtschaftlichen Einkommens im Vergleich zur Gesamtwirtschaft
I.02 - Landwirtschaftliches Faktoreinkommen I.3 - Entwicklung des landwirtschaftlichen Einkommens
  I.4 - Entwicklung des landwirtschaftlichen Einkommensniveaus nach Betriebsform (im Vergleich zum Durchschnitt der Landwirtschaft)
  I.5 - Entwicklung des landwirtschaftlichen Einkommens in Gebieten mit naturbedingten Einschränkungen (im Vergleich zum Durchschnitt)
I.03 - Totale Faktorproduktivität in der Landwirtschaft
 
I.6 - Totale Faktorproduktivität in der Landwirtschaft
I.07 - Emissionen aus der Landwirtschaft

I.10 - Treibhausgasemissionen aus der Landwirtschaft

I.14 - Ammoniakemissionen aus der Landwirtschaft

I.08 - Vogelindex für landwirtschaftliche Flächen I.19 - Farmland Bird Index
I.09 - Landwirtschaft mit hohem Naturwert (HNV)  
I.10 - Wasserentnahme in der Landwirtschaft I.17 - Wasserausbeutungsindex Plus (WEI+)
I.11 - Wasserqualität

I.15 - Bruttonährstoffbilanz auf landwirtschaftlichen Flächen

I.16 - Nitrat im Grundwasser

I.13 - Bodenerosion durch Wasser I.13 - Prozentualer Anteil der landwirtschaftlichen Flächen mit mäßiger und starker Bodenerosion
I.14 - Ländliche Beschäftigungsquote I.24 - Entwicklung der Beschäftigungsquote im ländlichen Raum, einschließlich einer Aufschlüsselung nach Geschlecht
I.15 - Ausmaß der ländlichen Armut I.27 - Entwicklung des Armutsindexes im ländlichen Raum
I.16 - Ländliches BIP pro Kopf I.25 - Entwicklung des Pro-Kopf-Bruttoinlandsprodukts (BIP) im ländlichen Raum

Speziell für den Farmland Bird Index kann ein Bewertungsansatz auf der Ebene von Feldern/Parzellen (Mikroebene) mit Hilfe des Common Birds Monitoring Programm realisiert werden, wenn genügend Daten verfügbar sind. Dies kann erreicht werden, indem die PSM-Technik angewandt wird, um Begünstigte und Nicht-Begünstigte einander gegenüberzustellen und dann die durchschnittliche Wirkung der GAP-Unterstützung auf die Biodiversität in jeder Gruppe zu vergleichen. Auf der Makroebene wird PSM auch empfohlen, um die Auswirkungen der GAP-Förderung auf die Biodiversität auf der Ebene der Quadranten zu ermitteln, die für die Beobachtung der Populationen von Ackervögeln im Rahmen des Programms zur Überwachung der Vogelwelt verwendet werden. Die Quadranten können als funktionale Einheiten für den Farmland Bird Index verwendet und später nach biogeografischen Gebieten (verschiedene landwirtschaftliche Lebensräume) oder auf regionaler Ebene auf der Grundlage von georeferenzierten Daten berechnet werden.

Was die Indikatoren zur Messung der Beschäftigung, des Pro-Kopf-BIP und der Armutsquote in ländlichen Räumen anbelangt, so können die Begünstigten- und Kontrollgruppen auf der Grundlage von geförderten und nicht geförderten geografischen Regionen gebildet werden, idealerweise LAU 2 (prüfen Sie, ob NUTS2) gemäß der Eurostat-Typologie Stadt/Land. In diesem Fall ist der Zugang zu einer umfassenden Quelle von statistischen Daten und Informationen über die Merkmale der geografischen Regionen vor der Durchführung des Programms erforderlich.

Schritt-für-Schritt-Anleitung

  • Schritt 1 - Suchen Sie eine Stichprobe von Begünstigten (z. B. landwirtschaftliche Betriebe, Landwirte, nicht landwirtschaftliche Unternehmen, Gemeinden, Gebiete, Regionen usw.) in einer verfügbaren Datenbank (z. B. INLB) und verwenden Sie das elektronische Überwachungs- und Bewertungssystem (z. B. das elektronische Informationssystem gemäß Artikel 70 der Verordnung (EU) Nr. 1305/2013 oder das System gemäß Artikel 130 der Verordnung (EU) Nr. 2021/2115) als Referenzpunkt.
  • Schritt 2 - Wählen Sie in derselben Datenbank (z. B. INLB) alle relevanten Einheiten aus, die im selben Zeitraum keine oder eine willkürlich niedrige Unterstützung erhalten haben (Nicht-Begünstigte). Im letztgenannten Fall einer willkürlich niedrigen Unterstützung ist es möglicherweise besser, das niedrige Niveau nicht anhand der absoluten Höhe der Unterstützung zu definieren, sondern anhand der Höhe der Unterstützung, die durch eine andere Variable normalisiert wird, z. B. die landwirtschaftlich genutzte Fläche des Landwirts oder die Fläche oder Bevölkerung einer geografischen Region.
  • Schritt 3 - Identifizieren Sie in einer Gruppe von Nicht-Begünstigten diejenigen Einheiten, die die Bedingungen für die Förderfähigkeit im Rahmen des Programms nicht erfüllen konnten (aufgrund des hohen Einkommens, der Größe, des Standorts usw.) und nehmen Sie sie aus der Analyse heraus.
  • Schritt 4 - Erhebung von Daten für alle Einheiten in beiden Gruppen (Begünstigte und Nicht-Begünstigte) über ihre wichtigsten Merkmale (Variablen) zu Beginn eines Durchführungszeitraums. Beachten Sie, dass die in die Analyse einbezogenen Variablen sowohl die Auswahl einer Einheit als auch die auf der Mikroebene berechneten Indikatoren (z. B. Wirkungsindikatoren) beeinflussen sollten. Einige der vorgeschlagenen Variablen (die als wichtige Kontrollvariablen verwendet werden) können sein:
    • die Höhe der Unterstützung, die eine bestimmte Einheit in früheren Programmplanungszeiträumen erhalten hat; und/oder
    • die Höhe der Unterstützung, die eine bestimmte Einheit aus anderen öffentlichen Quellen (z. B. EU-Strukturfonds, Säule I) im analysierten Zeitraum erhalten hat.
  • Schritt 5 - Anwendung geeigneter Techniken zur Ermittlung einer geeigneten Kontrollgruppe aus der Stichprobe der Nicht-Begünstigten (siehe Schritte 2-3), deren Mitglieder die gleiche Neigung zur Teilnahme an einem Programm haben (einige der Nicht-Begünstigten und/oder Begünstigten werden mangels geeigneter Kontrolleinheiten aus der Analyse ausgeschlossen).
  • Schritt 6 - Statistische Überprüfung der Ähnlichkeit der beiden Gruppen vor der Unterstützung durch ein Programm (z. B. durch statistische Tests der in die Analyse einbezogenen Kovariaten). Der Durchschnittswert einer Einheit in der begünstigten Gruppe sollte sich nicht signifikant von der entsprechenden Einheit in der Kontrollgruppe unterscheiden. Sobald die Gruppe der Begünstigten und die Kontrollgruppe gebildet worden sind, kann der Nettoeffekt der Unterstützung in den folgenden Schritten geschätzt werden.
  • Schritt 7 - Berechnen Sie den Durchschnittswert der gemeinsamen oder zusätzlichen Wirkungsindikatoren sowohl für die Gruppe der Begünstigten als auch für die Kontrollgruppe, wenn die Bewertung durchgeführt wird.
  • Schritt 8 - Berechnung des Nettoeffekts als Differenz zwischen dem Durchschnittswert des gemeinsamen oder zusätzlichen Wirkungsindikators/der gemeinsamen oder zusätzlichen Wirkungsindikatoren zwischen der Gruppe der Begünstigten und der Kontrollgruppe (durchschnittliche Behandlung auf die Behandelten).
  • Schritt 9 - Durchführung einer Sensitivitätsanalyse (z. B. Rosenbaum-Ansatz), um die möglichen Auswirkungen unbeobachtbarer Faktoren auf die erzielten Ergebnisse zu bewerten.
  • Schritt 10 - Aggregierung der Ergebnisse und Berechnung der Auswirkungen der GAP-Unterstützung auf die analysierten Wirkungsindikatoren auf Makro- und Programmgebietsebene. In diesem Schritt sollte der Evaluator die direkten Nettoauswirkungen der GAP-Unterstützung auf die Wirkungsindikatoren auf der Ebene des Programmgebiets berechnen, indem er Extrapolationstechniken anwendet (d. h. die auf Mikroebene berechneten durchschnittlichen Mikroergebnisse mit der Anzahl der Begünstigten/Nicht-Begünstigten multipliziert).

Wichtigste Punkte zum Mitnehmen

  • PSM zeichnet sich durch seine Fähigkeit aus, Selektionsverzerrungen zu reduzieren, indem Teilnehmer mit Nicht-Teilnehmern auf der Grundlage beobachtbarer Merkmale verglichen werden.
  • Das binäre PSM konzentriert sich auf die Suche nach Nicht-Teilnehmern, die den Teilnehmern in den Merkmalen vor dem Programm ähnlich sind, während das verallgemeinerte PSM diesen Vergleich erweitert.
  • PSM kontrolliert effektiv die Selektionsverzerrung, indem es Gruppen auf der Grundlage ihrer Propensity Scores vergleicht, die aus beobachtbaren Merkmalen berechnet werden.
  • PSM eignet sich hervorragend für die Bewertung der Wirksamkeit verschiedener Programme, insbesondere in Kontexten, in denen reichlich Daten aus der Zeit vor dem Programm vorliegen.
  • Es werden ATT-, ATE- und ATNT-Indizes berechnet, um die Auswirkungen des Programms auf die Teilnehmer und die Gesamtbevölkerung zu messen.

Weiterführende Literatur