Wie das Prognosemodell funktioniert

Wer die Nationalratswahlen in der Schweiz gewinnt, lässt sich im Vergleich zu Wahlen in anderen Ländern eher schwer prognostizieren. Zu klein ist das Land und vor allem die Kantone, zu wenige Umfragen werden publiziert und das Proporzwahlrecht hat seine Tücken. Dennoch liefern vor allem die kantonalen Wahlen deutliche Signale für den Ausgang. Weitere Daten können eine Prognose noch verfeinern.

Eine solche Prognose präsentiert restmandat.ch im Hinblick auf die Wahlen vom 18. Oktober 2015. Sie ist hier zu finden, während auf der Hauptseite laufend so oft wie möglich Analysen aufgrund der Prognoseresultate aufgeschaltet.

Dieser ziemlich lange Eintrag gibt einen detaillierten Einblick in das Entstehen der Prognose. Der Eintrag zeigt,

welche Daten verwendet werden,
wie sie in die Berechnung einfliessen,
wie die Prognose zu interpretieren ist,
was ihre Limiten sind,
wie sie in der Vergangenheit abgeschnitten hätte und
inwiefern sie sich von anderen Prognosen und von Umfragen unterscheidet.

Grundsätzliches

Statistische Prognosen für politische Wahlen haben in den letzten Jahren – ausgehend von den USA – enorm an Popularität gewonnen. Der Statistiker und Journalist Nate Silver (FiveThirtyEight.com) hat sich einen Namen gemacht mit seinen Analysen, mit denen er den Ausgang der US-Präsidentschafts- und -Kongresswahlen hervorragend gut vorhergesagt hat. Andere taten es ihm gleich, etwa die New York Times, die Washington Post oder der Statistiker und Politikwissenschafter Drew Linzer (Votamatic.org).

Das Prognosemodell dieser Seite lehnt sich Silvers Ansatz an, weicht aber in wichtigen Punkten davon ab – vor allem, weil die Schweiz ein anderes Land mit ganz anderem Wahlsystem ist. Der wichtigste Unterschied: Silver schätzt das Ergebnis hauptsächlich aufgrund der hunderten Umfragen, die in den USA veröffentlicht werden. In der Schweiz gibt es nur eine Handvoll Umfragen und diese beziehen sich auf die nationalen Wähleranteile. Beim restmandat.ch-Modell stehen aber die Kantone im Vordergrund. Prognostiziert werden soll, wie viele Sitze die Parteien dort gewinnen dürften. Zur Prognose hinzugezogen werden deshalb hauptsächlich Daten zu den kantonalen Wahlen in der Zeit zwischen den nationalen Wahlen.

Das Modell ist aber wie die US-Modelle ein probabilistisches. Das heisst, die Vorhersage wird in der Form von Chancen ausgedrückt. Konkret sagt es beispielsweise voraus: “Die FDP hat eine 42-prozentige Chance, im Kanton Zürich einen Sitz mehr als 2011 zu gewinnen.” Ende Juni war das tatsächlich die Prognose. Solche Prognosen sind neu für die Schweiz. Sie wurden noch nie in so expliziter Form veröffentlicht. (Michael Hermann hat im Vorfeld der Wahlen 2011 in der NZZ am Sonntag eine Wahlsimulation erstellt, die er vermutlich mit einem ähnlichen Ansatz erstellt hat. Aber die Methode wird nur rudimentär beschrieben und die Aussagen sind eher grob.)

Der Vorteil dieser Abstufung mit Prozentzahlen liegt darin, dass keine Genauigkeit vorgegaukelt wird, die nicht existiert. Wenige hundert oder sogar nur ein paar dutzend Stimmen können über einzelne Sitze entscheiden. Derart genaue Prognosen sind unmöglich. Mit den prozentualen Angabe lässt sich hingegen zeigen, ob eine Partei mit hoher Wahrscheinlichkeit einen Sitz gewinnt oder verliert (85 vs. 15 Prozent) oder aber ob der Ausgang offen ist (45 vs. 55 Prozent), mithin ein paar hundert Stimmen entscheiden könnten.

Dank der Darstellung der Prognose soll die Leserin oder der Leser rasch einen Überblick über die Ausgangslage in einem Kanton gewinnen, zum Beispiel hier für Thurgau (die aktuellen Daten können sich unterscheiden):

20150626_Prog_TG_annotated

Beispiel Thurgau, Stand Ende Juni.

Das Vorgehen – die Kurzversion

Ziel der Prognose ist es, die Anzahl der Sitze der Parteien in den einzelnen Kantonen vorherzusagen. Nur Kantone mit fünf und mehr Nationalratssitzen eignen sich jedoch für eine schematische Betrachtung; in den kleineren Kantonen finden eher Persönlichkeitswahlen statt. Da die Sitze von den Wähleranteilen aller Parteien im jeweiligen Kanton abhängen, müssen diese zunächst geschätzt werden. Das tut ein statistisches Modell, das aus einem längeren Forschungsprozess entstanden ist. Gefüttert wird es mit Daten, die sich eignen, die Wähleranteile vorherherzusagen.

Mit den geschätzten Wähleranteilen können die Sitzzahlen nach den geltenden Regeln (Art. 40ff. BPR) ermittelt werden. Eine Simulation, konkret: die hunderttausendfache Wiederholung der Sitzberechnung innerhalb der ermittelten Unschärfe, erlaubt dann, die Prognose in probabilistischer Form darzustellen.

Die Daten

Der Auswahl der Daten für die Prognose gingen ausgiebige Recherchen in wissenschaftlicher Literatur und Medienbeiträgen sowie Datenanalyse. Folgende Daten erwiesen sich als geeignet, die kantonalen Wahlresultate bei eidgenössischen Wahlen vorherzusagen:

Kantonales Resultat bei den vorherigen Nationalratswahlen (Anteil einer Partei am Total der Parteistimmen in Prozent): Von einer Wahl zur nächsten unterscheiden sich die Wähleranteile in der Regel nicht stark. Eine Partei wird bei der nächsten Wahl zwei bis drei Prozentpunkte gewinnen oder verlieren (in acht von zehn Fällen); nur in Ausnahmefällen weicht sie stärker vom letzten Resultat ab.

Resultat der vorherigen Wahl im gleichen Kanton (Anteil am Total der Parteistimmen in Prozent): Einen engen Zusammenhang gibt es zwischen dem Resultat der Nationalratswahlen in einem Kanton und dem Resultat bei den letzten kantonalen Wahlen in diesem Kanton (siehe Abbildung unten).

KTW_vs_NRW

Zusammenhang zwischen kant. und nat. Wahlen: Jeder Punkt stellt eine Kantonalpartei dar, die sowohl an den kantonalen Parlamentswahlen (KTW) wie auch an den Nationalratswahlen (NRW) teilgenommen hat (1971-2011). Quelle: BFS, eigene Berechnung

Trend aus allen Kantonswahlen seit den letzten Nationalratswahlen (gewichtetes Mittel aus den Gewinnen und Verlusten in Prozentpunkten in allen Kantonen): Die Kantonswahlen, welche zwischen zwei nationalen Wahlen stattfinden, geben einen Anhaltspunkt darauf, ob eine Partei in der Wählergunst eher steigt oder sinkt. Da die Legislatur aber vier Jahre dauert, haben die Resultate aus weiter zurückliegenden Wahlen ein deutlich geringeres Gewicht als Wahlen jüngeren Datums. Für die Trendvariable, die in die Prognose einfliesst, werden die Kantonsresultate so gewichtet, dass jüngere Wahlresultate deutlich stärker gewichtet werden als ältere, konkret: Resultate im Wahljahr erhalten die Gewichtung 1, ein Jahr davor noch 0.5, zwei Jahre davor 0.25 und drei Jahre davor 0.125.

Nicht berücksichtigt werden Wahlresultate, die länger als vier Jahre zurückliegen. Für den Kanton Freiburg, in dem nur alle fünf Jahre gewählt wird, bedeutet das, dass in solchen Wahljahren (bspw. 2011) eine Prognose nicht möglich ist.

Der Zusammenhang zwischen der Trendvariable und der effektiven Differenzen zwischen zwei Wahlen ist weniger stark als zwischen Kantons- und Nationalratswahlen im gleichen Kanton. Ein Zusammenhang ist jedoch unzweifelhaft vorhanden, wie diese Abbildung zeigt:

Trend_vs_Diff

Jeder Punkt steht für eine Kantonalpartei, die an einer Nationalratswahl (NRW) teilnimmt. Auf der horizontalen Achse ist die für die Prognose berechnete Trendvariable abgebildet. Die Trendlinie zeigt einen Zusammenhang, allerdings keinen beträchtlichen. Quelle: BFS, eigene Berechnung

Nicht mehr antretende Nationalrätinnen und Nationalräte (als prozentualer Anteil an der Anzahl Mandate der Partei im jeweiligen Kanton): Der sogenannte Bisherigenbonus besagt, dass amtierende Nationalräte es einfacher haben, die Wahl zu schaffen als neuantretende Kandidaten. Eine statistische Analyse bestätigt dies, wenn auch der Effekt nicht sehr gross ist. Deshalb fliesst in die Prognose mit ein, wie viele Mandate eine Partei ohne einen Bisherigen oder eine Bisherige zu verteidigen hat.

Während der Legislatur ausgetretene Nationalrätinnen und Nationalräte (als prozentualer Anteil an der Anzahl Mandate der Partei im jeweiligen Kanton): Dem Bisherigenbonus ist es geschuldet, dass Nationalräte, die sich zurückzuziehen gedenken, bereits während der Legislatur zurücktreten. Sie verschaffen so ihrer Nachfolge einen Vorteil. Dennoch holt ein Parlamentarier mit einem oder zwei Jahren Amtszeit in der Regel weniger Stimmen für seine Partei als einer, der über Jahrzehnte im Amt war. Nur zu berücksichtigen, wie viele Parlamentarierer nicht mehr antreten (siehe oben), greift daher zu kurz. In die Prognose fliesst deshalb auch ein, wie viele Mandate eine Partei mit Nachgerückten zu verteidigen hat.

Anzahl eingereichter Listen (absoluter Wert): Um der Wählerschaft eine breite Auswahl an Kandidaten zu präsentieren, reichen die Parteien in der Regel mehrere Listen ein. Unterschieden wird häufig nach Geschlecht, Region oder Alter. Statistisch betrachtet ist dieses Vorgehen sinnvoll: Die Anzahl eingereichter Listen steigert den Wähleranteil, wenn auch nur minim.

Die Datenbereinigung (Achtung, gefährlich)

Zwar ist die Datenlage ausgezeichnet dank den Sammlungen des Bundesamtes für Statistik (BFS) und der Parlamentsdienste. Von diesen Institutionen stammen im Übrigen auch die Daten. Doch die einigermassen volatile Schweizer Parteienlandschaft führt zu beträchtlichen Lücken. Zu Problemen führen beispielsweise: Kleinparteien treten nicht regelmässig bei Wahlen an, einige beschränken sich auf kantonale, andere auf nationale Wahlen; neue Parteien werden gegründet oder spalten sich ab, andere wiederum schliessen sich zusammen.

Diese Lücken wurden in ziemlich aufwändigen Verfahren teilweise geschlossen. Die Stimmenanteile für Mischlisten (das sind Listen, auf denen Vertreter mehrerer Parteien antreten) werden nach Möglichkeit auf die einzelnen Parteien verteilt. Inspiriert ist dieses Verfahren von den Ansätzen, die das Zentrum für Demokratie Aarau im Auftrag des BFS geprüft hat, um die Mischlisten-Stimmen in Zukunft aufzuteilen. “Fehlende” Resultate auf kantonaler oder nationaler Ebene (wenn beispielsweise eine Partei national antritt, aber vorher im gleichen Kanton noch nie kantonal angetreten ist) werden unter gewissen Umständen geschätzt. Zudem wird korrigiert für Entwicklungen wie das “Aufsaugen” der kleinen Rechtsparteien durch die SVP, das Aufkommen der BDP oder die Fusion von FDP und LPS.

Es soll nicht verheimlicht werden, dass die Datenbereinigung erhebliche Gefahren birgt. Mithin ist es verlockend, unpassende Daten im Nachhinein mit dem Wissen des Geschehenen so zu verändern, dass sie sich besser ins Bild einfügen, sprich, dass das Modell besser wird. Das ist jedoch nicht das Ziel. Es geht vielmehr darum, zweifelsfrei identifizierbare “Störfaktoren” zu entfernen, um realistischere Schätzdaten zu erhalten.

Die Berechnung

Die obengenannten Daten für die Zeitspanne von 1971 bis 2011 werden – nach deren Bereinigung – in ein Modell gefüttert. Konkret wird ermittelt, welcher Zusammenhang zwischen den kantonalen Wähleranteilen der Parteien als Ziel der Schätzung (response variable) einerseits und den sechs Vorhersage-Werten (predictor variables) besteht. Dazu wird eine lineare Regression durchgeführt, welche diesen Zusammenhang errechnet.

Das Ergebnis lässt sich sehen: Sämtliche Variablen sind statistisch signifikant (95-Prozent-Signifikanzniveau). Das Modell erklärt über 98 Prozent der Varianz (R^2) in den Daten. Eine Simulation zeigt, dass rund zwei Drittel der geschätzten Wähleranteile rund zwei Prozentpunkte vom tatsächlichen Wert entfernt liegen. Wir kriegen damit eine Ahnung von der (Un-)Genauigkeit der Schätzung: Zwei Prozentpunkte ist zwar recht genau, aber in einem grösseren Kanton können zwei Prozentpunkte mehr oder weniger Wähleranteil durchaus den Unterschied zwischen einem Sitz mehr oder weniger ausmachen. Deshalb ist es eminent wichtig, die Unsicherheit bei der Prognose zu berücksichtigen.

Die Prognose

Der vorangegangene Teil der Berechnung wird auch Trainings-Phase genannt. Diese dient dazu, das Modell zu “kalibrieren”, bevor es auf die zu prognostizierenden Phase angewandt wird.

Prognostizieren will ich die Nationalratswahlen 2015. Deshalb werden für diese Phase die sechs predictor-Variablen erstellt: Mit den Resultaten der kantonalen Wahlen aus den Jahren 2012 bis 2015 wird der Trend berechnet und die Zahl der abgetretenen Parlamentarierinnen und Parlamentarier seit den Wahlen 2011 wird ermittelt. Einige Daten werden erst bekannt sein, wenn die Parteien sich auf die Wahlen vorbereiten (Zahl der Listen, Zahl der nicht mehr antretenden Nationalrätinnen und Nationalräte). Erst im Spätsommer wird auch bekannt sein, welche (Klein-)Parteien in welchen Kantonen antreten werden. Aus diesen Gründen wird sich die Prognose bis voraussichtlich Ende August noch leicht verändern und wird entsprechend aktualisiert werden.

Mit den aus der Trainings-Phase gewonnen Zahlen zum Zusammenhang und den Daten für 2015 lässt sich errechnen, wie viel Wähleranteil die Parteien in den einzelnen Kantonen erreichen dürften.

Diese Zahlen zeigen schon mal, wer wo an Wählergunst gewinnen oder verlieren dürfte. Sie sind hier abrufbar. Ich warne allerdings davor, diesen Angaben zu viel Gewicht beizumessen. Sie gaukeln eine Präzision vor, die so nicht existiert – trotz angegebener Unsicherheit der Prognose. So wichtige Faktoren für den Wahlausgang wie die Mobilisierung oder lokale Begebenheiten fehlen in diesen Angaben. Auch die Listenverbindungen, die schliesslich über die Sitzverteilung und damit über die Machtverhältnisse im Nationalrat bestimmen, bleiben unberücksichtigt.

Erst der nächste Schritt – die Simulation – fügt der Prognose eine einordnende Perspektive zu.

Die Simulation

Um mit den geschätzten Wähleranteilen die Chancen auf einen Sitzgewinn oder -verlust einzuschätzen, wird die Wahl vielfach durchgespielt. Dabei werden einerseits die Listenverbindungen unter den Parteien berücksichtigt, andererseits die Unsicherheit der Schätzung. Konkret wird bei jedem einzelnen Simulationsdurchlauf der Wähleranteil jeder Partei nach dem Zufallsprinzip leicht variiert, so dass der Ausgang der Wahl sich leicht verändert: Dem geschätzten Wähleranteil wird jeweils eine normalverteilte Zufallszahl hinzugezählt oder abgezogen. Damit wird die Unsicherheit der Schätzung und der Schätzfehler berücksichtigt. Diese Variation wird zudem zweigeteilt in einen nationalen und einen kantonalen Teil, so dass unabhängig voneinander stehende nationale und regionale Trends simuliert werden können.

(In einem Durchgang könnte das beispielsweise so aussehen: Die SVP überzeugt mit einer angriffigen Wahlkampagne, was ihr national gesehen 1.5 Prozentpunkte mehr Wähleranteile einträgt. Dies würde dann in jedem Kanton zum Resultat hinzugezählt, bevor die Zufallszahlziehung für jeden Kanton durchgeführt wird. Dort hätte die SVP dann vielleicht in einem Kanton einen Vorteil von 0.3 Prozentpunkten, in einem anderen einen Nachteil von 0.6. Im Ergebnis ergäbe dies eine Variation beim Wähleranteil von 1.8 Prozentpunkten im ersten Fall und von 0.9 im zweiten Fall.)

Was kompliziert tönt, ist auch einigermassen kompliziert. Das Vorgehen stellt aber sicher, dass das Ergebnis möglichst realistisch geschätzt wird. Es wurde im Übrigen den Ansätzen von Nate Silver und der New York Times nachempfunden.

Eine Simulation enthält 100 000 Durchläufe. Aus den prozentualen Anteilen der erreichten Sitze lassen sich dann die Chancen errechnen, dass eine Partei eine bestimmte Anzahl Sitze gewinnt. Wenn die FDP beispielsweise in Zürich in rund 10 000 Fällen drei Sitze erreicht hat, in rund 47 000 Fällen vier, in rund 37 000 Fällen fünf und in rund 5000 Fällen sechs Sitze, dann sieht ihre Prognose folgendermassen aus:

Bsp_FDP_ZH_V2

Beispiel einer Prognose für die FDP im Kanton Zürich. Der rote Asterisks zeigt die Sitzzahl bei den letzten Wahlen an. Die FDP hat also gute Chancen, ihre Sitzzahl zu halten oder sogar auszubauen.

Daraus lässt sich – endlich – die Prognose für einen ganzen Kanton erstellen, respektive für sämtliche Kantone, die in der Analyse eingeschlossen werden. Die aktuelle Übersicht für 2015 findet sich hier.

Der Vergleich mit 2011

Wie die Prognose bei den vergangenen Wahlen 2011 abgeschnitten hätte, lässt sich hier abrufen. In einigen Kantonen bleiben Sonderfaktoren unberücksichtigt, was das Ergebnis etwas verfälscht. Dennoch schneidet es respektabel ab:

In 81 Prozent der Fälle hätte das Modell die richtige Prognose abgegeben, das heisst, es traf das Ereignis ein, dem das Modell die höchste Wahrscheinlichkeit zugeordnet hat. In 83 Prozent zeigte das Modell die richtige Richtung an, das heisst, das Modell gab einer Partei eine höhere Wahrscheinlichkeit eines Sitzgewinns (resp. -verlusts) als dem Gegenteil und das traf dann auch ein.

Nicht vorausgesehen hat es die Schwäche der Grünen, die in mehreren Sitzverlusten mündete. Die Sitzgewinne der SP (teilweise auf Kosten der Grünen) wurden ebenfalls recht schlecht abgebildet. Am aufschlussreichsten war, finde ich, dass deutlich sichtbar wurde, wo Sitze umkämpft waren und wer diese umkämpfte.

Limiten

Der Ansatz hat einige Limiten, die nicht unerwähnt bleiben sollen.

Der wichtigste ist, dass lediglich statische Daten verwendet werden. Die Daten verändern sich ab einem bestimmten Zeitpunkt ein paar Monate vor den Wahlen nicht mehr, während der Wahlkampf erst richtig anläuft. Im Jargon der Prognosemodelle aus den USA gesprochen, kommen nur “fundamentals” zur Anwendung, nicht jedoch Umfragen und andere Daten, die den Effekt des Wahlkampfs darzustellen vermögen.

Das heisst: Wenn eine Partei mit ihrer Wahlkampagne die Wählerinnen und Wähler besonders anzusprechen vermag, bleibt dies in dieser Prognose unberücksichtigt. Auch Skandale (Kasachstan-Affäre bei der FDP), die äusseren Umstände (Frankenstärke, Atomkatastrophe Fukushima) und nicht zuletzt auch die finanziellen Mittel der Parteien fliessen nicht in die Auswertung ein. Umfragen können diese Tendenzen besser auffangen.

Es empfiehlt sich, die Prognose als sehr umfassende aus statistischen Daten gewonnene Darstellung der Ausgangslage ein paar Monate vor den Wahlen anzuschauen. Nicht mehr und nicht weniger. Welche Sitze umkämpft sind, zeigt das Modell. Wer sie gewinnt, darauf gibt es Hinweise, liefert aber keine definitiven Antworten.

Wie das Modell schliesslich abschneiden wird, wird der 19. Oktober zeigen – der Tag nach den Wahlen. Bestätigen sich die Prognosen, heisst das, dass die Kantonswahlen, die Mutationen im Nationalrat sowie die Allianzen unter den Parteien den Wahlausgang weitgehend erklären. Liegen die Prognosen daneben, gilt es andere Erklärungen dafür zu suchen. Und natürlich das Modell zu überprüfen. 

Fragen, Anregungen, Bemerkungen willkommen: @stefantra / restmandat [] gmail [] com

Eine Reaktion

  1. Longchamp, Hermann und Kollegen waren präzis | Datenblog

    […] Sotomo und Restmandat.ch prognostizierten mit statistischen Modellschätzungen, die eine Vielzahl von verfügbaren Informationen beiziehen. Sotomo nutzte beispielsweise die Kurse der «Tages-Anzeiger»-Wahlbörse, die Resultate vergangener Wahlen oder auch Umfragen und eben ihre eigenen Umfragedaten. Restmandat.ch stützte sich weitgehend auf Kontextdaten – Resultate der Nationalratswahlen und der kantonalen Parlamentswahlen bis zurück ins Jahr 1971 sowie Daten zu Rücktritten aus dem Nationalrat. (Mehr zur Methodik finden Sie hier.) […]

Die Kommentarfunktion wurde geschlossen, aber Trackbacks und Pingbacks sind noch offen.