Jury aus Aserbaidschan wird zweiter Sieger im Synchron-Abstimmen

Alle fünf Juroren aus Georgien haben beim Eurovision Song Contest am Samstag ihre Punkte für die ersten acht Plätze exakt gleich vergeben. Ihre Wertung wurde deshalb annulliert; Georgien droht eine mehrjährige Sperre.

Man sollte die georgische Jury aber eigentlich nicht wegen des Verdachts auf unerlaubte Absprachen disqualifizieren. Sondern wegen erwiesener Dummheit. So blöd muss man erstmal sein, das abgesprochene/erwünschte/gekaufte Ergebnis nicht ein bisschen zwischen den einzelnen Juroren zu variieren, damit es nicht so auffällt.

Die Jury aus Aserbaidschan hat das besser gemacht. Ihre fünf Juroren haben nicht exakt gleich abgestimmt. Sie haben nur fast gleich abgestimmt. Ihr Votum ist nicht identisch, aber in einem solchen Maße ähnlich, dass ich mir schwer vorstellen kann, dass es dabei mit rechten Dingen zugegangen ist.

Aufgabe der Juroren ist es, einzeln, ohne Absprachen, 25 Titel in eine Reihenfolge zu bringen. Vielleicht haben Sie das selbst mal beim ESC versucht. Es ist gar nicht so leicht. Man kann sich mit sich selbst ganz gut auf eine Handvoll Favoriten einigen. Und man findet schnell auch Kandidaten, die man problemlos auf den letzten Platz einsortiert, den vorletzten und vielleicht auf den vorvorletzen.

Es ist aber gar nicht so leicht, für sich selbst zu unterscheiden, wer auf den elften Platz gehört und wer auf den zwanzigsten. Ich würde wetten, dass es den meisten von uns nicht gelänge, das eigene Abstimmungsergebnis am nächsten Tag von 1 bis 25 zu wiederholen, weil so viel in der Mitte willkürlich, zufällig, erratisch war.

Mit anderen Worten: Es ist extrem unwahrscheinlich, dass fünf Juroren sämtliche 25 Plätze mit nur minimalsten Abweichungen gleich sortieren, selbst wenn diese Juroren denselben Geschmack hätten, denselben fachlichen Hintergrund, dieselben politischen Abneigungen.

Dass alle fünf Juroren Armenien auf den letzten Platz gesetzt haben, ist kein Grund, Verdacht zu schöpfen, sondern Ausdruck der politischen Realität in Aserbaidschan. Dass alle Conchita Wurst doof fanden und auf den 23. oder 24. Platz setzen, finde ich auch nachvollziehbar. Und warum sollte es nicht weitgehende Übereinstimmung geben, dass Russland und Weißrussland besser waren als der Rest?

Nein, der Grund, das aserbaidschanische Jury-Urteil anzuzweifeln, ist die frappierende Übereinstimmung in dem ganzen Bereich dazwischen. Die Abweichungen sind minimal. In keinem einzelnen Fall wich das Urteil eines einzelnen Jurors über einen Beitrag mehr als zwei Punkte von dem gemeinsamen Durchschnitt ab. Es gab keinen einzigen Juror, der auch nur ein einziges Lied, gegen den Trend, besonders toll oder misslungen oder mittel fand.

Wenn man einer Jury sagen würde, welche Platzierung gewünscht ist, sie aber aufforderte, ein bisschen zu variieren, damit es nicht auffällt, käme eine Verteilung wie in diesem Jahr in Aserbaidschan heraus. (Was natürlich kein Beweis dafür ist, dass es so war.)

Die folgende Tabelle zeigt das Abstimmungsverhalten der fünf aserbaidschanischen Juroren. Dahinter steht die resultierende Jurywertung (also der Durchschnitt). In der letzten Spalte habe ich die Standardabweichung σ ausgerechnet. Sie ist ein statistisches Maß, das angibt, wie weit die einzelnen Werte im Durchschnitt vom Mittelwert abweichen. (Zur Verdeutlichung: Wenn alle Juroren dieselbe Punktzahl vergeben, ist die Standardabweichung 0. Angenommen, von vier Juroren geben zwei einem Beitrag zwei Punkte und zwei vier Punkte, ist der Mittelwert drei Punkte und die Standardabweichung davon 1 Punkt.)

Jury-Votum Aserbaidschan:

Juror A Juror B Juror C Juror D Juror E Ø σ
Russland 1 3 1 1 2 1 0,8
Weißrussland 3 2 3 4 1 2 1,0
Ungarn 2 1 4 3 4 3 1,2
Rumänien 5 6 2 2 3 4 1,6
Griechenland 4 4 6 5 7 5 1,2
Ukraine 6 5 5 7 6 6 0,7
Italien 8 7 9 6 5 7 1,4
Malta 7 9 7 8 9 8 0,9
Slowenien 11 8 8 10 8 9 1,3
Montenegro 9 11 10 9 10 10 0,7
Polen 10 10 12 11 12 11 0,9
Spanien 12 13 11 14 11 12 1,2
San Marino 13 14 13 12 13 13 0,6
Frankreich 15 12 15 13 14 14 1,2
Finnland 14 15 14 15 16 15 0,7
UK 16 17 16 16 15 16 0,6
Dänemark 17 16 18 17 17 17 0,6
Island 19 18 17 19 19 18 0,8
Niederlande 18 19 19 18 20 19 0,7
Norwegen 20 21 20 20 18 20 1,0
Schweiz 21 20 21 22 21 21 0,6
Deutschland 23 22 22 21 22 22 0,6
Schweden 22 23 24 23 24 23 0,7
Österreich 24 24 23 24 23 24 0,5
Armenien 25 25 25 25 25 25 0,0

Die größte Streuung ist bei Rumänien. Hier liegt das beste Einzelvotum um vier Plätze über dem schlechtesten. In allen anderen Fällen umfasst die Bandbreite höchstens drei Plätze, meistens liegen die Juroren nur ein oder zwei Plätze auseinander. Bei Armenien sind sie sich natürlich einig.

Ich halte es für extrem unwahrscheinlich, dass ein solches Abstimmungsergebnis zufällig zustande kommt, selbst wenn die Juroren ganz ähnliche Vorlieben haben. Es würde nicht nur bedeuten, dass sich die Juroren extrem einig sind in ihren Geschmäckern, sondern dass sie es schaffen, zwischen, sagen wir, Platz 13 und Platz 20 zu differenzieren. Norwegen auf Platz 20 fand niemand in der aserbaischanischen Jury besser als Platz 18 und niemand schlechter als Platz 21. San Marino auf Platz 13 fand niemand in der aserbaischanischen Jury besser als Platz 12 und niemand schlechter als Platz 14. Das lässt sich durch alle Plätze durchdeklinieren.

Die durchschnittliche Standardabweichung bei der Jury aus Aserbaidschan beträgt 0,9. Zum Vergleich: Bei der Jury aus Österreich beträgt sie 5,0; bei Großbritannien 4,7; bei Russland 3,1. Selbst bei der deutschen Jury, die sich ja, zum Beispiel was Platz 1 (Dänemark) und Platz 2 (Niederlande) angeht, frappierend einig war, beträgt die durchschnittliche Standardabweichung 2,8.

Wenn Jurys beim ESC nicht nur wegen erwiesener Dummheit, sondern auch wegen des Verdachts auf Absprachen und Manipulation disqualifiziert werden können — es gäbe im Jury-Urteil aus Aserbaidschan viele Anhaltspunkte dafür.

118 Replies to “Jury aus Aserbaidschan wird zweiter Sieger im Synchron-Abstimmen”

  1. Hallo Stefan,

    um zu zeigen das die „Rankings“ der Juroren ähnlich sind, würde ich die rankings mit Hilfe eines Korelationsmaßes vergleichen z.B. Kendall’s Tau. Das ist eigentlich der Standart bei solchen Sachen.

  2. Ich habe was Sascha @1 vorschlägt kurz gemacht. Es kommt bei allen Paaren ein Wert über 0.9 raus. Hier für interessierte die Definition: http://en.wikipedia.org/wiki/Kendall_tau_rank_correlation_coefficient
    1 heisst „the agreement between the two rankings is perfect“.
    Der http://de.wikipedia.org/wiki/P-Wert ist sehr klein (1*10^(-10) )
    Das sagt natürlich nichts darüber aus, wieso die Juroren so nahe beieinander sind. Aber Zufall kommt dafür nicht in Frage.

  3. Um Standart und Standard auseinanderzuhalten gibt es einen kleinen Trick:
    Standart ist die Kunst (art) des stehens (oder auch die römische Standarte).
    Standard ist richtig.

  4. @Michael: „Zufall kommt dafür nicht in Frage.“

    Das ist aber trivial, denn die Jury besteht eben nicht aus Zufallsgeneratoren und soll das ja auch nicht. Der P-Wert, den du hier beschreibst, gibt lediglich die Wahrscheinlichkeit an, dass die Ergebnisse der Jury so nah beieinander liegen würden, wenn alle Jurymitglieder den Acts vollkommen blind Rangnummern vergeben hätten. Wenn Jurys aber irgendeine Legitimation als Bewertungsinstanz haben sollen, sollten sie zumindest moderat korrelieren. Ein möglicher Wert, gegen den sich das Ergebnis in Aserbaidschan testen lassen könnte, wäre ein mittlerer Übereinstimmungskoeffizient der anderen Jurys.

  5. Sind die Jurys nicht eingeführt worden, damit eventuelles Nationengeschacher eingedämmt wird? Aber was weiß ich schon …

  6. @6 ja das ist klar.
    Bräuchte nur die Daten anderer Jurys. Aber schlussendlich sieht man das alles ja eh von „Auge“ schon. Andere Jurys dürften wohl irgendwo zwischen 0.3 und 0.6 zu liegen kommen schätze ich.

  7. Also der p-Wert ist hier völlig uninteressant, da er nur eine bedingte Wahrscheinlichkeit abbildet, die aber uninteressant ist. Kendall’s Tau hingegen finde ich sehr aussagekräftig, insbesondere, wie von #6 vorgeschlagen, wenn man diesen Parameter mit Kendall’s Tau der anderen Jurys vergleichen würde.

  8. Erstaunlich an Azerbaidschan ist dann aber auch, dass beim Televote Armenien ebenfalls auf Platz 25 landete. Ist da wirklich der Hass in der Bevölkerung auf den Nachbarn so groß oder hatte die Telefonnummer „zufällig“ irgendwelche Störungen? Da müsste man mal digame fragen…

    Dafür kam aber Conchita immerhin auf den dritten Platz bei den Zuschauern, wodurch man dann doch genötigt war insgesamt einen ganzen Punkt zu geben.

  9. @BlueKO: Nein, das ist nicht erstaunlich. Es ist fast völlig undenkbar, als Aseri für Armenien zu stimmen. Armenien hält immer noch Teile Armeniens besetzt. Beide Länder sind de facto im Krieg miteinander.

  10. Und trotzdem dürfte die Anruferzahl nicht null sein. Entweder durch Abweichler und aus welchen Gründen auch immer Aufmüpfige in der eigenen Bevölkerung, oder (und wichtiger) durch grenzüberschreitende Anrufe aus dem Nachbarland. Azeri TV sendet auch über Sat. Die Telefonnummern dürften also auch in Armenien bekannt sein.

  11. Also der Herr Niggemeier kann so gut schreiben, dass ich sogar Kram von ihm komplett lese, der mich eigentlich überhaupt nicht interessiert

  12. @BlueKO: Vor ein paar Jahren haben die Handvoll Leute, die aus Aserbaidschan für Armenien abgestimmt haben, hinterher Hausbesuche von irgendwelchen staatlichen Stellen bekommen.

    Und zwischen Armenien (bzw. dem von Armenien besetzten Teil Aserbaidschans) und Aserbaidschan gibt es große militärische Sperrgebiete. Ich kann mir gut vorstellen, dass es da keine Möglichkeit zu grenzüberschreitenden Anrufen gibt.

  13. #11 anguck…
    Schlimm…. ‚Armenien hält immer noch Teile Armeniens besetzt. ‚. (Fast als wenn ich das geschrireben hätte)

  14. könnten bitte alle Hellsons, die sich über die Sinnhaftigkeit von p-Werten auslassen, erst mal einen Grundlagenkurs in Statistik besuchen?

    Hier in Beispiel für Nicht-Statistiker:

    erster Fall:
    zwei Juroren rangreihen drei Sänger. Beide legen die Rangfolge A, B, C fest.

    zweiter Fall:
    fünf Juroren rangreihen 25 Sänger. Alle legen die gleiche Rangfolge A, B, C, …Y fest.

    Beides Mal dürfte ein Rangkorrelationskoeffizient von 1 rauskommen.
    Welches Ereignis halten Sie jedoch für „auffälliger“?
    Das zweite?

    Der p-Wert kann in dem Fall als Maß interpretiert werden, das diese „Auffälligkeit“ misst. D.h. er gibt einen Anhaltspunkt, wie wahrscheinlich es ist, dass dieses Ereignis nur zufällig entstanden ist.

  15. Ich bin dafür, dass man die Jury wieder abschafft. Da is mir glaub ich die Gefahr von nachbarschaftlicher Stimmvergabe lieber als der Verdacht, dass irgendein nationales Gremium durch Strohmänner Einfluss zu nehmen versuchen könnte. Unabhängig davon hätt ich gern mal gewusst, warum gerade „nationale Popgrößen“ (oder wie auch immer die Bezeichnung war) eine geeignete Fokusgruppe darstellen. Und was genau dann die Anforderung an diese Fokusgruppe eigentlich ist.

  16. Ich lasse mich jetzt nicht auf ein persönlich werdendes Streitgespräch darüber aus wer hier wie viel Statistik-Kurse besucht hat. Völlig überflüssig.

    Fakt ist dass der p-Wert hier kaum so zu gebrauchen ist wie von Halligalli beschrieben, weil wir nicht a priori festlegen können, an welcher Verteilung wir ihn messen müssen. Gemessen an einer völlig zufälligen Verteilung der Platzierung ist diese Rangfolge sicherlich sehr unwahrscheinlich – klar. Aber davon kann man wohl nicht ausgehen, da es ja auch zwischen den Ländern große Übereinstimmung in der Bewertung gab (bspw. der Abstand zwischen dem ersten und letzten Platz ist relativ groß). Das heißt also, es gab bestimmte Gründe (Qualität?) dass einzelne Kandidaten überzufällig häufig auf bestimmten Listenplätzen gelandet sind.

    Dies muss berücksichtigt werden wenn man p-Werte heranzieht, da der p-Wert die bedingte Wahrscheinlichkeit dafür ist, die vorliegenden Daten oder noch extremere Daten zu finden *unter der Annahme, dass die Nullhypothese wahr ist*. Aber was ist unsere Nullhypothese? Wohl kaum dass die Plätze zufällig vergeben werden. Wir wissen, dass die Jurymitglieder unabhängig voneinander raten müssten, das ist natürlich richtig. Aber natürlich ist die Wertung nicht unabhängig von der (wahrgenommenen) Performance der Kandidaten. Um das Rechenbeispiel von oben aufzugreifen:

    3 Rater wählen aus 3 Kandidaten den gleichen ersten Platz. Das ist, dieser Logik folgend dem p-Wert nach, recht wahrscheinlich.
    3 Rater wählen aus 1000 Kandidaten den gleichen ersten Platz. Das ist, dieser Logik folgend, sehr unwahrscheinlich – nicht aber wenn man weiß dass der erste Platz schlichtweg am besten gesungen hat und 999 total untalentiert waren (nach welchen Kriterien auch immer).

    Und diese Logik kann auf jeden Rang angewendet werden.

    Dass die Ähnlichkeit der Werte überzufällig ist sieht man, und das wird auch sehr anschaulich durch Koeffizienten wie Kendall’s Tau beschrieben. Der p-Wert hingegen ist hier sehr trügerisch und wenig informativ.

  17. Kein Ding. Und natürlich war der Hinweis völlig richtig dass ein hohes Kendall’s Tau unwahrscheinlicher wird, je mehr Datenpunkte (hier: Rangplätze) man hat. Aus dem Grund wäre es eben sinnvoll sich mal anzugucken wie die Verteilung von Kendall’s Tau bei allen anderen Teilnehmerländern aussieht, und wie die hoch die Wahrscheinlichkeit für eine Abweichung von dieser Verteilung ist. Natürlich ist das auch nur ein krudes Behelfsmaß mit Krücke da man nicht davon ausgehen kann, dass die Jurys von der gleichen Grundgesamtheit kommen. Hinweise wie der von Niggi, dass bspw. der Beitrag von Armenien in Aserbaidschan mit hoher Wahrscheinlichkeit auf dem letzten Platz landet, würden so nicht berücksichtigt. Welche landesspezifischen Eigenschaften zu einer extrem hohen allgemeinen Übereinstimmung zwischen Jury-Mitgliedern führen soll (abgesehen von diesen Einzelfällen) müsste dann aber erst mal jemand erklären.

  18. Am Ende ist es vielleicht auch eine Frage, die man eher psychologisch als statistisch beantworten müsste, mit einem Experiment: Man zeigt 5 Leuten mit dem gleichen musikalischen/politischen/kulturellen Hintergrund 25 Titel und bittet sie, die nach Geschmack zu sortieren. Wie groß ist die Wahrscheinlichkeit, dass sie es schaffen, sie so ähnlich zu sortieren, selbst wenn sie prinzipiell derselben Meinung sind.

    Oder eben, wie im Eintrag oben schon angedeutet: Man lässt einen Menschen an mehreren Tagen nacheinander die selben Titel nach Geschmack sortieren. Wie groß ist die Wahrscheinlichkeit, dass seine eigenen Wertungen einander so sehr ähneln wie es die verschiedenen Juroren hier untereinander tun.

  19. Oder andersherum durch eine Datensimulation: Man nimmt den Übereinstimmungs-Mittelwert aller Teilnehmerländer und überprüft, wieviele Stichproben von 5 Leuten man ziehen müsste um eine Gruppe zu finden die eine so hohe Übereinstimmung hat wie die Jury von Aserbaidschan. Ohne diese Daten mehr als überflogen zu haben würde ich vermuten dass wir da in die Millionen oder sogar Milliarden gehen müssten.

  20. Meine Statistikvorlesungen liegen zwar lange zurück, aber ich bin mir dennoch mit einer Wahrscheinlichkeit von mindestens 97% sicher, dass sich aus der Auswertung eines einzelnen Ereignisses keiner der hier vorgetragenen Rückschlüsse ergeben kann.

    Sicher sind ähnliche (oder gar identische) Wertungen aller 5 Juroren bei globaler Betrachtung unwahrscheinlicher als mehr oder minder stark abweichende Wertungen – doch für sich genommen und losgelöst einzeln betrachtet kann ein solches Ergebnis durchaus auch ohne Manipulation auftreten.

    Erinnert mich an die Diskussionen bei den Lottozahlen – auch da neigt man dazu, eine Folge: „1, 2, 3, 4, 5, 6“ als außergewöhnlich (manipuliert?) zu betrachten, dennoch hat diese Folge exakt die selbe Wahrscheinlichkeit wir z.B. die Folge: „2,4,17,36,37,48“. Die Außergewöhnlichkeit ergibt sich lediglich, weil der Betrachter in einem speziellen Ergebnis eine Regelmäßigkeit erkennen kann (bzw. zu erkennen glaubt).

    Anders ausgedrückt: Auch wenn man 5 Affen hingesetzt hätte und diese durch affiges Klicken die Wertung erzeugt hätten, hätte dabei durchaus auch der Fall auftreten können, dass alle 5 Affen gleich werten – ohne Absprache, ohne Manipulation, einfach nur zufällig.

    Erst wenn die 5 Affen in ausreichender Menge mehrfach ein solches oder ein ähnliches Ergebnis erzielen und sich daraus eine deutliche Abweichung vom Erwartungswert ergibt, könnte man allein auf Basis dieser Betrachtung eine Manipulation vermuten.

    Bei der Jurywertung kommt noch erschwerend hinzu, dass eben nicht zufällig abgestimmt wird, sondern dass die eigene Meinung ins Spiel kommt. Nun kann man (wie Herr Niggemeier) vermuten, dass durch eigene Meinung zwingend Abweichungen entstehen müssten, man könnte aber mit demselben Recht vermuten, dass genau dadurch die Wahrscheinlichkeit einer Übereinstimmung steigt (je nach Homogenität der Jury).

    Fakt ist, dass die Jury im Gegensatz zu den Affen nicht völlig zufällig entscheidet und mithin Abweichungen von völlig zufälligen Ergebnissen (bzw. den damit verbundenen Erwartungswerten, denn wie gesagt, es kann immer nur um die Betrachtung mehrerer Ereignisse gehen) durchaus zu erwarten sind.

    Vergleiche der Jurys untereinander erscheinen mir auch zweifelhaft, da dazu geklärt sein müsste, dass alle Jurys annähernd gleichwertig aufgebaut sind (z.B. bezüglich Altersverteilung, Musikgruppenzugehörigkeit etc.). Habe ich aus einem Land eine eher homogene Jury, werden deren Ergebnisse sicher eher beieinanderliegen als bei einem Land mit einer nicht so homogenen Jury.

    Allein, dass das Ergebnis für Armenien als „korrekt“ betrachtet wird, zeigt, wie schnell man sich da verrennen kann. Denn dieses Ergebnis würde (annähernd ähnlich) wahrscheinlich auch auftreten, wenn man 100 Jurywertungen in Folge betrachten würde (siehe dazu auch #14). Der erste Schluss wäre dann also: Manipulation, Absprache, SKANDAL!

    Erst die Betrachtung der äußeren Umstände würde dann erklären, woran es nun wirklich gelegen hat. Und genauso ist es umgekehrt: Wenn man den Juroren nachweisen kann, dass sie sich untereinander ausgetauscht haben (aufgrund von Kontrollen, bei denen sie beim Austauschen erwischt wurden), dann kann man ihnen die Absprache vorwerfen. Aufgrund eines einzelnen Ergebnisses kann man es – bei aller Statistik – nicht.

    Und auch ohne Statistik tut man sich schwer: Da könnte man nämlich auch argumentieren, dass, wenn sich die Juroren wirklich ausgetauscht hätten, sie sich doch bestimmt mehr Mühe gegeben hätten, diesen Austausch zu verschleiern. Und das gewünschte kumulierte Ergebnis hätten sie auch ohne sehr ähnliche Einzelergebnisse bekommen können. Da müsste man dann schon unterstellen, dass diese Menschen dumm sind, um die eigene These aufrecht zu erhalten. Und es würde sich die Frage stellen, wie man diese Dummheit belegen könnte.

    Insgesamt für mich ein netter Artikel – aber wie Herr Niggemeier selbst schreibt, ist die einzige Begründung die, dass er sich das Ganze schwer vorstellen kann. Reicht das aus?

  21. Oh, da kam ja noch mehr, während ich schrieb.

    Ihre Aussage aus # 22, Herr Niggemeier, zeigt glaube ich recht gut die Verstehens-Problematik: Die Wahrscheinlichkeit einer Ähnlichkeit ist, über die Gesamtheit betrachtet, tatsächlich deutlich geringer als die einer Verschiedenheit – einfach aufgrund dessen, dass es viel mehr verschiedene als ähnliche Paare, Trupel etc. gibt.

    Das ändert aber rein gar nichts an der Tatsache, dass jedes einzelne Paar, Trupel etc. die selbe Wahrscheinlichkeit hat, Und wenn Sie nur ein Ereignis betrachten, können Sie daraus nicht ableiten, dass es abwegig ist. Ein halbwegs begründeter Verdacht auf Abwegigkeit bestünde erst dann, wenn eine bestimmte Ergebnisart bei vielen Ereignissen hintereinander überproportional oft auftritt.

    Und auch dann wären erst noch die ganzen Unzufälligkeiten herauszurechnen (Juryzusammensetzung, Qualitätsunterschiede der Beiträge etc.), um sicherzustellen, dass die Abwegigkeit nicht auch durch äußere Bedingungen zu begünden wäre.

  22. Hab grad mal reingeguckt. Ist ja ganz lustig. Im Mittel ist die Übereinstimmung zwischen Juroren wie man es erwarten würde, deutlich vorhanden, aber eher moderat (~ Mean Kendall’s Tau = .5). Natürlich gibt es nach oben und unten Abweichungen, in Österreich beispielsweise scheint man sich nur wenig einig zu sein (Mean Kendall’s Tau = .21). Das lag vor allem an Jury-Mitglied A, welches im Mittel eine Übereinstimmung von .007 mit den anderen hatte.

    Spitzenreiter ist Aserbaidschan (Mean Kendall’s Tau = .9), allerdings dicht gefolgt von Montenegro (Mean Kendall’s Tau = .88).

  23. @Hellson: Haben Sie die Möglichkeit, festzustellen, ob es juryübergreifend Juroren gibt, deren Bewertungen einander noch ähnlicher sind als die der aserbaidschanischen Jury (geht in Richtung Ihrer #23)?

    Ausgehend von der Arbeitsthese, dass es „extrem unwahrscheinlich [ist], dass fünf Juroren sämtliche 25 Plätze mit nur minimalsten Abweichungen gleich sortieren“ würden sich dann noch ganz andere Abgründe ergeben – dann wäre nämlich zu unterstellen, dass versucht wurde, mehrere Jurys gleichzuschalten ;-).

  24. Unabhängig von Fragen zur Statistik, die ich gerne den anwesenden Profis überlasse, stellt sich mir die Frage, ob es wirklich ein realistisches Szenario gibt, dass jemand in Aserbaidschan Geld dafür bezahlt, dass die Jury in den mittleren Plätzen mehr oder weniger gleich abstimmt. Ich meine, vielleicht will jemand, dass x gewinnt und dass y verliert.. aber interessiert sich jemand dafür, dass z im unteren Bereich des oberen Drittels landen soll und das dann auch noch durch komplizierte Absprache (ähnliche aber nicht zu ähnliche Abstimmung) versucht zu erreichen? Das halte ich für unwahrscheinlicher, als dass es bei einer Vielzahl von Jurys eben auch extreme Ausreißer nach oben und nach unten gibt, was die Einheitlichkeit der Abstimmung angeht.

  25. @Lutz (#32): Immer unterstellt, es gäbe etwas zu unterstellen: Vielleicht hat ja jemand gedacht, wenn wir nur die oberen Plätze ähnlich bewerten, das Mittelfeld und die unteren aber verschieden, dann fällt das bestimmt jemandem als manipuliert auf, weil er/sie dachte, die Wahrscheinlichkeit, dass fünf Juroren die obersten 10 Plätze mit nur minimalsten Abweichungen gleich sortieren, die restlichen aber völlig verschieden, ist bestimmt noch geringer als die, alle 25 Plätze mit nur minimalsten Abweichungen gleich zu sortieren. Oder so.

  26. @32 Das ist unwahrscheinlich, wenn man es so formuliert, dass die Mittelpositionen extra abgestimmt wurden. Es wird aber ziemlich plausibel, wenn man sich vorstellt, dass man der Jury schlicht eine komplette Liste reingereicht und gesagt hat: variiert bitte ein wenig.

  27. @Klammerbeutel
    Kann man natürlich. Hab das einfach mal gerade testweise gemacht mit Jury-Mitgliedern von 10 Ländern (Armenien, Azerbaijan, Belarus, Germany, Iceland, Latvia, Montenegro, Portugal, Russia, The Netherlands). Dabei kam aber nichts dergleichen heraus. Werde das vllt. auch nochmal mit dem kompletten Datensatz machen wenn ich dafür etwas Zeit habe.

  28. @Hellson (#35): Danke! Ich glaube zwar auch nicht, dass uns der Zufall eine solche Konstellation beschert, aber falls doch, wäre es eine ausgezeichnete Basis für eine weitere Verschwörungstheorie. Bitte lassen Sie mich wissen, falls Sie etwas herausbekommen.

  29. @33: Mit anderen Worten: Wird offensichtlich manipuliert, ist das der Beweis. Und wenn nicht, dann erst Recht!

  30. Vorweg: der Beitrag ist natürlich gut.
    Aber wirklich cool ist der obernerdige Mathematiker-Streit um Statistik und Vorlesungsbesuche … sage ich (5 Punkte in der Mathe-Abiprüfung, und das auch nur, weil es das mündliche war und zwei bis drei Punkte durch Anwesenheit und Geschwafel zusammenzubekommen waren … )

  31. Ihr seid so geil! Artikel und Diskussion sind mit Abstand das Nerdigste, was ich den letzten Monaten gelesen hab. Müsste man glatt mal in Szene setzen. Nur wer zum Teufel ist Aser Bai Dschan?

  32. Dieses Abstimmungsverhalten der Jury stellt in der Tat die Sinnhaftigkeit des Einbringens einer zusätzlichen „Profi“-Meinung zu 50% des Gesamtergebnisses in Frage. Dem Organ „Jury“ schadet dies enorm, wenn der Veranstalter die Zahlen ähnlich prüfen sollte wie hier im Blog geschehen.

    PS:
    Im letzten Halbsatz des Artikels hat sich ein überzähliges „es“ eingeschlichen.

  33. @oasenhoheit (#42): Grundsätzlich lautete die Vorgabe für die Juryabstimmung wohl (soweit ich es verstanden habe), dass keine Absprachen und Manipulationen erfolgen dürfen. Die Vorgabe war nicht, dass die Ergebnisse der einzelnen Juroren eine gewisse Mindestabweichung voneinander haben müssen (was auch insofern unsinnig wäre, dass dazu eine Absprache geradezu notwendig wäre).

    Daher muss man damit leben (selbst wenn es schwer vorstellbar ist), dass auch Ergebnisse auftreten können, die dicht beieinander liegen. Wenn Sie nun das „Abstimmungsverhalten der Jury“ (Aserbaidschans?) als Grund nehmen, „die Sinnhaftigkeit des Einbringens einer zusätzlichen „Profi“-Meinung“ in Frage zu stellen, passt das meines Erachtens nicht.

    Denn dann müssten Sie, um eine Sinnhaftigkeit zu bekommen, eben genau das erzwingen, was ich im ersten Absatz bereits erläutert habe: Eine notwendige Mindestabweichung der einzelnen Bewertungen einer Jury – was, wie ebenda erläutert, unsinnig wäre.

    Ähnliches gilt für die Prüfung der Zahlen hier im Blog: Es ergibt keinen Sinn, aus einem Einzelergebnis die Schlussfolgerung der Manipulation herzuleiten, da dafür schlichtweg kein belastbares (und belastendes) „Ausgangsmaterial“ vorliegt (siehe meine obigen Kommentare #24 und #25).

    Grundsätzlich stimme ich Ihnen allerdings zu, dass die Verquickung von Jury-Wertung und Zuschauer-Wertung ompimiert werden könnte. Eventuell sollte man darüber nachdenken, dass man der Zuschauerwertung eine gewisse Priorität einräumt – etwa nach dem Motto: Die sich aus der Zuschauerwertung ergebende Platzierung kann durch die Jury-Wertung nicht um mehr als 4 Plätze verschoben werden.

    P.S.:
    Ein überzähliges „es“ im letzten Halbsatz des Artikels habe ich nicht gefunden – welches genau meinen Sie?

  34. @Klammerbeutel: Das überzählige „es“ habe ich nach dem netten Hinweis gelöscht ;-)

    Und ich finde, 25 Abstimmungsvorgänge sind kein Einzelergebnis, sondern belastbares Material. Kein Beweis, aber ein starkes Indiz.

  35. Natürlich ist eine statistische Wahrscheinlichkeit kein Beweis im Sinne eines Fingerabdrucks. Aber das hier ist auch keine Gerichtsverhandlung. Mit dem Argument des (un)glücklichen Zufalls hätte man dann wohl auch nicht Georgien ausschließen dürfen – kann ja auch Zufall sein dass alle die gleiche Rangordnung haben.

    Um die generelle Nerdigkeit dieses Threads aber nicht abbrechen zu lassen habe ich noch ein wenig über die bisher (auch von mir) vorgetragenen statistischen Maße nachgedacht. Im Prinzip ist Kendall’s Tau nur ein Krückenmaß weil wir es hier nicht, wie sonst dafür üblich, mit 2 Ratern zu tun haben, sondern mit 5. Das multiple Testen (es gibt ja 10 Werte pro Jury, A-B, A-C, A-D, A-E, B-C, B-D, B-E, C-D, C-E, D-E) mit anschließender Mittelwertsbildung führt zu einer ziemlichen Verzerrung. Man müsste wohl eher die Intraklassen-Korrelation betrachten. Vielleicht bau ich damit mal einen schönen Graphen damit es hier weniger formelhaft wird und dafür schön bunt :)

  36. Gehören diese Mauscheleien und die jährlichen Verdächtigungen der Absprache nicht auch ein wenig zur ESC-Folklore dazu? Über die Dämlichkeit der georgischen Jury kann ich eigentlich nur schmunzeln. Die Aseris waren etwas schlauer, wenn auch nicht viel. Bei vierzig Nationen sind meinetwegen zwei oder drei schwarze Schafe dabei, ein bischen Schwund ist immer. Das richtige Lied hat trotzdem gewonnen.
    Man kann jetzt dutzende Vorschläge machen um die Abstimmung zu modifizieren, wer Mauscheln will der schafft das auch, irgendwie.
    Ich sehe z.b. nicht ein, warum man alle fünfundzwanzig Titel platzieren muss, warum nicht nur die Punkteplätze? Es gibt wie gesagt, unendliche Möglichkeiten.
    Ich nehme die Veranstaltung nicht so ernst und kann mit allen Begleiterscheinungen gut leben!

  37. @Stefan Niggemeier (#44): Es handelt sich dabei aber nicht um 25 Abstimmungsvorgänge einer einzelnen Jury (das wäre dann auch in meinen Augen belastbar und belastend), sondern um die von 25 verschiedenen Jurys. Und da wäre dann meines Erachtens immer noch zu belegen, dass alle Jurys in ihrer Zusammensetzung so gewählt wurden, dass ihr jeweiliges Abstimmungsverhalten zwingend ähnlich dem der anderen sein muss.

    Kann dies nicht belegt werden, mag wieder Lotto als Gegenbeispiel dienen: Wenn Sie 25 voneinander unabhängige Ziehungen betrachten, von denen 24 „völlig durcheinander“ waren und eine z.B. so aussah: „1,2,4,8,16,32“, können Sie natürlich behaupten, dass diese Reihe der Zweierpotenzen ein starkes Indiz für eine Manipulation ist, weil alles andere schwer vorstellbar ist – aber es wäre unsinnig, Ihren Verdacht damit zu begründen, dass die anderen 24 doch „völlig durcheinander“ waren, da schlichtweg kein Zusammenhang besteht.

    Insofern für mich maximal ein Ansatzpunkt, mal bei der NSA anzufragen, ob dort weitere Informationen über eine ESC-bezogene Kommunikation zwischen den verdächtigten Juroren vorliegt, aber definitiv kein starkes Indiz.

    Zwischen-P.es.:
    Hätte es das „es“ nicht verdient, dass es transparent (im Sinne von „nachvollziehbar“, nicht im Sinne von „unsichtbar“) entsorgt wird? Nicht dass es hier nachher noch Manipulationsvermutungen gibt ;-).

    @Hellson (#45): Einen Ausschluss von Georgien alleine auf der Basis, dass alle Juroren bei dieser einen Bewertung für alle Teilnehmer gleich abgestimmt haben, würde ich ebenfalls für unbegründet halten. Insofern hoffe ich, dass es da noch andere Gründe gab (auch hier wäre wieder das Gegenargument, dass wohl niemand soo blöd wäre, bei einer gewollten Manipulation so bescheuert vorzugehen, wogegen natürlich wieder das Gegengegenargument gezogen würde, dass genau aus diesem Grund dieses Vorgehen gewählt wurde, um die Manipulation zu verschleiern).

    Wie auch immer, der weiterhin unwiderlegte (wenn auch widersprochene) Fakt bleibt, dass das Einzelergebnis keinen der hier gezogenen Rückschlüsse erlaubt – da helfen alle Taue der Welt nichts ;-). Aber schön bunt fände ich gut – falls der Hausherr einfachen Komentatoren hier bunt erlaubt.

    Ach ja, falls sich jemand gewundert hat (#43):
    ompimieren

    Wortart: schwaches Verb
    Gebrauch: selten

    Bedeutungen
    verbessern, vervollkommnen – allerdings in dem Bewusstsein, dass auch nach der Ompimierung weiterhin angezweifelt werden wird, ob tatsächlich eine Verbesserung vorliegt bzw. sogar behauptet werden wird, dass das Gegenteil eingetreten ist.

  38. Aber es ist doch nur eine Show mit langweiliger Popmusik!

    Warum sollte man sowas denn politisieren, geschweige denn Bestechungsgelder und ähnliches dafür rausschmeißen?
    Genausogut könnte man das Musikantenstadl politisieren.

    Erklärt mir mal bitte jemand die politische Relevanz?

  39. @Micha (#48): Erklären Sie vorweg im Gegenzug die Notwendigkeit einer politischen Relevanz?

    Soweit ich es sehe, geht es hier lediglich darum, dass bei einer Show mit [Adjektiv Ihres Vertrauens] [Musikrichtung mit mindestens 3 Buchstaben]-Musik eine Abstimmung erfolgt ist, für die vorher Regeln aufgestellt wurden.

    Nun wird vermutet. dass gegen diese Regeln verstoßen wurde. Und wer jemals mit seinen unmündigen Kindern Memory gespielt und sich darüber geärgert hat, dass diese kleinen Kackbratzen immer gewinnen, weiß, welch elementaren Stellenwert Regeln haben.

    Aktuell geht es in diesem Zusammenhang meines Erachtens eher um statistische und logische Relevanzen – Politik ist hier nur ganz am Rande Thema, weswegen eine entsprechende Relevanz meiner Meinung nach irrelevant ist.

  40. Habe mir gerade nochmal von Google die dänische Meldung zu Georgien übersetzen lassen:
    Es stellte sich heraus, dass alle georgischen Juroren hatte genau die gleiche Anzahl von Stimmen für die Top-8 Etwas, das nach der EBU (European Broadcasting Union), die Grand Prix steht, ist statistisch unmöglich gegeben“.

    Wenn das wahr ist (soweit ich dänisch verstehen kann, scheint die Kernthese der statistischen Unmöglichkeit nicht der Übersetzung geschuldet zu sein), hat man es anscheinend auch bei der EBU nicht so mit Statistik.

    Zwar wäre ggf. noch zu klären, was „statistisch unmöglich“ im Gegensatz zu einfach nur „unmöglich“ bedeutet, aber sogar BILD-Leser sollten in der Lage sein, zu erkennen, dass etwas Unmögliches nun einfach mal unmöglich ist. Tritt es trotzdem ein, war es eben nicht unmöglich (oder Herr Wagner hat seine Meinung geändert, aber das ist ein völlig anderes Thema).

    Auch hier trifft die Statistik keinerlei Schuld – es ist die Interpretation, die unser Mitleid verdient.

    @Stefan Niggemeier: Wissen Sie genaueres über die Disqualifizierung? War die Übereinstimmung der Ergebnisse für die Plätze 1 bis 8 tatsächlich das einzige Argument? Und wurde wirklich behauptet, das wäre „statistisch unmöglich“?

  41. Auch bei den Schweden wird Sietse Bakker bzw. die EBU mit der „statistischen Unmöglichkeit“ zitiert:

    Sie haben sich nicht an die Regeln hört. Es ist statistisch unmöglich, dass alle hatten die gleichen Top-Acht, also die Stimmen annulliert, sagte Sietse Bakker bei der EBU.“

    Falls das wirklich wahr ist, wäre definitiv das der Skandal. Eine Annullierung lediglich basierend darauf, dass die Wertung angeblich „statistisch unmöglich“ ist, wäre genau das selbe, was das Gefasel von der „statistischen Unmöglichkeit“ ist: Statistisch unmöglich Absoluter Bullshit.

  42. Statistisch unmöglich ist das natürlich nicht, das ist in der Tat Unsinn. In meinen Augen aber durchaus belastend genug um eine Wertung ungültig zu machen.

  43. @Hellson (#52): Die Belastung sehe ich wie geschrieben nicht (davon ausgehend, dass die handelnden Personen wussten, dass ihr Abstimmungsverhalten nachvollziehbar ist und dass sie daher bei einer absichtlichen Manipulation subtiler vorgegangen wären). Von dieser Ansicht abbringen könnte mich eventuell ein Beleg der mangelnden intellektuellen Fähigkeiten der Juroren oder der Nachweis des Unwissens über die Nachvollziehbarkeit. Selbst da wäre aber meines Erachtens noch das „Cui bono“ zu klären, um lediglich aus diesen dafür grundsätzlich ungeeigneten Indizien eine strafbewehrte Beschuldigung abzuleiten.

    Ändert aber nichts daran, dass die (anscheinend) vorgebrachte Begründung der „statistischen Unmöglichkeit“ zwar griffig und wortgewaltig ist, aber nichtsdestotrotz unsinnig. Da gälte dann eine ähnliche Vermutung wie bei den Juroren: Falls man bei der EBU weiß, dass die „statistische Unmöglichkeit“ Bullshit ist, wieso verwendet man sie dann (angeblich) als Argument? Und falls man es nicht weiß – hat man dann vielleicht nur deshalb die Stimmen annulliert, weil man zu dumm war, die Unsinnigkeit des Arguments zu erkennen?

  44. Grüße aus Georgien. Bei uns ist die Manipulationsgeschichte der Georgier ebenso ein heißes Thema, leider ist auch vor Ort praktisch nichts herauszubekommen.

    Die Frage ist, was Georgien für eine Motivation hätte, zu manipulieren?
    – Konkurrenten ausschalten? Georgien war gar nicht mehr im Finale.
    – Einem anderen Land eins auswischen? Georgien hat mit allen Nachbarländern ein gutes Verhältnis. Sogar mit Russland bemüht man sich derzeit halbwegs. Unwahrscheinlich, die langsamen Verbesserungen im Verhältnis mit Russland und nicht zuletzt auch die EU-Annäherung wegen einem Songcontest aufs Spiel zu setzen!
    – Conchita Wurst als Siegerin verhindern? Im Semifinale galt in Georgien nur die Jurywertung, weil es zu wenige Televotinganrufer gab. Sie erhielt aus Georgien dennoch 10 Punkte.

    Eine Verschwörungstheorie wäre (derzeit nichts mehr als eine krude Vermutung):
    – Im Semifinale hat die Jury korrekt bewertet.
    – Irgendeine einflussreiche Organisation (Kirche?) hat sich darüber aufgeregt und daraufhin den Sender und / oder die Juroren unter Druck gesetzt. Man muss wissen, dass Teile der orthodoxen Kirche hierzulande auf alle von der Norm abweichenden sexuellen Orientierungen sehr böse sind, sehr radikal wettern und auch handgreiflich werden können. Das Televoting hat aber gezeigt, dass es glücklicherweise aber nur eine sehr sehr kleine, wenn auch einflussreiche, Minderheit ist.
    – Die Juroren mussten sich beugen.
    – Sie wollten aber nicht betrügen und haben sich dennoch gewehrt.

    Was macht man dann?
    – Man macht es so offensichtlich, dass es auffliegt.
    – Vielleicht gibt man noch einen dezenten Hinweis an die richtigen Stellen, damit es wirklich jemand mitbekommt.

    Im Hinblick darauf glaube ich daher, dass die EBU deutlich mehr weiß, als sie sagt. Wäre nett, herauszufunden, für wen die Juroren im Finale nun wirklich gestimmt haben. Dann könnte man diese krause Theorie durchaus etwas untermauern oder komplett verwerfen.

    Würde mich interessieren, was ihr zu meiner Theorie meint.

  45. @ Klammerbeutel, 43

    Ich habe ein Gedicht geschrieben:

    Über allen Gipfeln
    Ist Ruh,
    In allen Wipfeln
    Spürest du
    Kaum einen Hauch;
    Die Vögelein schweigen im Walde.
    Warte nur, balde
    Ruhest du auch.

    Wie finden Sie es? Es ist leider identisch mit einem der bekannteren Werke eines anderen, auch recht talentierten, Dichters. Ich vertraue aber darauf, dass Sie „aus einem Einzelergebnis nicht die Schlussfolgerung der Manipulation herleiten, da dafür schlichtweg kein belastbares (und belastendes) Ausgangsmaterial vorliegt.“

  46. Das ist eine interessante Diskussion. Die Aufgabe der Jury ist es, die Qualität der Gesangsbeiträge zu bewerten. Die Ratings lassen sich doch vermutlich aufspalten in einen wahren Wert (= Qualität der Showeinlage) und einen Fehlerwert (persönliche Vorlieben der Juristen oder Zufallsschwankungen, die nichts mit der Qualität eines Songs zu tun haben). Eine hohe Übereinstimmung zwischen den Urteilen würde daher klassisch eher positiv interpretiert werden, nämlich dahingehend, dass die Beurteilung weniger von persönlichen Eigenheiten der Beurteiler oder von Zufallsschwankungen beeinflusst wird, und dafür mehr von der tatsächlichen Qualität des Liedchens. Die Daten sind also allerhöchstens zu gut, um wahr zu sein, aber das statistisch zu belegen ist ein schwieriges Unterfangen. Man könnte als Schätzung für die Qualität des Songs die Gesamtwertung heranziehen und sich dann die Abweichung der individuellen Werte der Jury von Aserbaidschan von dieser Gesamtwertung anschauen. Falls die Jury von Aserbaidschan besonders wenig von der Gesamtwertung abweicht, könnte man annehmen, dass sie einfach besonders gut war. Wenn sie stärker als andere Juries von der Gesamtwertung abweicht, könnte man eher auf Manipulation tippen. Aber die Jury könnte immer noch homogener sein als andere Juries und beispielsweise landestypischen Geschmack abbilden, was immer noch ihrer Aufgabe entspräche. Vielleicht könnte man sich hier die Abweichung von der Jury von Aserbaidschan zu dem des Telefonvotings anschauen und schauen, ob die Jury stärker oder weniger stark vom Telefonvoting abweicht als in anderen Ländern. Weicht sie weniger stark ab, entspricht das Urteil vielleicht einfach nur besonders gut dem jeweiligen landestypischen Geschmack für Bombastpop. Weicht sie stärker ab, dann hat die Jury irgendetwas anderes gemacht. Betrug lässt sich dadurch aber schwerlich nachweisen. Zudem stellt sich die Frage, warum man das Votingsystem überhaupt so gestaltet, dass die Jurymitglieder sich gegenseitig beeinflussen und absprechen können, wenn man dann hinterher Beweise sucht, mit denen man das Juryurteil anfechten kann. Die Jury ist doch gerade dazu da, eine bestimmte, vom Massengeschmack abweichende, Meinung zu vertreten. Wenn nun Aserbaidschan in einer Expertendiskussion Argumente für und gegen bestimmte Gymnastikeinlagen gewogen hat und dann zu einem Konsens gekommen ist, wäre das so verwerflich? Oder stecken dahinter dunkle Mächte? Was würde eigentlich passieren, wenn man das Urteil aus Aserbaidschan aus der Gesamtwertung nimmt? Vermutlich nichts. Egal. Es geht ja ums Prinzip.

    Zudem weiß ich aus meinem eigenen Bekanntenkreis, dass sich deutsche Telefonvoter durchaus gegenseitig abgesprochen (!) haben und es sich keinesfalls um unabhängige Urteile handelt. Teilweise wurde sogar doppelt (!) abgestimmt. Hier liegt der eigentliche SKANDAL!

  47. @Tom (#55): Was war die Aufgabenstellung? Welche Regeln gab es? Wie waren die Rahmenbedingungen bei der Umsetzung? Welche Vermutung leiten Sie daraus ab, dass Sie ein Gedicht geschrieben haben, das einem anderen Gedicht gleicht?

    Sobald Sie diese Fragen zufriedenstellend beantworten können und zusätzlich noch in der Lage sind nachvollziehbar darzustellen, wie das Ganze in allen relevanten Punkten im Zusammenhang mit dem hier diskutierten steht, ergibt sich sicher auch, warum Sie das hier geschrieben haben. Aber bedenken Sie: „Irgendwas mit Statistik“ ist nicht die richtige Antwort.

    Ansonsten zu Ihrer Frage: Es reimt sich irgendwie – ich mag aber mehr die Gedichte von Heinz Erhardt. Sollten Sie noch weitere Fragen haben, zögern Sie nicht, diese zu stellen – ich weiß allerdings nicht, ob Herr Niggemeier hier Diskussionen weit ab vom Thema gestattet, insofern lassen Sie ggf. Vorsicht walten. Sie wissen ja: Vorsicht ist, wenn man bedenkt, was noch so alles drannen hängt ;-).

  48. @ESCTBS (#54): Ihre „Verschwörungstheorie“ wäre schon mal ein Ansatz, um in die Richtung des „Cui bono“ zu ermitteln. Um es noch etwas weiterzutreiben: Eventuell ergeben ja die Anfangsbuchstaben der Länder in der von der Jury festgelegten Reihenfolge ein Wort, das uns weiterhelfen würde?

    Da wäre nun der Hausherr gefragt, mal investigativ zu ermitteln, wieso die einzige bisher vorliegende Begründung für die Annullierung der georgischen Jury-Wertung eine nachvollziehbar unsinnige ist, ob es noch andere Begründungen gibt und wie nun tatsächlich gewertet wurde.

  49. @Klammerbeutel
    Müssten Sie nicht langsam mal wieder jemanden pudern? (Und ich meine das im eigentlichen Sinne des Wortes!)

  50. @58: Die aneinander gereihten Buchstaben ergeben bestimmt eine Übereinstimmung mit irgendeiner Stelle im auf Platz 1 gesetzten Titel, wenn man sich den rückwärts anhört.

  51. Methodisch mehr als problematisch ist grundsätzlich die Vorgehensweise, aufgrund von Auffälligkeiten in einem großen Pool von Daten eine Hypothese zu formulieren, und diese dann anhand des gleichen Datesatzes mit statistischen Testverfahrens belegen zu wollen, wie dies insbesondere einige Kommentatoren jetzt versuchen. Das ist so etwas wie ein absoluter Anfängerfehler. Die Hypothese muss formuliert sein, bevor die zu ihrer Überprüfung herangezogenen Daten erhoben bzw. betrachtet werden, alles andere führt zu zahlosen „statistisch signifikanten“ Auffälligkeiten, die in Wahrheit rein zufällig sind.

  52. Ich finde es eher problematisch mit was für einem Halbwissen hier Leute meinen andere als „Anfänger“ bezeichnen zu müssen. Natürlich ist es der Idealfall wenn die Hypothese aus der Theorie generiert wird und Daten zum Testen dieser Hypothesen erhoben werden. Das ist aber in diesem Fall nicht möglich, da es sich um reale, angefallene Daten handelt die nicht zu dem Zweck erhoben wurden zu testen, ob Jurymitglieder verschiedener Länder verschieden kohärent abstimmen. Der ESC ist ja kein wissenschaftliches Experiment.
    Es ist die Beobachtung eines realen Ereignisses, und über Auffälligkeiten in dieser Beobachtung kann man natürlich reden. Sicherlich ist es richtig, dass diese Vorgehensweise dazu verleitet, nach Auffälligkeiten zu suchen, und möglicherweise auch welche (statistisch) zu finden, wo keine sind. Dennoch sind die Daten und ihre Auffälligkeiten real, auch wenn apriori keine Vermutungen darüber angestellt wurden. Was sie bedeuten und welche Konsequenzen daraus zu ziehen sind, ist eine andere Sache.

  53. @Hellson:
    „..Der ESC ist ja kein wissenschaftliches Experiment…“

    Wer kann das wissen? Und #57 ist hoffentlich Satire.

  54. @polyphem (#66): Als Antwort auf #55 unterliegt #57 den selben Kritierien bezüglich Ernsthaftigkeit/Satire wie #55. Ich muss allerdings gestehen, dass ich mir bei #55 immer noch nicht ganz sicher bin, ob dass nicht doch ernst gemeint war.

  55. Irgendwie ist die Frage, warum es diese gleichmäßige Verteilung aller Plätze gab, immer noch ungeklärt. Es wäre ja auch überhaupt kein Problem gewesen, in Absprache die gesamte Reihenfolge zu erstellen und dann die einzelnen Juror-Reihenfolgen darauf abzustimmen, aber so, daß es deutliche Unterschiede zwischen den Juroren gibt (außer natürlich ganz vorn und ganz hinten).

    Kommen wir noch einmal zum „cui bono“, wem nützt es. Sollte das Abstimmungsverhalten der Juries dazu führen, daß Georgien oder vielleicht auch Aserbaidschan vom ESC ausgeschlossen wird, könnte ja genau das die Absicht der Juroren gewesen sein. Es handelt sich ja wahrscheinlich um lokale Musiker oder Produzenten, denen die internationale Konkurrenz durchaus lästig sein könnte (zumal wenn z. B. nicht sie selbst, sondern schwedische Komponisten die Titel für Aserbaidschan schreiben, sie also von einem internationalen Erfolg auch nicht profitieren). Oder jemand der Verantwortlichen fände es vorteilhaft, wenn die Juries komplett abgeschafft würden und liefert auf diese Art Argumente dafür …

  56. Wow, dieser Kommentarthread hat meinen Sonntag aber so was von gerettet. Danke Leute. So lustig. Und vor allem: Danke Stefan.

  57. Natürlich ist eine statistische Wahrscheinlichkeit kein Beweis im Sinne eines Fingerabdrucks.

    Doch, denn der Fingerabdruck ist auch nichts anderes, als eine wahrscheinliche Übereinstimmung. Es gibt keine Instanz die Einzigartigkeit von Fingerabdrücken garantiert oder auch nur beabsichtigt.

  58. @Maybear: Es ist viel schwieriger Zufälligkeit zu simulieren als man denkt. Wenn Sie mehrere Leute auffordern, eine 50er Serie von Wappen/Zahl-Würfen aufzuschreiben, die zufällig aussieht, und danach sollen sie eine Serie echt werfen, und aufschreiben, dann wird ein Mathmatiker die meisten, wenn nicht alle erdachten Serien finden.

    Da mag sich Klammerbeutel auf den Kopf stellen, außer er wollte sich zur Aussage bescheiden, dass nicht alle erdachten sicher gefunden werden können.

    Ich glaube auch nicht, dass einer ein Zielergebnis eingereicht hätte, und gesagt hätte „variiert mal“, sondern dass schon 5 präparierte Listen von einer Instanz, die alle unter Kontrolle hat, hereingereicht wurden.

  59. @user unknown (#72): Ich muss ich mich nicht auf den Kopf stellen und ich muss mich schon gar nicht bescheiden, denn ich habe über das Szenario, das Sie sich da gerade ausgedacht haben, nie irgendeine Aussage getroffen. Zudem hat Ihr Szenario auch so gut wie nichts mit dem hier besprochenen Abstimmungsszenario zu tun.

    Weder liegt beim ESC ein belastbarer Vergleichswert vor (da jede Jury hat nur einmal abgestimmt hat und die Vergleichbarkeit der Jurys untereinander nicht nachvollziehbar belegt wurde) noch ist definitiv sicher, dass einmal manipuliert und einmal nicht manipuliert wurde – beides Grundvoraussetzungen Ihres Szenarios.

    Sollte Ihr Szanario also ansatzweise mit dem Abstimmungsszenario übereinstimmen, könnten Sie es folgendermaßen formulieren: 185 Personen werden in Fünfergruppen eingeteilt und würfeln jeweils 25 Mal. Sie dürfen sich nicht über ihre Ergebnisse absprechen und müssen diese aufschreiben. Dann sollen Ihre Mathematiker herausfinden, ob und falls ja, welche Fünfergruppen sich doch abgesprochen haben.

    Und nun stellen Sie sich mal auf den Kopf und bescheiden Sie sich, ob auch ein nur ein Mensch, der sich ernsthaft als Mathematiker/in bezeichnet, anhand dieser Grundvoraussetzungen eine Behauptung über eine Absprache treffen würde. Falls Sie zu einem Ergebnis kommen – Sie wissen ja, wo Sie mich finden ;-).

    Falls noch jemand eine tolle Idee zu einem Szenario hat, auf das meine Aussagen bezüglich der Wahrscheinlichkeit der Abstimmungsergebnisse nicht passen: Ziehen Sie kurz in Betracht, dass das daran liegen könnte, dass Ihr Szenario nicht mit dem hier besprochenen übereinstimmt. Besser wäre es allemal, keine neuen Szenarien einzuführen, sondern sich auf die Abstimmung zu beschränken. Alles andere scheint mir nicht zielführend (außer natürlich, Sie verfolgen wie die Jurys aus Georgien und Aserbaidschan Ziele, die niemandem bekannt oder auch nur vorstellbar sind).

  60. Um nochmal einen anderen Ansatz einzubringen: Gehen wir davon aus, dass Herrn Niggemeiers These stimmt und Absprachen/Manipulationen erfolgt sind (Sinn und Zweck sind allerdings weiterhin freigestellt) und der einzige Grund dafür, dass eine Absprache/Manipulation nachvollziehbar ist, ist Dummheit. Der Gradmesser für eine erfolgte Absprache wäre dabei wie von ihm angeführt die Standardabweichung, weil (ohne nähere Begründung) die Abstimmungsergebnisse der Jurymitglieder eine bestimmte Abweichung voneinander haben müssen (und das Abstimmungsverhalten aller Jurys wäre natürlich identisch, sodass eine direkte Vergleichbarkeit besteht).

    Dieser Theorie folgend, müsste dann ja der Mittelwert dieser Standardabweichungen genau den Wert angeben, bei dem man am ehesten von einer unabgesprochenen Abstimmung ausgehen kann. Alle Jurys mit geringerer Abweichung haben betrogen, waren aber zu dumm, es zu kaschieren, weil ihre Einzelwertungen zu dicht beieinander liegen, alle Jurys mit größerer Abweichung haben betrogen, waren aber clever genug, ihre Einzelwertungen weit genug voneinander abweichen zu lassen. Alle anderen haben vielleicht auch betrogen, waren dann aber so extrem clever, es so zu machen, dass man es mit der hier angewandten hochwissenschaftlichen Methode nicht herausfinden kann.

    Damit man zu den hier gezogenen Schlussfolgerungen kommt, müsste man dann noch einseitig weitestgehend identische Abstimmungsergebnisse als verdächtig einstufen, wohingegen man über das (durch den Mittelwert der Standardabweichung festgelegte) Maß voneinander abweichende Ergebnisse wohlwollend ignoriert. Voila – Georgien betrügt und ist dumm, Aserbaidschan betrügt und ist nicht ganz so dumm, Montenegro betrügt eventuell auch, aber noch etwas weniger dumm (siehe dazu die „Mean Kendall’s Tau“-Auswertung von Hellson/#29, der sich, wie ich betonen möchte, allerdings die Schlussfolgerungen nicht zueigen gemacht hat).

    Für mich hört sich das nicht wirklich begründet an, sondern eher konstruiert an. Und ich fände es immer noch viel spannender, wenn jemand mit Zugang zum Medienjournalismus herausfinden könnte, ob die EBU tatsächlich, offiziell und völlig schwachsinnigerweise behauptet hat, Georgiens Jury-Abstimmungsergebnis wäre statistisch unmöglich und ob es nicht noch andere Gründe als Dummheit für ein (manchen Leuten als manipuliert erscheinendes) Abstimmungsergebnis geben könnte. Herr Niggemeier, übernehmen Sie?

  61. Nein, Klammerbeutel, im Irrtum sind Sie.

    Die Folge 1 bis 6 beim Lotto ist nicht wahrscheinlicher als eine bestimmte andere Auswahl von 6 Zahlen. Das stimmt, passt aber nicht auf das Beispiel. Die Zahlen 1 bis 6 spielen nämlich im Lotto keine priviligierte Rolle, es sind nur Namen von Kugeln, die gezogen werden oder nicht. Das Zahlen der Größe nach sortierbar sind spielt für die Ziehung keine Rolle.

    Beim ESC spielt die Reihenfolge eine Rolle, es ist das, worum es geht.
    Außerdem hätte Aserbaidschan auf sehr viele andere, ähnliche Weisen betrügen können, nicht nur auf diese eine, wie ich keck unterstelle. Es hätte aber auch unzählige unverdächtige Weisen geben können abzustimmen. Dieses Ergebnis, welches zufällig entstanden sein könnte sagt einerseits, dass alle Abstimmungen sehr, sehr ähnlich sind – an der Spitze, im Mittelfeld, am Ende. Und dass die kleinen Abweichungen ebenfalls einer Regel genügen.

    Sie mögen es für Zufall halten, wo wir keinen Beweis, aber einen sehr gut begründeten Verdacht haben. Der Lottozahlvergleich trifft es aber überhaupt nicht.

    Mein Vergleich sollte aber nur an weithin bekannte Experimente erinnern, bei denen Menschen etwas produzieren sollten, dass wie Zufall aussieht, mehr nicht. Darin sind sie schlecht, weil sie etwa Serien wie 4x Zahl oder 3x Wappen zu selten einbauen. Diese Serien müssen nicht vorkommen, kommen aber mit erwartbaren Häufigkeiten vor.

  62. @user unknown (#75): Vorweg zu Ihrem Vergleich mit den Münzwürfen – wenn er nur der Erinnerung dienen sollte, geben Sie wohl auch selbst zu, dass er ansonsten irrelevant war, damit wären wir uns diesbezüglich einig.

    Bei meinem Vergleich mit den Lottozahlen ging es (wie ich in #24 auch deutlich formuliert habe) lediglich darum, aufzuzeigen, dass Menschen manchmal der Ansicht sind, bestimmte Regelmäßigkeiten in einem Ergebnis würden bedeuten, dieses Ergebnis wäre per se unwahrscheinlicher als irgendein anderes beliebiges Ergebnis – dies ist aber Unsinn, wie Sie ja selbst bestätigen.

    Daher ist es auch völlig irrelevant, ob die Reihenfolge eine Rolle spielt, wenn es um die Betrachtung der Wahrscheinlichkeit eines einzelnen Abstimmungsergebnisses geht (und darum geht es hier zum einen). Das spezielle, einzelne Ergebnis von Georgien ist genauso wahrscheinlich wie das spezielle, einzelne Ergebnis von Aserbaidschan oder das spezielle, einzelne Ergebnis von Deutschland. Somit ist jedes einzelne Ergebnis für sich prinzipiell erst mal nicht verdächtig (und schon gar nicht statistisch unmöglich, wie es angeblich die EBU behauptet).

    Nun könnte man anführen, dass es sich nicht um eine völlig zufällige Auswahl handelt, was ja auch in diversen Kommentaren thematisiert wurde – aber selbst daraus kann a priori nicht hergeleitet werden, dass ein bestimmtes Ergebnis unwahrscheinlicher ist als ein anderes. Anders wäre es, wenn Sie zum Beispiel unterstellen würden, dass ein beliebiges Mitglied einer Jury aus einem bestimmten Land ein und denselben Beitrag aus einem anderen Land zwingend (und deutlich) anders bewerten muss als ein anderes Mitglied derselben Jury (falls Sie dies tun möchten, belegen Sie es bitte nachvollziehbar)

    Wie aber selbst Herr Niggemeier (am Beispiel von Armenien) argumentiert, ist durchaus zu erwarten, dass die Nichtzufälligkeit sogar vermehrt zu Abstimmungsähnlichkeiten oder gar -gleichheiten führt und mithin eine höhere Wahrscheinlichkeit ähnlicher Bewertungen innerhalb einer Jury bedingen könnte. Damit wären diese Ähnlichkeiten kein Grund für einen auch nur ansatzweise begründeten Manipulationsverdacht.

    Da aber nicht auszuschließen ist, dass es auch andere Seiteneffekte gibt, die wieder eher auf eine Diversifizierung der einzelnen Bewertungen hinauslaufen, sollte bis zum Vorliegen definitiver Belege für Abweichungen in die ein oder andere Richtung davon ausgegangen werden, dass alle möglichen Abstimmungsergebnisse jeweils für sich gleichwahrscheinlich sind. Somit wäre weiterhin unwiderlegt, dass jedes Abstimmungsergebnis für sich genommen keinen Sonderfall darstellt.

    Kommen wird nun zum zweiten Teil, in dem die Juryergebnisse miteinander verglichen werden. Auch hier liegt keinerlei Beleg für die uneingeschränkte Vergleichbarkeit vor (dazu gibt es ebenfalls diverse Kommentare, Stichwort z.B. „Homogenität“ der Jury). Doch gehen wir zu Ihrem Vorteil davon aus, dass alle Jurys absolut identisch und daher uneingeschränkt vergleichbar wären, was das Verhältnis der Abstimmungen der einzelnen Jurymitglieder zueinander betrifft (was ich mir, um Herrn Niggemeier zu zitieren, nur „schwer vorstellen kann“ ).

    Dann würden Sie damit bar anderer vorhandener Vergleichsdaten, die zu prüfenden Daten anhand ihrer selbst prüfen und völlig willkürlich festlegen, wo die Normalität und wo die Abweichung bezogen auf Manipulation liegt (siehe auch mein #74) . Was aber nun, wenn zum Beispiel Deutschland beschissen hat (ich sag nur: Dänemark). Wäre dann nicht die durchschnittliche Standardabweichung von 2,8 der Referenzwert für Betrug und Russland mit 3,1 viel eher manipulationsverdächtig als Aserbaidschan?

    Sie sehen, Sie können viel interpretieren und noch mehr mutmaßen, aber es wird Ihnen nicht gelingen, einen belastbaren Zusammenhang zwischen der Abweichung der einzelnen Juryabstimmungen und einem, wie Sie es schreiben, „sehr gut begründeten Verdacht“ herzustellen. Nur ausgehend von den vorliegenden Zahlen spricht nichts, aber auch rein gar nichts spricht dagegen, dass das Ergebnis nicht auch aus purem Zufall so entstanden sein kann (mit derselben Wahrscheinlichkeit wie jedes andere Ergebnis).

    Auch falls Sie sich diesen Tatsachen nicht stellen wollen und wir diesbezüglich zu keiner Einigung kommen – ich bleibe weiterhin dabei, dass sinnvolle Begründungen für einen Absprache- oder Manipulationsverdacht nur außerhalb dieser statistischen Betrachtung gefunden werden können, speziell auch, was die EBU-Begründung und mögliche Gründe für diese „spezielle“ Bewertung durch Georgien betrifft (siehe mein #74 und z.B. auch #54 von ESCTBS).

  63. Eilmeldung – Wie die EBU eben bekanntgab, wurde auch die Wertung der deutschen Jury für ungültig erklärt. Lasse Langstrolln von der EBU teilte dazu mit: Die erregte Diskussion des Themas in Deutschland hat uns veranlasst, nochmals genauer hinzusehen. Dabei haben wir festgestellt, dass die deutsche Jury als einzige Dänemark mit allen 5 Stimmen auf Platz 1 gesetzt hat. Das ist statistisch unmöglich.

    Weitere Nachforschungen haben ergeben, dass zudem insgesamt lediglich 7 weitere Jurymitglieder Dänemark auf Platz 1 gesetzt haben, sodass sich ein Deutschland-zum-Rest-der-Welt-Faktor von 5/7 ergibt, eine ab der siebten Nachkommastelle periodische Zahl (0,714285714285…) mit 7 als erster Ziffer nach dem Komma. Erschwerend kommt noch hinzu, dass das deutsche Publikum Dänemark auf Platz 10 gesetzt hat, womit sich als kombinierte Wertung Platz 3 ergab.

    Jeder mit einem funktionierenden Taschenrechner kann schnell prüfen, dass auch 10 minus 3 wieder 7 ergibt. Eine solche unnatürliche Häufung der 7 erscheint uns auf normalem Wege nur schwer vorstellbar und auch rein statistisch betrachtet ist diese Häufung statistisch völlig unmöglich. Daher haben wir die Wertung der deutschen Jury schweren Herzens, aber auf Basis dieser statistisch nicht wegzuleugnenden Auffälligkeit unbedingt für ungültig erklären müssen.

    Derart aufmerksam geworden haben wir mit der bereits zum Patent angemeldeten EBUAMFSUZVVZ (EBUAlphabet-Methode für statistische Unmöglichkeiten zur Vermeidung von Zufälligkeiten) weitere Prüfungen mit überraschenden Ergebnissen durchgeführt.

    Da bei der deutschen Wertung neben der 7 noch die 1 (1. Platz für Dänemark) und die 8 (7+1) als wichtige Parameter erkannt wurden, haben wir nur jede achte Wertung betrachtet und erhielten so folgende Reihenfolge der ersten 8 Länder (1 und 8!!!1!ELF!!)

    Griechenland
    Russland
    Österreich
    Frankreich
    Armenien
    Zypern
    Aserbaidschan
    Holland

    Unter Verwendung der EBUAMFSUZVVZ wurde uns dies als eindeutige und nicht akzeptable politische Äußerung gekennzeichnet, zudem war Zypern gar nicht in der Wertung. Wir haben uns daher entschieden, die deutsche Jury in ihrer Zusammensetzung von 2014 für die nächsten 1.000 Jahre vom Wettbewerb auszuschließen.

    Das ganze hat allerdings auch etwas Gutes. Nachdem wir die Jury-Wertung von Georgien für die ersten 8 Plätze

    Hungary
    Estonia
    Lithuania
    Poland
    Kingdom, United
    Estonia
    Y.R., Macedonia F.
    Sweden

    durch EBUAMFSUZVVZ haben prüfen lassen, konnten wir nach einem Anruf in Georgien verifizieren, dass die georgische Jury aufgrund fehlender Schlüssel tatsächlich in ihren Abstimmungskabinen festsitzt. Wir haben sofort einen Schlüsseldienst informiert und die Jury befreien lassen.

    Die Wertung können wir natürlich trotzdem nicht berücksichtigen, zumal Estland doppelt genannt wurde und wie Litauen auch gar nicht in der Wertung war. Allerdings sehen wir aufgrund der besonderen Situation von weiteren Strafmaßnahmen ab. Für die Zukunft haben wir festgelegt, dass Jurys in Notsituationen Dänemark einstimmig auf den ersten Platz setzen sollen, da die diesjährige Auswertung zweifelsfrei ergeben hat, dass dies statistisch unmöglich und daher besonders auffällig ist.

    Den Antrag eines Mitglieds der deutschen Jury, diese Regel bereits rückwirkend in diesem Jahr anzuwenden, mussten wir leider ablehnen.

    Und nun weiter mit: Statistik …

    [Offenlegung: Die erste Version dieses Textes wurde nach Fertigstellung durch eine Ungeschicklichkeit des Autors ins Nirwana gesendet – der Tisch hat jetzt noch Bissspuren]

  64. Ich mache mir in der Tat nicht zu eigen, weitreichende Schlussfolgerungen aus den statistischen Maßen zu ziehen, die ich angesprochen habe. In einer Sache muss ich Klammerbeutel allerdings widersprechen: Das ESC-Bewertungssystem ist nicht mit einer einmaligen Lotto-Ziehung vergleichbar, und die Jury-Ranking der einzelnen Länder sind auch nicht als einmalige, gleichwertig wahrscheinliche Ereignisse zu betrachten. Der Grund dafür ist eben, dass jede Jury aus 5 „Ziehungen“ a 26 Zahlen besteht. Wie bereits mehrfach betont unterliegen diese Ziehungen natürlich nicht dem Zufall, sondern anderen, komplexen Algorithmen die wir größtenteils nicht kennen (abgesehen meinetwegen von der „Aserbaidschan-Armenien-Regel“). Dennoch ist es so dass, genau wie beim Lotto, jede einzelne Ziehung für sich genommen natürlich unauffällig ist, eine wiederholt ähnliche oder sogar gleiche Ziehung von Zahlen aber *unwahrscheinlicher* als eine weniger ähnliche.

    Der Grund warum beim ESC 5 Personen in einer Jury sitzen und nicht eine ist eben, dass ein substanzieller Anteil Personenvarianz vermutet wird, der sich sowohl in den Fähigkeiten der einzelnen Mitglieder, die Künstler adäquat zu bewerten, als auch in ihrem Geschmack niederschlägt. Und genau aus diesem Grund kann man sehr wohl die Aussage machen, dass ein Jury-Ergebnis *wahrscheinlicher* oder *unwahrscheinlicher* als ein anderes ist. Bei 5 Ziehungen a 26 Zahlen ist es, selbst in Anbetracht der uns unbekannten Regeln, die das Voting leiten, eine hohe Übereinstimmung unwahrscheinlicher als eine mittlere. Außer, wie gesagt, jemand kann mir schlüssig erklären, warum im Musikbusiness arbeitende Aserbaidschaner alle einen sehr uniformen Musikgeschmack haben, der sich zudem vom Rest der aserbaidschanischen Population (die am Televoting teilgenommen haben) unterscheidet.

    Richtig ist die Aussage, dass kein Ergebnis unmöglich ist. Das ist denke ich evident. Falsch ist aber, dass Ergebnisse nicht auffällig sein können. Wie die ESC-Leitung mit solchen Auffälligkeiten umgeht ist ein bisschen unklar – Georgien scheint hier ein bisschen zu hoch gepokert zu haben.

  65. @Hellson (#78): Ich stimme zu, dass „eine hohe Übereinstimmung unwahrscheinlicher als eine mittlere“, aber eben nur deswegen, weil es mehr potenzielle Ergebnisse mit mittlerer Übereintimmung gibt als solche mit hoher Übereinstimmung. Jedes Einzelergebnis für sich betrachtet bleibt aber weiterhin genauso wahrscheinlich wie ein beliebiges anderes (egal ob mit hoher oder mittlerer Übereinstimmung).

    Falls wie von Ihnen eingebracht, die Jurys tatsächlich belegbar so ausgewählt wurden, dass eine spürbar voneinander abweichende Abstimmung mit sehr hoher Wahrscheinlichkeit erfolgen muss, wäre es allerdings tatsächlich so, dass eine Abstimmung mit geringer Abweichung unwahrscheinlicher wäre, wenn das auch schwer zu parametrisieren wäre und dennoch ähnliche Abstimmung weiterhin nicht auszuschließen und mithin auch nicht grundsätzlich und ohne weitere Erkenntnisse als verdächtig einzustufen wären.

    Was mir dabei fehlt: Der Beleg, dass die Jurys so ausgewählt wurden (gab es da vorher Testabstimmungen und potenzielle Mitglieder mit zu hoher Übereinstimmung wurden nicht genommen?) und der Beleg, dass selbst bei einer solchen Auswahl im Rahmen der vorliegenden Beiträge nicht doch eine weitestgehende Übereinstimmung zustande kommen kann. Ohne diese Belege sehe ich keinen Grund zu Verdächtigungen.

    Zum Lotto wiederhole ich gerne nochmal (siehe auch meine Kommentare #24 und #47): Es ging lediglich darum, aufzuzeigen, dass man bei im Nachhinein festgestellten Regelmäßigkeiten eines Ergebnisses gerne dazu tendiert, dieses Ergebnis als „besonders“ zu betrachten, obwohl es das faktisch nicht ist. Und diesbezüglich sind meines Erachtens Lotto und ESC durchaus vergleichbar.

  66. @Klammerbeutel (#79): Ich muss mich, wenn auch ungerne, korrigieren – auch bei einer Vorauswahl der Jury, die auf eine weitestgehende Divergenz abzielt, wäre ein einzelnes Ergebnis mit hoher Übereinstimmung nicht unwahrscheinlicher. Es könnte lediglich erreicht werden, dass insgesamt noch weniger Ergebnisse mit hoher Übereinstimmung auftreten.

    Solange aber durch diese Vorauswahl der Jury nicht definitiv ausgeschlossen wird, dass doch mal eine Ähnlichkeit auftritt, ist ein einzelnes Ergebnis mit hoher Übereinstimmung nicht verdächtig. Verdächtig wäre es erst, wenn diese Jury mehrfach abstimmen würde und trotz ihrer auf Abweichung gepolten Zusammenstellung überproportional häufig ähnliche Ergebnisse produzieren würde.

    Da wären wir dann beim Münzbeispiel von user unknown, wo der geneigte und zu diesem Zwecke ausgebildete Mathematiker anhand einer ausreichend langen Reihe von Versuchen feststellen kann, ob die Ergebnisse tatsächlich zufällig (bzw. nicht abgesprochen) oder manipuliert sind. Eine Reihe mit nur einem Versuch reicht dazu nicht aus – und wir haben hier definitiv nur einen Versuch pro Jury.

  67. „Eine Reihe mit nur einem Versuch reicht dazu nicht aus — und wir haben hier definitiv nur einen Versuch pro Jury.“

    Wenn man annimmt, dass sich die 35 Jurys aller Länder grundlegend und unvergleichbar voneinander unterscheiden.

  68. @Hellson (#81): Wenn man davon ausgeht, dass die 37 Jurys in ihrem Abstimmungsverhalten nicht so identisch sind, dass ihr Abstimmungsverhalten unnormiert miteinander vergleichbar ist (und davon gehe ich aus).

    Und selbst wenn doch: Dann müsste auch hier mehr als ein Versuch (mit allen 37 Jurys) vorliegen, um sagen zu können, ob die in 2014 erreichte Verteilung der Abweichungen „normal“ ist oder nicht.

    Nur einmal zu testen und zu behaupten: Diese Verteilung entspricht dem Erwartungswert, erscheint mir arg kurz gedacht – aber wir können ja nächstes Jahr schauen, ob sich die diesjährige Verteilung über alle Jurys bestätigt.

  69. @ Klammerbeutel

    Weiterhin verstehe ich nicht, warum Sie immer darauf insistieren, dass solange eine Übereinstimmung auch durch Zufall zustande gekommen sein könnte, überhaupt kein Anlass dazu besteht andere Erklärungen in Erwägung zu ziehen. Wenn die Schwägerin des Vorstandsvorsitzenden am Tag bevor die überraschend schlechten Quartalszahlen bekannt gegeben werden ihr Aktienpaket verkauft, kann dies natürlich Zufall sein. Die Frage ist nur, ob das die beste Erklärung ist.

  70. @ Klammerbeutel

    Ich verstehe auch nicht, warum Sie immer davon reden, dass es nur einen Versuch pro Jury gegeben habe. Eine Jury bestand aus fünf Personen, die (so war jedenfalls die Vorgabe) unabhängig voneinander abgestimmt haben. Der Manipulationsverdacht ergibt sich aus der hohen Übereinstimmung, die diese fünf Voten aufweisen.

  71. @Tom (#83): Ich verwehre mich nicht gegen andere Erklärungen. Ich fand z.B. die Erklärung von ESCTBS (#54) durchaus spannend, weil sie auch begründen würde, warum der Betrug in der aktuellen Form erfolgt wäre. Auch ein Kometeneinschlag im Übertragungssatelliten während der Durchleitung der Bewertung wäre eine mögliche Erklärung. Aber das Zahlenmaterial alleine erklärt keinen Betrug. Führen Sie weiteres, insbesondere nachvollziehbares Material zur Begründung eines Betrugs an und ich bin gerne bereit, einen Betrug in Betracht zu ziehen.

    Und ob es die beste Erklärung ist, dass die georgische Jury einfach nur dumm ist (kennt jemand diese Menschen persönlich und kann sich dieses Urteil erlauben?), wage ich stark zu bezweifeln. Erklären Sie doch spaßeshalber einfach mal fernab jeder Statistik, wieso jemand so verfahren sollte, wo es doch viele unauffälligere Wege für einen immer noch nicht motivierten Betrug gegeben hätte. Vielleicht verstehen Sie dann.

    @Tom (#84): Eine Jury = 5 Personen. Der hier propagierte Verdacht ergibt sich aus dem Verhältnis der Bewertungen dieser 5 Personen. Dafür gab es genau einen Versuch, zu dem jeder der Personen genau eine Bewertung abgab. Erklären sie doch einfach mal, wo Sie mehr als einen Versuch pro Jury sehen, eine solche Fünfergruppe von Bewertungen zu erstellen. Vielleicht verstehen Sie dann.

  72. @ Klammerbeutel

    Nein, sorry, ich verstehe Sie nicht. Ich kann aus Ihren Kommentaren zu diesem Blogbeitrag leider nicht entnehmen, was eigentlich genau Ihre Meinung ist.

  73. @Tom (#86): Da Sie erst später dazu gekommen sind und (sofern Sie auch der Dichter aus #55 sind, auf jeden Fall aber basierend auf Ihrem in #84 geäußerten Nichtverstehen bezüglich grundsätzlicher Festlegungen) anscheinend nicht ganz so bewandert im Thema Statistik sind, rolle ich das Ganze nochmal für Sie auf.

    Herr Niggemeier betrachtet die Jury-Abstimmungsergebnisse des diesjährigen ESC. Er stellt zudem die These auf

    Wenn man einer Jury sagen würde, welche Platzierung gewünscht ist, sie aber aufforderte, ein bisschen zu variieren, damit es nicht auffällt, käme eine Verteilung wie in diesem Jahr in Aserbaidschan heraus.

    Im Prinzip wäre er damit schon fertig, weil er a) vermutet, dass aus einer unterstellten Absicht ein bestimmtes Ergebnis folgen muss und b) dieses Ergebnis vorliegt. Somit wäre sein persönlicher Ringschluss perfekt und die erstellte Absicht bewiesen. Allerdings gibt er selbst zu, dass das

    natürlich kein Beweis dafür ist, dass es so war.

    Um nun dieser „Ich hab da mal was vermutet“-Aussage den Anschein zu verleihen, sie wäre gar nicht so beliebig und (entschuldigung) unsinnig, fährt er dann fort, statistisches Material in den Blog-Beitrag zu werfen. Da werden die einzelnen Stimmen aufgelistet und die Standardabweichung erklärt, um daraus abzuleiten, dass die gemittelte Standardabweichung das Maß der Dinge zur Betrugsfeststellung ist, dergestalt, dass ein geringer Wert anzeigt, dass a) betrogen wurde und b) die Betrügenden umso dümmer sind, je geringer dieser Wert ist.

    Ab wann ein solcher Wert als gering einzustufen ist, stellt er (da er ja kein anderes Referenzmaterial hat) anhand der anderen Jury-Abstimmungsergebnisse fest: Er berechnet für alle die gemittelte Standardabweichung und definiert das untere Ende dieser Skala als schlecht.

    Ich könnte Ihnen nun erzählen, dass es für einen belastbaren Beleg der Aussage von Herrn Niggemeier notwendig wäre, vorab diverse Testabstimmungen durchzuführen, bei denen man den Kandidaten einmal vorgibt, sie sollten durch Absprache ein bestimmtes vorgegebenes Ergebnis herbeiführen und zum Vergleich dann eine völlig unbeeinflusste Stimmabgabe einfordert. Zudem könnte man noch differenzieren und den Test mit erwiesenermaßen dummen Menschen durchführen oder den Kandidaten vorgeben, sie sollten bei ihrem Betrug versuchen, besonders clever oder dumm vorgehen.

    Mit diesem statistischen Material (aus dem klar hervorginge, wann betrogen wurde und wann nicht und das zudem Rückschlüsse erlauben würde, wie dumme und wie intelligente Menschen vorgehen, oder zumindest, wie Menschen vorgehen, wenn sie so tun, als wären sie dumm oder intelligent) könnte man dann, sofern sich eine signifikante Abweichung zur gleichzeitig getesteten, unbeeinflussten Abstimmung ergibt, z.B. sagen: Eine Verteilung x eines Jury-Ergebnisses deutet darauf hin, dass von dummen Menschen betrogen wurde.

    Eventuell würde man anhand der Ergebnisse auch erkennen, dass bei Betrugsversuchen (unabhängig von der ggf. nur vorgetäuschten Intelligenz) mit hoher Wahrscheinlichkeit eine ganz bestimmte Verteilung auftritt, die dann grundsätzlich verdächtig wäre und mithin auch bei der realen Abstimmung begründeter Anlass für Verdächtigungen wäre. Doch da nicht auf dieser wissenschaftlichen Basis vorgegangen wurde, beende ich diesen kurzen Exkurs über belastbare statistische Ergebnisse und komme zurück zum Blogbeitrag.

    Dort möchte ich als nächstes auf die folgende Nebelkerze eingehen

    Es ist extrem unwahrscheinlich, dass fünf Juroren sämtliche 25 Plätze mit nur minimalsten Abweichungen gleich sortieren, selbst wenn diese Juroren denselben Geschmack hätten, denselben fachlichen Hintergrund, dieselben politischen Abneigungen.

    Dieser Satz ist einerseits nicht ganz falsch, andererseits aber im hier betrachteten Kontext völlig unsinnig, da wir nur ein Ergebnis pro Jury haben. Insofern: Ja, Jury-Ergebnisse mit minimalen Abweichungen sind insgesamt unwahrscheinlicher als Jury-Ergebnisse mit einer mittleren Abweichungsrate, weil es von letzteren in der Menge aller möglichen Ergebnisse einfach mehr gibt (das gilt aber analog auch für Jury-Ergebnisse mit einer hohen Abweichungsrate – dazu gleich noch mehr). Aber: Wir haben nur ein Ergebnis pro Jury. Hätten wir 50 pro Jury und alle hätten eine geringe Abweichung, wäre das verdächtig. Die Tatsache übrigens, dass andere Jurys (mit ebenfalls nur einem Ergebnis) andere Abweichungen haben, ist in dieser Hinsicht völlig belanglos.

    Hier erkennt der geneigte Leser, dass es selbst bei belastbarem Referenzmaterial schwierig wäre, eine auch nur ansatzweise nachvollziehbare Aussage über ein einzelnes Jury-Ergebnis zu treffen, da ja nicht ausgeschlossen werden kann, dass das Ergebnis ein statistisch möglicher und auch nicht über die Maßen unwahrscheinlicher Ausreißer ist. Genauso, wie man ja auch bei einem Würfel, den man einmal benutzt und dabei eine 1 oder 2 würfelt, nicht sagen würde, der Würfel ist manipuliert und wie man, wenn man gleichzeitig mit 49 anderen Würfeln auch einmal würfeln und eine normale Verteilung der Ergebnisse erhielte, dem ersten Würfel seine 1 nicht als Manipulation vorwerfen würde (würde man hingegen 50 Mal nur mit der ersten Würfel würfeln und erhielte nur Einsen und Zweien, wäre Skepsis tatsächlich angebracht).

    Da nun also (richtige) Statistik als Beleg nicht anwendbar ist, wende ich mich nochmal Herrn Niggemeiers These zu und unterstelle, seine Vorgaben und Schlussfolgerungen wären korrekt. Daraus ergäbe sich folgendes: Wenn zu identische Ergebnisse der Jury-Mitglieder Kennzeichen eines Betrugs von dummen Menschen sind, müssen konsequenterweise zu verschiedene Ergebnisse ebenfalls Kennzeichen eines solchen Betrugs sein (denn wie erstere weichen sie zu stark von der als korrekt vorausgesetzten mittleren Standardabweichung ab). Somit müsste man, wenn man dieser These folgt, auch sagen, dass Österreich (Standardabweichung 5,0) und Großbritannien (Standardabweichung 4,7) betrogen haben, allerdings waren sie anders dumm als Georgien und Aserbaidschan – sie haben zu stark variiert.

    Und genauso müsste man schließlich folgende These unterstützen:

    Wenn man einer Jury sagen würde, welche Platzierung gewünscht ist, sie aber aufforderte, so deutlich zu variieren, dass es nicht einmal ESC-affinen Medienjournalisten auffällt, käme eine Verteilung wie in diesem Jahr in Deutschland heraus.

    Der Rest wäre identisch wie bei der Aserbaidschanbegründung und mithin wäre der begründete Verdacht belegt, dass Deutschland betrogen hat.

    Von mir aus können wir uns also auch darauf einigen, dass, basierend auf dem hier vorgebrachten Material, wohl so gut wie alle Jurys betrogen haben.

  74. @Stefan Niggemeier (#88): Ich weiß nicht – haben Sie Ritalin ;-)?

    Ansonsten: Wenn Sie in Erfahrung bringen könnten, ob die „statistische Unmöglichkeit“ wirklich eine offizielle (und eventuell die einzige) EBU-Begründung war und wie genau nun Georgien abgestimmt hat, fände ich das toll (ob’s hilft, weiß ich allerdings nicht).

    Schließlich: Fragen Sie nicht, was Sie für mich tun können, fragen Sie, was ich für Sie tun kann. Okay, der war albern – aber eins ist mir noch eingefallen: Eine Vorschaufunktion für die Kommentare wäre toll.

  75. Georgien lassen wir mal außen vor. Wenn zweimal hintereinander dieselben Lottozahlen vergeben werden, ist das zwar statistisch ebenso wahrscheinlich wie ein beliebiges anderes Ergebnis, aber durchaus ein begründeter Anfangsverdacht für Manipulation. Anders im Fall Aserbaidschan: Wenn man im Nachhinein schaut, wie sehr die Mitglieder der einzelnen Juries in ihrem Urteil übereinstimmen, dann gibt es natürlich *immer* eine Jury, bei der die Übereinstimmung am höchsten ist. Aus dem Text geht hervor, dass die durchschnittlichen Standardabweichungen der Juries stark variieren – bei der deutschen beträgt sie 2,8, bei der österreichischen 5,0. Warum soll dann ein Wert von 0,9 auf Betrug deuten? Gerade wenn man bedenkt, dass man eine hohe Übereinstimmung auch positiv deuten kann (weil die Jurymitglieder eben nicht zufällig abstimmen sollen). Man würde sich wünschen, dass Manipulationsvorwürfe oder besser -unterstellungen auf einer solideren Datenbasis ruhen. Das ist schon ein Dilemma, dass es einerseits gut ist, wenn Betrug aufgedeckt wird, andererseits aber oft aufgrund von zweifelhaften Argumenten leichtfertig angedeutet, unterstellt, angeklagt und skandalisiert wird und die Leute das trotzdem gerne glauben. Das theorieferne Hantieren mit Zahlen verleiht dem nur einen pseudowissenschaftlichen Anstrich. Dass Klammerbeutel auf die mangelnde Grundlage der Anschuldigung hinweist und einigermaßen besonnen argumentiert, halte ich für begrüßenswert.

  76. @ nothing, 90

    Den Vergleich mit den tatsächlichen Abstimmungsergebnissen der anderen Jurys halte ich deshalb für problematisch, weil man nicht wissen kann, ob es in den anderen Jurys keine Absprachen gab.
    Es ist ein wenig so, als würde man argumentieren, dass die starken Schwankungen, die der Hämatokritwert des Toursiegers zeigt, deswegen nicht auf Doping hinweisen, weil solche Auffälligkeiten in den Werten der anderen Favoriten ebenfalls zu finden sind.

  77. @ nothing, 90

    Im Übrigen hat Stefan Niggemeier im obigen Blogbeitrag, meiner Meinung nach, sehr überzeugend dafür argumentiert, dass eine gewisse Abweichung zwischen den Jurymitgliedern, was die Plätze im Mittelfeld angeht, selbst dann zu erwarten ist, wenn die Jury maximal homogen besetzt ist. Er hat dazu auf das Moment der Willkür verwiesen, das dadurch ins Spiel kommt, dass ein Jurymitglied auch diejenigen Beiträge in ein definitive Reihenfolge bringen muss, die es weder für besonders gelungen noch für misslungen hält. Das ästhetische Auflösungsvermögen eines Menschen ist einfach damit überfordert, reproduzierbar zwischen Platz 13 und Platz 17 zu unterscheiden. Als Begründung für einen Anfangsverdacht finde ich das hinreichend.

  78. @Tom (#91): Die Argumentation in Anlehnung an die hier vorgenommene Bewertung wäre zwar eher die, dass der mit den stärksten Hämatokritwertschwankungen (was immer das ist, aber es ist ein schönes Beispiel) automatisch ein Betrüger ist (bzw. eventuell auch der mit den geringsten Hämatokritwertschwankungen, hier beginnt der Vergleich dann wohl zu hinken) – aber Sie haben eine meiner Kernthesen bestätigt: Die Wertungen aller anderen Jurys sind für die Einstufung einer bestimmten Jury-Wertung völlig irrelevant.

    Wenn wir uns noch einigen, was die (Nicht-)Einschätzbarkeit einer einzelnen, 5-stimmigen-Jury-Wertung betrifft (da es keine belastbaren Referenzwerte gibt), wird das heute noch ein schöner Tag ;-). Eventuell können Sie nochmal begründen, warum Ihrer Ansicht nach eine einzelne 5-stimmige-Jury-Wertung, deren mittlere Standardabweichung gering ist, per se verdächtig ist, eine mit mittlerer oder hoher mittlerer Standardabweichung hingegen nicht? Oder teilen Sie diese Meinung gar nicht?

  79. @Tom (#92): Herrn Niggemeiers diesbezügliches Argument würde eventuell genügen, um einen Verdacht zu begründen, wenn das selbe Jurymitglied bei mehrfacher Abstimmung auch die „inneren“ Beiträge immer ähnlich oder gar gleich einstufen würde (vielleicht wäre das Jurymitglied (aufgrund seiner Fachkompetenz?) aber auch einfach besser in der Lage, 25 Beiträge in eine feststehende Reihenfolge zu bringen, als andere Menschen).

    Aber auch wenn man behauptet, dass die Plätze 11 bis 20 rein zufällig vergeben werden (an die, die dann noch übrig sind), dann bedingt dies nicht, dass eine weitestgehende Gleichheit unwahrscheinlicher wäre.

    Oder anders – man kann eventuell sagen: Ich bin nicht in der Lage, die Plätze 11 bis 20 morgen genauso zu bewerten wie heute, weil mir die nicht deutlich genug unterscheidbar sind. Aber man kann daraus nicht die Aussage ableiten: Wenn ich für die Bewertung der Plätze 11 bis 20 die Verteilung x wähle, dann muss die Person neben mir bei der Bewertung zu einer deutlich abweichenden Verteilung kommen, ansonsten hat sie bei mir abgeschrieben.

  80. Man kann sehr wohl sagen: Zwar ist es wahrscheinlich, dass die Werturteile von 5 Juroren bei manchen Beiträgen eng zusammenliegen, vielleicht sogar übereinstimmen, aber je mehr es werden, desto unwahrscheinlicher wird das.

    Hätte man 1000 Songcontests mit Daten, dann könnte man es numerisch fassen. Ein genaues Modell fehlt hier allerdings. Wenn es einen klaren Favoriten sieht so eine Verteilung auch anders aus, als wenn es 3 gibt, wenn es eine klare Gruppe Nulpen gibt, klare Fastfavoriten. Da das aber unscharfe Kriterien sind kann man sie kaum anders als durch eine solche Art der Bewertung überhaupt ermitteln. Verkaufszahlen wären noch ein Maß.

    Die Täuschung war auch gar nicht so dumm, denn der erste Hürde, der ESC-Aufsicht, entging sie offenbar. Sie waren ja nicht zufällig in dieser Aufsicht, Klammerbeutel? Man muss statistisch schon ein wenig beschlagen sein und ein professionelles Misstrauen mitbringen, um überhaupt so genau hinzuschauen. Jetzt, wo uns Stefan Niggemeier darauf hingewiesen hat, ist es (für die meisten) leicht zu sehen.

    Wenn 1000 Leute 50 x würfeln wird sich auch die ein oder andere Anomalie einstellen – eher bei 10.000 oder 100.000 Würfen. Wir hatten hier aber ein paar weniger Daten.

  81. @user unknown (#95): Ich weiß ja nicht, wer Sie statistisch beschlagen hat, aber sind Sie sicher, dass er immer die richtige Stelle getroffen hat ;-)?

    Natürlich werden ähnliche oder gar gleiche Ergebnisse der Juroren unwahrscheinlicher, je mehr Beiträge zu bewerten sind, das hat nie jemand bestritten. Genauso werden aber auch völlig verschiedene Ergebnisse unwahrscheinlicher – und wenn sich (wovon ich leider ausgehen muss) Ihr statistisches Halbwissen bereits hier erschöpft: Dann folgt daraus (ich betone: nur nach Ihrer privaten Logik), dass aktuelle Jury-Wertungen von 2014, deren mittlere Standaradabweichung (basierend auf dem Niggemeier-Index) nach oben abweicht, genauso des Betruges zu verdächtigen sind wie die Ausreißer nach unten.

    Das heißt also, Sie beschuldigen auch Österreich des Betrugs (mittlere Standardabweichung laut Herrn Niggemeier 5,0 und damit, soweit ich es verstanden habe, der Maximalwert)? Falls Sie dies nicht tun, begründen Sie bitte, warum nur Jury-Wertungen mit geringer mittlerer Standardabweichung verdächtig sind. Bedenken Sie dabei, dass keinerlei Notwendigkeit besteht, nahezu gleich abzustimmen, um ein bestimmtes Ergebnis zu erreichen.

    Und noch zu Ihrem letzten Absatz: Woher weiß Ihre „Anomalie“ eigentlich, dass sie sich einstellen darf? Kriegt die eine SMS, wenn mehr als 1.000 Würfe ausgeführt werden, dass sie schnell vorbeikommen soll? Eine „Anomalie“, wie Sie es nennen (ein Einzelergebnis, das Sie aus nicht nachvollziehbaren Gründen für unwahrscheinlicher als andere Einzelergebnisse halten, wie ich vermute), kann sich auch direkt beim ersten Mal „einstellen“.

    Durch die große Anzahl von Versuchen wären Sie jemand mit Ahnung von Statistik aber in der Lage, festzustellen, ob ein einzelner der vielen Versuche signifikant vom Rest abweicht und mithin verdächtig ist. Wie Sie selbst schreiben, haben wir diese große Anzahl von Versuchen aber nicht. Und damit kann niemand nur jemand ohne wirkliche Ahnung von Statistik den einzelnen Versuch lediglich aus sich heraus als verdächtig einstufen.

  82. @Stefan Niggemeier: Man lernt ja nie aus – gerade wollte ich mal eruieren, wie groß wohl so die maximal zu erreichende (mittlere) Standardabweichung beim aktuellen Modell ist (und tue mich beim Mittelwert etwas schwer, da ich noch nicht genau sehe, wie ich den maximiere, würde aber denken, dass nicht mehr als 7, wahrscheinlich sogar weniger, herauskommt).

    Wussten Sie, dass sich eine mittlere Standardabweichung von ca. 5 ergibt (zumindest, falls der Rechner, den ich verwendet habe, richtig gerechnet hat), wenn 4 Wertungen immer identisch sind und lediglich eine immer 12 davon entfernt liegt? Nicht, dass nachher noch die (vermeintlichen) Fälle verloren gehen, bei denen sich (mutmaßlich) 4 Juroren abgesprochen haben und nur unentdeckt bleiben, weil der eine Abweichler sie gerettet hat ;-).

  83. @KB: Ich habe von der Standardabweichung gar nicht geschrieben und mich demzufolge auch nicht zu Österreich geäußert.

    Das war ja auch gar nicht Thema, aber ohne deren Stimmverhalten anzuschauen ist es leicht möglich eine Begründung für eine größere Abweichung zu finden, deren Plausibilität aber weiter zu prüfen wäre, etwa könnte die Zusammensetzung der Jury besonders bunt sein und daher stärker divergieren als in anderen Ländern.

    Ihre besondere Ahnung von Statistik imponiert mir aber dennoch ganz ungemein, etwa so, wie dem Pinguin die Flugkünste des Vogel Strauß.

  84. @user unknown (#98): Sie schrieben (in #95) von einer „Täuschung“, auf die Sie Herr Niggemeier „hingewiesen hat“, auf das „es [jetzt] (für die meisten) leicht zu sehen“ wäre. Herrn Niggemeiers „Hinweis“ basiert wesentlich auf der Standardabweichung.

    Und wenn Sie Österreich so leichthin mit einer „bunten“ Jury begründen, können Sie Aserbaibschan genauso leichthin mit einer „unbunten“ Juryt begründen, womit Ihre ganze „Täuschungstheorie“ hinfällig ist.

    Ich fürchte allerdings (um Ihre Analogie aufzugreifen), das Problem ist eher, dass Sie nicht so oft den Sand in den Kopf stecken sollten ;-).

  85. Also die Unsitte überhaupt nicht zu runden ist ja weithin verbreitet. Da ist die starke Übertreibung in die andere Richtung, den Mittelwert gleich nur einstellig anzugeben durchaus originell…
    (itu)

  86. @Gepudert (101): Und wenn Platzierungen nun einfach mal ganzzahlig sind? Soll man dann trotzdem den ersten laut Mittelwert auf Platz 1,6 setzen, den Zweiten auf Platz 2,6, den Dritten auf Platz 2,8 und so weiter?

  87. Also ein Mittelwert ist immer noch ein Mittelwert und eine Platzierung was anderes. Man kann nur hoffen, dass niemand glaubt die Platzierung wäre immer direkt der gerundete Mittelwert der Punktzahl. Genau das suggeriert aber die Tabelle auf dubiose Weise.

  88. @Gepudert (#103): Der Mittelwert von mehreren Platzierungen ergibt wieder eine Platzierung, alles andere wäre unsinnig. Und Punktzahlen sind in der obigen Tabelle gar keine angegeben, insofern weiß ich nicht, wie Sie darauf kommen, dass jemand glauben könnte, eine Platzierung wäre der gerundete Mittelwert von Punktzahlen.

    Soweit ich es sehe, ergibt sich der Mittelwert der 5 Juror-Platzierungen daraus, dass die rechnerischen Mittelwerte aus den Zahlenwerten der Juror-Platzierungen (das – die rechnerischen Mittelwerte – sind dann die „ungerundeten“ mit dem Komma) wieder in eine aufsteigende Reihe gebracht und anschließend durchnummeriert werden.

    Für obige Tabelle ergeben sich aus den Zahlenwerten der Juror-Platzierungen die folgenden rechnerischen Mittelwerte, damit Sie auch mal was ungerundetes haben ;-):

    2,6
    2,8
    3,6
    5,2
    5,8
    7
    8
    9
    9,8
    11
    12,2
    13
    13,8
    14,8
    16
    17
    18,4
    18,8
    19,8
    21
    22
    23,2
    23,6
    25

  89. @Klammerbeutel (#104): Korrektur – Beim Kopieren ist der erste Wert (für Russland) verloren gegangen, den ich hiermit nachliefere: 1,6.

  90. Bei obiger Auswertung ist mir folgendes aufgefallen: Würde ein Beitrag von 4 Jury-Mitgliedern auf Platz 1 gesetzt und ein anderer von 4 Jury-Mitgliedern auf Platz 2, während das fünfte Jury-Mitglied den Beitrag im laut Herrn Niggemeier „erratischen“ Mittelbereich sieht (also keine wirklich Meinung hätte) und den ersten auf Platz 18 und den zweiten auf Platz 13 setzt, so würde damit in der Gesamtwertung der erste Beitrag, der von der Mehrheit klar und bewusst vor den anderen gesetzt wurde, durch die „Ist-Mir-Egal“-Wertung des letzten Mitglieds hinter dem anderen landen. Vielleicht sollte man die EBU mal auf die Problematik des erratischen Mittelbereichs hinweisen ;-).

    Oder man führt Streichresultate ein – aber dann sinkt die mittlere Standardabweichung und wir haben automatisch mehr Betrüger, das wäre wohl auch nicht so toll.

  91. Oje, so eine seltsame Interpretation ist mir noch nie untergekommen. Vergebene Platzierungen sollen gemittelt werden? Das ist ja wie hinten durchs Knie ins Auge. Zwar schaue ich den ESC nicht, weil er mir sozusagen Wurst ist, aber ich erinnere mich, deutlich dass dort immer theatralisch Punkte vergeben wurden ( „Germany …. points“ ) und auch im Artikel oben ist von Punkten die Rede. Zwar kann ein Gleichstand und damit eine gleiche Platzierung nie ausgeschlossen werden, aber wen man Platzierungen mittelt bekommt man entweder sinnfreie Nachkommawerte oder mit dem obigen Rundungstrick entstehen auch bei unterschiedlichen Punktedurchschnitten gleiche Platzierungen. Dass alles so toll aufgeht wie hier ist reiner Zufall.

  92. @Gepudert (#107): Hätten Sie doch gleich gesagt, dass Sie keine Ahnung haben ;-) – Hier geht es um die Jury-Wertung, die nur einen Teil der Landeswertung darstellt (sofern nicht die Zuschauer-Wertung aufgrund mangelnder Beteiligung ausfällt oder die Jury-Wertung selbst aufgrund von statistischer Unmöglichkeit nicht verwendet wird).

    Die Jury-Wertung besteht aus den Wertungen von 5 Juroren, die allen 25 Beiträgen eindeutig einen Platz von 1 bis 25 zuordnen müssen und diese Plätze werden dann wie oben beschrieben zu einer einzelnen Platzierungsliste „zusammengerechnet“ (wobei das allerdings weder sinnfrei ist noch einen Rundungstrick enthält).

    Die Zuschauer-Wertung entsteht daraus (das ist aber nur eine Vermutung, man möge mich ggf. korrigieren), dass Zuschauer anrufen und damit für einen Beitrag eine Stimme vergeben. Zum Ende werden dann alle Beiträge nach erhaltenen Stimmen absteigen sortiert und der mit den meisten Stimmen kommt auf den ersten Platz.

    Nun hat man also wieder zwei Platzierungslisten, die nach dem schon aus der Jury-Wertung bekannten Verfahren „zusammengerechnet“ werden (was durchaus zu größeren Verschiebungen führen kann, wenn die Platzierungen für einzelne Beiträge stark voneinander abweichen) und zu einer finalen Landes-Platzierungsliste führen.

    Basierend auf dieser finalen Landes-Platzierungsliste vergibt das Land dann für die ersten 10 Plätze die von Ihnen erinnerten Punkte: Nummer 1 bekommt 12 Punkte, Nummer 2 bekommt 10 Punkt, Nummer 3 bekommt 8 Punkte und dann runter bis zu einem Punkt für Nummer 10.

    Haben alle Länder so ihre Punkte vergeben, werden die wieder für jeden Beitrag zusammengezählt und der Beitrag, der dann die meisten Punkte hat, kommt auf den ersten Platz, woraufhin sein Land im folgenden Jahr den Wettbewerb ausrichten muss. So einfach ist das ;-).

    Was übrigens Ihre Zufallsvermutung betrifft: Sofern Sie damit sagen wollen, dass es unwahrscheinlich ist, dass im Rahmen der beschrieben „Zusammenrechnung“ der einzelnen Juroren-Wertungen für jeden Beitrag ein anderer Mittelwert entsteht, kann ich Ihnen nicht widersprechen, denn dazu müsste ich ausrechnen, wie hoch die Wahrscheinlichkeit ist, dass keine 2 Mittelwerte gleich sind (und das wäre wohl etwas aufwändiger).

    Insofern eine interessante These für Herrn Niggemeier: Vielleicht kann man ja aus der Verschiedenheit der rechnerischen Mittelwerte aus den Zahlenwerten der einzelnen Juroren-Platzierungen einen Wert basteln, der den Betrug von Aserbaidschan begründet? Und da ja eine Gleichheit zweier rechnerischer Mittelwerte durchaus möglich ist: Wie wird dann verfahren? Weiß irgendjemand, ob und wenn ja, wo die EBU erklärt, wie die einzelnen Wertungen zusammengerechnet werden?

  93. Ich habe mir etwa einen Reminder erstellt, um hier nach einer Woche nochmal vorbeizusehen. Und siehe da: es hat sich gelohnt ;)

  94. @ Klammerbeutel (#108): Da meine Kenntnisse in der Statistik ordinal skalierter Daten sehr bescheiden sind (sie spielt in der Statistikausbildung bei Nicht-Mathematikern leider fast keine Rolle), kann ich bei Niggemeiers Problem (Ermittlung der Wahrscheinlichkeit einer nichtzufälligen Abweichung in der Rangvergabe einer Jury von einer, aus den Daten zu schätzenden, ›wahren‹ Rangfolge) nicht wirklich helfen. Aber Gepudert (#107) hat schon Recht: Außer dem Median, mit dem man hier nichts Anfangen kann, gibt es keinen sinnvollen Mittelwert (und daher natürlich auch keine Standardabweichung) bei ordinal skalierten Daten. Es ist daher auch kein triviales Problem, aus mehreren Ranglisten eine gemeinsame Rangliste zu ermitteln. Ein Verfahren dafür wäre das Borda count Wahlverfahren . Vielleicht könnten sie sich das mal anschauen. Aber, wie gesagt, selbst wenn man mit diesem Verfahren die ›wahre‹ Rangfolge der Teilnehmer ermitteln kann, bei der Frage nach der Wahrscheinlichkeit einer Abweichenden Wahl hilft das noch nicht viel weiter.

  95. @Schorsch (#110): Ich habe mir das Verfahren ja auch nicht zu eigen gemacht, ich gehe lediglich davon aus, dass man es so wie von mir beschrieben gemacht hat (zumindest bei Aserbaidschan würde es passen). Und dass es seltsame Auswirkungen haben könnte, hatte ich ja auch geschrieben (#106).

    Auf eurovision.de ist zu dem Thema nur zu finden

    Jedes Jurymitglied muss die Beiträge, über die es abstimmen darf, in eine Reihenfolge bringen. Hieraus wird eine Gesamtreihenfolge der Jury (Platz 1 bis 26) ermittelt. Aus dieser wird dann gemeinsam mit der Gesamtreihenfolge des Televotings die nationale Punktewertung ermittelt.

    Aber wie da ermittelt wird (Kottan?), erfährt man nicht.

    Da es aber schon aufreibend genug ist, auch nur einfachste statistische Zusammenhänge zu vermitteln, möchte ich mich nicht noch detaillierter an einer weiteren Front versuchen (zumal wenn ESC-Fachleute, die mit diesen ganzen Halb- und Unwahrheiten angefangen haben, kein wirkliches Interesse an einer Aufarbeitung zeigen).

    Als Hauptproblem glaube ich aber mittlerweile erkannt zu haben, dass viele sich einfach sicher sind, dass Aserbaidschan betrügt und daher nicht wahr haben wollen, dass die Statistik dies nicht unterstützt. Die Argumentation geht da oft den Weg: Aserbaidschan betrügt, das weiß man doch -> Aserbaidschans Ergebnis muss durch Betrug zustande gekommen sein -> Aserbaidschans Ergebnis ist deutliches Anzeichen eines Betrugs -> Aserbaidschan hat schon wieder betrogen. Dagegen ist jede Vernunft machtlos.

  96. @Pingback (#110): Wenn ich das schon wieder sehe, könnte ich brechen

    Die georgische Juryentscheidung wurde dieses Jahr komplett aus der Wertung genommen, da die Mitglieder der georgischen Jury nicht einzeln bewerteten, sondern die vorderen 8 Plätze von allen 5 Juroren exakt gleich vergeben wurden. Das konnte mit an Sicherheit grenzender Wahrscheinlichkeit kein Zufall sein

    Völlig gleichberechtigt könnte man schreiben

    Die Mitglieder der deutschen Jury vergaben Platz 1 einstimmig an Dänemark, Platz 2 mit 4 zweiten Plätzen und einem dritten Platz an Holland, Platz 3 mit … und Platz 8 mit 2 siebten, 2 achten und einem fünfzehnten Platz an Großbritannien – das konnte mit an Sicherheit grenzender Wahrscheinlichkeit kein Zufall sein

    Hätten sie wenigstens die nordische Variante von der statistischen Unmöglichkeit genommen, dann würden vielleicht einige merken, was für ein Unsinn hier unreflektiert verbreitet wird. Wenn das so weitergeht, sollte ich vielleicht doch aufgeben :-(.

  97. @Pingback (#110): Jetzt weiß ich endlich, wo der Fehler in meinem Denkansatz liegt

    Wahrscheinlichkeiten werden nicht belegt, sonst wären es ja keine Wahrscheinlichkeiten.

  98. Können wir uns eigentlich schon mal auf Australien als Gewinner am kommenden Samstag einigen?

    Das macht das Synchronabstimmen doch etwas leichter.

  99. Naja, das alle deutschen Jurymitglieder den lettischen Beitrag geschlossen auf die 1 gesetzt haben, beweist nur das alle 5 einen halbwegs ordentliches Musikverständnis haben.

Comments are closed.