Die offizielle Berufsbezeichnung von Dr. Taha Yasseri klingt beeindruckend. "Big Data Research Officer" steht auf seiner Visitenkarte. Der Forscher von der Universität Oxford ist Experte für die Analyse riesiger Datenmengen, die ihm soziale Online-Netzwerke wie Facebook und Twitter täglich frei haus liefern. Es geht um "Big Data" und die Frage, wie sich daraus nützliche Informationen extrahieren lassen. Zum Beispiel für die Filmindustrie, die gerne schon vor der Premiere wüsste, ob ein neuer Streifen das Zeug zum Kassenschlager hat.
"Normalerweise basieren die Erfolgsprognosen der Filmindustrie auf den Urteilen der Kritiker. Da fließen jede Menge Details ein, zur Handlung, den Schauspielern und so weiter. Wir wollten einen einfacheren Zugang, der ohne Inhaltsanalyse und die Meinung der Kritiker auskommt. Unser Ziel war ein gröberes Bild, mit weniger Details, aber dennoch aussagekräftig. Deshalb nutzten wir Crowdsourcing, um herauszufinden, wie populär bestimmte Filme sind."
Taha Yasseri zapfte das geballte Wissen von Autoren der Online-Enzyklopädie Wikipedia an. Schon lange bevor ein neuer Streifen anläuft, fachsimpeln Filmfreaks und Kinofans darüber in ausführlichen Wikipedia-Artikeln. Die Zahl der Autoren, Anmerkungen, Änderungen und Seitenaufrufe eines Textes ist öffentlich einsehbar und damit ein gefundenes Fressen für den Datenschürfer aus Oxford.
"Wir haben diese Datensätze kombiniert und ein simples mathematisches Modell angewandt. Mit dem Ergebnis, dass wir – obwohl Datenerfassung und Auswertung so einfach sind - in der Lage sind, sehr genaue Vorhersagen zu machen. Unsere Prognosen sind treffender als jene, die mit klassischen Methoden erzeugt wurden. Und sie sind auch besser als jene, die auf Twitter-Daten basieren."
Der Grund: Twitterbotschaften, die sich auf einen Film beziehen, machen erst Tage vor Filmstart die Runde. Auf Wikipedia dagegen tauschen sich Tausende Menschen schon Monate, teils sogar Jahre vor der Premiere aus. Dass zu diesem Zeitpunkt noch keiner den Film gesehen haben kann, stört Taha Yasseri nicht.
"Da wir nicht wissen, wie zuverlässig die Informationen der Wikipedia-Autoren sind, ignorieren wir den Inhalt ihrer Textbeiträge. Wir zählen nur die Zahl der Änderungen und messen die Aktivität auf einer Seite. Das verrät uns zwar nicht wie gut ein Film ist, aber wie populär."
Um ihre Methode zu testen, untersuchten die Forscher 312 Filme, die 2010 in US-Kinos anliefen, darunter die Blockbuster "Alice im Wunderland" und "Inception". Das Ergebnis: Mit Crowdsourcing via Wikipedia lässt sich schon einen Monat vor Filmstart vorhersagen, wie viele Tickets am ersten Wochenende verkauft werden. Den Kinobetreibern bliebe also noch Zeit, ihre Premieren-Strategie anzupassen, etwa indem sie einen Streifen je nach zu erwartendem Andrang zeitgleich in mehr oder weniger Sälen zeigen.
"Unsere Prognosen sind 10 bis 20 Prozent genauer als heute üblich. Ich wäre nicht überrascht, wenn Firmen unsere Methode bald einsetzen."
Einziger Nachteil der Blockbuster-Prognose mit Wikipedia: Sie funktioniert nur bei populären Filmen wirklich gut. Den Misserfolg schlechter Filme konnten die Forscher nicht vorhersagen. Bei Streifen, über die sich im Vorfeld kaum einer im Internet auslässt, ist die Datenlage zu dünn, um die Zuschauerzahl zuverlässig abschätzen zu können.
"Normalerweise basieren die Erfolgsprognosen der Filmindustrie auf den Urteilen der Kritiker. Da fließen jede Menge Details ein, zur Handlung, den Schauspielern und so weiter. Wir wollten einen einfacheren Zugang, der ohne Inhaltsanalyse und die Meinung der Kritiker auskommt. Unser Ziel war ein gröberes Bild, mit weniger Details, aber dennoch aussagekräftig. Deshalb nutzten wir Crowdsourcing, um herauszufinden, wie populär bestimmte Filme sind."
Taha Yasseri zapfte das geballte Wissen von Autoren der Online-Enzyklopädie Wikipedia an. Schon lange bevor ein neuer Streifen anläuft, fachsimpeln Filmfreaks und Kinofans darüber in ausführlichen Wikipedia-Artikeln. Die Zahl der Autoren, Anmerkungen, Änderungen und Seitenaufrufe eines Textes ist öffentlich einsehbar und damit ein gefundenes Fressen für den Datenschürfer aus Oxford.
"Wir haben diese Datensätze kombiniert und ein simples mathematisches Modell angewandt. Mit dem Ergebnis, dass wir – obwohl Datenerfassung und Auswertung so einfach sind - in der Lage sind, sehr genaue Vorhersagen zu machen. Unsere Prognosen sind treffender als jene, die mit klassischen Methoden erzeugt wurden. Und sie sind auch besser als jene, die auf Twitter-Daten basieren."
Der Grund: Twitterbotschaften, die sich auf einen Film beziehen, machen erst Tage vor Filmstart die Runde. Auf Wikipedia dagegen tauschen sich Tausende Menschen schon Monate, teils sogar Jahre vor der Premiere aus. Dass zu diesem Zeitpunkt noch keiner den Film gesehen haben kann, stört Taha Yasseri nicht.
"Da wir nicht wissen, wie zuverlässig die Informationen der Wikipedia-Autoren sind, ignorieren wir den Inhalt ihrer Textbeiträge. Wir zählen nur die Zahl der Änderungen und messen die Aktivität auf einer Seite. Das verrät uns zwar nicht wie gut ein Film ist, aber wie populär."
Um ihre Methode zu testen, untersuchten die Forscher 312 Filme, die 2010 in US-Kinos anliefen, darunter die Blockbuster "Alice im Wunderland" und "Inception". Das Ergebnis: Mit Crowdsourcing via Wikipedia lässt sich schon einen Monat vor Filmstart vorhersagen, wie viele Tickets am ersten Wochenende verkauft werden. Den Kinobetreibern bliebe also noch Zeit, ihre Premieren-Strategie anzupassen, etwa indem sie einen Streifen je nach zu erwartendem Andrang zeitgleich in mehr oder weniger Sälen zeigen.
"Unsere Prognosen sind 10 bis 20 Prozent genauer als heute üblich. Ich wäre nicht überrascht, wenn Firmen unsere Methode bald einsetzen."
Einziger Nachteil der Blockbuster-Prognose mit Wikipedia: Sie funktioniert nur bei populären Filmen wirklich gut. Den Misserfolg schlechter Filme konnten die Forscher nicht vorhersagen. Bei Streifen, über die sich im Vorfeld kaum einer im Internet auslässt, ist die Datenlage zu dünn, um die Zuschauerzahl zuverlässig abschätzen zu können.