Archiv

CERN stellt Daten ins Netz
Kernforschung für jedermann

Seit zwei Jahren stellt das europäische Kernforschungszentrum CERN bereits ausgewertete Daten und passende Analyse-Werkzeuge als "Open Data", also zum allgemeinen Gebrauch, im Netz zur Verfügung. Das dient nicht nur der Dokumentation, sondern soll auch Wissenschaftlern und interessierten Laien weltweit weitere Forschung mit den Daten ermöglichen.

Von Anneke Meyer |
    Beleuchteter Schriftzug "Cern" an einer dunklen Wand, rechts im Vordergrund der Schatten einer Person, die den Schriftzug fotografiert
    Das CERN in Genf stellt seine Daten seit zwei Jahren öffentlich ins Netz. Mit den entsprechenden Physikkenntnissen ist die Plattform sehr einfach zu benutzen. (FABRICE COFFRINI / AFP)
    "Der Computer ist jetzt wirklich langsam, also mal sehen." Der Computer verdaut gerade ein paar Terabyte Daten und reagiert dementsprechend langsam. Adrian Nassirpour tippt ein paar Befehle in die Kommandozeile, und nach kurzem Warten tauchen dann doch noch eine Handvoll Abbildungen auf:
    "Wir haben es gerade geschafft, solche Abbildungen hier nachzustellen."
    Der Austauschstudent zeigt auf einige Graphen. Was aussieht wie nichtssagende Kurven, bietet Einblicke in die Eigenschaften der Bausteine, aus denen die Welt besteht: Elementarteilchen. Während seines Aufenthalts am Deutschen Elektronen Synchrotron in Hamburg, DESY, beschäftigt Adrian Nassirpour sich mit einem Phänomen, das bei der Streuung nach einem Teilchenzusammenstoß entsteht. Dem so genannten Ridge-Effekt.
    Die dafür nötigen Daten kann er sich einfach aus dem Internet herunterladen. Seit zwei Jahren stellt das europäische Kernforschungszentrum CERN bereits ausgewertete Daten und passende Analyse-Werkzeuge als "Open Data", also zum allgemeinen Gebrauch, zur Verfügung. Mit den entsprechenden Physikkenntnissen ist die Plattform sehr einfach zu benutzen, betont Achim Geiser. Er betreut den Austauschstudenten:
    "Das ist so ein bisschen wie ein Lego-Baukasten, wo man eben schon fertige Lego-Bausteine kriegt, sodass wir also mit sehr wenig Aufwand mit einem Bachelorlevel-Studenten in wenigen Wochen oder Monaten schöne Ergebnisse produzieren können. Man bekommt sozusagen den Bausatz frei Haus geliefert und braucht ihn dann - in Anführungsstrichen - 'nur noch' zusammenzubauen."
    "Wir bewahren unsere Daten, indem wir sie veröffentlichen"
    Schon lange bereitet das CERN vereinzelte Experimente für den Schulunterricht auf. Das neue Portal biete aber auch Daten für Forschungszwecke an. Dahinter stecken ganz pragmatische Erwägungen: Immer mehr Geldgeber erwarten, dass nicht nur Ergebnisse, sondern auch die zugrunde liegenden Daten veröffentlicht werden.
    Dazu kommt: Details von wichtigen Analysen geraten schnell in Vergessenheit. Etwa, wenn ein Mitarbeiter das Institut wechselt. Die auf dem Datenportal hinterlegte Software soll deshalb auch den Forschern am CERN selbst als Dokumentation dienen, erklärt Salvatore Mele, der am CERN für Open Access Fragen zuständig ist:
    "Es gab einen Konsens zwischen den Projektpartnern, dass die Daten nach einer Frist von drei Jahren öffentlich werden sollten. Wir dachten, so können andere vielleicht noch Dinge damit machen, auf die wir nicht gekommen sind.
    Wir erfüllen die Auflage der Geldgeber, und es ist auch gut für uns selbst: Wir bewahren unsere Daten, indem wir sie veröffentlichen. Das war ein echter Aha-Moment."
    Bereits nach zwei Jahren mehrere wissenschaftliche Projekte auf Basis der CERN-Daten
    Die damit verbundene Mehrarbeit hat sich schon jetzt gelohnt. In den für Wissenschaftsstandards kurzen zwei Jahren haben die abgelegten Daten unterschiedliche Wiederverwendungszwecke gefunden. An zwei amerikanischen Unis werden sie zur Entwicklung von Datamining-Algorithmen benutzt.
    Physiker am MIT in Boston bearbeiten eine Fragestellung, die am CERN niemand untersucht hatte. Und auch die Auswertungen, die Achim Geiser mit Studenten durchführt, ist mehr als nur ein Lehrprojekt. Sie überprüfen, ob sich bereits publizierte Ergebnisse mit andern Daten wiederholen lassen:
    "Das ist gut für die wissenschaftliche Reproduzierbarkeit. Das Portal ist aber auch gut für interessierte Laien. Das letzte Mal, als wir Daten veröffentlicht haben, war ein Sonntag und die Webseite wurde etwa sechzigtausend Mal aufgerufen. Ich meine - es gibt maximal fünfhundert Menschen, die diese Daten bis ins Detail verstehen!"
    Adrian Nassirpour ist nach den ersten drei Wochen seines Projektes schon auf einem guten Weg. Gerade hat er seine Daten in die nächste Runde geschickt. Der Computer ist wieder beschäftigt.
    "Obwohl die Arbeit sehr spannend ist - man muss ziemlich viel warten, dass der Computer fertig wird."
    Ob er den Ridge-Effekt in seinem Datensample tatsächlich wiederfinden kann, muss sich noch zeigen. Sicher ist: Sollte die Zeit in Hamburg nicht ausreichen, könnte er die Auswertung auch zuhause noch fertig schreiben. Open Data sei Dank.