CERN’ed: Franz, wohin mit all den Daten? — Web und Grid

8
Kommentare

Damals. Als die Welt noch schwarz-weiß, oder zumindest braun-orange-kariert war, als sich Fuchs und Gans über die stabile Mark unterhielten und dabei fettige Schnitzel aßen.
Damals muss das Leben furchtbar langweilig gewesen sein.
Denn es gab kein Web.

Um 1990 hatte Tim Berners-Lee eine ziemlich coole Idee. Er wollte den Datenaustausch zwischen Wissenschaftlern (und mit Sicherheit auch zwischen Restmenschen) vereinfachen. Text, vielleicht sogar noch mit Bild. Das wäre doch was. Und, zack, ein paar Monate später hatte er das World Wide Web erfunden. Zuerst nur in hässlich und unschick und ohne Bilder wurde das Ding schon bald zum Selbstläufer. Das Team um Berners-Lee hatte sich extra eine Struktur ausgedacht, die frei zugänglich für jeden war, so dass keiner Lizenzgebühren an irgendeinen Konzern abdrücken musste. Was dann passierte, war Geschichte.
Erst in Kreisen der Wissenschaft, dann unter Nerds und schließlich irgendwann zehn Jahre nach Gründung auch im Mainstream der Bevölkerung: nichts funktioniert mehr ohne das Web. Nachrichtenseiten, Vorlesungsseiten, Bibliotheken, Videos und Blogs, die sich selbst viel zu wichtig nehmen.
Eine absolut geniale und weltverändernde Erfindung zum Informationsaustausch.

Jetzt wird aber in ein paar Tagen dieses größte Experiment der Menschheit angeknipst. Das ist alles völlig wunderbar. Es gibt nur ein kleines Problem: Diese Maschine produziert im Jahr 15 Petabyte an Daten, die ausgewertet werden wollen. 15 Petabyte? Sagt euch nichts? Zum Glück haben das ein paar Datenjongleure schon mal in handelsübliche Mengen umgerechnet: 15 Petabyte Daten sind mehr als 1000 Mal der Informationsinhalt aller auf der Welt jährlich gedruckter Bücher. 15 Petabyte Daten, gebrannt auf CD-Rohlinge würde einen CD-Turm von 20 Kilometer Höhe ergeben. 15 Petabyte Daten sind 1% der jährlich weltweit produzierten digitalen Gesamtdaten.
15 Petabyte sind 1,8 * 1013 mit “Katze” vollgeschriebene DIN-A4-Blätter , übereinander gestapelt käme man damit 5 Mal bis zum Mond1.
Eine ganze Menge also.

Welcher Rechner soll das auswerten können? Außer der Rechnerfarm von Google2. Die ist aber schließlich mit Suchen und Nutzerprofileerstellen beschäftigt.

Also haben sich die schlauen Köpfe im CERN etwas Neues ausgedacht3: Sie haben das Grid erfunden. Genauer das World Wide Grid, oder aktueller das LHC Computing Grid (LCG).
Das Grid geht einen Schritt weiter als das Web: Es verteilt nicht nur Informationen quer durch die Welt, es verteilt Rechenleistung.
So kann eine Recheneinheit, ein sogenannter Job, in ein Grid eingecheckt werden, ehe er irgendwo in dem Netz ausgewertet wird und als erledigt zurück an den ‘Einchecker’ kommt. So kann ein großer Pool an einzelnen Rechenleistungen verwaltet und dem zugeteilt werden, der sie gerade braucht.

Beim LCG kommt ein mehrstufiges System zum Einsatz, das vor dem Verteilen der Daten noch Anderes macht:
Aus dem LHC heraus kommt ein Datenstrom von 300 GB/sec. Dabei ist aber ganz viel Kram, den niemanden interessiert. So wird der Strom bereits kurz nach dem Detektor auf 300 MB/sec “interessanter Daten” heruntergebrochen. Diese Daten werden über eine 10-GBit-Glasfaserleitung zu “Tier 0″ herübergeschickt, der ersten großen Einheit des Grid-Systems. Tier 0 sichert auf Backupbänder und wertet schon mal vor, ehe es zu der Einheit geht. Richtig geraten: Zu “Tier 1″. Von den Tier 1 gibt es 11 an der Zahl4, die allesamt außerhalb des CERNs stehen, dort hin allerdings eine dedizierte 10-GBit-Leitung haben. Jeder Tier 1 erhält nicht den kompletten Satz Daten, sondern eine (sich überlappende) Vorauswahl – die er schließlich wieder sichert und weiterverteilt. Ja, zu einer größeren Anzahl von “Tier 2″en. Dort wird entweder weiter unterverteilt oder aber bereits gerechnet. Tier 2e stehen in Instituten und Laboratorien und stellen einen gewissen Satz an Rechnerleistung.
Klingt ein wenig kompliziert, ist aber ganz einfach: Es wird immer weiter unterverteilt und an unterster Ebene gerechnet.

So können auch hochkomplexe Rechnungen ausgeführt würden, für die es normalerweise ein super-duper Supercomputer gebraucht hätte. Außerdem ist man sehr redundant gegen Ausfälle abgesichert. Ziemlich cool, also.

Wer sich näher für das Thema des Grids interessiert, der kann sich z.B. hier den aktuellen Status vom LCG anschauen. Außerdem habe ich zwei Videos gefunden, ein kurzes Promo-Video, ein Langes aus dem Bereich ‘User Generated’. Beide nach dem Klick.


YouTube-Direktpromovieren

Google-Video-Direktrechnerfarm

  1. Unser bescheidener Beitrag zur Datenjonglage. []
  2. Die macht immerhin knappe 20 Petabyte pro Tag. []
  3. Genauer gesagt: Sie haben eine vorhandene Idee aufgegriffen, ausgebaut und groß auf professionellem Niveau rausgebracht. Und das kommt doch eigentlich auf’s Gleiche raus. []
  4. Der deutsche Tier 1 steht in Karlsruhe. []
Kurzlink
Kategorien: Erklärbär, Internettiges
Tags: , , ,

8 Antworten auf CERN’ed: Franz, wohin mit all den Daten? — Web und Grid

  1. Basti sagt:
    #1

    Ich bezweifle allerdings dass das, was Google mit den Daten anstellt, auch nur 10^-6 so kompliziert ist wie das was mit den LHC-Daten geschehen muss. Insofern ist das ein etwas unfairer Vergleich (alle Vergleiche die den LHC klein aussehen lassen sind unfair! ;-) ). Immerhin werden die Daten am CERN produziert, und nicht nur gehandelt.

    Am beeindruckensten find ich, dass das tatsächlich 1% der weltweiten Datenmenge ist. Schon nicht schlecht. Ich befürchte damit sinkt mein Anteil der weltweit produzierten Datenmenge noch weiter.

  2. Andi sagt:
    #2

    Aber es kommt ja zum Glück auf die Qualität der Daten an. ;)

  3. Basti sagt:
    #3

    Da hast du Recht. Und die Qualität der Daten am LHC wird wahrscheinlich nur noch von der Qualität deiner Artikel getoppt. end{selbstreferenzielleBlogschleimerei}

  4. Andi sagt:
    #4

    Ah, Basti, hatte ich dir eigentlich schon gesagt, dass dein Gehalt nächsten Monat um 1001% erhöht wird?

  5. Basti sagt:
    #5

    An die mitlesende Steuerbehörde: Das sind dann immer noch 0€. Nur damit mir hier keine Ermittlungsbescheide in die Wohnung flattern.

    Und Andi: ich würd die 1001% gerne in 1001 Gummibärchen umgerechnet bekommen. Kannste mir dann ja gleich vorbeibringen.

  6. Andi sagt:
    #6

    Hmmmm… Nö. :)

  7. edi sagt:
    #7

    Ich finde es spannend, dass durch die Entwicklung des Internets schon ganze Häuser gebaut und gemietet werden um Platz für die Server und Daten zu haben.Frag mich wo da das Ende sein soll.?

  8. André sagt:
    #8

    Vielleicht wird irgendwann auf einem Saturnmond ein riesiges Datenarchiv gebaut, wer weiß. So ne Art Universumsbibliothek. Andererseits, nachher kommen ein paar Außerirdische und klauen den ganzen Mond, dann ist das gesammelte Wissen der Menschheit weg und wir können mit den Affen aufm Baum spielen gehen. Oder mit den Katzen.

  1. Pingback: CERN’ed: Alle Teilchen Lieben ATLAS’ Suchmethode auf physikBlog

  2. Pingback: physikBlog goes CERNish auf physikBlog

  3. Pingback: CERN’ed: Das war’s dann … auf physikBlog

  4. Pingback: Supercomputer am CERN