

Supercomputer kommen überall dort zum Einsatz, wo massenweise und massive Daten ausgewertet oder berechnet werden müssen. Hierfür würden normale PCs viele Jahre (bis Lichtjahre) benötigen, um die Daten aufzubereiten. Daher werden in Supercomputern die besten Intel, AMD und IBM Prozessoren zusammen mit Vektorprozessoren von NEC und anderen Herstellern kombiniert, die gemeinsam viel schneller diese Daten durchrechnen können. Da sich jedoch die Leistung der einzelnen Prozessoren oder Systeme nicht grenzenlos steigern lässt, werden mehrere solcher Supercomputer zu einem Cluster zusammengefügt. Zusammen und vernetzt können Sie Operationen nochmals viel schneller berechnet werden, zudem sind sie skalierbar, sodass man auch zu einem späteren Zeitpunkt neue Systeme hinzufügen kann. Dies gewährleistet im übrigen eine redundante Ausfallsicherheit. Fällt eines der vielen Systeme aus, so springen die anderen dafür ein. Solche Supercomputer Cluster werden zur Berechnung von Klimamodellen, physikalische Simulationen, Astrophysik, Genforschung sowie Pharmazie eingesetzt und verschlingen nicht nur ungeheure Summen an Produktionskosten (Millionen bis Milliarden Euro), sondern auch sehr viel Strom. Diese Auswahl der besten Supercomputer weltweit zeigt, welchen technologischen Einsatz solche Systeme benötigen und welche Rechenleistung erzielt wird. Namen | Ort | Technik | TeraFLOPS | Aufgaben | IBM Roadrunner | Los Alamos National Laboratory (USA) | 6.000 AMD Dual-Core Prozessoren, 13.000 IBM Cell-Prozessoren | 1105 | Physikalische Simulationen (ev. Atomwaffensimulationen) | JUGENE | Forschungszentrum Jülich (Deutschland) | 294.912 PowerPC 450 850 MHz Prozessoren | 1000 | Materialforsch., theoretische Chemie, Elementarteilchen-physik, Umwelt, Astrophysik | BlueGene/L | Lawrence Livermore National Laboratory Livermore (USA) | 212.992 PowerPC 440 700 MHz Prozessoren | 478 | Physikalische Simulationen | Blue Gene Watson | IBM Thomas J. Watson Research Center (USA) | 40.960 PowerPC 440 700 MHz Prozessoren | 91 | Forschungsabteilung von IBM, aber auch für Wissenschaft und Wirtschaft | ASC Purple | Lawrence Livermore National Laboratory Livermore (USA) | 12.208 Power5 Prozessoren | 76 | Physikalische Simulationen (ev Atomwaffensimulationen) | MareNostrum | Universitat Politècnica de Catalunya (Spanien) | 10.240 PowerPC 970MP 2,3 GHz Prozessoren | 63 | Klima- und Genforschung, Pharmazie | HLRB II | LRZ Garching bei München (Deutschland) | 9.728 Intel Itanium 2 (Montecito) Dual-Core 1,6 GHz Prozessoren | 56 | Naturwissenschaften, Astrophysik und Materialforschung | Columbia | NASA Ames Research Center (USA) | 10.160 Intel Itanium 2 (Madison) Prozessoren | 52 | Klimamodellierung, astrophysikalische Simulationen | JUBL (BlueGene/L) | Forschungszentrum Jülich (Deutschland) | 16.384 PowerPC 440 700 MHz Prozessoren | 37 | Materialforsch., theoretische Chemie, Elementarteilchen-physik, Umwelt, Astrophysik | Earth Simulator | Yokohama Institute for Earth Sciences (Japan) | 5.120 NEC SX-6 500 MHz Vector-Prozessoren | 36 | Klimamodellierung |

Als Beowulf Cluster werden Supercomputer bezeichnet, die sich mit einem geringen Budget, durch Einsatz von Standard-Hardware, realisieren lassen. Dabei werden handelsübliche Consumer-PCs übereinander oder nebeneinander gestapelt und mittels Netzwerk verbunden (Class 1 Cluster). Diese Rechner sind meist sehr kostengünstig (300 bis 800 EUR je nach Ausstattung) und zusammengeschlossen lassen sich somit sehr leistungsstarke Cluster erstellen. Sehr interessant war dabei ein Beowulf Cluster Projekt, in dem aus Platzgründen Mini-Barebones von Shuttle eingesetzt wurden. Als Class 2 Cluster werden Systeme bezeichnet, in denen zusätzlich spezielle Hardware integriert worden ist. Die TU Chemnitz unterhielt bis 2007 deren Beowulf Cluster bestehend aus 512 Pentium III Prozessoren. Der große Vorteil solcher Beowulf Cluster ist einerseits der geringe Anfangspreis, zusätzlich die Freiheit jegliche Hardware in den Folgejahren einfach hinzufügen zu können (Skalierbarkeit), ohne dass man an einem speziellen Anbieter oder Hersteller gebunden wäre, so wie es bei Supercomputer oder Clustern ist. Der Nachteil ist jedoch, dass man deutlich mehr Platz benötigt, da Standard-Desktop Rechner nicht auf platzsparen optimiert sind.
Bei Blade-Servern steht die Platzersparnis und Kostenersparnis im Vordergrund, wenn sie auch nicht so günstig wie Beowulf-Systemen sind. Blade-Server sind modular aufgebaut, sodass mehrere dieser Blades (einzelne Computermaschinen) in einem Racksystem (z.B. 19“) eingebaut werden können und dann sofort funktionieren. Sie integrieren sich direkt in das restliche System und müssen auch nicht weiter verkabelt werden (Hot-Plug). Die einzelnen Blades sind nur mit Mainboard, ein bis mehreren CPUs, Arbeitsspeicher und ev. Festplatten ausgestattet. Auch hier ist die Redundanz von Vorteil, fällt eines der Systeme aus, ist nicht der gesamte Blade-Verbund gefährdet.
Wurden bisher meist sehr teure Workstations als Supercomputer in Firmen eingesetzt, so macht derzeit nVidia mit deren CUDA Technologie viel Druck in diesem Segment und präsentiert deren TESLA Maschinen als günstige Personal Supercomputer unter 10.000 EUR. Bei CUDA wird die enorme Rechenleistung des Grafikchips (ab nVidia 8xxx Serie) eingesetzt, um Aufgaben zu berechnen. Durch die vielen Streamprozessoren von Grafikkarten (bis zu 128 Grafikkerne) können parallel viel mehr Aufgaben gelöst werden, als herkömmliche Prozessoren dies tun könnten. Solche von nVidia unter dem Namen TESLA vertriebenen Workstation knacken damit schon die 1 bis 4 TeraFLOPS bei einfacher Genauigkeit, und dies bei einem einzigen PC mit 4 solcher dedizierten TESLA Karten, die im Grunde genommen nichts anderes als eine modifizierte Grafikkarte sind. Dedizierte 1 Höheneinheiten-Server erreichen bei kompaktester Bauweise bereits die TeraFLOPS Rechenleistung. Man kann sich vorstellen, welche Leistung in einem kompletten 19“ Rack möglich ist mit mehreren solcher Maschinen. Damit ließe sich die TOP500 der Supercomputer Liste locker erreichen. Allerdings bedarf es noch einiger Zeit, bis entsprechende Programme für CUDA optimiert werden. Derzeit sind es meist wissenschaftliche Anwendungen, für Consumer gibt es nur 2 Videoconverter, Adobe hat aber in der neuen CS4 Suite CUDA integriert und beschleunigt damit hardwaremäßig die Bild- und Videobearbeitung. Auch von Seiten von AMD gibt es solche Überlegungen für die eigenen ATI Grafikkarten (ATI Stream Technology), bei der der Grafikchip normale Berechnungen übernimmt. Von dem Prinzip der Streamprozessortechnik, bei der die GPU mitrechnet, profitieren aber nicht nur Workstations der TESLA Serie, sondern eigentlich jeder PC, der mit einer modernen nVidia oder ATI Grafik ausgestattet ist. Interessant ist diese Situation dann wieder für Unternehmen, die sich damit günstige Beowulf Cluster zusammenbauen, die durch die enorme Rechenleistung von Grafikchips einen enormen Geschwindigkeitsvorteil erhalten.
 |  | |
Ein anderes Prinzip verfolgt die Idee von Grid Computing, denn hier fehlt in der Regel ein einzelner Supercomputer oder ein Cluster um Berechnungen durchzuführen. Alle PCs dieser Welt (auch Spielkonsolen) können sich an der Berechnung beteiligen. Bekannte Projekte für Grid Computing sind Seti@Home (Erforschung von Signalen aus dem Weltall nach anderen Lebensformen) oder Folding@Home, bei dem die Faltung von Proteinen berechnet wird, durch die sich Wissenschaftler eine Lösung gegen Krankheiten wie Alzheimer, Parkinson, BSE, Creutzfeld-Jakob und Krebs erhoffen. Ähnliches Prinzip verfolgt das Projekt Rosetta@Home und Predictor@Home.
Jeder PC der mit der Client-Software ausgestattet ist, stellt seine freie Rechenpower der Allgemeinheit zur Verfügung um solche Projekte schneller zu berechnen. Sogar Spielkonsolen wie die Sony Playstation 3 sind mit dem Client Folding@Home ausgestattet. Im Durchschnitt rechnen hier 30.000 - 50.000 Konsolen täglich mit und erreichen die extreme Rechenleistung von 1 PetaFLOPS, das entspricht der Rechenleistung des schnellsten Computers der Welt, dem IBM Roadrunner. Bei ClimatePrediction konnten durch verteiltes Rechnen schon genaue Erderwärmungsimulationen für die nächsten 100 Jahre durchgeführt werden, ein normaler PC würde Lichtjahre dafür benötigen, ein Supercomputer viele Jahrzehnte. Durch den Client BOINC gibt es aber viele Projekte, die gemeinsame Rechenpower zur Verfügung stellen. Eine Liste gibt es auf der deutschen Wikipedia.

Die größte Inspiration für unser Cooler Master Mini-ITX PC erhielten wir durch ein privates Projekt aus dem Jahre 2004. Damals hatte Glen Gardner aus USA als erster ein Clustersystem mit Hilfe von kompakten Mini-ITX Mainboards aufgebaut. Glen verwendete damals die ersten Mini-ITX Mainboards von VIA, Epia V8000 mit jeweils VIA C3 800 MHz Prozessoren. Sein Cluster System bestand aus zuerst 6, dann insgesamt 12 Nodes mit insgesamt 12x 800 MHz = 9,6 GHz und einer respektablen gemeinsamen Rechenleistung von 3,6 GigaFLOPS und einem Stromverbrauch von gerade mal 140 Watt im Idle und 200 Watt unter Volllast.
Glen Gardner hatte jedoch die vielen Mini-ITX Mainboards nicht in einem Case eingebaut, sondern diese auf Gewindestangen befestigt und die beiden Mainboard-Türme im Regal aufgebaut. Durch die offene Bauweise sind auch keine weiteren Kühlmaßnahmen nötig, die CPU-Lüfter reichen vollkommen aus. Der komplette Artikel kann auf Mini-ITX.com nachgelesen werden.
Hersteller hatten mittlerweile das Potential der Mini-ITX Plattform erkannt, vor allem dass sie so wenig Platz verbraucht, weshalb einige auf die Idee kamen, insgesamt 4 Mainboards in einem 1U 19“ Rackgehäuse zu integrieren. Diese Server-Cases werden seit geraumer Zeit auch im Handel angeboten. Ainkaboot jedoch verfolgte einen leicht anderen Plan. Statt die Mainboards horizontal einzubauen, wurden sie senkrecht in einem 19“ Rackgehäuse angeordnet, sind Hot-Swap-fähig und ähneln von der Bauweise stark einem Blade Server, nur dass die Kosten deutlich geringer sind.
Der Octimod Mini-ITX Cluster benötigt 4U 19“ Höheneinheiten und fasst insgesamt 7 Mini-ITX Systeme auf kleinstem Raum (ca. 48 x 20 x 30 cm). Wegen der geringen Bautiefe des Clusters kann ein zweiter Cluster auf die Rückseite des 19“ Racks eingebaut werden, sodass man je 4U Höheneinheiten insgesamt 14 Mini-ITX Systeme unterbringt. Bei Octomod werden VIA C7 Prozessoren mit je 1,5 GHz eingesetzt, jeder Octimod Cluster erreicht insgesamt 10,5 GHz, bei einem durchschnittlichen Verbrauch von 200 Watt. Mittlerweile bietet aber Ainkaboot auch Clustersysteme mit Intel Core 2 Duo Mobile Prozessoren an (7x Core 2 Duo T7600 mit 2x 2,33 Ghz = 32 Ghz), die deutlich mehr Rechenleistung bieten. Weitere Informationen auf der Ainkaboot Webseite.
|