Massive Probleme mit Broadcom (LSI) 9300-8e SAS HBA beim Aufbau eines Scale-Out File Server | Hyper-V Server Blog

Massive Probleme mit Broadcom (LSI) 9300-8e SAS HBA beim Aufbau eines Scale-Out File Server

Beim Aufbau von einem Scale-Out File Server Cluster mit Shared JBODs haben wir festgestellt, dass es beim Betrieb massive Probleme gibt. Das Failover Cluster besteht aus zwei Server-Systemen, die jeweils drei von den 9300-8e SAS HBAs verbaut haben. Über insgesamt zwölf Kabel sind drei JBODs angeschlossen, die jeweils bis zu 70 Datenträger aufnehmen können. In jedem JBOD stecken SSDs und HDDs, die zu einem gemeinsamen Pool zusammengefasst werden. Basierend auf diesem Pool habe ich mehrere virtuelle Datenträger erzeugt, die im Failover Cluster als Cluster Shared Volumes zur Verfügung stehen.

Der Aufbau und Test der Systeme verlief problemlos, die abgefragte und gezeigte Leistung war wie erwartet, ein Test der Hardware brachte keine Auffälligkeiten. Angefangen haben die Probleme, als ein Datenträger mit einem vermeintlichen Defekt angemerkt wurde und in einer geplanten Wartung ausgetauscht werden sollte. Während dem Austausch kam es zu massiven Störungen mit einem kompletten Ausfall des Storage, multiple Festplatten wurden als fehlerhaft markiert.

Das Problem konnte temporär gelöst werden, indem ein IO-Controller in einem der JBODs (welches auch die defekten Festplatten zeigte) ausgeschaltet wurde. Der Controller wurde getauscht, weil scheinbar ein fehlerhaftes Modul vorhanden war. Nach dem Tausch zeigten sich leider weiterhin die gleichen Fehler, es wurden sporadisch Datenträger als defekt markiert, dieses Mal über mehrere JBODs hinweg. Ein geplantes Entfernen von Disks endete in minutenlangen Timeout und IO-Freezes, das ungeplante Entfernen sorgte neben Timeouts auch zu Ausfällen des gesamten Systems. Im Eventlog traten diverse Fehler auf, es wurden unter anderem MPIO-, Disk- und PersistantReservation-Fehler angemerkt.

Bei einer Überprüfung aller Treiber- und Firmware-Versionen ist aufgefallen, dass der Hersteller die Karten mit der Version 14.00.00.00 ausgeliefert hat. Die Karten selbst hatten auch einen eigenen Aufkleber vom Distributor, dass die Karten geupdatet und erfolgreich getestet wurden. Die Herstellerseite zeigte als aktuelle Version die Nummer 15.00.02.00, also eine komplette Version höher als die momentan genutzte.

Nachdem alle Karten auf den aktuellen Stand geflasht wurden und die aktuellsten Treiber eingespielt wurden, gab es ab diesem Zeitpunkt keine Probleme mehr. Sämtliche Tests zeigten keinerlei Probleme mehr: Datenträger konnten problemlos entfernt und wieder hinzugefügt werden, ein SAS-Kabel konnte ohne Probleme gezogen werden, ein ganzes IO-Modul im JBOD sowie ein komplettes JBOD konnten im laufenden Betrieb ausgeschaltet werden, ohne das es zu Problemen im Scale-Out File Server Cluster gekommen ist. Die Reparatur-Vorgänge der virtuellen Datenträger liefen immer fehlerfrei und zeitnah durch, die Test-VMs auf diesen Datenträgern zeigten keinerlei Ausfälle oder Anfälligkeiten.

Ich habe im Bereich SAS HBAs bisher noch nie erlebt, dass eine Firmware zu solch krassen Fehlern und Problemen führt. Diese Erfahrung führt wieder einmal mehr dazu, dass die Firmware sämtlicher Komponenten beachtet werden sollte.

Wichtige Info

"Latest and greatest" ist hier übrigens nicht immer die Devise, bei Gesprächen mit anderen MVPs nach einer Ursache für diese Probleme kam teilweise auch die Information, dass manchmal ein Downgrade der Firmware notwendig ist, um mögliche Fehler in der aktuellsten Version auszuschließen.

Jan Kappen
 

Jan Kappen ist ausgebildeter Fachinformatiker in der Richtung Systemintegration. Er hat seine Ausbildung im Sommer 2008 abgeschlossen und arbeitet seitdem bei der Rachfahl IT-Solutions GmbH & Co. KG.
Jan Kappen ist unter anderen MCITP Server Administrator, Enterprise Administrator und Enterprise Messaging Administrator 2010 sowie MCTS für System Center Virtual Machine Manager 2008, Windows Server 2008 Active Directory, Windows Server Virtualization und Windows Server 2008 Network Infrastructure.
Im April 2015 wurde Jan Kappen im Bereich “File System Storage” für seine Expertise und seine Community-Arbeit mit dem MVP Award von Microsoft ausgezeichnet.

  • Dominik Geimer sagt:

    Danke erstmal für den Bericht. Das war mit Sicherheit eine sehr stressige Situation, wenn bei einer Routineaufgabe plötzlich der komplette Storage nicht mehr läuft.

  • Nico sagt:

    Hätte mir ein paar mehr Infos zum Storage gewünscht.
    Welcher Hersteller wurde verwendet?
    Steht der Controller auf der HCL vom Storage und wenn mit welcher Firmware Version.
    Und wieso werden HDDS mit SSDs in einem Pool betrieben. Macht für gar keinen Sinn.

  • Carsten Rachfahl sagt:

    Hi Nico,

    die verwendete Hardware sind DataON JBODs (momentan einer der wenigen Hersteller die noch Storage Spaces mit shared JBODs unterstützen). Der Controller steht selbsverständlich auf der HCL und wurde sogar von DataON erworben.

    Wir betreiben fast alle Installation mit HDDs und SSDs in einem Pool. Damit ist Autotiering möglich was für viele Kunden interesannter ist als eine VDisk mit 100% Flash Anteil.

    Hoffe ich konnte deine Fragen beantworten

    Carsten

  • >