Massive Probleme mit Broadcom (LSI) 9300-8e SAS HBA beim Aufbau eines Scale-Out File Server
Beim Aufbau von einem Scale-Out File Server Cluster mit Shared JBODs haben wir festgestellt, dass es beim Betrieb massive Probleme gibt. Das Failover Cluster besteht aus zwei Server-Systemen, die jeweils drei von den 9300-8e SAS HBAs verbaut haben. Über insgesamt zwölf Kabel sind drei JBODs angeschlossen, die jeweils bis zu 70 Datenträger aufnehmen können. In jedem JBOD stecken SSDs und HDDs, die zu einem gemeinsamen Pool zusammengefasst werden. Basierend auf diesem Pool habe ich mehrere virtuelle Datenträger erzeugt, die im Failover Cluster als Cluster Shared Volumes zur Verfügung stehen.
Der Aufbau und Test der Systeme verlief problemlos, die abgefragte und gezeigte Leistung war wie erwartet, ein Test der Hardware brachte keine Auffälligkeiten. Angefangen haben die Probleme, als ein Datenträger mit einem vermeintlichen Defekt angemerkt wurde und in einer geplanten Wartung ausgetauscht werden sollte. Während dem Austausch kam es zu massiven Störungen mit einem kompletten Ausfall des Storage, multiple Festplatten wurden als fehlerhaft markiert.
Das Problem konnte temporär gelöst werden, indem ein IO-Controller in einem der JBODs (welches auch die defekten Festplatten zeigte) ausgeschaltet wurde. Der Controller wurde getauscht, weil scheinbar ein fehlerhaftes Modul vorhanden war. Nach dem Tausch zeigten sich leider weiterhin die gleichen Fehler, es wurden sporadisch Datenträger als defekt markiert, dieses Mal über mehrere JBODs hinweg. Ein geplantes Entfernen von Disks endete in minutenlangen Timeout und IO-Freezes, das ungeplante Entfernen sorgte neben Timeouts auch zu Ausfällen des gesamten Systems. Im Eventlog traten diverse Fehler auf, es wurden unter anderem MPIO-, Disk- und PersistantReservation-Fehler angemerkt.
Bei einer Überprüfung aller Treiber- und Firmware-Versionen ist aufgefallen, dass der Hersteller die Karten mit der Version 14.00.00.00 ausgeliefert hat. Die Karten selbst hatten auch einen eigenen Aufkleber vom Distributor, dass die Karten geupdatet und erfolgreich getestet wurden. Die Herstellerseite zeigte als aktuelle Version die Nummer 15.00.02.00, also eine komplette Version höher als die momentan genutzte.
Nachdem alle Karten auf den aktuellen Stand geflasht wurden und die aktuellsten Treiber eingespielt wurden, gab es ab diesem Zeitpunkt keine Probleme mehr. Sämtliche Tests zeigten keinerlei Probleme mehr: Datenträger konnten problemlos entfernt und wieder hinzugefügt werden, ein SAS-Kabel konnte ohne Probleme gezogen werden, ein ganzes IO-Modul im JBOD sowie ein komplettes JBOD konnten im laufenden Betrieb ausgeschaltet werden, ohne das es zu Problemen im Scale-Out File Server Cluster gekommen ist. Die Reparatur-Vorgänge der virtuellen Datenträger liefen immer fehlerfrei und zeitnah durch, die Test-VMs auf diesen Datenträgern zeigten keinerlei Ausfälle oder Anfälligkeiten.
Ich habe im Bereich SAS HBAs bisher noch nie erlebt, dass eine Firmware zu solch krassen Fehlern und Problemen führt. Diese Erfahrung führt wieder einmal mehr dazu, dass die Firmware sämtlicher Komponenten beachtet werden sollte.
Wichtige Info
"Latest and greatest" ist hier übrigens nicht immer die Devise, bei Gesprächen mit anderen MVPs nach einer Ursache für diese Probleme kam teilweise auch die Information, dass manchmal ein Downgrade der Firmware notwendig ist, um mögliche Fehler in der aktuellsten Version auszuschließen.