domenica 28 ottobre 2012

Sysadmin panics: dischi, questi sconosciuti!

Qualche altro episodio esilarante dalla mia esperienza con alcuni sysadmin di dubbio talento!

fsck /your/rw/filesystem
Una delle cose che francamente considero assodate è che un filesystem montato in lettura/scrittura non dovrebbe mai essere passato a nessun tool diagnostico, inscluo fsck. Eppure c'è chi, insospettito da strani comportamenti (non errori!) del proprio filesystem decide di lanciare a tappeto un fsck su ogni file system montato su un server di produzione. Buona fortuna!

 Quando i dischi spariscono....
Le moderne implementazioni di gestione dell'hardware (es. devfs) consentono al sistema di rimuovere o aggiungere i nodi sotto a /dev dinamicamente. Questo significa che se un disco si rompe improvvisamente, e quindi "sparisce" dal sistema, il suo nodo in /dev verrà anch'esso rimosso appena possibile. Ora, non importa quante volte l'amministratore nel panico lanci fsck /dev/missing o fdisk /dev/missing, il disco non tornerà ad apparire. Si prenda atto del fatto che il sistema molto spesso è piu' robusto della mente del sysadmin stesso!

Il partizionamento, questo sconosciuto
Questo mi ricorda un po' il problema dell'inserimento degli account utenti a mano: se si deve "clonare" esattamente la tabella delle partizioni di un disco, non serve copiarla a mano da uno all'altro. Esistono infatti appositi strumenti, come fdisk, che possono fare il lavoro sporco per noi, risultando anche piu' precisi di quello che non saremmo stati. Quindi per cortesia, non fatemi assistere nuovamente a scene di sysadmin che copiano una ad una le partizioni da un disco (o almeno se proprio devo assistervi, almeno che le partizioni siano non piu' di due!).

Il RAID, questo sconosciuto
Grande invenzione il RAID, anche se a volta il suo omonimo insetticida annebbia la mente del sysadmin di turno. Per prima cosa si deve sempre avere chiaro se si parla di RAID software o hardware, e che relazioni ci sono perché ovviamente i due sono stackable. In entrambi i casi però è bene tenere presente che nessuno dei due tipi di RAID è automagico: sostituire un disco rotto e sperare che questo sia partizionato, sincronizzato e messo on-line automaticamente è utopia. Almeno, non ho ancora incontrato un server o un OS che faccia questo. Meglio quindi leggere attentamente la documentazione del RAID in questione. E meglio ancora, si studi il RAID e i suoi livelli, per capire anche come le varie partizioni o i vari dischi devono essere assemblati.

UUID, questo sconosciuto
Se un server inizia a dare errori su una partizione abcdef22a78cd18..... o qualcosa di simile, si provi a costruire la tabella degli UUID dei propri dischi e si controlli che cosa il server tenta di montare. C'è un qualche identificativo sbagliato (ad esempio perché un disco è stato sostituito).  

 

Nessun commento: