2015-03-31 : Résurrection de Blackbox

19h00 On va commencer par souper dans la maison de Blackbox, mais surtout boire du bon vin et du moins bon vin ;)

23h41 Etudie pour arranger le nas. Quand je l'ouvre, la lumière du power clignote sans fin. Son propriétaire avait le même symptôme et il l'a laissé allumé durant 24 heures. Je vais faire un update du firmware mais il me faut un windows pour partir les outils. Je restore m003 qui a un windows fonctionnel et je vais mettre les outils du nas (nasnavigator et lsupdate) dessus pour mettre le nas en EM (Emergency Mode) pour qu'il boote tftp et voir si ça marche. On attends la fin du restore.

01h35 Essaye un paquet de choses pour avoir une récupération du nas pour que le nas boote avec un serveur tftp et j'essaye kirkwood tftp, pyftp mais les serveurs tftp ne reçoivent rien. Je mets le pc en ip fixe à 192.168.11.1 avec câble entre le pc et le nas parce que le nas devrait aller chercher cette adresse, mais rien à faire.

03h20 Finalement je lis qu'il n'y a PAS de méthode tftp avec les ls-wv et ls-wx. Ah! ben TA-BAR-NAK. Voici l'extrait du document officiel de Buffalo de mai 2012 : 'LS-XHL, LS-WXL, LS-VL and LS- WVL : These units do not have any procedure to boot into EM mode. The unit will automatically boot into EM mode if it needs to. If the unit is not booting at all you need to follow the TFTP boot procedure for the LS-XHL and LS-WXL. At the moment the LS-VL and LS-WVL units do not have a TFTP boot program and a fix is being worked on.'

03h40 Mon osti, je vais t'avoir et je passe donc en classe supérieure! On mets le disque dans un pc. On verra ben, dans le pire des cas, ça ne marchera pas. Mais ça marche déjà pas! Je mets le disque avec le numéro de série qui finit par 901 (physiquement, celui de gauche dans blackbox qui correspond au disque 1 selon le chiffre écrit sur le plastique transparent qui sert de crochet en dessous du disque) dans une de mes machines que je pars avec la distribution GnuParted sur le disque UBCD version 5.2.9. Le disque est en partition sur GPT (et non MBR), c'est pour ça que je travaille avec UBCD. Sinon, je ne peux pas lire le contenu des partitions et ça m'a pris plusieurs tests pour trouver comment monter les partitions. Il y a 6 partitions, mais seulement 3 sont intéressantes et il y a 3 devices créés pour ces 3 partitions (1=md0 de 1GB, 2=md1 de 5GB, 6=md2 de 975GB) qui sont faciles à monter avec les commandes :

# Partition Boot
mkdir /mnt/md0
mount /dev/md0 /mnt/md0
# Partition Root
mkdir /mnt/md1
mount /dev/md1 /mnt/md1

Après m'être promené dans l'arborescence et vérifié les contenus et essayer de trouver ce qui pouvait clocher, je pogne une erreur I/O d'un fichier dans l'arborescence pour me rendre compte que le disque est soit scrappe à une place OU soit que le filesystem est corrompu pour ce fichier et peut-être pour d'autres. Ca va pas ben. Je démonte les partitions et fait un test de lecture du disque physique:

umount /mnt/md0
dd if=/dev/md0 bs=1M of=/dev/null
umount /mnt/md1
dd if=/dev/md1 bs=1M of=/dev/null

Tout va ben. Pas de bebitte. Ouf! Parce que sinon, fallait reformatter le disque ou le changer! Après ça, je vérifie les 2 filesystems qui contiennent le système et qui sont de type ext3 et je fais la vérification en lecture seulement (option -n) pour ne pas rien scrapper:

e2fsck -n /dev/md0
e2fsck -n /dev/md1

md0 est parfait. Mais finalement, il y a un problème de filesystem sur md1 avec le fichier /etc/ld.so.cache. e2fsck me demande si je peux l'effacer et je l'efface parce que ce fichier est habituellement regénéré et en plus il y a une copie /etc/ld.so.cache~ que je mets à la place de l'original après avoir corrigé le filesystem en faisant rouler e2fsck sans l'option -n. Ca prends une grosse minute à rouler. On verra. J'essaie aussi de faire un check sur md2 (la partition de 975GB contenant les données) mais ça me dit qu'il y a un log xfs qui doit être rejoué avant que xfs_check puisse rouler. Je fais donc un mount (qui joue le log xfs) et je roule xfs_check qui se plante. De la marde, je n'investigue pas plus loin et on verra au moins si ça boote.

05h00 J'installe le disque dans blackbox et j'enlève l'autre pour m'assurer qu'il n'y a pas de conflit entre les 2 disques lors du boot. Je pars blackbox qui clignote encore comme un malade et au bout de 60 secondes, magie! La lumière bleue et solide. Est-ce que ça marcherait? Je vérifie avec nasnavigator ça semble bon. J'essaie de me connecter avec l'interface web, mais je n'ai pas le mot de passe admin. J'essaie donc de partir l'upgrade à la version 1.69 qui ne fonctionnait pas avant et ça semble marcher et les transferts se font. Y-E-S-S-S-S-S-S-S! Par contre, pour terminer l'upgrade j'ai besoin du mot de passe administrateur.

05h30 Courriel au propriétaire pour le mot de passe admin. Je fini de faire l'upgrade et ça fonctionne bien à 1 disque. Teste beaucoup avant de continuer pour m'assurer que tout est là: utilisateurs, shares, données. Et je vérifie aussi le programme nasnavigator de windows qui réponds bien mais qui me dit qu'il me manque un disque. Good!

06h30 Pour m'assurer qu'il n'y a pas de conflits avec le deuxième disque lorsque je l'installerai et m'assurer qu'il ne scrappe pas le bon disque, je vide les 13 premiers GB et les 5 derniers GB du 2e disque avec Knoppix parce que je n'ai pas besoin de prendre UBCD parce que me fous pas mal des partitions. Je scrappe le disque et je le vois bien avec Knoppix qui boote pas mal plus vite qu'UBCD.

dd if=/dev/zero bs=128M count=100 of=/dev/sda
dd if=/dev/zero bs=1M seek=750000 of=/dev/sda

Wow! Le disque écrit à 107MB/s. C'est une méchante bête de course. La plupart des disques usagés que j'ai écrivent à 50MB/s. Ensuite, je repense à tout ça (parce que je commence à être un peu buzzé, je ne sais pas pourquoi ... ah! j'aurais dû prendre de la bière au lieu de l'eau depuis 3 heures du matin ;) et je vérifie la documentation officielle pour remplacer un disque de RAID. C'est simple, mais faut pas je me fourre! Je mets le 2e disque dans le nas, part le nas, et réussi à me connecter à l'interface de blackbox. Yé! Ensuite, je refais la 'reconstruction' de l'array, même si le message est épeurant et dit que tous les disques cibles seront détruits dans l'array1. Pas clair, mais c'est supposé être ça. Finalement, je pars ça, et après 5 minutes de gros bruit et l'interface administrateur de blackbox qui est gelé à 40% de progression, ça revient à la page de départ et tout semble bon. Mais la lumière info clignote orange parce que la reconstruction va prendre 6 heures (selon les infos quand on va dans 'System : Storage : Array'). Bon, je pense que je peux aller me coucher. Ca n'aura pris que 7 heures pour arranger le problème pour quelque chose qui s'est réglé en 1 minute et j'ai appris que lorsque le nas a pas un bon fs, il aime pas ça. Ca devait être pour ça que ça ne bootait jamais parce qu'il attendait un filesystem en forme et il fallait une réponse humaine qui ne venait jamais!

07h35 Dodo bien mérité avec l'âme en paix

13h41 Aussitôt que je me lève, je vais vérifier si blackbox a fini sa reconstruction et si les données sont là. Tout est parfait. Va installer blackbox dans sa maison parce qu'il s'ennuyait et le teste. Finalement, il n'y avait pas d'adresse ip réservée et je l'ai mise dans le routeur. Donc, 192.168.1.116 est maintenant l'adresse permanente. En plus, toutes les machines windows et mac sont configurées pour cette adresse. Sinon, on avait la 122 et le mac réagissait lentement et tombait en erreur lorsqu'il voulait parler à blackbox. Même chose pour le lecteur multimédia de la tv. Mais avec l'ip fixe, tout marche vite et bien. Problème enfin résolu.

15h00 Enfin fini et tout marche à merveille.

16h00 Un peu de documentation pour aider nos pauvres neurones qui vont oublier tout ça!

18h00 Doc fini. Blackbox fonctionnel. Une autre affaire de réglée. Il n'en reste plus que 31996592452!

Recommendations:
(1) Acheter un autre disque semblable qui pourra servir de backup offline et qu'on poura cycler en remplaçant un des disque à tous les 2 mois. Comme ça, on a un backup récent en cas de problème sans peur de tout perdre et la procédure est très simple et pourra se faire en moins de 5 minutes (mais il faudra tester la première fois s'il faut faire l'opération de vidage à zéro des 15 premiers GB ou si ce n'est pas nécessaire. Mais je pense que c'est inutile et la procédure prendre vraiment juste 5 minutes à faire et 6 heures sans assistance pour synchroniser le nouveau disque).
(2) Acheter un UPS pour s'assurer que les équipements importants ne tombent pas et qu'il sera possible d'avoir internet même lorsqu'il n'y aura plus courant durant au moins 90 minutes. Ca tombe bien j'en avais acheté un que je n'ai jamais utilisé et qui est à vendre. Si tu veux l'acheter tu me le dis.