On ne dort jamais chez Recoveo ! Nos techniciens ont récemment passé une nuit sur une récupération de données urgente suite au crash d’un système RAID hébergé dans un data center. On vous raconte tout !
Les données techniques en jeu : le système RAID est monté avec 3 disques Samsung SATA de 1To. Deux d’entre eux sont en erreur. Notre client travaille sur une base Microsoft SQL Server très lourde (+ de 500 Go!) sur laquelle des millions de requêtes sont effectuées chaque jour. La situation est grave, la perte de données doit être prise en charge en urgence.
Pour agir vite et en toute sécurité, les disques sont rapatriés par taxi-colis depuis le site du client jusqu’à notre laboratoire de Roanne. Peu avant minuit, nous sommes en possession des 3 disques durs d’origine et d’un disque neuf que le client a tenté de réintégrer dans le RAID sans succès.
Très rapidement, notre technicien détecte des erreurs importantes de lecture sur le DD3, notamment sur l’une des têtes de lecture. La nuit de travail peut commencer !
Il passe plusieurs heures à isoler les zones de secteurs défectueux et à adapter les paramètres de lecture pour cloner avec le moins d’erreurs possibles. Les deux autres disques fonctionnels sont tous clonés sans erreur.
Au petit matin, il ne reste que 3000 secteurs défectueux sur les presque 2 milliards du disque 3 : on s’en sort bien, le ratio est marginal.
Cela permet en tout cas au technicien de remonter le volume RAID5 facilement avec une arborescence propre et de localiser les fichiers sensibles demandés par le client.
Dernier problème à résoudre : des erreurs sont localisées sur les fichiers mdf de 312 Go et ldf de 269 Go. Lors du test sous SQL Server 2008, la base refuse de s’attacher correctement. Nous lançons une procédure de réparation de fichier pour en extraire le contenu sous forme de fichiers SQL, ce qui nous permet de réassembler les fichiers mdf et ldf avant de les réintégrer sur le serveur du client.
Cette procédure de réparation est longue mais elle permet au client de relancer sa base de données en production. Mission accomplie !