Bonjour à tous !
Comme vous l'avez vu, la matinée d'aujourd'hui a été plutôt mouvementée...
Et vous n'avez vu que la face visible de l'iceberg
Petite explication de ce qui s'est passé...
23h29 hier soir, coupure sur IrcFunChat (le réseau de t'chat hébergé sur notre serveur principal XANA et qui accueille notre t'chat
). Johann signale le problème de réseau constaté sur la mailing list. Une demi heure plus tard, on le remercie pour son rapport et on l'informe qu'un administrateur OVH a fait une mauvaise manipulation sur le serveur en regardant ce qui se passait ; et que pour corriger le problème le serveur avait du être redémarré, avec des excuses. Mais XANA ne répond pas pour autant... Deuxième post sur la mailing list donc, une réponse informe que le serveur est en train de faire une vérification des disques avant de démarrer (opération plutôt longue et qui se fait avant le démarrage total de la machine, normal donc qu'elle ne réponde pas).
Après une petite attente, XANA répond de nouveau... mais tout va de travers. Les accès SSH et FTP ne répondent plus, et le site affiche des erreurs de sessions PHP, caractéristiques d'un petit malaise du disque dur...
Et en effet, on nous confirme que le disque dur de XANA fatigue, et qu'il est quasi plein... un des admins OVH redémarre alors le serveur en mode rescue ("sauvetage") en soft (software, c'est à dire depuis une console, pour éviter d'achever le disque dur avec un redémarrage hardware qui revient à un arrêt/marche de la machine), afin de permettre à Johann de récupérer les données que l'on n'avait pas encore dans nos dernières backups et de regarder de plus près ce qui se passait, tout en ménageant le disque...
Une analyse du disque révèle alors pas mal de dégâts... s'en suivent une série de tentatives de reboot (normal, netboot, virtualisation...) pas vraiment fructueuses. Les revérifications de disques et les démarrages ratés s'enchaînent, il est déjà 3h du matin
Même une fois le serveur redémarré à peu près correctement, la connexion en root est systématiquement rejetée et les services refusent catégoriquement de se lancer. Une belle galère !
Pour couronner le tout, une maintenance a eu lieu dans la nuit sur le manager OVH, ce qui a empêché tout redémarrage du serveur pendant la durée de cette maintenance...
Vers 5h50 du matin un reboot en mode normal est enfin possible, mais n'arrange pas grand chose puisque le serveur répond aléatoirement (je réponds, je réponds plus... je réponds... je réponds plus
)
Vers 6h30 notre vaillant technicien va se coucher avec sa grippe et son nez qui coule, après avoir déclaré sans plus aucune hésitation la mort du disque dur
Il est vite remplacé dans la matinée par OVH, avec le système d'exploitation d'origine... remise à zéro totale donc !
D'où le fameux message qui s'affichait quand vous vous connectiez au site ce matin : "Ce domaine n'est pas installé sur notre serveur"...
A partir de 10h30 Johann a pu commencer à tout réinstaller : restauration de nos backups, recréation des comptes utilisateurs dans l'interface d'administration du serveur (Plesk), remise à jour du serveur DNS du serveur, recréation des différentes configurations Apache de chaque site, redémarrage des services...
Vers 12h15 le site était entièrement de retour, après quelques petites manipulations sur notre serveur de base de données (Odd) pour débloquer XANA, qui avait été automatiquement interdit de connexion sur Odd à cause de ses trop nombreuses tentatives de connexion non abouties...
Du joli travail de la part de notre technicien préféré donc, pour lequel je le remercie ! Surtout qu'étant absent de chez moi ce matin, même si j'ai pu suivre l'avancée des opérations par téléphone et donner quelques idées pour faire avancer le schmilblick, je n'ai pas vraiment pu aider... Johann était donc un peu tout seul (pas entièrement, pour ceux qui ont suivi il y avait tout de même sa grippe pour lui tenir compagnie
)
Et en bonus track...
le ticket sur notre espace travaux On peut donc dire que tout va bien maintenant... le serveur se porte plutôt bien avec la configuration temporaire mise en place cet après-midi, qui devrait tenir jusqu'à... jusqu'à quoi ? Haha...
(personne n'a deviné bien sûr
)
Bonne soirée à tous sur CodeLyoko.Fr