Vous n'êtes pas identifié(e).
Pages : 1
Cher clients,
Afin de préparer les évolutions futures de l'infrastructure WDMedia, deux maintenances exceptionelles vont avoir lieu ce mois ci.
La première aura lieu le 8 septembre, entre 9h et 12h, et devrait se traduire par une coupure de tout les services pour une durée inférieure a 10 minutes.
Il s'agit de la mise en place d'une réplication instantanée entre les deux filers, afin d'assurer une bascule rapide de l'un a l'autre et une disponibilité améliorée.
La seconde aura lieu dans la nuit du 16 septembre au 17 septembre, entre 0h et 3h, et devrait se traduire par une coupure de l'ensemble des services et site pendant une durée estimée a 1h.
Il s'agit là d'un déplacement de tout les serveurs vers un nouveau datacenter, de manière à faciliter notre extension future. Cette intervention étant lourde logistiquement, il n'est malheureusement pas possible de bénificier de la redondance habituellement utilisée pour les interventions.
Cette intervention va aussi se traduire par un changement des ip de l'ensemble des serveurs, et donc de vos sites. Les nouvelles IP vous seront communiquées prochainement. De plus, une redirection réseau permettra la cohabitation des deux séries d'IP pendant 1 semaine, ce qui permettra a ceux qui gèrent leurs DNS en externe de procéder aux changements tranquillement. Pour ceux qui nous ont confié la gestion de leurs DNS (le cas le plus courant) nous nous chargeons de tout.
Vous serez bien sur tenu au courant de l'avancement de ces maintenances au fur et a mesure, comme d'habitude, sur le forum.
Si vous désirez plus d'information sur ces interventions, n'hésitez pas a contacter le support, qui se fera une joie de vous répondre.
Nous vous remercions par avance pour votre compréhension.
En vous souhaitant une bonne journée,
Cordialement,
Nicolas Lafont
Hors ligne
Bonjour,
Comme vous le constatez, la coupure est actuellement plus longue que prévue. Un phénomène imprévu a posé un gros problème, nous sommes sur le coup, nous essayons de rétablir le service au plus vite.
Cordialement,
Nicolas Lafont
Hors ligne
Comme vous pouvez le constater, un grave problème s'est produit.
Pour vous résumer ce qui s'est passé, lors de la synchronisation initiale, un disque dur sur filer principal a laché. Bien qu'il y ait un RAID 5 sur le cluster, cela a provoqué une erreur io au niveau du noyau, et a fait basculer le filer en mode non a jour. La synchronisation a alors changé de sens, le système ayant considéré que les données du filer secondaire étaient correctes, alors que ce n'etait pas le cas (et pour cause, pour faire la synchronisation il fallais que le filer secondaire soit vide !).
Du coup il a commencé a copier du vide sur le filer principal.
Nous avons arrété le processus rapidement (a peine quelques secondes), mais cela a endomager la partition du filer principal.
Actuellement, nous essayons de rétablir l'accès a cette partition, le système de réparation est a la recherche des superblock de secours.
Nous vous tiendrons au courant de cet incident majeur dès que nous aurons des nouvelles.
Cordialement,
Nicolas Lafont
Hors ligne
Quelques nouvelles,
Après examen, il apparait que les 169 premier Mo de la partition des données du filer principal ont été remplacé par du vide (soit un temps de reaction de 42 sec pour voir le problème, pourtant on a pas trainé sur ce coup la ).
Problème induit : le superblock principal a bien été supprimé.
L'outil de réparation cherche donc les superblock de secours, mais comme il ne sait pas ou ils se trouvent, il cherche block par block, en parcourant tout l'espace. et comme les blocks de secours sont normalement répartis dans la partition, le premier est relativement loin. Il y a environ 1 572 864 000 blocks a parcourir, et nous ne savons pas du tout ou l'outil en est, il cherche toujours.
Nous ne pouvons donc pas du tout vous donner un délai de rétablissement, ni meme vous dire les données qui ont été supprimées
Nous vous tiendrons au courant régulièrement.
Cordialement,
Nicolas Lafont
Hors ligne
Quand on parle du loup... L'outil de réparation vient de trouver un superblock de secours valide ! Il entamme donc la réparation et la consistance des données non supprimées, cette phase devrait prendre encore un peu de temps.
Nicolas Lafont
Hors ligne
Nous avons dut relancer une vérification de la partition car la vérification précédente avait pris toute la ram (2go !). Nous avons augmenté le swap pour que cela tienne, espérons que ca passe...
Nicolas Lafont
Hors ligne
Re saturation de la mémoire presque a la fin de la vérification. Nous sommes donc obligé de lancer une nouvelel vérification (qui devrait etre plus courte, la majorité des problèmes étant résolus).
Nicolas Lafont
Hors ligne
Résultat de l'opération : 70431 fichiers / répertoires ont bien été retrouvés, mais ils ont perdu leur position dans l'arborescence, il va dont falloir que nous les replacions chacun a leur place, ce qui risque d'etre un peu long. Nous analysons la situation au mieux pour voir comment automatiser les choses afin que cela soit fait le plus rapidement possible.
Nicolas Lafont
Hors ligne
Nous sommes tombé il y a peu sur un repertoire contenant une grosse partie de l'arborescence web du filer. Nous l'avons donc remis en place et relancé le service web. Toutefois, certains fichiers sont encore isolés, nous avons quelques scripts PHP notament dont nous ne connaissans pas la provenance.
Les logs ont pris une grosse claque, sont presque tous mal placés, mais cela sera vu en dernier, c'est le moins vital.
Nous nous concentrons sur le mail pour rétablir le service de base, puis nous continuerons a trier ce qu'il reste.
Nicolas Lafont
Hors ligne
Bilan actuel :
- service web et mails opérationnels, mais des fichiers ne sont pas au bon endroit
- environ 3600 fichiers web ne sont pas encore a leur place
- les repertoires de logs ne sont pas a leur place, et les logs ne sont pas enregistrés actuellement
- environ 60 000 mails ne sont pas a leur place, nous allons developper un script pour les replacer correctement
Nicolas Lafont
Hors ligne
Ca commence a se corser un peu.
Il nous reste environ 850 repertoire a replacer pour la section mail (pouvant contenir ou non des mails, nous trions), et 5000 repertoires web a analyser (nous avons cru jusque la qu'il y avais majoritairement des log dedans, ce n'est pas le cas, il y a parfois un fichier, parfois des repertoires, bref, un vrai bazard).
Nous sommes en train de dresser une liste du contenu de ces restes afin de pouvoir trier au mieux (jusque la le volume trop important empechait de le faire).
Notez qu'il y a des fichiers/repertoires qui ne sont pas important dedans (quelques comptes expirés, nous n'avions pas lancé le ménage depuis longtemps).
N'hésitez pas a signaler vos fichiers disparus, un nom, une date, par exemple. Une partie de nom (par exemple si vous avez des image avec toutes le meme prefix).
Certains fichiers ne pourront pas être replacé sans demande, car trop générique ne permettant pas d'identifier leur provenance.
Nicolas Lafont
Hors ligne
Nous sommes arrivé au bout de ce qui était faisable de notre coté.
Si ils vous manque des fichiers, n'hésitez pas a revenir vers nous, avec le plus de précision possible (nom de fichier, date d'upload, tout ce que vous avez comme info).
Nous allons étudier les solutions pour que ce problème ne puisse se reproduire, ainsi que les compensations qui vont intervenir.
Cordialement,
Nicolas Lafont
Hors ligne
Pages : 1