PDA

Afficher la version complète : [Debian] un RAID qui bug d'un coup, sans prévenir



muaddibx
10/07/2007, 15h35
Bonjour à vous cheres suseurs, et surtout Linuxiens de haut vol http://www.alionet.org/style_emoticons/<#EMO_DIR#>/tongue.gif

Mon problème se déroule sur Debian, mais, ayant déjà eu de bonnes expériences sur ce forum, je tenais à vous faire part de mes soucis, au cas où l'un d'entre vous puisse m'aider. Et puis bon, faut dire que les linux se ressemblent pas mal, surtout en mode terminal^^ (je n'ai pas d'interface graphique sur ma Debian).

Voici donc mon problème, en espérant que vous puissiez m'aider:

Notre serveur d'entreprise est sous debian. Il a trois disques durs: l'un (IDE) sert pour la racine, et tout le système, et les deux autres (SATA) sont montés en RAID 1. Ces deux derniers disques sont là pour accueillir toute notre base de documents, qui est partagée pour tous les postes windows.

Et donc ce matin, à 11h et quelques, je ne sais pas pourquoi, on avait plus accès à cette base de document. Je vais voir sur le serveur, et yavait gavé de lignes de la sorte:


raid1: scsi /host1/bus1/target0/lun0/part5: redirecting sector 117392304 to another mirror
(le numéro 117392304 changeait à chaque ligne)

Je me log donc en root, et je vais voir dans /var/log/log.mail, et voici ce que j'y ai trouvé (je sais pas trop si cela à un rapport avec le problème):

debian sm-mta [4551]: rejecting connections on deamon MSP-v4: lod average: 31

Après cela, j'ai entrepris de rebooter le serveur, mais les commandes reboot et halt -h ne faisait rien, mis à part dire que le système allait être arreté. init 6 fut un peu plus fonctionnel, mais au final, il a complètement bloqué l'ordi sur la ligne "Desactivating swap...". J'ai donc fait un hard reboot, apres quelques dures minutes d'hésitation.

Au redémarrage, j'ai eu droit à un joli message d'erreur, me confirmant que ca venait du raid:

fsck.ext3: Bad magic number in super-bloc while trying to open /dev/hda9
/dev/hda9:
The super-block could not be read or does not describe a correct ext2 filesystem. If the device is valid and it really contains an ext2 filesystem (and not swap or ufs or something else), then the superblock is corrupt, and you might try running e2fsck with an alternate superblock:
e2fsck -b 8193 <device>
/home: recovering journal
/home: clean, 175905 / 9535488 files , 1387 2338 / 19043033 blocks
fsck failed. Please repair manually.

en lancant la commande
# e2fsck -b 8193 /dev/hda9
ca me donne exactement le meme message d'erreur que le gros message ci-dessus.


Pour l'instant, j'ai essayé quelques autres trucs:
- eteindre le serveur, débrancher un des deux disques SATA, et relancer l'ordi: l'ordi me signale une erreur au niveau du RAID, et me demande quoi faire: en choisissant de continuer à booter, tout marche bien, sauf que le disque SATA n'est ni monté, ni reconnu si on le monte à la mimine
- avec la meme opération, mais en choisissant de detruire la relation de mirroring, même résultat: le disque n'est toujours pas "lisible".

Donc voilà en gros le topo; j'aurais bien aimé avoir votre avis, et si possible, quelques conseils pour avancer sur ce problème assez handicapant.

Merci d'avance

Muad'Dib

Coin-coin
10/07/2007, 17h12
Salut,
J'ai cherché un peu ce qu'était ce superbloc, et je suis tombé sur ça : http://en.wikipedia.org/wiki/Unix_File_System
Apparemment, le système de fichiers prévoit des copies de sauvegarde du superbloc.

Il faudrait donc essayer de trouver ces sauvegardes et lancer une vérification du système avec autre chose que 8193.

En continuant à chercher, j'ai trouvéune commande qui peut aider :
mke2fs -n /dev/hda9
Ça va te retourner (entre autres) une liste des sauvegardes du superbloc. Tu as juste à faire e2fsck -b 8193 /dev/hda9 en remplaçant 8193 par le numéro d'une copie.
http://www.presence-pc.com/forum/ppc/LeMon...sujet-613-1.htm (http://www.presence-pc.com/forum/ppc/LeMondedeLinux/recuperer-donnees-crash-disque-sujet-613-1.htm)

Je croise les doigts pour que ça suffise !

muaddibx
10/07/2007, 18h09
Un grand merci , Coin-coin, pour ton aide, et le temps consacré à cela.

Après avoir detruit les relations de mirroring sur chacuns des deux disques, j'ai rebooté mon système (avec les 2 disques SATA branchés), et par le plus grand des hasards, les répertoires qui ne m'étaient plus accessibles le sont redevenus... autant j'étais content que cela remarche, autant d'un autre coté, j'étais au bord de la crise de nerf lol. Car un problème qui sort de je ne sais où et qui repart de lui-même, sans rien avoir compris à ce qu'il se passait, ya de quoi s'arracher quelques cheveux; surtout que le soucis "était" très très genant et a duré toute la journée ou presque.
Donc pour l'instant, vu l'heure qu'il est, et vu que ca remarche plus ou moins, je vais aller passer une ptite soirée pépère histoire de décompresser un peu.

Demain, je potasserais un peu plus en détail les liens que tu m'a donné, et je me risquerais peut etre à quelques essais, mais surement pendant les non ouvrées, histoire que je fasse pas tout planter pendant que les employés ont accès au serveur.

Donc voilà, encore merci à toi, et à ce forum qui une fois de plus, est toujours là quand il le faut. Ca fait chaud au coeur.

Bonne soirée a tous.

Muad'Dib

Th0rS3lit3
10/07/2007, 22h08
Salut Muaddibx,

A premier vu je pencherai pour un disque défecteux (Mirroring et swap intense d'après ce que tu as l'air de dire), mais je ne suis pas un expert en raid...

As tu essayé de controlé ton systeme de fichier via un livecd ou tout autre outil ?

Bon courage à toi en tout car ce genre d'erreur sur un serveur en prod' ca donne tjs des sueurs froides !

ancient-spells
11/07/2007, 10h41
ton raid est t'il un raid matériel ou alors les deux disque fond parti d'un raid lvm.
j'ai eu le même soucis que toi avec 5 dd scsi en raid lvm (logiciel).

phoenix
13/07/2007, 14h05
Je déplace dans le forum DEB.