Cerca


stampa pdf

Guida all'utilizzo della Modalità Rescue



La modalità Rescue è una modalità di avvio tramite un Netboot di rete. Viene utilizzata quando il vostro server non è raggiungibile, per effettuare controlli hardware e software.

Ci sono due modalità Rescue in OVH. La modalità vKVM e la modalità Rescue Pro. Quest'ultima è utilizzata soprattutto per i server Linux. Permette di accedere in modalità SSH alla macchina e anche di verificarne l'hardware.
Il vantaggio è che non serve contattare il supporto per pianificare un intervento, perchè con questa modalità, potrete fare i test nel momento che più Vi conviene, nel momento di minor utilizzo del server.

Software & Amministrazione

  • lanciare un fsck / e2fsck;
  • consultare e analzzare dei logs;
  • correggere dei problemi sui software;
  • ricostruire / verificare il RAID;
  • salvare dei dati.
Hardware

  • memtest per controllare la memoria (RAM);
  • cpuburn per verificare il processore (CPU);
  • fsck per controllare il sistema degli archivi;
  • state per controllare il disco;
  • explorer per i vostri archivi.


Se uno dei test fallisce oppure rileva degli errori, è sufficiente accedere al vostro manager, sezione Contattare il supporto e quindi Dichiarare un incidente.
Inserite qui il risultato dei Vostri test, ad esempio: server bloccato durante il cpu burn.
Sarete quindi avvisati della programmazione e dell'esecuzione di un intervento di sostituzione dell'hardware danneggiato.

Attenzione: non dovete utilizzare l'interfaccia web e SSH allo stesso tempo. Non bisogna lanciare il controllo dei dischi sull'interfaccia web e montare in SSH le partizioni, questo potrebbe causare la perdita dei Vostri dati!!


Attivare la modalità Rescue

Accedete al vostro manager V3, cliccate sul nome del server, quindi su Servizi , poi su Netboot . Qui selezionate dal menu a tendina la voce Rescue pro.

Riavviate quindi il server, se possibile da modalità software (da SSH: /sbin/reboot), oppure effettuare il reboot hardware da manager.
Riceverete quindi una email che conterrà il link e la password per accedere al server in modalità rescue.

E' possible che riceviate l'email anche se non avete eseguito voi l'operazione. Può infatti succedere che i nostri tecnici siano intervenuti sul server senza identificare alcun problema hardware, e lo abbiano riavviato in modalità rescue per permettervi di procedere alle necessarie verifiche software.


Verifica Hardware

Una volta che il server è passato in modalità rescue pro riceverete una mail che contiene un link e una password per connettervi ai test hardware. Ecco un anteprima di questa interfaccia:



Elenco dei controlli
  • Hard Drives: permette di vedere i dischi installati.
  • Processors: esegue il controllo della CPU. Qui è possibile non ricevere alcun feedback, ottenendo invece l'arresto o il riavvio del server. E' segno di un problema. Contattateci immediatamente.
  • Stato partizioni: verifica il disco.
  • File System Partizioni: verifica il file system. Spesso il file system risulta danneggiato se un disco è rotto. Notate che è sufficiente reinstallare il Sistema Operativo perchè tutto funzioni correttamente. Soprattutto nel caso in cui il server utilizza la directory lost+found.
  • Esplora Partizioni: Vi permette di esplorare i files. Non si possono modificare i files, ma potete salvarne. Importante: possiamo leggere i logs della macchina senza per forza utilizzare SSH.
  • Memoria: verifica la Vostra RAM. Un test della memoria occupa molta CPU. Se questo test si gela o il sistema crolla è probabile che la Vostra CPU è mal raffreddata o rotta. Se la RAM è difettosa vedrete alla fine del test un rapporto che contiene gli errori.

Non tutti i problemi possono essere identificati tramite questa interfaccia. Come per esempio dei riavvii irregolari etc. Non esitate a fare il test e a consultare in seguito l'assistenza tecnica che può aiutarvi ad analizzare il server.

Attenzione:
Incontrerete senza dubbio l'errore seguente verso il 64% del test della RAM:
your server hasn't reacted for a least 20 seconds. it is probably down you can try to refresh the pageif the server crashed while doing a cpu test. it is possible that the cpu is faulty.
Potete cliccare su ok. Spesso è perchè il test in esecuzione è molto lungo.


Rescue in SSH

Connettersi
Connettetevi in ssh alla Vostra macchina come d'abitudine. La sola cosa che cambia è la password. Bisogna utilizzare la password root temporanea che arriva per email dopo il passaggio in rescue.
angie@amazone:~$ ssh root@213.186.xx.yy
The authenticity of host '213.186.xx.yy (213.186.xx.yy)' can't be established.
RSA key fingerprint is 02:11:f2:db:ad:42:86:de:f3:10:9a:fa:41:2d:09:77.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added '213.186.xx.yy' (RSA) to the list of known hosts.
Password:
rescue:~#

Adesso siete connessi ma i Vostri files non sono accessibili. Bisogna 'montare' il sistema dei files.

Montare il disco
Abitualmente, /dev/xda1 è la Vostra partizione radice (/) e /dev/xda2 corrisponde ad /home.
I dispositivi saranno di tipo:
  • /dev/sd per SCSI, SATA, Raid Hard
  • /dev/hd per i dischi IDE
  • /dev/md per i RAID Soft
  • /dev/rd/c0d0p per i raid Mylex

Potete ugualmente utilizzare le denominazioni devfs. Se non sapete che disco avete, ne quale sia la tabella delle partizioni servitevi dei comandi fdisk oppure sfdisk. Ecco un esempio con il comando e cosa restituisce:
rescue:~# fdisk -l

Disk /dev/hda 40.0 GB, 40020664320 bytes
255 heads, 63 sectors/track, 4865 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

Device Boot Start End Blocks Id System
/dev/hda1 * 1 1305 10482381 83 Linux
/dev/hda2 1306 4800 28073587+ 83 Linux
/dev/hda3 4801 4865 522112+ 82 Linux swap / Solaris

Disk /dev/sda 8254 MB, 8254390272 bytes
16 heads, 32 sectors/track, 31488 cylinders
Units = cylinders of 512 * 512 = 262144 bytes

Device Boot Start End Blocks Id System
/dev/sda1 1 31488 8060912 c W95 FAT32 (LBA)


Qui il server è equipaggiato con due dischi.
Si vede il /dev/hda con * che mostra che è il disco bootabile. Come secondo possiamo vedere la chiave usb.
Per montare la / del server è sufficente fare:
rescue:~# mount /dev/hda1 /mnt/

Normalmente la /home è su /dev/hda2. La montiamo dopo la / con il comando mount /dev/hda2 /mnt/home .
La /home non è per forza su /dev/hda2 ed è possibile che i Vostri dati siano dentro /var, con plesk per esempio. Per essere sicuri della configurazione potete montare la / e fare in seguito cat /mnt/etc/fstab.
Questo file contiene le partizioni del server quando boota su un disco rigido.
Ecco un esempio:
rescue:# cat /mnt/etc/fstab
#     
/dev/hda1 / ext3 errors=remount-ro 0 1
/dev/hda2 /var ext3 defaults,usrquota,grpquota 1 2
/dev/hda3 swap swap defaults 0 0
/dev/devpts /dev/pts devpts gid=5,mode=620 0 0
/dev/shm /dev/shm tmpfs defaults 0 0
/dev/proc /proc proc defaults 0 0
/dev/sys /sys sysfs defaults 0 0

Il /dev/hda2 è dunque in questo caso /var e non /home.
Bisogna dunque montarlo così: mount /dev/hda2 /mnt/var .


RPS
Per gli RPS che sono in nfs è sufficente digitare in rescue : mount -a.
L'nfs si monterà automaticamente.


Chroot
Possiamo adesso editare i files utilizzando il percorso /mnt/var/.... per esempio oppure ancora /mnt/etc/lilo.conf , ma per poter effettuare determinate operazioni è necessario avere l'accesso root al sistema installato sull'hard disk, cosa non possibile dalla root della modalità rescue.
Per queste operazioni è necessario utilizzare il comando chroot:

rescue:~# chroot /mnt/
rescue:/#


Una volta ottenuto il risultato del chroot, il sistema ci darà accesso alla directory / del server.
Ore è possibile eseguire operazioni sul sistema.


Disattivare la modalità Rescue

Una volta effettuate le modifiche e i controlli necessari, dovremo collegarci nuovamente al manager per ripristinare il boot abituale dalla sezione NetBoot?.
Selezionato il kernel adatto e confermata la nostra selezione, è sufficiente effettuare un riavvio software della macchina.

rescue:~# /sbin/reboot
Broadcast message from root (pts/0) (Tue Apr 12 15:56:17 2005):
The system is going down for reboot NOW!



Conclusione

Se avete rispettato alcune semplici basi di amministrazione del server, come indicato nella guida Utilizzo del Server, potrete facilmente riprendere il controllo della vostra macchina e ridurre il periodo di indisponibilità.