sexta-feira, 27 de abril de 2007

Perda de dados e os sistemas RAID.

Muitos usuários montam RAID com a expectativa de estar usando um sistema para prevenção de uma situação de perda de dados. Essa é uma expectativa muito perigosa, RAID pode ajudar em casos de perda de dados, mas não previne o acidente que ira resultar na perda de dados.

Para poder entender os porquês e para se prevenir montando uma estratégia com um bom plano de proteção de dados é muito útil que se estude e se entendam as diferentes situações de falhas em hard disk e porque elas causam a perda dos dados.

Apagando os dados acidentalmente ou intencionalmente.
Um dos líderes em perda de dados é quando se deleta acidentalmente ou mesmo intencionalmente os arquivos, essa situação pode ser provocada pelo usuário dos dados ou por um outro que pode ser chamado de infiltrado.
Isso inclui arquivos que são deletados por hackers que invadem o sistema, arquivos deletados por funcionários com problemas com a empresa, arquivos deletados pelo próprio usuário do sistema que poderá cometer um engano e pensar que os dados não mais relevantes ou que já tenham sido becapeados. O sistema de RAID não irá ajuda-lo a recuperar os dados nesses casos para não correr esse tipo de risco a solução é manter os backups em dia e estar conferindo-os sempre, lembre-se arquivos podem sofrer acidentes com água (café, refrigerante), com fogo, serem roubados ou simplesmente acidentalmente deletados.

Falha total do hard disk.
Uma das possibilidades de perda total dos dados é a chamada "falha total do hard disk". Isso pode acontecer por vários motivos como, por exemplo, queda, choque se bem que poderá ser também pela idade avançada do hard disk. Fato típico é a quebra da cabeça de gravação e leitura sobre o prato e ai poderemos ter um acidente de grandes proporções e conseqüências terríveis, pois se a cabeça ao quebrar continuar em movimento sobre o prato os riscos são inevitáveis, mas pode ser que o hard disk "trave" e todo o sistema pare uma vez que não haverá possibilidade de leitura de sistema operacional e dos dados. Falha de partes eletrônicas do hard disk que podem ocorrer por alteração na parte elétrica da instalação, por uma descarga eletrostática durante um manutenção ou verificação de funcionamento, nesses casos o RAID poderá ajudar (mas não prevenir) uma vez que teremos mais de um disco no sistema poderemos ter os dados em um dos hard disk que não sofreu o dano. Um dos problemas mais comum em falhas de hard disk é o grande acumulo de badblock (badsector, badcluster), nesses casos os setores do hard disk contendo a informação não consegue mais ser lido e nesse caso o RAID não ira dar proteção à corrupção dos dados.

Perda de energia seguida de corrupção dos dados.
Muitos novatos pensam que podem testar um sistema RAID através de estresse do hard disk por acesso excessivo, e em um dado momento deste tipo de teste retiram a energia do disco com ele em funcionamento. Esse procedimento e normalmente a garantia da causa de corrupção de dados, e o sistema RAID não tem como se prevenir nessa situação muito menos fazer algo que ajude na recuperação dos dados que eventualmente forem perdidos. Esse tipo de problema, que fatalmente causara uma corrupção dos dados com conseqüente perda dos mesmos, poderá ser evitado se usarmos um sistema de arquivo conhecido como "journaling", e mesmo um data base server com esse mesmo sistema, com essa técnica poderemos estar nos precavendo de uma possível perda de dados em um banco de dados do tipo SQL server ao vivenciarmos uma queda geral do sistema. Nas discussões do sistema journaling são sempre apresentados dois tipos de proteção de dados, o journaled metadata e o journaled users data, metadata é um termo que referencia o nome do arquivo, o proprietário, a data da criação, as permissões, e etc. No sistema journaling metadata, o sistema de arquivo poderá garantir rapidez no reinicio por não ficar conferindo longamente a integridade durante o processo de boot. Porem o sistema journaling metadata não ira prever uma possível troca em um conteúdo de arquivo. Quero lembrar que os bancos de dados modernos possuem seu próprio sistema de proteção de integridade dos dados nele contido se passar por uma queda de energia com quebra de sistema (system crash).

BadBlock no hard disk.
A falha mais comum nos hard disk é a perda de performance por ter muitos badblock na mídia. Os blocos dos hard disk se foram por vários motivos, microscópicas partículas de cristais que estão no ar e que se depositam no prato do hard disk, riscos nos pratos por contato indevido com a cabeça de gravação e leitura, qualidade e quantidade da camada magnética aplicada no prato na fabrica, desgastes devido o tempo de vida. por experiência podemos dizer que os badblock se acumulam e se multiplicam em diminuto espaço de tempo.Nos blocos com defeitos (badblock) os dados que ali se encontravam não são mais acessíveis. Os badblock não são incomuns podemos garantir que um disco ao sair da linha de produção já possui centenas se não milhares (são todos colocados na lista de defeito do fabricante - P-LIST). O hard disk possuem um programa interno que eletronicamente identifica os badblock e automaticamente já os remapea colocando em seu lugar um bloco bom (todos os discos possuem uma quantidade de espaço a mais para possibilitar essa operação). Nesse caso todos os acessos que seriam feitos no bloco ruim são automaticamente transferidos para o bloco bom que foi colocado no lugar essa operação se da por conta do sistema do próprio disco e é transparente. Essa característica é tão benéfica quanto maléfica, em caso de blocos que vão ficando lentos no disco esses são automaticamente remapeados, mas em um determinado momento o utilitário responsável por essa tarefa é informado que o espaço utilizado para essa troca acabou nesse momento os badblock passam a ser visíveis ao sistema operacional e ai a função SMART do hard disk automaticamente já se informa através do DriveReady SeekComplete Unrecoverable Error que uma de suas funções. Mesmo essa ocorrência sendo a mais comum da causas de falhas em hard disk, ela possui pequenas soluções e na sua grande maioria inacessíveis aos usuários e mesmo aos técnicos se estes não possuírem um hardware próprio para intervir nessa situação. O RAID nada poderá fazer nesses casos e nem mesmo o sistema de arquivos journaling tem alguma forma de solução ou prevenção.

Corrupção geral do sistema.
Os usuários de Windows estão familiarizados com esse tipo de situação onde muitas vezes necessitam ate mesmo fazer uma nova instalação do sistema. Devido a problemas no sistema operacional os bancos de dados e outros aplicativos vão convivendo com pequenas corrupções dos dados ate que finalmente se tornam inacessíveis. É muito pouco o que pode ser feito nessas situações, uma delas é manter-se afastado de Windows das versões 95 e 98 principalmente e também não colocar dados e operações classificadas como críticas em software que estão no estágio Beta. Há infelizmente casos de problemas em backups regulares, mas na maioria o problema tem origem no inicio do backup quando se usou dados que se encontravam corrompidos, nós sabemos que não há estratégias para lidar com perda de dados depois do acontecido, somente mantendo a calma poderemos avaliar a situação e sermos capazes de tomarmos a melhor decisão. Lembremos que em casos de corrupção generalizada do sistema as causas são muitas como, por exemplo, uma parte do hardware do servidor danificada, cabos defeituosos, ou mesmo uma alteração drástica na fonte de energia. Mesmo que em um primeiro momento tudo se apresente de outra forma é sempre bom conferirmos tudo antes do próximo passo, um cabo com mau contato poderá ser o causador de todo o problema e se não conferirmos poderemos corre o risco de no afã de corrigirmos o problema causarmos um dano maior ainda

2 comentários:

Fábio Chiesa disse...
Este comentário foi removido pelo autor.
Fábio Chiesa disse...

Éxelente, dispensa comentários!

Ads Inside PostM

Teste