As falhas nas redes normalmente podem ser detectadas com certa facilidade por profissionais treinados e experientes. Quando um roteador falha, existem alguns problemas bem óbvios que podem ser verificados. Quando uma interface começa a alterar pacotes, o problema pode ser um pouco mais difícil de diagnosticar, mas sempre temos uma referência para análise.
Já o erro humano pode ser um dos problemas mais difíceis de identificar e, uma vez descoberto, é quase impossível de provar. Localizar a causa de um erro, ainda que involuntário, é uma tarefa complicada, principalmente se a operação é complexa. Muitas vezes, os profissionais de redes administram alterações em listas de acesso ou mesmo configurações de rotas em roteadores e, no momento de adicionar o endereço de um novo roteador para que este seja monitorado e gerenciado, nem sempre é possível escrever e testar as configurações adequadamente com antecedência. Num momento como esse, uma ACL ativa pode ser acidentalmente removida da interface de entrada de algum roteador já ativo e, com isso, interromper toda a comunicação da rede.
O que normalmente interrompe parcialmente ou totalmente uma rede é a falha de vários componentes, simultaneamente. Por exemplo, embora a grande maioria das redes atuais sejam projetadas para evitar pontos de falha, problemas de energia elétrica, associados com outros motivos, como uma falha decorrente de mau funcionamento de algum componente (tomada, fiação etc.) pode acarretar problemas de funcionamento em toda a rede.
A aviação comercial é um exemplo que apresenta alguns dos sistemas mais redundantes conhecidos. Para todo voo, deve ser feito um checklist com todos os procedimentos que devem ser lembrados ou seguidos de modo a garantir a segurança operacional e a prevenção de danos aos equipamentos. Quando um equipamento falha, outro equipamento assume. Quando dois sistemas falham, um terceiro pode assumir ainda que com capacidade reduzida e assim por diante. Mesmo assim podem acontecer falhas catastróficas, que não foram previstas em nenhum dos testes antifalhas pelos quais um avião deve passar antes de iniciar um voo. Quando uma falha como essa acontece, infelizmente acontecem perdas de vidas, mas as investigações sobre o acidente podem indicar causas originadas por uma série de eventos, todos relativamente inofensivos, mas que causaram o desastre quando aconteceram juntos. Essa sequência de eventos é chamada de ‘cadeia de acidentes’.
As redes redundantes e com protocolos de contingência também podem sofrer cadeias de acidentes. Quem ainda não passou pela situação de vários dispositivos falharem por motivos que nem fabricantes conseguem explicar?
Cadeias de acidentes podem ser difíceis de descobrir, uma vez que pequenos eventos, isolados e pontuais, podem não causar uma falha de imediato, mas o somatório desses eventos, acumulados ao longo do tempo da operação da rede podem trazer consequências nefastas.
Os problemas mais interessantes são aqueles que normalmente causam os maiores danos e podem até mesmo ‘quebrar’ uma empresa. Falhas de sites que trazem grandes períodos de inatividade significam renda ‘zero’ para uma empresa pelo tempo de duração do estado de inércia. Cada minuto de inatividade de um segmento de rede, ou pior, da rede como um todo, significa a perda de grandes valores financeiros que implicarão em alto custo de propriedade e um tempo de retorno sobre o investimento que nem sempre a empresa será capaz de absorver.
Independentemente do problema ou situação, existem algumas recomendações que ajudam a corrigir as falhas e evitar situações de desastre:
– Mantenha a calma: as falhas de rede, ao contrário de um avião em pleno voo, normalmente não colocam em risco a vida das pessoas. Quanto mais estressado você ficar, mais tempo vai durar o problema e mais difícil será encontrar a solução.
– Registre seus passos: Toda vez que corrigir uma falha, anote tudo que foi feito em detalhes, até porque eventualmente precisará preencher posteriormente um relatório de ocorrência posteriormente. Manter um registro atualizado também poderá ser útil no momento que ocorram novos problemas, poupando tempo de análise.
– Descubra o que mudou: Falhas não ocorrem sem causa. Mesmo que não ocorra um erro óbvio num dispositivo, se aquele processo parou de funcionar é porque algo mudou e possivelmente alguma alteração realizada anteriormente está relacionada com a falha. Procure por mudanças, mesmo que elas pareçam inconsequentes.
– Fatos e dados: Não presuma, prove. Durante falhas, há uma tendência dos envolvidos se convencerem de algo como verdade porque é mais simples considerar assim, muitas vezes calcados na experiência. Tecnologia não é uma ciência exata, portanto, não presuma que nada é verdade até que seja provado.
– Isole o problema: Um problema normalmente é representado por sintomas e também pode ser causado por outro problema. Tente isolar o problema que você tem efetivamente em mãos e, a partir desse ponto, tente isolar as causas. Embora erros possam acontecer de forma composta (mais de uma origem), as falhas simples são muito mais comuns. Elimine seus problemas secundários de forma sistemática e lógica para chegar à causa principal.
– Não procure ‘chifre em cabeça de cavalo’: Se há vários problemas semelhantes acontecendo, normalmente a melhor alternativa para resolver é começar pelo mais simples. Muitas vezes conversar com alguém que não está diretamente envolvido com o problema nos faz explicar reduzindo o problema a elementos mais simples e isso poderá estabelecer conexões que ficaram perdidas.
– Faça auditoria física: Muitas vezes a documentação pode estar desatualizada ou incorreta. Uma auditoria nos ativos de rede como dispositivos, interfaces e endereços IP, por exemplo.
– Solicite ajuda: O ambiente de rede é colaborativo e o trabalho em equipe é essencial para se resolver os problemas que surgem. Se achar que o problema está além de suas possibilidades, não perca tempo e peça ajuda. Se depois de várias tentativas e, esgotados seus recursos técnicos não consegue encontrar o que está errado, nada impede que solicite ajuda a outros profissionais da equipe.
Muitos livros e artigos já foram escritos sobre técnicas de soluções de análise e solução de problemas em redes. O objetivo é sempre o mesmo: identificar, analisar e agir para solucionar os problemas da forma mais precisa, segura e rápida possível. Mas fique tranquilo, falhas de rede sempre acontecem, mas a solução dos problemas sempre será possível!