Como os pacotes malformados causaram a interrupção nacional de 37 horas do CenturyLink

29

A interrupção de 37 horas da CenturyLink em todo o país em dezembro de 2018 interrompeu o serviço 911 para milhões de americanos e impediu a conclusão de pelo menos 886 chamadas para o 911, disse um novo relatório da Comissão Federal de Comunicações.

Em dezembro, o presidente da FCC Ajit Pai chamou a interrupção da rede de fibra da CenturyLink de "completamente inaceitável" e jurou investigar. O FCC divulgou os resultados a partir de sua investigação hoje, descrevendo como a CenturyLink não seguiu as melhores práticas que poderiam ter impedido a interrupção. Mas Pai ainda não anunciou nenhuma punição do CenturyLink.

A interrupção foi tão grande que afetou várias outras operadoras de rede que se conectam com a CenturyLink, incluindo a Comcast e a Verizon, disse o relatório da FCC. Um resumo da FCC dizia:

A paralisação afetou os provedores de serviços de comunicações, as empresas clientes e os consumidores que dependiam dos serviços de transporte da CenturyLink, que direcionam o tráfego de comunicações de vários provedores para locais em todo o país. A interrupção resultou em interrupções extensas no serviço de telefonia e banda larga, incluindo o 911. Até 22 milhões de clientes em 39 estados foram afetados, incluindo aproximadamente 17 milhões de clientes em 29 estados que não tinham acesso confiável ao 911. Pelo menos 886 chamadas para 911 não foram entregues.

A interrupção de 37 horas começou em 27 de dezembro e "foi causada por uma falha de equipamento que foi exacerbada por um erro de configuração de rede", disse a FCC. A CenturyLink estima que mais de 12,1 milhões de ligações telefônicas em sua rede "foram bloqueadas ou degradadas devido ao incidente", disse a FCC.

Além disso, cerca de 1,1 milhão de clientes DSL da CenturyLink perderam o serviço em partes das 37 horas. Outros 2,6 milhões de clientes DSL "podem ter experimentado serviços degradados", disse a FCC.

Pai hoje chamou novamente a interrupção de "completamente inaceitável" e disse que "é importante para os provedores de comunicações tomarem cuidado com as lições aprendidas deste incidente".

Mas a FCC não anunciou uma punição ou mesmo uma ordem exigindo que a CenturyLink tomasse medidas específicas para atualizar sua rede. Em vez disso, a FCC disse que "se engajará na divulgação das partes interessadas para promover as melhores práticas e contatar outros provedores de transporte para discutir suas práticas de rede" e "oferecer sua assistência a provedores menores para ajudar a garantir que as redes de comunicações do país permaneçam robustas, confiáveis ​​e confiáveis". e resiliente ". A FCC disse que também emitirá um aviso público "lembrando as empresas das melhores práticas aceitas pela indústria".

Nós perguntamos ao escritório do Pai hoje se ele está planejando alguma ação disciplinar contra o CenturyLink, e nós atualizaremos este artigo se tivermos uma resposta.

Enquanto a FCC de Pai desregulou a banda larga quando regras de neutralidade da rede revogadasainda regula as redes telefônicas fixas, como a CenturyLink, com sua autoridade no Título II sobre as operadoras comuns.

Quando contatada por Ars, a comissária democrata do FCC Jessica Rosenworcel disse que o relatório deveria ter sido completado mais cedo e que deveria ter incluído "um plano de ação para evitar uma repetição. É um problema real (que) não existe tal plano aqui".

Causa raiz

Os problemas começaram na manhã do dia 27 de dezembro, quando "um módulo de comutação no nó da CenturyLink em Denver, Colorado, gerou espontaneamente quatro pacotes de gerenciamento malformados", disse o relatório da FCC.

A CenturyLink e a Infinera, o fornecedor que forneceu o nó, disseram à FCC que "eles não sabem como ou por que os pacotes malformados foram gerados".

Pacotes malformados "geralmente são descartados imediatamente devido a características que indicam que os pacotes são inválidos", mas isso não aconteceu neste caso, explicou o relatório da FCC:

Nesse caso, os pacotes malformados incluíam fragmentos de pacotes de gerenciamento de rede válidos que normalmente são gerados. Cada pacote mal formado compartilhava quatro atributos que contribuíam para a indisponibilidade: 1) um endereço de destino de broadcast, significando que o pacote foi direcionado para ser enviado a todos os dispositivos conectados; 2) um cabeçalho válido e uma soma de verificação válida; 3) sem tempo de expiração, o que significa que o pacote não seria descartado por ter sido criado há muito tempo; e 4) um tamanho maior que 64 bytes.

O módulo de comutação enviou esses pacotes malformados "como instruções de gerenciamento de rede para um módulo de linha", e os pacotes "foram entregues a todos os nós conectados", informou a FCC. Cada nó que recebeu o pacote "retransmitiu o pacote para todos os seus nós conectados".

O relatório continuou:

Cada nó conectado continuou a retransmitir os pacotes malformados através do canal de gerenciamento proprietário para cada nó com o qual se conectou, porque os pacotes pareciam válidos e não tinham um tempo de expiração. Este processo repetido indefinidamente.

A transmissão exponencialmente crescente de pacotes mal formados resultou em um ciclo de realimentação interminável que consumiu o poder de processamento nos nós afetados, o que, por sua vez, interrompeu a capacidade dos nós de manter a sincronização interna. Especificamente, as instruções para os módulos de linha de saída perderiam a sincronização quando as instruções fossem enviadas para um par de módulos de linha, mas apenas um módulo de linha recebeu a mensagem. Sem essa sincronização interna, a capacidade dos nós de rotear e transmitir dados falhava. Como esses nós falharam, o resultado foi várias interrupções na rede do CenturyLink.

Restauração e mudanças para o futuro

A CenturyLink tomou conhecimento da interrupção às 3h56, ET, e no meio da manhã havia "enviado engenheiros de rede para Omaha, Nebraska e Kansas City, Mo., para se conectar diretamente aos nós afetados". Eles rastrearam o problema de volta ao nó de Denver. Às 21h02, a empresa "identificou e removeu o módulo que gerou os pacotes malformados".

Mas a interrupção continuou porque "os pacotes mal-formados continuaram a replicar e transitar a rede, gerando mais pacotes conforme ecoavam de um nó para outro", escreveu a FCC. Pouco depois da meia-noite, pelo menos 20 horas após o início do problema, os engenheiros da CenturyLink "começaram a instruir os nós a não mais reconhecerem os pacotes malformados". Eles também "desativaram o canal de gerenciamento proprietário, impedindo que ele transmitisse ainda mais os pacotes malformados".

"Grande parte da rede" estava funcionando normalmente às 5:07 da manhã, ET, em 28 de dezembro, mas nem todos os nós foram restaurados até as 23h36 daquela noite.

Mesmo depois que todos os nós foram restaurados, "alguns clientes experimentaram efeitos residuais da interrupção enquanto a CenturyLink continuava a reinicializar os módulos de linha afetados e substituir os módulos de linha que não foram redefinidos", disse a FCC. A CenturyLink determinou que a rede "estabilizou" às 12h01 do dia 29 de dezembro.

Melhores práticas não seguidas

O relatório da FCC afirma que várias boas práticas poderiam ter impedido a interrupção ou diminuído seus efeitos negativos. Por exemplo, a FCC disse que o CenturyLink e outras operadoras de rede devem desativar os recursos do sistema que não estão em uso.

"Neste caso, o canal de gerenciamento proprietário foi ativado por padrão para que pudesse ser usado se necessário", escreveu a FCC. "Embora o CenturyLink não pretendesse usar o recurso, o CenturyLink deixou-o não configurado e ativado. O canal habilitado criou uma vulnerabilidade na rede que, nesse caso, contribuiu para a interrupção, permitindo que pacotes mal formados fossem continuamente retransmitidos pela rede. "

O relatório também disse que o CenturyLink poderia ter usado filtros mais fortes para impedir a propagação dos pacotes malformados. A CenturyLink usava filtros "projetados para mitigar apenas riscos específicos". Em vez disso, o CenturyLink poderia ter usado "filtros coletores" que permitissem apenas o tráfego esperado.

O CenturyLink também deveria ter configurado "alarmes de utilização de memória e processador" em seu monitoramento de rede, disse a FCC. Embora os pacotes malformados "rapidamente sobrecarregassem a capacidade de processamento dos nós", isso "não acionava" nenhum alarme no sistema da CenturyLink.

Após o incidente, o CenturyLink "substituiu o módulo de comutação defeituoso e o enviou para a Infinera para realizar uma análise forense", escreveu a FCC. Os engenheiros da Infinera ainda não conseguiram reproduzir o problema, mas as empresas "tomaram medidas adicionais para evitar a repetição dessa interrupção específica", disse a FCC.

Essas etapas adicionais incluem o CenturyLink desativando o canal de gerenciamento proprietário. "A Infinera desativou o canal em novos nós para a rede da CenturyLink e atualizou o manual do produto do nó para recomendar a desativação do canal, caso ele não seja utilizado", disse a FCC.

O relatório continuou:

O provedor de serviços e o fornecedor também estabeleceram um plano de monitoramento de rede para eventos de gerenciamento de rede para detectar eventos semelhantes mais rapidamente. Atualmente, a CenturyLink está em processo de atualização do policer Ethernet de seus nós para reduzir a chance de transmissão de um pacote malformado no futuro. O policia Ethernet aprimorado identifica e encerra rapidamente os pacotes inválidos, impedindo a propagação para a rede. Espera-se que este trabalho esteja concluído no outono de 2019.

Quando contatada pela Ars hoje, a CenturyLink disse que a "interrupção foi causada por uma placa de gerenciamento de rede que gerava pacotes malformados que infelizmente foram retransmitidos em partes da rede de transporte da CenturyLink".

A CenturyLink disse ainda que "tomou várias medidas para ajudar a evitar a recorrência do problema, incluindo a desativação do canal de comunicação desses pacotes malformados durante o evento e o aprimoramento do monitoramento da rede. Valorizamos nossos clientes e lamentamos qualquer inconveniente que esse evento possa ter causado "

Impacto na Comcast, Verizon e muito mais

A paralisação teve "efeitos ondulatórios" em outros provedores que dependem da rede de transporte de longa distância da CenturyLink, informou a FCC.

"A interrupção afetou potencialmente 3.552.495 dos clientes de VoIP da Comcast por 49 horas e 32 minutos", com os clientes de telefonia Comcast potencialmente experimentando "um sinal de alta velocidade ou menor qualidade de chamada se as chamadas fossem transmitidas pelas instalações de transporte afetadas", disse a FCC.

A interrupção também interrompeu a capacidade da Comcast de encaminhar chamadas do 911 em Idaho.

A Verizon usa a rede da CenturyLink para transportar partes de seu tráfego de rede sem fio, e a "queda afetou a rede da Verizon Wireless em vários estados ocidentais, incluindo problemas de serviço intermitentes em um condado no Arizona, 12 condados em Montana, 21 condados no Novo México e quatro condados". em Wyoming ", disse a FCC.

"No Arizona e no Novo México, esta interrupção afetou potencialmente 314.883 usuários da rede da Verizon Wireless e resultou em 12.838.697 chamadas bloqueadas (com base em dados históricos)", disse a FCC.

Dezenas de milhares de clientes da Verizon na rede CDMA da Verizon teriam sido incapazes de discar 911 durante a paralisação, disse a FCC. O serviço 911 da Verizon LTE não foi afetado "porque a rede LTE não usa a rede CenturyLink afetada para transporte", disse a FCC.

A interrupção do CenturyLink também teve grandes impactos nos Sistemas de Telecomunicação (um provedor do 911), Transaction Network Services (que fornece Serviço SS7 para a TeleCommunication Systems e outros pequenos provedores de rede), General Dynamics Information Technology (um provedor 911) e West Safety Services (outro provedor 911).

"A interrupção da CenturyLink também teve efeitos menores em outros provedores de serviços", disse a FCC. Esses efeitos menores tiveram um impacto em milhões de pessoas. O FCC escreveu:

A AT & T estima que 1.778.250 usuários possam ter sido afetados. Alguns dos efeitos potenciais incluem chamadas interrompidas, degradação do serviço de voz e chamadores que recebem sinais de alta velocidade ao ligar. O TDS informou que 1.114 dos seus usuários de telefonia fixa podem ter sido afetados. A entrega de chamadas 911 também foi afetada por vários provedores de serviços. O Bluegrass Cellular, em Kentucky, relatou que a interrupção afetou potencialmente a entrega de chamadas do 911 para 195.384 usuários sem fio. A Cellcom, um provedor sem fio de Wisconsin, notificou a Comissão de que 53 chamadas para o 911 foram transmitidas sem ANI (identificação automática de número) e ALI (identificação automática de local). Cox informou que a interrupção afetou potencialmente 654.452 usuários de VoIP. Em Iowa, a US Cellular informou que a interrupção afetou potencialmente o ALI para 911 chamadas para 94.380 de seus usuários sem fio. Nenhum dos provedores ou PSAPs (pontos de atendimento de segurança pública) relataram quaisquer danos à vida ou propriedade devido à interrupção.

Fonte: Ars Technica