A FCC não pune a T-Mobile por interrupção que Ajit Pai chamou de "inaceitável"

8

Prolongar / Anúncio da T-Mobile na Times Square de Nova York em 15 de outubro de 2020.

Imagens Getty | Imagens SOPA

A Comissão Federal de Comunicações concluiu as investigações da T-Mobile por uma falha na rede que o presidente Ajit Pai chamou de "inaceitável". Mas, em vez de punir a operadora de telefonia móvel, a FCC está apenas emitindo um aviso público para "lembrar" as empresas de telefonia das "melhores práticas aceitas pela indústria" que poderiam ter evitado a interrupção da T-Mobile.

Após a interrupção nacional de 12 horas em 15 de junho, interromperam os serviços de mensagens e chamadas, incluindo ligações de emergência para o 911, Pai escreveu que "A interrupção da rede da T-Mobile é inaceitável" e que "a FCC está iniciando uma investigação. Estamos exigindo respostas – e também os consumidores americanos".

Pai tem um histórico de falar duramente com os portadores e não seguir punições que podem ter um efeito de dissuasão maior do que avisos redigidos com firmeza. Isso parece ser o que aconteceu novamente ontem, quando o FCC anunciou as descobertas de sua investigação sobre a T-Mobile. Pai disse que "a queda da T-Mobile foi um fracasso" porque a operadora não seguiu as melhores práticas que poderiam ter evitado ou minimizado isso, mas ele anunciou nenhuma punição. O assunto parece estar encerrado com base no anúncio de ontem, mas entramos em contato com o escritório do Presidente Pai hoje para perguntar se há alguma punição à T-Mobile. Atualizaremos este artigo se obtivermos uma resposta.

FCC detalha erros da T-Mobile

o relatório de investigação da equipe identificou vários erros cometidos pela T-Mobile durante a interrupção, que começou quando a T-Mobile estava instalando novos roteadores no sudeste dos Estados Unidos. Quando um link de transporte de fibra na região falhou, a rede da T-Mobile deveria ter transferido o tráfego por um link diferente. Mas a operadora "configurou incorretamente o peso dos links para um de seus roteadores", o que "impediu que o tráfego fluísse para o novo roteador ativo conforme pretendido". A T-Mobile não implementou nenhum processo à prova de falhas para evitar a configuração incorreta ou para alertar os engenheiros de rede sobre o problema.

O mercado de Atlanta "ficou isolado" do resto da rede, fazendo com que todos os usuários de LTE na área perdessem a conectividade. Um erro de software piorou as coisas ao impedir que dispositivos móveis na área de Atlanta se registrassem novamente no IP Multimedia Subsystem por Wi-Fi. Em vez de rotear as tentativas de registro de dispositivo para um nó diferente, "o sistema de registro roteava repetidamente as tentativas de novo registro de cada dispositivo móvel para o último nó retido em seus registros, que não estava disponível devido ao isolamento do mercado".

O erro de software já existia na rede da T-Mobile há meses. "Este erro de software provavelmente não causou problemas antes da interrupção ocorrer porque a interrupção foi o primeiro isolamento notável do mercado desde que a T-Mobile integrou este software em sua rede", disse a FCC. Testes regulares "poderiam ter descoberto a falha de software e a configuração incorreta de roteamento antes que pudessem afetar as chamadas ao vivo", disse a FCC.

Após o início dos problemas em 15 de junho, os engenheiros da T-Mobile "acabaram exacerbando [a interrupção] o impacto porque diagnosticaram erroneamente o problema". O relatório da FCC continuou:

A T-Mobile acreditava que o link de transporte de fibra que falhou no início do dia continuava a causar a interrupção contínua. Agindo com base nessa crença, a T-Mobile desligou manualmente o link em uma tentativa de transferir o tráfego para fora dele. Devido aos pesos Open Shortest Path First ainda mal configurados, no entanto, essas etapas recriaram as condições iniciais da interrupção. Os clientes LTE no mercado de Atlanta foram novamente desconectados da rede LTE e forçados a estabelecer chamadas por Wi-Fi, e suas tentativas de registro falharam novamente e criaram uma tempestade de registro que adicionou mais congestionamento ao subsistema de multimídia de IP da T-Mobile.

Os engenheiros da T-Mobile quase imediatamente reconheceram que haviam diagnosticado o problema incorretamente. No entanto, eles não conseguiram resolver o problema restaurando o link porque as ferramentas de gerenciamento de rede necessárias para fazer isso remotamente dependiam dos mesmos caminhos que haviam acabado de desativar. Quando os engenheiros da T-Mobile conseguiram acessar o equipamento no local e corrigir o erro restaurando o link uma hora depois, os clientes no mercado de Atlanta puderam novamente tentar se registrar no VoLTE [Voice over LTE]. No entanto, isso novamente criou congestionamento adicional porque os engenheiros da T-Mobile ainda não haviam resolvido o erro de software que impedia a conclusão dos registros.

Interrupção em todo o país

O relatório da FCC explicou como a interrupção se espalhou do mercado de Atlanta, indo para todo o país. O tráfego externo destinado ao sistema de Atlanta foi redirecionado para outras regiões, o que "criou congestionamento suficiente nesses sistemas de registro para fazer com que a rede T-Mobile enviasse as tentativas de registro para outros nós. O erro de software novamente direcionou as tentativas de novo registro para o último nó registrado, que provavelmente já estava passando por um congestionamento grave. " Pouco depois, "os registros do subsistema de multimídia IP, VoLTE e Voice over Wi-Fi começaram a falhar em todo o país".

A grande maioria dos clientes da T-Mobile não conseguiu se conectar às redes Voice over LTE ou Voice over Wi-Fi e, portanto, "voltou para as redes comutadas por circuito 3G e 2G da T-Mobile para fazer e receber chamadas enquanto o dispositivo continuava seu tentativas de registro na rede VoLTE. " Isso resultou em congestionamento de 3G e 2G, causando falhas em muitas ligações. Os nós de rede continuaram a reter recursos para essas sessões de chamadas após o término das chamadas, sobrecarregando os recursos de computação dos nós e causando ainda mais falhas de chamadas.

Fonte: Ars Technica