Elon Musk: "Qualquer um que confia na lidar está condenado." Especialistas: Talvez não

21

Aurich Lawson / Getty

Muitas empresas estão trabalhando para desenvolver carros autônomos. E quase todos usam o lidar, um tipo de sensor que usa lasers para construir um mapa tridimensional do mundo ao redor do carro.

Mas o CEO da Tesla, Elon Musk, argumenta que essas empresas estão cometendo um grande erro.

"Eles estão todos indo para o dump lidar", Elon Musk disse em um Evento de abril apresentando a tecnologia autônoma da Tesla. "Qualquer um contando com o lidar está condenado."

"Lidar é realmente um atalho", acrescentou Andrej Karpathy, guru da Tesla AI. "Isso evita os problemas fundamentais do reconhecimento visual que é necessário para a autonomia. Dá uma falsa sensação de progresso e, em última análise, é uma muleta".

Nas últimas semanas, perguntei a vários especialistas sobre essas alegações. E eu encontrei muito ceticismo.

"De certa forma, todos esses sensores são muletas", argumentou Greg McGuire, pesquisador do MCity, o campo de testes da Universidade de Michigan para veículos autônomos. "É isso que construímos, como engenheiros, como sociedade – construímos muletas."

Carros autônomos precisarão ser extremamente seguros e confiáveis ​​para serem aceitos pela sociedade, disse McGuire. E um princípio fundamental para alta confiabilidade é a redundância. Qualquer sensor único falhará eventualmente. Usar vários tipos diferentes de sensores torna menos provável que a falha de um único sensor leve a um desastre.

"Uma vez que você sai para o mundo real e vai além das condições ideais, há muita variabilidade", argumenta o analista do setor (e ex-engenheiro automotivo) Sam Abuelsamid. "É teoricamente possível que você consiga fazê-lo apenas com câmeras, mas para realmente ter a confiança de que o sistema está vendo o que acha que está vendo, é melhor ter outros modos de detecção ortogonais" – modos de detecção como o lidar.

Os algoritmos somente de câmera podem funcionar surpreendentemente bem

Elon Musk em 2015. "src =" https://cdn.arstechnica.net/wp-content/uploads/2018/04/GettyImages-489749722-640x438.jpg "width =" 640 "height =" 438 "srcset =" https://cdn.arstechnica.net/wp-content/uploads/2018/04/GettyImages-489749722-1280x876.jpg 2x
Prolongar / Elon Musk em 2015.

Em 22 de abril, no mesmo dia em que Tesla realizou seu evento de autonomia, um trio de pesquisadores de Cornell publicou um trabalho de pesquisa que oferecia algum suporte para as afirmações de Musk sobre o lidar. Usando nada além de câmeras estéreo, os cientistas da computação alcançaram resultados inovadores no KITTI, um popular benchmark de reconhecimento de imagem para sistemas autônomos. Sua nova técnica produziu resultados muito superiores aos resultados de câmera publicados anteriormente – e não muito atrás dos resultados que combinavam dados de câmera e de dados por faixa.

Infelizmente, a cobertura da mídia do jornal de Cornell criou confusão sobre o que os pesquisadores realmente encontraram. O writeup do Gizmodo, por exemplo, sugerido o papel era sobre onde as câmeras são montadas em um veículo – um assunto que nem sequer foi mencionado no jornal. (Gizmodo reescrevemos o artigo depois que os pesquisadores os contataram.)

Para entender o que o artigo realmente mostrou, precisamos de um pouco de fundo sobre como o software converte as imagens brutas da câmera em um modelo tridimensional rotulado do entorno de um carro. No benchmark KITTI, um algoritmo é considerado um sucesso se puder posicionar com precisão uma caixa delimitadora tridimensional em torno de cada objeto em uma cena.

O software normalmente resolve esse problema em duas etapas. Primeiro, as imagens são executadas através de um algoritmo que atribui uma estimativa de distância para cada pixel. Isso pode ser feito usando um par de câmeras e paralaxe efeito. Pesquisadores também desenvolvido técnicas para estimar distâncias de pixels usando uma única câmera. Em ambos os casos, um segundo algoritmo usa estimativas de profundidade para agrupar pixels em objetos discretos, como carros, pedestres ou ciclistas.

Os cientistas da computação de Cornell se concentraram nesse segundo passo. A maioria dos outros pesquisadores trabalhando em abordagens somente de câmera tem representado os dados de pixel como uma imagem bidimensional, com a distância como um valor adicional para cada pixel ao lado de vermelho, verde e azul. Os pesquisadores, então, normalmente executam essas imagens bidimensionais através de uma rede neural convolucional (veja nosso explicador em profundidade). Aqui) que foi treinado para a tarefa.

Mas a equipe de Cornell percebeu que usar uma representação bidimensional era contraproducente, porque os pixels que estão próximos em uma imagem bidimensional podem estar muito distantes no espaço tridimensional. Um veículo em primeiro plano, por exemplo, pode aparecer diretamente em frente a uma árvore a dezenas de metros de distância.

Assim, os pesquisadores da Cornell converteram os pixels de cada par de imagens estéreo no tipo de nuvem de pontos tridimensional que é gerada nativamente pelos sensores de direção. Os pesquisadores, então, alimentaram esses dados "pseudo-lidos" em algoritmos existentes de reconhecimento de objetos, que foram projetados para usar a nuvem de pontos do lidar como uma entrada.

"Você poderia fechar a lacuna significativamente"

Aurich / Getty

"Nossa abordagem alcança melhorias impressionantes sobre o estado da arte existente no desempenho baseado em imagem", escreveram eles. Em uma versão do benchmark KITTI (detecção 3D "hard" com uma IOU de 0,5), por exemplo, o melhor resultado anterior para dados somente de câmera foi uma precisão de 30%. A equipe de Cornell conseguiu aumentar para 66%.

Em outras palavras, uma das razões pelas quais as câmeras e a telefonista se apresentaram melhor do que as câmeras sozinhas não tinham nada a ver com a precisão superior das medições de distância da empresa. Em vez disso, foi porque o formato de dados "nativo" produzido pelo lid foi mais fácil para os algoritmos de aprendizado de máquina trabalharem.

"O que mostramos em nosso artigo é que você pode reduzir significativamente a diferença", convertendo dados baseados em câmeras em uma nuvem de pontos de estilo tradicional, disse Kilian Weinberger, co-autor do artigo de Cornell, em uma entrevista por telefone.

Ainda assim, Weinberger reconheceu, "ainda há uma margem justa entre o lidar e o não-lidar". Mencionamos anteriormente que a equipe da Cornell alcançou 66% de precisão em uma versão do benchmark KITTI. O uso do mesmo algoritmo nos dados de nuvens de pontos reais produziu uma precisão de 86%.

Fonte: Ars Technica