Como Oculus apertou o rastreamento sofisticado em um hardware pipsqueak

23

Tornar a experiência de RV simples e portátil foi o principal objetivo do Oculus Quest e isso definitivamente cumpre. Mas ir de coisas na sala rastreando o fone de ouvido até o fone de ouvido rastreando as coisas na sala era um processo complexo. Eu conversei com o CTO do Facebook Mike Schroepfer (“Schrep”) sobre a jornada de “fora de dentro” para “de dentro para fora”.

Quando você move a cabeça e as mãos com um fone de ouvido e controladores VR, alguma parte do sistema tem que rastrear exatamente onde essas coisas estão em todos os momentos. Existem duas maneiras em que isso geralmente é tentado.

Uma abordagem é ter sensores na sala em que você está, observando os dispositivos e seus LEDs incorporados de perto, olhando de fora para dentro. A outra é ter os sensores no próprio fone de ouvido, que procura sinais na sala. de dentro para fora.

Ambos têm seus méritos, mas se você quiser que um sistema seja sem fio, sua melhor aposta é de dentro para fora, pois você não precisa enviar sem fio sinais entre o fone de ouvido e o computador fazendo o rastreamento de posição real, o que pode adicionar latência odiada para a experiência.

Facebook e a Oculus estabeleceu uma meta alguns anos atrás para alcançar não apenas rastreamentos de dentro para fora, mas torná-la tão boa ou melhor que os sistemas com fio que rodam em PCs de última geração. E ele teria que ser executado em qualquer lugar, não apenas em uma cena definida com limites definidos por beacons ou algo assim, e fazê-lo dentro de segundos depois de colocá-lo. O resultado é o impressionante fone de ouvido Quest, que obteve sucesso nesta tarefa (embora não seja um grande salto em outros).

O que é impressionante não é apenas rastrear objetos em torno dele e traduzi-lo para uma posição 3D precisa de si mesmo, mas isso pode ser feito em tempo real em um chip com uma fração do poder de um computador comum.

"Não tenho conhecimento de nenhum sistema que esteja próximo desse nível de desempenho", disse Schroepfer. "Nos primeiros dias, havia muitos debates sobre se isso funcionaria ou não."

Nossa esperança é que, a longo prazo, para a maioria dos aplicativos de consumidores, tudo será rastreado de dentro para fora.

O termo para o que o fone de ouvido faz é localização e mapeamento simultâneos, ou SLAM. Basicamente, isso significa construir um mapa do seu ambiente em 3D e, ao mesmo tempo, descobrir onde você está nesse mapa. Naturalmente os robôs vêm fazendo isso há algum tempo, mas geralmente usam hardware especializado como o lidar, e têm um processador mais poderoso à disposição. Todos os novos fones de ouvido teriam câmeras comuns.

"Em um depósito, posso ter certeza de que minha iluminação está correta, posso colocar pontos de referência na parede, que são marcadores que podem ajudar a redefinir as coisas se eu tiver erros – é como uma simplificação dramática do problema, sabe?", Apontou Schroepfer. Fora. "Eu não estou pedindo para você colocar fiduciais em suas paredes. Não fazemos você colocar códigos QR ou coordenadas de GPS precisamente posicionadas em sua casa.

“Nunca viu a sua sala de estar antes e só tem que funcionar. E em um ambiente de computação relativamente restrito, temos uma CPU móvel nessa coisa. E a maior parte da CPU móvel também está indo para o conteúdo. O robô não está tocando Beat Saber ao mesmo tempo que está navegando pelo armazém. ”

É um problema difícil em múltiplas dimensões, e é por isso que a equipe vem trabalhando nisso há anos. Em última análise, vários fatores vieram juntos. Uma era simplesmente que os chips móveis se tornavam poderosos o suficiente para que algo assim fosse possível. Mas o Facebook não pode realmente levar crédito por isso.

Mais importante foi o trabalho em andamento em visão computacional que a divisão de inteligência artificial do Facebook vem fazendo sob os olhos de Yann Lecun e outros que estão por lá. Os modelos de aprendizado de máquina antecipam muito do processamento necessário para problemas de visão computacional, e os mecanismos de inferência resultantes são mais leves, se não necessariamente bem compreendidos. Colocando aprendizado de máquina eficiente e orientado a bordas para trabalhar, aproximou este problema de uma possível solução.

A maior parte do trabalho, no entanto, foi para as complexas interações dos múltiplos sistemas que interagem em tempo real para fazer o trabalho do SLAM.

"Eu gostaria de poder dizer a você que é apenas uma fórmula muito inteligente, mas há muitas partes para que isso funcione", disse Schroepfer. “Por exemplo, você tem uma IMU no sistema, uma unidade de medida inercial, que funciona em uma freqüência muito alta, talvez 1000 Hz, muito mais alta que o resto do sistema (ou seja, os sensores, não o processador). Mas tem muito erro. E então nós executamos o rastreador e o mapeador em segmentos separados. E, na verdade, nós percorremos o mapeador de maneira múltipla, porque é a parte mais cara (ou seja, computacionalmente). A programação multi-threaded é difícil, mas você faz isso em três e compartilha dados de maneiras interessantes para torná-la rápida ”.

Schroepfer se pegou aqui; "Eu teria que gastar umas três horas para levar você através de todos os pedaços sujos."

Parte do processo também foi um teste extensivo, para o qual eles usaram uma plataforma de rastreamento de movimento comercial como verdade básica. Eles rastreariam um usuário brincando com o fone de ouvido e os controles e, usando a configuração do OptiTrack, mediriam os movimentos precisos realizados.

Testando com o sistema OptiTrack.

Para ver como os algoritmos e o sistema de detecção funcionavam, eles basicamente reproduziam os dados dessa sessão para uma versão simulada: o vídeo da câmera, os dados da IMU e outras métricas relevantes. Se a simulação estivesse próxima da verdade básica que eles coletaram externamente, bom. Se não fosse, o sistema de aprendizado de máquina ajustaria seus parâmetros e executaria a simulação novamente. Com o passar do tempo, o sistema menor e mais eficiente se aproximou cada vez mais da produção dos mesmos dados de rastreamento registrados pela sonda OptiTrack.

Em última análise, ele precisava ser tão bom ou melhor do que o fone de ouvido padrão do Rift. Anos depois do original, ninguém compraria um fone de ouvido que fosse um passo para baixo, por mais barato que fosse.

"Uma coisa é dizer, bem, minha taxa de erro comparada com a verdade básica é qualquer coisa, mas como ela realmente se manifesta em termos de toda a experiência?", Disse Schroepfer. “Quando chegamos ao fim do desenvolvimento, na verdade tínhamos um casal de Beat Sabre apaixonados no time, e eles jogavam no Rift e no Quest. E o objetivo era que a mesma pessoa fosse capaz de obter a mesma nota alta ou melhor. Essa foi uma boa maneira de redefinir nossa micro-métrica e dizer, bem, isso é o que realmente precisamos para alcançar a experiência final que as pessoas querem ”.

a equipe de visão por computador está bem otimista com câmeras com algoritmos realmente poderosos por trás delas sendo a solução para muitos problemas.

Não faz mal que seja mais barato também. O Lidar é caro o suficiente para que até os fabricantes de automóveis tenham cuidado ao implementá-lo, e as abordagens de tempo de voo ou de luz estruturada como o Kinect também aumentam o custo. No entanto, eles simplificam maciçamente o problema, sendo ferramentas de detecção 3D para começar.

“O que dissemos foi, podemos ficar tão bem sem isso? Porque vai reduzir drasticamente o custo a longo prazo deste produto ”, disse ele. “Quando você está conversando com a equipe de visão por computador, eles são bastante otimistas em relação a câmeras, com algoritmos realmente poderosos por trás deles sendo a solução para muitos problemas. Portanto, nossa esperança é que, para o longo prazo, para a maioria dos aplicativos de consumidores, tudo será rastreado de dentro para fora. ”

Eu indiquei que a VR não é considerada por todos como uma indústria saudável, e que as soluções tecnológicas podem não ajudar muito a resolver um problema mais multi-camadas.

Schroepfer respondeu que há basicamente três problemas enfrentados pela adoção da RV: custo, atrito e conteúdo. O custo é auto-explicativo, mas seria errado dizer que ele ficou muito mais barato ao longo dos anos. O Playstation VR estabeleceu uma entrada de baixo custo logo no início, mas o VR “real” permaneceu caro. O atrito é o quão difícil é ir de “abrir a caixa” para “jogar um jogo”, e historicamente tem sido um ponto de atrito para a RV. Oculus Quest aborda ambas as questões muito bem, sendo de US $ 400 e como o nosso comentário notou muito fácil de pegar e usar. Todo esse trabalho de visão de computador não foi para nada.

O conteúdo ainda é fino no chão, no entanto. Houve alguns sucessos, como Superhot e Beat Saber, mas nada para realmente atrair multidões para a plataforma (se pode ser chamado assim).

"O que estamos vendo é que, quando removemos esses fones de ouvido, e nas mãos dos desenvolvedores, as pessoas criam todo tipo de ideia criativa. Acho que estamos nos estágios iniciais – essas plataformas levam algum tempo para marinar ”, admitiu Schroepfer. “Eu acho que todo mundo deveria ser paciente, vai demorar um pouco. Mas é assim que estamos nos aproximando, vamos continuar trabalhando, criando conteúdo melhor, experiências melhores e headsets melhores o mais rápido possível. ”

Fonte: TechCrunch