O cientista da computação e especialista em IA no Google Brain, David Ha, utilizou uma técnica conhecida por reforço de aprendizado para fazer com que bots se adaptassem melhor ao ambiente (terreno), recriando suas estruturas.
Esse tipo de evolução é comum e natural em seres vivos, e é, basicamente, o que faz com que as espécies consigam sobreviver a mudanças climáticas, entre outros eventos. Os organismos vivos têm adaptado seus corpos durante milhares de anos, desde que a vida surgiu no planeta Terra. Nesse sentido, às vezes algumas espécies desaparecem, enquanto outras são criadas.
A ideia do experimento de Ha foi tentar descobrir, por meio da aplicação do reforço de aprendizado, se os bots poderiam “imitar” o comportamento dos organismos vivos, mas, óbvio, utilizando um espaço de tempo muito menor. O aprendizado por reforço é uma ferramenta usada na inteligência artificial para orientar os agentes em direção a um objetivo ou direção desejada, recompensando-os com pontos à medida que escolhem as alternativas corretas.
O ambiente criado usa o framework OpenAI Gym, e se parece bastante com aqueles joguinhos antigos em 2D, mas com a diferença de possuir uma física virtual avançada, capaz de simular condições naturais e gerar formas no terreno de forma aleatória.
Os bots, chamados de “walkers”, tinham uma cabeça em forma de pentágono, que não poderiam ser alteradas, e serviam como a carga a ser carregada. As pernas eram formadas por dois segmentos, um superior e outro inferior. Eles eram dotados de uma versão digital do LIDAR, portanto podiam avaliar o terreno à sua frente (é isso que estão fazendo quando disparam aquele fino “raio laser” no vídeo).
Iniciado o experimento, os bots receberam até dois dias para recriarem suas estruturas e se readaptarem ao terreno, que era modificado automaticamente, produzindo estratégias que lhes permitissem se locomover da melhor maneira possível. Os bots só podiam aumentar suas pernas em até 75% do tamanho original.
O resultado foi positivo. Como podemos observar no vídeo: do lado esquerdo temos um bot ainda não modificado, e do lado direito temo um bot que já se modificou, buscando saltar os obstáculos e buracos sem cometer falhas.
Ha observou que configurações diferentes, como recompensar os bots por uma escolha errônea ou diminuir o limite de crescimento das pernas pode gerar resultados surpreendentes e bem estranhos. Entretanto, seria importante averiguar o quanto essas decisões nos sugerem um novo comportamento, já que algumas delas seriam inimagináveis para um ser humano.