A IBM está trabalhando para tornar mais rápidas as técnicas de reconhecimento de voz em sistemas de inteligência artificial. A empresa publicou um trabalho em que apresenta um modelo no qual é possível alcançar um treinamento 15-fold acelerado, sem que resulte em perda de precisão. A nova técnica promete a redução de semanas de treino para apenas alguns dias, chegando até a 11 horas, apenas.
O treinamento de machine learning 15-fold se refere a um tipo de validação chamada de K-Fold Cross Validation. É uma técnica em que se separa a quantidade de dados para teste e outra para treinamento, fazendo com que você não tenha que usar toda quantidade de dados em ambos momentos (teste/treinamento).
O número K, significa a quantidade de vezes que você vai precisar rodar o programa para ter um sistema treinado, no caso, 15 vezes. Isso, considerando um sistema de machine learning para reconhecimento de voz é muito baixo.
O que o novo projeto da IBM propõe para conseguir criar um sistema rápido, mas que mantenha a eficiência e precisão, é descentralizar e tornar assíncronos todos os processos. Os pesquisadores explicam que um sistema de reconhecimento de voz como a Siri, da Apple, ou o Google Assistente, precisa captar o som e codificar para entendimento do sistema. Em seguida, precisa novamente decodificar para um formato de texto que possa ser entendido por seres humanos.
O que geralmente os sistemas fazem para diminuir o tempo deste processo de treinamento é fazer as duas coisas ao mesmo tempo, o que pode resultar em mais processamento e menos precisão. Em contrapartida, é possível fazer o sistema ficar mais lento, para ser mais preciso.
O novo trabalho da IBM propõem o processamento assíncrono e descentralizado, o que, segundo os pesquisadores, pode gerar um sistema muito mais rápido, mas que não gera queda em precisão.
A técnica é chamada de “asynchronous decentralized parallel stochastic gradient descent” (ADPSGD). Em testes, foi possível ver o treinamento de uma inteligência artificial para reconhecimento de voz em uma queda de tempo de uma semana para 11,5 horas usando apenas um sistema com 32 GPUs.
O motivo dessa velocidade é que, ao propor esta arquitetura, os pesquisadores conseguem fazer o processamento de mais informações ao mesmo tempo, um pacote que é chamado de “batch size”.