Início » IBM cria sistema que pode treinar IA com reconhecimento de voz em 11 horas

IBM cria sistema que pode treinar IA com reconhecimento de voz em 11 horas

por webmaster

A IBM está trabalhando para tornar mais rápidas as técnicas de reconhecimento de voz em sistemas de inteligência artificial. A empresa publicou um trabalho em que apresenta um modelo no qual é possível alcançar um treinamento 15-fold acelerado, sem que resulte em perda de precisão. A nova técnica promete a redução de semanas de treino para apenas alguns dias, chegando até a 11 horas, apenas.

O treinamento de machine learning 15-fold se refere a um tipo de validação chamada de K-Fold Cross Validation. É uma técnica em que se separa a quantidade de dados para teste e outra para treinamento, fazendo com que você não tenha que usar toda quantidade de dados em ambos momentos (teste/treinamento).

O número K, significa a quantidade de vezes que você vai precisar rodar o programa para ter um sistema treinado, no caso, 15 vezes. Isso, considerando um sistema de machine learning para reconhecimento de voz é muito baixo.

O que o novo projeto da IBM propõe para conseguir criar um sistema rápido, mas que mantenha a eficiência e precisão, é descentralizar e tornar assíncronos todos os processos. Os pesquisadores explicam que um sistema de reconhecimento de voz como a Siri, da Apple, ou o Google Assistente, precisa captar o som e codificar para entendimento do sistema. Em seguida, precisa novamente decodificar para um formato de texto que possa ser entendido por seres humanos.

O que geralmente os sistemas fazem para diminuir o tempo deste processo de treinamento é fazer as duas coisas ao mesmo tempo, o que pode resultar em mais processamento e menos precisão. Em contrapartida, é possível fazer o sistema ficar mais lento, para ser mais preciso.

O novo trabalho da IBM propõem o processamento assíncrono e descentralizado, o que, segundo os pesquisadores, pode gerar um sistema muito mais rápido, mas que não gera queda em precisão.

A técnica é chamada de “asynchronous decentralized parallel stochastic gradient descent” (ADPSGD). Em testes, foi possível ver o treinamento de uma inteligência artificial para reconhecimento de voz em uma queda de tempo de uma semana para 11,5 horas usando apenas um sistema com 32 GPUs.

O motivo dessa velocidade é que, ao propor esta arquitetura, os pesquisadores conseguem fazer o processamento de mais informações ao mesmo tempo, um pacote que é chamado de “batch size”.

Você pode gostar

Deixe um comentário

Este site usa cookies para melhorar sua experiência. Vamos supor que você está de acordo com isso, mas você pode optar por não participar, se desejar. Aceitar Saiba Mais

Política de Privacidade e Cookies