Jonatas Grosman

Brasileiro cria robô de transcrição de áudio mais baixado do mundo

Rebecca Vetore - Folhapress

11 jul 2023 às 00:00

- Pixabay

Curioso e nerd de carteirinha, o brasileiro Jonatas Grosman criou o modelo de transcrição de áudio mais baixado do mundo. Com isso, o doutor em ciências da computação superou as ferramentas de empresas como Facebook, Google e Microsoft.

Baixado mais 71,9 milhões de vezes na plataforma de compartilhamento de códigos de inteligência artificial Hugging Face, o modelo em português do brasileiro foi criado quando ele passava por um tratamento de câncer no pulmão.

Leia mais:

Divulgado nas redes sociais

Felipe Neto se torna sócio de plataforma de notícias

Fenômeno

Os três pontos polêmicos sobre o setor de apostas esportivas no Brasil

Investigação

Atores interpretam médicos para vender produtos que prometem resultados milagrosos, diz Cremesp

Pane global

Apagão afetou cerca de 8,5 milhões de máquinas, estima Microsoft

A jornada do doutor pelo Departamento de Informática do Centro Técnico Científico da PUC (Pontifícia Universidade Católica) do Rio de Janeiro foi longa. Assim que concluiu o mestrado, em 2017, sua ideia era continuar estudando processamento de linguagem natual (NLP, na sigla em inglês).

No entanto, não conseguiu. Durante os dois primeiros anos, mudou de tema diversas vezes. Quando se decidiu por um, optou por identificar viés de modelo de linguagem. A ideia era melhorar o resultado de trabalhos existentes. Só que um câncer no pulmão atrapalhou seus planos.

Grosman deixou o doutorado de lado para ficar com a família e fazer o tratamento, que envolveu cirurgia localizada e quimioterapia. Para se distrair da situação adversa, ele procurou algo que pudesse fazer e envolvesse programação.

"Dei de cara com um trabalho do Facebook Research, agora Meta AI, que tinha relação com reconhecimento de fala, para transcrever áudio basicamente. Eles propuseram um modelo que achei interessante, e comecei a implementá-lo."

Enquanto pesquisava como interagir com a rede neural, um complexo sistema que tenta fazer a inteligência artificial funcionar como o cérebro humano, Grosman participou da competição de 2021 da Hugging Face, empresa que fomenta iniciativas de tecnologia aberta, que usam código aberto e por isso são chamadas de "Open Source".

Ao final da disputa, ele construiu os melhores modelos de reconhecimento de fala para treinar robôs a entender idiomas como Inglês, Espanhol, Português, Russo, Alemão, Francês, Italiano e Polonês. Assim, eles são capazes de transcrever em texto aquilo que ouviram em áudio.

A experiência mudou sua vida. Em 2022, de volta ao doutorado, nova mudança de tema. A partir dali, ele desenvolveria a tese "Avaliando a Robustez de Grandes Modelos Pré-treinados no Reconhecimento de Fala". Neste mesmo ano, ele venceu outra edição do torneio da Hugging.

"Fico muito lisonjeado por ter ganhado as duas competições e quando vejo quantos downloads foram feitos do meu modelo."

Atualmente, ele atua como Venture Partner, parceiro de negócios, da empresa Lanx Capital Investimentos, conectando startups à gestora financeira.

Colocando a tese em prática

Grosman conta que a solução de IA, inicialmente usada para distraí-lo de um momento difícil, agora passa a ajudar outras pessoas.

"Qualquer um pode baixar os meus modelos e usá-los para fins comerciais, inclusive pode ganhar muito dinheiro em cima, enquanto não ganho um centavo. Meu intuito é ajudar a galera do Open Source."

Grosman explica que a solução serve para diversas atividades, desde fazer a transcrição de entrevistas até produzir legendas automáticas no Youtube. "Muita gente já entrou em contato comigo pedindo ajuda. Teve uma pessoa que pediu ajuda para usá-la para 'laudar' raio-x. Ela gravava o áudio do laudo e depois usava o meu modelo para transcrever o áudio."

Como o modelo de Grosman foi treinado para identificar apenas o som de palavras comuns, o usuário precisou fazer alguns ajustes. Após um tempo de treinamento, a solução passou a identificar palavras comuns da área médica. Em outro momento, o modelo do doutor em ciências da computação foi usado para transcrever conversas de call center.

Vida antes da criação do modelo

O cientista relembra que o interesse pela tecnologia foi despertado ainda na adolescência. Com 15 anos, ele começou a fazer manutenção de computadores, do hardware como do software. Trocava memória RAM, arrumava peças, configurava a rede. O que era apenas hobby virou fonte de renda.

Por gostar de mexer na parte física das máquinas, ele até chegou a se inscrever no curso técnico de mecânica durante o ensino médio. Mas o interesse não durou muito. Anos depois, ele se formou em sistemas da informação na Faculdade de Educação Tecnológica do Estado do Rio de Janeiro.

Trabalhou como programador, assistente de pesquisa no Laboratório Nacional de Computação Científica e depois no Observatório Nacional. A volta para a academia teve um empurrãozinho do professor Hélio Côrtes Vieira Lopes, do Departamento de Informática do CTC/PUC-Rio.

"Com ele, defini que minha tese seria na área NLP, que é, com muitas aspas, um jeito de fazer o computador entender informações, que podem vir em forma textual ou sonora. Tive que construir uma inteligência para extrair informações de textos."

Agora, a criação de Grosman está fazendo mais do que isso. Por ter código aberto, a versão em inglês do modelo dele já sofreu alterações. Um dos usuários que fez isso, por exemplo, treinou o robô para ela ir além das palavras e identificar as emoções nas falas.