O Flipar conta a incrível história do brasileiro que desenvolveu um aplicativo de transcrição de áudio que, em julho de 2023, se tornou o mais baixado do mundo; confira!
Jonatas Grosman, um entusiasta curioso e aficionado por tecnologia, conseguiu superar as ferramentas oferecidas por gigantes da indústria, como Facebook, Google e Microsoft.
O modelo em português criado por Grosman já foi baixado mais de 71,9 milhões de vezes na plataforma de compartilhamento de códigos de inteligência artificial, conhecida como Hugging Face.
Jonatas é doutor em Ciência da Computação pelo Departamento de Informática do Centro Técnico Científico da PUC (Pontifícia Universidade Católica) do Rio de Janeiro.
Ele começou a se interessar por tecnologia ainda aos 15 anos, quando já fazia manutenção de computadores.
Após concluir seu mestrado, em 2017, o brasileiro tinha a intenção de prosseguir com seus estudos em processamento de linguagem natural (NLP, na sigla em inglês).
Mas não foi fácil. Durante os primeiros dois anos, essa área de pesquisa passou por diversas mudanças.
Jonatas então decidiu se concentrar em identificar viés em modelos de linguagem, com o intuito de aprimorar os trabalhos já existentes nesse campo.
Infelizmente, os planos do doutor em Ciência da Computação foram interrompidos por um diagnóstico de câncer no pulmão.
Ele teve que abandonar o doutorado para se dedicar ao tratamento e ficar ao lado da família.
Jonatas precisou realizar quimioterapia e uma cirurgia localizada.
Foi então que, para arrumar uma distração, ele procurou fazer algo que envolvesse computação.
Dei de cara com um trabalho do Facebook Research, agora Meta AI, que tinha relação com reconhecimento de fala, para transcrever áudio basicamente. Eles propuseram um modelo que achei interessante, e comecei a implementá-lo, contou.
Jonatas se dedicou à exploração da interação com redes neurais, um sistema complexo que busca emular o funcionamento do cérebro humano na inteligência artificial.
O brasileiro aproveitou a oportunidade e se envolveu na competição realizada em 2021 pela Hugging Face.
Essa empresa tem como objetivo impulsionar iniciativas de tecnologia aberta, conhecidas como "Open Source", que utilizam códigos abertos.
Ao final do concurso, Jonatas obteve destaque ao desenvolver os melhores modelos de reconhecimento de fala, capazes de treinar robôs para compreender idiomas.
Seus robôs reconheciam inglês, espanhol, português, russo, alemão, francês, italiano e polonês.
Com isso, esses robôs são capazes de transcrever em texto o conteúdo de áudios que lhes são apresentados.
Em 2022, o brasileiro voltou ao doutorado e vendeu outra edição do torneio da Hugging.
Segundo o brasileiro, a solução serve para diversas atividades, desde fazer a transcrição de entrevistas até produzir legendas automáticas no Youtube.
O modelo já foi treinado para identificar palavras comuns à área médica e até transcrever conversas de call center.