A Meta, empresa anteriormente conhecida como Facebook, deu um passo significativo na preservação de idiomas que correm o risco de desaparecer. A gigante da tecnologia desenvolveu modelos de Inteligência Artificial (IA) capazes de reconhecer e reproduzir mais de 1.000 idiomas diferentes, o que representa um aumento de dez vezes em relação ao que está atualmente disponível.
Os novos modelos de IA da Meta foram treinados com o Novo Testamento da Bíblia em áudio e seu texto correspondente em 1.100 idiomas, além de gravações de áudio não rotuladas em 3.800 idiomas. Os pesquisadores da Meta contornaram o problema da falta de dados de treinamento rotulados, que é comum na maioria das línguas, reprocessando os dados de áudio e texto para melhorar sua qualidade e, em seguida, executando um algoritmo destinado a alinhar as gravações de áudio com o texto correspondente.
Eles então repetiram esse processo com um segundo algoritmo treinado nos dados recém-alinhados. Com este método, os pesquisadores foram capazes de ensinar o algoritmo a aprender um novo idioma com mais facilidade, mesmo sem o texto correspondente.
Michael Auli, cientista de pesquisa da Meta que trabalhou no projeto, ressaltou a importância deste desenvolvimento: “Podemos usar o que esse modelo aprendeu para construir rapidamente sistemas de fala com muito poucos dados. Para o inglês, temos muitos e bons conjuntos de dados, e temos isso para mais alguns idiomas, mas simplesmente não temos isso para idiomas que são falados por, digamos, 1.000 pessoas”.
A empresa está disponibilizando seus modelos para o público através do serviço de hospedagem de código GitHub, com a expectativa de que torná-los de código aberto ajudará desenvolvedores que trabalham em diferentes idiomas a criar novas aplicações de fala, como serviços de mensagens que entendem todos ou sistemas de realidade virtual que podem ser usados em qualquer idioma.
Embora existam cerca de 7.000 idiomas no mundo, os modelos existentes de reconhecimento de fala cobrem apenas cerca de 100 deles de forma abrangente. No entanto, os pesquisadores da Meta afirmam que seus modelos podem conversar em mais de 1.000 idiomas e reconhecer mais de 4.000. Comparando com modelos de empresas concorrentes, como o OpenAI Whisper, a Meta afirma que seus modelos tiveram metade da taxa de erro, apesar de cobrirem 11 vezes mais idiomas.
No entanto, nem tudo são flores. A equipe alerta que o modelo ainda corre o risco de transcrever erroneamente certas palavras ou frases, o que pode resultar em rótulos imprecisos ou potencialmente ofensivos. Eles também reconhecem que seus modelos de reconhecimento de fala renderam mais palavras tendenciosas do que outros modelos, embora apenas 0,7% a mais.
Embora o escopo da pesquisa seja impressionante, o uso de textos religiosos para treinar modelos de IA pode ser controverso. Chris Emezue, pesquisador da Masakhane, uma organização que trabalha no processamento de linguagem natural para línguas africanas, e que não esteve envolvido no projeto, comentou: “A Bíblia tem muitos vieses e deturpações”.
A inovação da Meta promete abrir novas possibilidades na preservação de idiomas em risco de extinção e na criação de aplicações mais inclusivas, capazes de entender e interagir com um número muito maior de idiomas. No entanto, os desafios e controvérsias que surgem com esses avanços também destacam a importância do debate ético contínuo em torno do uso da IA.
Sobre o debate ético na utilização das IA’s generativas.
A IA é uma ferramenta poderosa, mas também é um espelho da sociedade. Ela aprende com os dados que são fornecidos a ela, e se esses dados contêm vieses, a IA também os aprenderá. Por exemplo, se um algoritmo de IA é treinado em um conjunto de dados que contém preconceitos raciais ou de gênero, o algoritmo poderá perpetuar esses preconceitos em suas decisões ou recomendações.
É crucial que as empresas de tecnologia, os reguladores e a sociedade em geral estejam envolvidos em um debate ético contínuo sobre o uso da IA. Precisamos garantir que a IA seja usada de maneira responsável e justa, e que seus benefícios sejam distribuídos de forma equitativa. Precisamos também garantir que a IA seja transparente em suas decisões e que haja mecanismos de responsabilização em caso de erros ou abusos.
Além disso, o debate ético deve abordar questões como a privacidade dos dados, o consentimento informado para o uso de dados pessoais, e a potencial automação de empregos. A IA tem o potencial de trazer muitos benefícios, mas também apresenta riscos significativos que precisam ser gerenciados cuidadosamente. No final das contas, a IA é uma ferramenta criada por humanos e para humanos. Como tal, é nossa responsabilidade garantir que ela seja usada de maneira ética e benéfica para todos.