Translate

04 junho 2024

IA pode matar línguas regionais e dialetos locais

Eis que interessante. Um efeito inesperado da Inteligência Artificial pode ser matar as línguas regionais e os dialetos locais. 

A Indonésia tem mais de 700 línguas regionais e quase 800 dialetos em todo o seu vasto arquipélago. Mas mais de 400 dialetos estão em risco de extinguir-se no final do século 21, de acordo com pesquisadores. O governo recorreu à inteligência artificial para ajudar a preservar as línguas e torná-las mais acessíveis à população.


Modelos populares de grandes idiomas (LLMs), como o GPT da OpenAI, o Gemini do Google e o Llama da Meta são amplamente treinados em inglês, excluindo bilhões de pessoas que falam idiomas que não são comumente encontrados online. Os países que não falam inglês estão a tentar colmatar a lacuna através da construção dos seus próprios LLMs multilingues linguagens de baixo recurso — que são amplamente falados, mas não possuem muitos dados na internet —, bem como idiomas ameaçados de extinção.

“Estamos caminhando para o monolinguismo devido à globalização e à modernização, disse ao Ministério da Educação e Cultura Endang Aminudin Aziz, chefe da agência de desenvolvimento linguístico do Ministério da Educação e Cultura Resto do Mundo. . . “Estados trabalhando na revitalização das línguas para mantê-las longe da extinção. Tecnologia de IA e LLMs, eu acho, ajudarão.”

Para treinar LLMs, são necessárias grandes quantidades de dados de alta qualidade, incluindo livros, mídia e artigos acadêmicos, bem como repositórios de código público, como GitHub, e outros conjuntos de dados. Como estes são escassos nas línguas regionais, há preocupações sobre se os dados disponíveis representam melhor as culturas, disse Nuurrianti Jalli, professor assistente da escola de mídia da Universidade Estadual de Oklahoma Resto do Mundo. . . “Você tem que perguntar: De onde vem os dados? Quem está por trás dele?”

Isto é ainda mais importante num país onde a censura é galopante e a informação é rigidamente controlada pelo governo. Uma gama diversificada de fontes de dados é necessária para garantir que a saída LLMs’ seja inclusiva e imparcial, disse Jalli.

Nenhum comentário:

Postar um comentário