Discussão:Tradução automática
Sugestão de tradução da versão em inglês [incompleta]
editarPrincipais Problemas
editarEliminar ambiguidade
editarEliminar a ambiguidade diz respeito a encontrar uma tradução adequada quando uma palavra pode ter mais do que um sentido. O problema foi colocado pela primeira vez na década de 1950 por Yehoshua Bar-Hillel.[1] Ele notou que sem uma "enciclopédia universal", uma máquina nunca seria capaz de distinguir entre os dois sentidos de uma palavra.[2] Hoje existem inúmeras abordagens criadas de forma a superar este problema. Estas podem ser divididas de grosso modo em abordagens "superficiais" e abordagens "profundas".
As abordagens superficiais não pressupõem nenhum conhecimento do texto. Estas consistem simplesmente na aplicação de métodos estatísticos às palavras que rodeiam a palavra ambígua. Já as abordagens profundas pressupõem um conhecimento extenso da palavra. Até agora, as abordagens superficiais têm sido mais bem-sucedidas.[3]
Claude Piron, tradutor de longa data das Nações Unidas e da Organização Mundial da Saúde, escreveu que a tradução automática, na melhor das hipóteses, automatiza a parte mais fácil do trabalho de um tradutor; a parte mais difícil e demorada geralmente envolve fazer uma extensa pesquisa para resolver ambiguidades no texto de origem, ambiguidades estas que as exigências gramaticais e lexicais da língua-alvo obrigam a que sejam resolvidas:
Por que é que um tradutor precisa de um dia inteiro de trabalho para traduzir cinco páginas, e não uma ou duas horas? ..... Cerca de 90% de um texto comum corresponde a estas condições simples. Mas, infelizmente, há os outros 10%. É essa parte que exige [mais] seis horas de trabalho. Há ambiguidades que têm de ser resolvidas. Por exemplo, o autor do texto original, um médico australiano, citou o exemplo de uma epidemia que foi declarada durante a Segunda Guerra Mundial num "Japanese prisoners of war camp". Ele estava a falar de um "campo americano com prisioneiros japoneses" ou de um "campo japonês com prisioneiros americanos"? O Inglês tem dois sentidos. É, portanto, necessário investigar, talvez mesmo ao ponto de fazer um telefonema para a Austrália.[4]
A abordagem profunda ideal exigiria que o software de tradução fizesse toda a pesquisa necessária para este tipo de desambiguação por conta própria; mas isso exigiria um grau mais alto de IA do que já foi alcançado. Uma abordagem superficial que simplesmente adivinhasse o sentido da frase ambígua em inglês que Piron menciona (baseada, talvez, em que tipo de campo de prisioneiros de guerra é mais frequentemente mencionado num determinado corpus) teria uma probabilidade razoável de adivinhar de forma bastante equivocada. muitas vezes. Uma abordagem superficial que envolve "perguntar ao utilizador sobre cada ambiguidade" iria, pela estimativa de Piron, apenas automatizar cerca de 25% do trabalho de um tradutor profissional, deixando os 75% mais difíceis ainda para serem feitos por um humano.
Discurso não padrão
editarUma das maiores armadilhas da TA é sua incapacidade de traduzir linguagem não padrão com a mesma precisão que linguagem padrão. A TA com base heurística ou estatística recebe input de várias fontes na forma padrão de um idioma. A tradução baseada em regras, por natureza, não inclui as expressões não padrão mais comuns. Isto causa erros na tradução a partir de fontes vernaculares ou para linguagem coloquial. As limitações na tradução do discurso casual levam a problemas no uso da tradução automática em dispositivos móveis.
Entidades nomeadas
editarNa área da extração de informação, o termo "entidades nomeadas" refere-se, em sentido estrito, a entidades concretas ou abstratas do mundo real, como pessoas, organizações, empresas e lugares que possuem um nome próprio: George Washington, Chicago, Microsoft. Também se refere a expressões de tempo, espaço e quantidade, como 1 de julho de 2011, ou €500.
Na frase "Smith é o presidente da Fabrionix", tanto Smith como Fabrionix são entidades nomeadas e podem ser qualificadas através do nome ou de outras informações; já "presidente" não é uma entidade nomeada, uma vez que Smith poderia ter previamente ocupado outro cargo na Fabrionix, como Vice presidente, por exemplo. O termo designador rígido é o que define estes usos para análise em tradução automática estatística.
As entidades nomeadas devem primeiro ser identificadas no texto; caso contrário, estas podem ser traduzidos erradamente como substantivos comuns, o que provavelmente não afetaria a classificação BLEU da tradução, mas alteraria a legibilidade humana do texto. Pode também ocorrer a omissão das entidades nomeadas no texto resultante da tradução automática, o que também terá implicações na legibilidade e na mensagem do texto.[5]
Literacia em tradução automática
editarEm 2019, Lynne Bowker e Jairo Buitrago Ciro propuseram o conceito de literacia em tradução automática,[6] que consiste essencialmente na compreensão do funcionamento básico e das limitações da tradução automática e na capacidade de empregar estratégias para evitar os problemas decorrentes dessas limitações. Contudo, o conceito de literacia em tradução automática não se limita a competências tecnológicas, pondo grande ênfase em manter uma atitude crítica em relação ao uso de ferramentas deste género. Mais do que a questão de "como usar tradução automática", a literacia em tradução automática relaciona-se com as questões de quando e porquê usar tradução automática.
Definição original de Buitrago e Ciro
editarEsta definição inicial[7] foi criada no contexto da comunicação académica e de artigos científicos e, nessa perspetiva, refere-se à capacidade de um académico de:
- compreender as noções básicas de como os sistemas de tradução automática processam os textos;
- compreender como os sistemas de tradução automática são ou podem ser utilizados (por si próprios ou por outros académicos) para encontrar, ler e/ou produzir publicações académicas;
- apreciar as implicações mais vastas associadas à utilização da tradução automática;
- avaliar o quão um dado texto académico é adequado para tradução (automática);
- criar ou modificar um texto académico para que este possa ser traduzido mais facilmente por um sistema de tradução automática;
- modificar a tradução obtida a partir de um sistema de tradução automática de forma a melhorar a sua precisão e legibilidade.
Definição alargada de Nurminen
editarEmbora a definição original se destinasse ao contexto específico da investigação e publicação académica, foi proposto que também poderia ser aplicável e útil noutros contextos[8]. Neste sentido, a definição original de Bowker e Buitrago foi ajustada a fim de criar uma definição de aplicação mais geral[9], passando a dizer-se que a literacia em tradução automática é definida pela capacidade de um utilizador de:
- Compreender as noções básicas de como os sistemas de tradução automática processam os textos;
- Compreender os pontos fortes e fracos dos sistemas de tradução automática;
- Compreender como os sistemas de tradução automática são ou podem ser utilizados para fins que são importantes para o utilizador;
- Apreciar as implicações mais vastas associadas à utilização de tradução automática;
- Assimilar informação de textos em bruto traduzidos por máquina;
- Avaliar a facilidade de tradução automática de um texto;
- Criar ou modificar um texto para que possa ser traduzido mais facilmente por um sistema de tradução automática;
- Modificar a saída de um sistema MT para melhorar a sua precisão e legibilidade.
Pontos relevantes de literacia em TA
editarNum artigo referente a uma apresentação sobre a promoção da literacia em tradução automática entre o público geral como responsabilidade dos profissionais linguísticos, Bowker definiu uma lista dos pontos mais fulcrais da literacia em TA[10]:
- Não introduzir material sensível num sistema de tradução automática online. A informação digitada ou colada num sistema livre de tradução automática online não "desaparece" quando se fecha a janela. Em vez disso, as empresas proprietárias do sistema de tradução automática (por exemplo, Google, Microsoft) podem guardar os dados e reutilizá-los para outros fins.
- Não esquecer de fazer a correta citação e referência de ideias originais de outros autores, mesmo após realizar a tradução. A integridade académica deve ser respeitada mesmo quando se utilizam ferramentas de tradução automática para traduzir ideias para outra língua.
- Experimentar mais do que um sistema de tradução automática. Os atuais sistemas de tradução automática neuronal utilizam grandes corpora de textos previamente traduzidos como exemplos para "aprender" a traduzir novos textos. Convém manter em mente que cada sistema de tradução automática é treinado usando textos diferentes, pelo que cada sistema pode "aprender" coisas diferentes. Se um sistema não fornecer informação útil, devem ser tentados outros. Por outro lado, não deve ser esquecido que estes sistemas de tradução automática estão constantemente a aprender. Se a tradução apresentada por um determinado sistema não é satisfatória, tentar novamente um mês mais tarde poderá levar a resultados diferentes.
- Considerar o objectivo da tradução. A tradução automática pode ser mais ou menos útil para diferentes tipos de tarefas ou textos. Quem estiver a utilizar a tradução simplesmente para obter ajudada na compreensão de um texto que tenha sido escrito noutra língua, como por exemplo, um artigo de investigação relevante para a pesquisa bibliográfica em preparação para uma tese, então, um sistema de tradução automática pode provavelmente ser bastante útil para obter o essencial ou a mensagem principal desse texto. Contudo, quem estiver a planear utilizar a tradução automática para o ajudar a escrever um texto (por exemplo, um ensaio para uma disciplina curricular ou um artigo para publicação), deve estar ciente de que não é provável que um texto traduzido automaticamente e não editado seja de qualidade suficiente para tais fins. O texto produzido por tradução automática terá de ser editado para melhorar a qualidade.
- Melhorar o output, alterando o input. Para obter o melhor resultado possível numa tradução automática, editar o texto original é a melhor solução. Se o texto introduzido tiver sido escrito de forma clara e fácil de ler. Isto é a chamada "escrita de fácil tradução", e inclui coisas como utilizar frases curtas e simples, evitar o humor, expressões idiomáticas ou referências culturais, e utilizar termos por extenso em vez e formas abreviadas.
ACVM2 (discussão) 21h45min de 18 de setembro de 2022 (UTC)
- ↑ Milestones in machine translation – No.6: Bar-Hillel and the nonfeasibility of FAHQT Arquivado em 12 março 2007 no Wayback Machine by John Hutchins
- ↑ Bar-Hillel (1960), "Automatic Translation of Languages". Available online at http://www.mt-archive.info/Bar-Hillel-1960.pdf Arquivado em 28 setembro 2011 no Wayback Machine
- ↑ Hybrid approaches to machine translation. Costa-jussà, Marta R., Rapp, Reinhard, Lambert, Patrik, Eberle, Kurt, Banchs, Rafael E., Babych, Bogdan. Switzerland: [s.n.] 21 July 2016. ISBN 9783319213101. OCLC 953581497 Verifique data em:
|data=
(ajuda) - ↑ Claude Piron, Le défi des langues (The Language Challenge), Paris, L'Harmattan, 1994.
- ↑ Babych, Bogdan; Hartley, Anthony (2003). Improving Machine Translation Quality with Automatic Named Entity Recognition (PDF). Paper presented at the 7th International EAMT Workshop on MT and Other Language Technology Tools... Consultado em 18 de setembro de 2022
- ↑ Bowker, Lynne; Buitrago, Ciro (2019). Machine Translation and Global Research: Towards Improved Machine Translation Literacy in the Scholarly Community. [S.l.]: Emerald Publishing Limited. 128 páginas. ISBN 9781787567221
- ↑ Bowker, Lynne; Buitrago, Ciro (2019). Machine Translation and global research: towards improved machine translation literacy in the scholarly community. Bingley: Emerald Publishing Limited. p. 88. ISBN 978-1-78756-721-4
- ↑ O’Brien, Sharon; Ehrensberger-Dow, Maureen (November 2020). «MT Literacy - A Cognitive View» (PDF). Translation, Cognition and Behavior. 3 (2): 145-164. doi:10.1075/tcb.00038.obr. Consultado em September 2022 Verifique data em:
|acessodata=, |data=
(ajuda) - ↑ Nurminen, Mary (2021). Investigating the Influence of Context in the Use and Reception of Raw Machine Translation. Tampere: Tampere University. p. 44. ISBN 978-952-03-2199-4
- ↑ Bowker, Lynne (2019). Machine Translation Literacy as a Social Responsibility (PDF). Language Technologies for All. p. 106-107. Consultado em 26 September 2022 Verifique data em:
|acessodata=
(ajuda)