BLEU
O Assistente de Avaliação Bilíngue, do inglês Bilingual Evaluation Understudy mais conhecido pela sigla BLEU, é um algoritmo que avalia a qualidade do texto que foi traduzido automaticamente de um idioma natural para outro. A qualidade considera a correspondência entre o resultado de uma máquina e o de um ser humano: "quanto mais próxima uma tradução automática estiver de uma tradução humana profissional, melhor ela é" - essa é a ideia central por trás do BLEU.[1] Inventado na IBM em 2001,[2] o BLEU foi uma das primeiras métricas a reivindicar uma alta correlação com julgamentos humanos de qualidade,[1][3] e continua sendo uma das métricas automatizadas e econômicas mais populares.
As pontuações são calculadas para segmentos individuais traduzidos - geralmente frases - comparando-os com um conjunto de traduções de referência de boa qualidade. Em seguida, calcula-se a média dessas pontuações em todo o corpus para obter uma estimativa da qualidade geral da tradução. A inteligibilidade ou a correção gramatical não são levadas em conta.
O resultado do BLEU é sempre um número entre 0 e 1. Esse valor indica o grau de semelhança entre o texto candidato e os textos de referência, com valores mais próximos de 1 representando textos mais semelhantes. Poucas traduções humanas atingirão uma pontuação de 1, pois isso indicaria que o candidato é idêntico a uma das traduções de referência. Por esse motivo, não é necessário atingir uma pontuação de 1. Como há mais oportunidades de correspondência, a adição de traduções de referência adicionais aumentará a pontuação BLEU.[1]
Definição matemática
editarConfiguração básica
editarUma primeira tentativa básica de definir a pontuação BLEU receberia dois argumentos: uma string candidata e uma lista de strings de referência . A ideia é que deve estar próximo de 1 quando é semelhante a , e próximo de 0 caso contrário.
Como analogia, a pontuação BLEU é como um professor de idiomas tentando avaliar a qualidade da tradução de um aluno verificando o quanto ela segue as respostas de referência .
Como no processamento de linguagem natural é necessário avaliar um grande conjunto de strings candidatas, é preciso generalizar a pontuação BLEU para o caso em que se tem uma lista de M strings candidatas (chamada de "corpus") , e para cada string candidata , há uma lista de strings candidatas de referência .
Dada qualquer string , e qualquer integral , pode-se definir o conjunto de seus n-gramas como sendo: Observe que se trata de um conjunto de elementos exclusivos, e não de um multiconjunto que permite elementos redundantes, de modo que, por exemplo, .
Dadas duas strings , defina a contagem de substrings como sendo o número de aparições de como uma substring de . Por exemplo, .
Agora, fixa-se um corpus candidato , e referencia-se o corpus candidato , onde cada S .
Precisão de n-grama modificada
editarDefina a função de precisão do n-grama modificada como: O n-grama modificado, que parece complicado, é apenas uma generalização direta do caso prototípico: uma frase candidata e uma frase de referência. Nesse caso, é: Para chegar a essa expressão, começamos com a soma mais óbvia da contagem de n-gramas: Essa quantidade mede quantos n-gramas na frase de referência são reproduzidos pela frase candidata. Observe que contamos as n-substrings, não os n-gramas. Por exemplo, quando , todas as 2-substrings em (ab e ba) aparecem em 3 vezes cada, portanto a contagem é 6, não 2.
Na situação acima, entretanto, a string de candidatos é muito curta. Em vez de 3 aparições de ela contém apenas uma, portanto, adiciona-se uma função mínima para corrigir isso: Essa soma de contagem não pode ser usada para comparar frases, pois não é normalizada. Se tanto a frase de referência quanto a frase candidata forem longas, a contagem poderá ser grande, mesmo que a candidata seja de qualidade muito ruim. Portanto, normalisa-se: A normalização é tal que é sempre um número em permitindo comparações significativas entre os corpus. É zero se nenhuma das n-substrings do candidato estiver na referência. É um se cada n-grama no candidato aparecer na referência, pelo menos tantas vezes quanto no candidato. Em particular, se o candidato for uma substring da referência, então é um.
Penalidade de brevidade
editarA precisão modificada do n-grama atribui indevidamente uma pontuação alta para strings candidatas que são "telegráficas", ou seja, que contêm todos os n-gramas das cadeias de caracteres de referência, mas pelo menor número de vezes possível.
Para punir as cadeias de strings que são muito curtas, define-se a penalidade de brevidade como: onde é a parte positiva de .
- Quando , a penalidade de brevidade , o que significa que não se pune candidatos longos mas apenas candidatos curtos.
- Quando , a penalidade de brevidade
é o comprimento do corpus candidato, ou seja, o tamanho do corpus, onde é o comprimento de . é o comprimento efetivo do corpus de referência, ou seja, onde , ou seja, a frase de cujo comprimento é mais o próximo possível de .
Definição final de BLEU
editarNão há uma única definição de BLEU, mas uma família inteira delas, parametrizada pelo vetor de ponderação . É uma distribuição de probabilidade em , ou seja, , e .
Com a escolha de , a pontuação BLEU é Em outras palavras, é uma média geométrica ponderada de todas as precisões de n-gramas modificados, multiplicada pela penalidade de brevidade. Usa-se a média geométrica ponderada, em vez da média aritmética ponderada, para favorecer fortemente os corpus candidatos que são simultaneamente bons de acordo com várias precisões de n-gramas.
A opção mais comum, a recomendada no documento original, é .[4]
Algoritmo
editarIsso é ilustrado no seguinte exemplo de Papineni et al. (2002):
Candidato | the | the | the | the | the | the | the |
---|---|---|---|---|---|---|---|
Referência 1 | the | cat | is | on | the | mat | |
Referência 2 | there | is | a | cat | on | the | mat |
Das sete palavras na tradução candidata, todas elas aparecem nas traduções de referência. Assim, o texto candidato recebe uma precisão de unigrama de,
onde é o número de palavras do candidato que são encontradas na referência, e é o número total de palavras no candidato. Essa é uma pontuação perfeita, apesar do fato de que a tradução do candidato acima retém pouco do conteúdo de qualquer uma das referências.
A modificação que o BLEU faz é bastante simples. Para cada palavra na tradução candidata, o algoritmo obtém sua contagem total máxima, em qualquer uma das traduções de referência. No exemplo acima, a palavra "the" aparece duas vezes na referência 1 e uma vez na referência 2. Portanto .
Para a tradução candidata, a contagem de cada palavra é cortada até um máximo de para essa palavra. Nesse caso, "the" tem e , portanto é cortado em 2. Essas contagens cortadas são somadas a todas as palavras distintas do candidato. Essa soma é então dividida pelo número total de unigramas na tradução candidata. No exemplo acima, a pontuação de precisão do unigrama modificado seria:
Na prática, porém, usar palavras individuais como unidade de comparação não é o ideal. Em vez disso, o BLEU calcula a mesma métrica de precisão modificada usando n-gramas. O comprimento que tem a "maior correlação com julgamentos humanos monolíngues"[1] foi considerado quatro. As pontuações dos unigramas são responsáveis pela adequação da tradução, pela quantidade de informações retidas. As pontuações mais longas dos n-gramas representam a fluência da tradução, ou até que ponto ela se parece com um "bom inglês".
Modelo | Conjunto de gramas | Pontuação |
---|---|---|
Unigrama | "the", "the", "cat" | |
Unigrama agrupado | "the"*2, "cat"*1 | |
Bigrama | "the the", "the cat" |
Um exemplo de uma tradução candidata para as mesmas referências acima pode ser:
the cat
Nesse exemplo, a precisão do unigrama modificado seria,
pois a palavra "the" e a palavra "cat" aparecem uma vez cada no candidato, e o número total de palavras é dois. A precisão do bigrama modificado seria já que o bigrama "the cat" aparece uma vez no candidato. Foi observado que a precisão geralmente é combinada com a recuperação para superar esse problema[1], já que a recuperação de um unigrama desse exemplo seria ou . O problema é que, como há várias traduções de referência, uma tradução ruim poderia facilmente ter um recall inflado, como uma tradução que consistisse em todas as palavras de cada uma das referências.[1]
Para produzir uma pontuação para todo o corpus, as pontuações de precisão modificadas para os segmentos são combinadas usando a média geométrica multiplicada por uma penalidade de brevidade para evitar que candidatos muito curtos recebam uma pontuação muito alta. Seja r o tamanho total do corpus de referência e c o tamanho total do corpus de tradução. Se , aplica-se a penalidade de brevidade, definida como .No caso de várias frases de referência, r é considerado a soma dos comprimentos das frases cujos comprimentos são mais próximos dos comprimentos das frases candidatas. No entanto, na versão da métrica usada pelas avaliações do NIST antes de 2009, era usada a sentença de referência mais curta.
O iBLEU é uma versão interativa do BLEU que permite que o usuário examine visualmente as pontuações do BLEU obtidas pelas traduções candidatas. Ele também permite a comparação de dois sistemas diferentes de forma visual e interativa, o que é útil para o desenvolvimento de sistemas.[5]
Desempenho
editarO BLEU tem sido frequentemente relatado como tendo boa correlação com o julgamento humano,[1][3][6] e continua sendo uma referência para a avaliação de qualquer nova métrica de avaliação. No entanto, há uma série de críticas que foram feitas. Observou-se que, embora em princípio seja capaz de avaliar traduções de qualquer idioma, o BLEU não pode, em sua forma atual, lidar com idiomas sem limites de palavras.[7] Projetado para ser usado em várias traduções de referência, na prática ele é usado apenas com uma única.[2] O BLEU é infamemente dependente da técnica de tokenização, e as pontuações obtidas com diferentes técnicas são incomparáveis (o que é frequentemente ignorado); para melhorar a reprodutibilidade e a comparabilidade, foi criada a variante SacreBLEU.[2]
Argumentou-se que, embora o BLEU tenha vantagens significativas, não há garantia de que um aumento na pontuação do BLEU seja um indicador de melhor qualidade de tradução.[8]
Veja também
editarReferências
- ↑ a b c d e f g Papineni et al. (2002)
- ↑ a b c Marie, Benjamin (5 de novembro de 2022). «BLEU: A Misunderstood Metric from Another Age». Medium (em inglês). Consultado em 11 de julho de 2023
- ↑ a b Coughlin (2003)
- ↑ Papineni et al. (2001)
- ↑ Madnani (2011)
- ↑ Doddington (2002)
- ↑ Denoual & Lepage (2005)
- ↑ Callison-Burch, Osborne & Koehn (2006)
Bibliografia
editar- Papineni, Kishore; Roukos, Salim; Ward, Todd; Zhu, Wei-Jing (2001). «BLEU». Morristown, NJ, USA: Association for Computational Linguistics. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics - ACL '02: 311. doi:10.3115/1073083.1073135
- Papineni, K.; Roukos, S.; Ward, T.; Zhu, W. J. (2002). BLEU: a method for automatic evaluation of machine translation (PDF). ACL-2002: 40th Annual meeting of the Association for Computational Linguistics. pp. 311–318. CiteSeerX 10.1.1.19.9416
- Papineni, K., Roukos, S., Ward, T., Henderson, J and Reeder, F. (2002). "Corpus-based Comprehensive and Diagnostic MT Evaluation: Initial Arabic, Chinese, French, and Spanish Results Arquivado em 2016-03-04 no Wayback Machine" in Proceedings of Human Language Technology 2002, San Diego, pp. 132–137
- Callison-Burch, C., Osborne, M. and Koehn, P. (2006) "Re-evaluating the Role of BLEU in Machine Translation Research" in 11th Conference of the European Chapter of the Association for Computational Linguistics: EACL 2006 pp. 249–256
- Doddington, G. (2002) "Automatic evaluation of machine translation quality using n-gram cooccurrence statistics" in Proceedings of the Human Language Technology Conference (HLT), San Diego, CA pp. 128–132
- Coughlin, D. (2003) "Correlating Automated and Human Assessments of Machine Translation Quality" in MT Summit IX, New Orleans, USA pp. 23–27
- Denoual, E. and Lepage, Y. (2005) "BLEU in characters: towards automatic MT evaluation in languages without word delimiters" in Companion Volume to the Proceedings of the Second International Joint Conference on Natural Language Processing pp. 81–86
- Lee, A. and Przybocki, M. (2005) NIST 2005 machine translation evaluation official results
- Lin, C. and Och, F. (2004) "Automatic Evaluation of Machine Translation Quality Using Longest Common Subsequence and Skip-Bigram Statistics" in Proceedings of the 42nd Annual Meeting of the Association of Computational Linguistics.
- Madnani, N. (2011). "iBLEU: Interactively Scoring and Debugging Statistical Machine Translation Systems" in "Proceedings of the Fifth IEEE International Conference on Semantic Computing (Demos), Palo Alto, CA" pp. 213–214