BLEU(İngilizce: bilingual evaluation understudy) bir makine çevirisi sistemi tarafından oluşturulan çevirilerin kalitesini ölçmeye yarayan bir algoritmadır. Burada "kalite", makinenin çevirisinin profesyonel bir insan çevirisine olabildiğince yakın sonuçlar oluşturabilmesi anlamına gelir. BLEU 2002'de yayınlanmış olup, günümüzde de yaygın otomatik metriklerden biridir.[1][2]

Skorlar çevrilmiş birimlerin(genellikle cümleler), önceden insan tarafından kaliteli olarak belirlenmiş çevirilerle karşılaştırılarak bulunur. Sonrasında, korpus genelinde bu skorların ortalaması alınarak çeviri sisteminin başarısına dair bir fikir elde edilinir.

BLEU'nun çıktıları 0 ve 1 arasında bir kayan nokta değerdir. Bu değer çevrilmiş metnin doğru çeviriyle benzerleğini gösterir, 1'e yakın değerler daha büyük benzerlik gösterir. Çevirilerin(insan dahil) büyük çoğunluklarının 1'e erişmediği unutulmamalıdır, nitekim ortalamanın 1 olması çevirinin hedef çeviriyle birebir aynı olduğu anlamına gelir, dolayısıyla sonucun 1 olması gerekli değildir. Olasılıkları artıracağından dolayı, daha çok karşılaştırılacak örnek eklemek genellikle skoru artırır.

Algoritma değiştir

Başarısız bir makine çevirisi örneği
Aday masa masa masa masa masa
Örnek 1 Masada bir kedi var.
Örnek 2 Masanın üstünde bir kedi bulunur.

Aday çevirideki 5 kelimenin hepsi örneklerde bulunduğundan, uni-gram(yani kelime bazlı) kesinliği:

 

burada   adaydaki kelimelerin kaçının örnekte bulunduğu,   de örnekte bulunan toplam soru sayısıdır. 1 mükemmel skor olsa da, aday anlamlı veya doğru bir çeviri değildir ve örneklerle anlamsal veya biçimsel ortaklığı yoktur.

BLEU'nun bu sürece yaptığı değişiklikler nispeten bassittir. Aday çevirideki her kelime için maksimum toplam sayıyı temsil eden   hesaplanır. Yukarıdaki örneğe uyacak şekilde "masa" kelimesi Örnek 1'de 1, Örnek 2'de de 1 kere görünür. Dolayısıyla   1'dir.