BLEU – Phép đo trong dịch máy

BLEU là viết tắt của Bilingual Evaluation Understudy, là phương pháp đánh giá một bản dịch dựa trên các bản dịch tham khảo, được giới thiệ...

BLEU là viết tắt của Bilingual Evaluation Understudy, là phương pháp đánh giá một bản dịch dựa trên các bản dịch tham khảo, được giới thiệu trong paper BLEU: a Method for Automatic Evaluation of Machine Translation). BLEU được thiết kế để sử dụng trong dịch máy (Machine Translation), nhưng thực tế, phép đo này cũng được sử dụng trong các nhiệm vụ như tóm tắt văn bản, nhận dạng giọng nói, sinh nhãn ảnh v..v.. Bên cạnh đó phép đo này hoàn toàn có thể sử dụng để đánh giá chất lượng bản dịch của nhân viên. Điều kiện tiên quyết để có thể sử dụng BLEU là bạn phải có một (hoặc nhiều) câu mẫu. Đối với bài toán dịch máy, câu mẫu chính là câu đầu ra của cặp câu trong tập dữ liệu. BLEU đánh giá một câu thông qua việc so khớp câu đó với các câu mẫu và cho thang điểm từ 0 (sai lệch tuyệt đối) đến 1 (khớp tuyệt đối). BLEU được biết đến như một phương pháp đơn giản, dễ hiểu, chi phí tính toán thấp và tương đồng với cách đánh giá của con người. Mặc dù vậy, yếu tổ con người trong việc sinh câu mẫu làm cho BLEU không hoàn toàn khách quan. Ví dụ, cùng một câu có thể có nhiều bản dịch tốt và việc viết tất cả các bản dịch đó vào tập câu mẫu đôi khi bất khả thi. Cách tính của BLEU là đếm số n-gram khớp nhau giữa câu mẫu (R) và câu được đánh giá (C) sau đó chia cho số token của C. Việc chọn n phụ thuộc vào ngôn ngữ, nhiệm vụ và mục tiêu cụ thể. Đơn giản nhất ta có thể sử dụng unigram là n-gram chứa 1 token (n=1). Một cách trực quan, n càng lớn, câu văn càng mượt. Việc so khớp này không phụ thuộc vào vị trí, do đó BLEU không thể đánh giá được thứ tự của từ. Đây vừa là ưu điểm vừa là hạn chế của BLEU. Trong ngôn ngữ, một câu có thể được biểu diễn bởi các thứ tự từ khác nhau nhưng vẫn phải tuân theo những quy tắc nhất định. Ngoài ra, để tránh việc một bản dịch lặp đi lặp lại một từ mà vẫn được “chấm điểm” cao (ví dụ như “this this this this” được so với “this is a cat”), BLEU tính đến số lần xuất hiện lớn nhất của mỗi n-gram trong toàn bộ các câu mẫu để giới hạn số lần khớp tối đa. Trong ví dụ trên, this sẽ chỉ được tính 1 lần” Trong Python, để tính điểm BLEU chúng ta có thể thực hiện dễ dàng với sự hỗ trợ của thư viện NLTK. Ví dụ như chúng ta có hai bản dịch cần đánh giá của câu “Có con mèo nằm trên chiếu”. Ta sẽ có điểm BLEU của hai câu như sau:
import  nltk.translate.bleu_score as bleu
reference_translation=['The cat is on the mat.'.split(),
                       'There is a cat on the mat.'.split()
                      ]
candidate_translation_1='the the the mat on the the.'.split()
candidate_translation_2='The cat is on the mat.'.split()

print("BLEU Score candidate 1: ",bleu.sentence_bleu(reference_translation, candidate_translation_1))
print("BLEU Score candidate 2: ",bleu.sentence_bleu(reference_translation, candidate_translation_2))

Với kết quả 0.47 và 1, BLEU đánh giá câu dịch thứ 2 tốt hơn câu dịch thứ 1 vì nó khớp tuyệt đối với câu trong tập ví dụ. Nếu bạn thích bài viết này, đừng ngại chia sẻ với những người quan tâm. Hãy thường xuyên truy cập trituenhantao.io hoặc kết nối với chúng tôi (dưới chân trang) để nhận được những thông tin quan trọng và cập nhật từ lĩnh vực! Nguồn: https://trituenhantao.io/kien-thuc/bleu-phep-do-trong-dich-may/ https://tedu.nhuttruong.com/bleu-phep-do-trong-dich-may/?feed_id=9&_unique_id=65f6f94c94ce6

COMMENTS

Tên

Alpha Books,15,ăn vặt,3,banchay,4,bánh_mì_ốp_la,1,blog,6,Buffer,2,buffet,1,Cars,3,City,3,Du Học,1,Địa Điểm Gò Công,16,Đồ Họa,8,ebook,2,Entertainment,2,Fashion,7,Fintech 4.0,1,First News - Trí Việt,2,Foods,7,Gallery,6,Game,19,gò công,3,Graphic Design,7,hackinh,1,Học Tiếng Anh,4,IELTS,1,IFTTT,117,Khóa Học,796,kienthucbachkhoa,1,kinhdien,4,Lắp đặt trọn gói camera tận nhà giá rẻ tại Gò Công,1,lẩu_gà,1,lớp 3,1,Mặt Trái Của Công Nghệ Ebook,1,mi-tron,1,Motion Design,7,Movies,2,Music,10,Nature,6,nhà đất,4,NhutTruongCom,115,NOKIA,1,People,10,phanmem,18,Phần Mềm,23,Phim,1,Phone,18,Print Design,2,review sách,1,Sách,30271,Sách Mới,3,SẢN PHẨM,7,Server,1,Short,1,Sports,6,T Sale,1,Tài Liệu Lớp 10,1,tanvan,1,Technology,11,Tedu,2,Test,1,Thái Hà Books,1,theme,1,tiếng anh,5,Tin Tức,87,tintuc,9,Title,2,toán,1,Toán Lớp 10,1,Travel,5,truyen,31,truyenngan,8,Trương Định,27,tsale,16,Update,2,Video,7,Vip,1,Web Design,8,wiki,2,
ltr
item
TruongDinhVn Chia sẽ ebook, các khóa học, phần mềm học tập miễn phí: BLEU – Phép đo trong dịch máy
BLEU – Phép đo trong dịch máy
https://up.nhuttruong.com/file/nhuttruongcom/nhuttruongcom/nhut-truong-com/2023/10/Tbooks-download-luu-tru-ebook-sach-cho-kindle-may-doc-sach-2023-10-15_211830.jpg
TruongDinhVn Chia sẽ ebook, các khóa học, phần mềm học tập miễn phí
https://www.xn--trngnh-e3a36i3dr353a.vn/2024/03/bleu-phep-o-trong-dich-may.html
https://www.xn--trngnh-e3a36i3dr353a.vn/
https://www.xn--trngnh-e3a36i3dr353a.vn/
https://www.xn--trngnh-e3a36i3dr353a.vn/2024/03/bleu-phep-o-trong-dich-may.html
true
4617887190895090632
UTF-8
Loaded All Posts Not found any posts VIEW ALL Readmore Reply Cancel reply Delete By Home PAGES POSTS View All RECOMMENDED FOR YOU LABEL ARCHIVE SEARCH ALL POSTS Not found any post match with your request Back Home Sunday Monday Tuesday Wednesday Thursday Friday Saturday Sun Mon Tue Wed Thu Fri Sat January February March April May June July August September October November December Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec just now 1 minute ago $$1$$ minutes ago 1 hour ago $$1$$ hours ago Yesterday $$1$$ days ago $$1$$ weeks ago more than 5 weeks ago Followers Follow THIS PREMIUM CONTENT IS LOCKED STEP 1: Share to a social network STEP 2: Click the link on your social network Copy All Code Select All Code All codes were copied to your clipboard Can not copy the codes / texts, please press [CTRL]+[C] (or CMD+C with Mac) to copy Table of Content