Social Proof

Word Error Rate (WER) คืออะไร?

Speechify เป็นโปรแกรมสร้างเสียง AI อันดับ 1 สร้างเสียงบรรยายคุณภาพสูงในเวลาจริง บรรยายข้อความ วิดีโอ อธิบาย – ทุกอย่างที่คุณมี – ในสไตล์ใดก็ได้

กำลังมองหา โปรแกรมอ่านออกเสียงข้อความของเราอยู่หรือเปล่า?

แนะนำใน

forbes logocbs logotime magazine logonew york times logowall street logo
ฟังบทความนี้ด้วย Speechify!
Speechify

ในโลกของการประมวลผลภาษาธรรมชาติและการรู้จำเสียงอัตโนมัติ (ASR) การวัดความแม่นยำของระบบแปลงเสียงเป็นข้อความเป็นสิ่งสำคัญ หนึ่งในตัวชี้วัดที่ใช้บ่อยสำหรับวัตถุประสงค์นี้คือ Word Error Rate (WER) ซึ่งให้ข้อมูลเชิงลึกเกี่ยวกับความสามารถของระบบในการแปลงภาษาพูดเป็นข้อความ ตัวชี้วัดนี้มีความสำคัญในการพัฒนาและปรับปรุงเทคโนโลยี ASR โดยบริษัทต่างๆ เช่น Microsoft, IBM และ Amazon ซึ่งเป็นผู้นำในนวัตกรรมระบบรู้จำเสียงพูด

ทำความเข้าใจ WER

WER เป็นตัวชี้วัดที่ได้มาจากระยะทาง Levenshtein ซึ่งเป็นอัลกอริทึมที่ใช้วัดความแตกต่างระหว่างสองลำดับ ในบริบทของ ASR ลำดับเหล่านี้คือการถอดเสียงที่ผลิตโดยระบบรู้จำเสียงพูด ("สมมติฐาน") และข้อความจริงที่ถูกพูด ("อ้างอิง" หรือ "ความจริงพื้นฐาน")

การคำนวณ WER เกี่ยวข้องกับการนับจำนวนการแทรก การลบ และการแทนที่ที่จำเป็นในการเปลี่ยนสมมติฐานให้เป็นการถอดเสียงอ้างอิง สูตรสำหรับ WER คือ:

\[ \text{WER} = \frac{\text{จำนวนการแทนที่} + \text{จำนวนการลบ} + \text{จำนวนการแทรก}}{\text{จำนวนคำทั้งหมดในการถอดเสียงอ้างอิง}} \]

ความสำคัญในแอปพลิเคชันในโลกจริง

WER มีความสำคัญอย่างยิ่งในแอปพลิเคชันในโลกจริงที่ระบบรู้จำเสียงพูดต้องทำงานภายใต้เงื่อนไขต่างๆ รวมถึงเสียงรบกวนพื้นหลังและสำเนียงที่แตกต่างกัน WER ที่ต่ำกว่าบ่งบอกถึงการถอดเสียงที่แม่นยำยิ่งขึ้น สะท้อนถึงความสามารถของระบบในการเข้าใจภาษาพูดได้อย่างมีประสิทธิภาพ

ปัจจัยที่มีผลต่อ WER

มีหลายปัจจัยที่สามารถส่งผลต่อ WER ของระบบ ASR ซึ่งรวมถึงความซับซ้อนทางภาษาของภาษา การมีอยู่ของศัพท์เทคนิคหรือคำนามที่ไม่คุ้นเคย และความชัดเจนของการป้อนเสียง เสียงรบกวนพื้นหลังและคุณภาพของการป้อนเสียงก็มีบทบาทสำคัญเช่นกัน ตัวอย่างเช่น ระบบ ASR ที่ได้รับการฝึกอบรมจากชุดข้อมูลที่มีสำเนียงและรูปแบบการพูดที่หลากหลายมักจะมีความทนทานมากกว่าและให้ WER ที่ต่ำกว่า

บทบาทของการเรียนรู้เชิงลึกและเครือข่ายประสาทเทียม

การมาถึงของการเรียนรู้เชิงลึกและเครือข่ายประสาทเทียมได้พัฒนาสาขา ASR อย่างมาก โมเดลการสร้างและโมเดลภาษาขนาดใหญ่ (LLMs) ที่ใช้ข้อมูลการฝึกอบรมจำนวนมากได้ปรับปรุงความเข้าใจในรูปแบบภาษาที่ซับซ้อนและเพิ่มความแม่นยำในการถอดเสียง ความก้าวหน้าเหล่านี้มีความสำคัญต่อการพัฒนาระบบ ASR ที่ไม่เพียงแต่แม่นยำเท่านั้น แต่ยังปรับให้เข้ากับภาษาต่างๆ และภาษาถิ่นได้อีกด้วย

กรณีการใช้งานจริงและการประเมินระบบ ASR

ระบบ ASR ได้รับการประเมินโดยใช้ WER เพื่อให้แน่ใจว่าตรงตามความต้องการเฉพาะของกรณีการใช้งานต่างๆ ตั้งแต่ผู้ช่วยที่เปิดใช้งานด้วยเสียงไปจนถึงโซลูชันบริการลูกค้าอัตโนมัติ ตัวอย่างเช่น ระบบ ASR ที่ใช้ในสภาพแวดล้อมโรงงานที่มีเสียงดังจะมุ่งเน้นไปที่การบรรลุ WER ที่ต่ำกว่าด้วยเทคนิคการทำให้เสียงรบกวนเป็นปกติที่แข็งแกร่ง ในทางกลับกัน ระบบที่ออกแบบมาสำหรับบริการถอดเสียงบรรยายจะให้ความสำคัญกับความแม่นยำทางภาษาและความสามารถในการจัดการหัวข้อและคำศัพท์ที่หลากหลาย

บริษัทต่างๆ มักใช้ WER เป็นส่วนหนึ่งของการประกันคุณภาพสำหรับผลิตภัณฑ์รู้จำเสียงพูด โดยการวิเคราะห์ประเภทของข้อผิดพลาด—ไม่ว่าจะเป็นการลบ การแทนที่ หรือการแทรก—นักพัฒนาสามารถระบุพื้นที่เฉพาะสำหรับการปรับปรุงได้ ตัวอย่างเช่น การแทนที่จำนวนมากอาจบ่งชี้ว่าระบบมีปัญหากับความแตกต่างทางสัทศาสตร์หรือภาษาศาสตร์บางอย่าง ในขณะที่การแทรกอาจบ่งบอกถึงปัญหาในการจัดการการหยุดพูดหรือการพูดซ้อนของระบบ

การพัฒนาอย่างต่อเนื่องและความท้าทาย

การแสวงหาเพื่อลด WER ยังคงดำเนินต่อไป เนื่องจากเกี่ยวข้องกับการปรับปรุงอัลกอริทึมการเรียนรู้ของเครื่องอย่างต่อเนื่อง ชุดข้อมูลการฝึกอบรมที่ดีขึ้น และเทคนิคการทำให้เป็นปกติที่ซับซ้อนยิ่งขึ้น การปรับใช้ในโลกแห่งความเป็นจริงมักจะนำเสนอความท้าทายใหม่ๆ ที่ไม่ได้คาดการณ์ไว้อย่างเต็มที่ในระหว่างขั้นตอนการฝึกอบรมเริ่มต้นของระบบ ซึ่งจำเป็นต้องมีการปรับเปลี่ยนและการเรียนรู้อย่างต่อเนื่อง

ทิศทางในอนาคต

ในอนาคต การผสานรวม ASR กับแง่มุมอื่นๆ ของปัญญาประดิษฐ์ เช่น การทำความเข้าใจภาษาธรรมชาติและการคำนวณที่ตระหนักถึงบริบท สัญญาว่าจะเพิ่มประสิทธิภาพการใช้งานจริงของระบบรู้จำเสียงพูดให้ดียิ่งขึ้น นวัตกรรมในสถาปัตยกรรมเครือข่ายประสาทเทียมและการใช้โมเดลการสร้างและการจำแนกที่เพิ่มขึ้นในการฝึกอบรมคาดว่าจะขับเคลื่อนความก้าวหน้าในเทคโนโลยี ASR

Word Error Rate เป็นตัวชี้วัดที่สำคัญสำหรับการประเมินประสิทธิภาพของระบบรู้จำเสียงอัตโนมัติ มันทำหน้าที่เป็นเกณฑ์มาตรฐานที่สะท้อนถึงความสามารถของระบบในการเข้าใจและถอดความภาษาพูดเป็นข้อความเขียน เมื่อเทคโนโลยีพัฒนาและเครื่องมือที่ซับซ้อนมากขึ้นพร้อมใช้งาน ศักยภาพในการบรรลุ WER ที่ต่ำลงและความเข้าใจภาษาที่ละเอียดอ่อนมากขึ้นยังคงเติบโตอย่างต่อเนื่อง กำหนดอนาคตของวิธีที่เรามีปฏิสัมพันธ์กับเครื่องจักร

คำถามที่พบบ่อย

อัตราความผิดพลาดของคำ (WER) เป็นตัวชี้วัดที่ใช้ประเมินความแม่นยำของระบบรู้จำเสียงอัตโนมัติโดยการเปรียบเทียบข้อความที่ถอดเสียงกับข้อความที่พูดต้นฉบับ

อัตรา WER ที่ดีจะแตกต่างกันไปตามการใช้งาน แต่โดยทั่วไปแล้ว อัตราที่ต่ำกว่า (ใกล้ 0%) บ่งบอกถึงความแม่นยำในการถอดเสียงที่ดีกว่า โดยอัตราต่ำกว่า 10% มักถือว่าเป็นคุณภาพสูง

ในข้อความ WER ย่อมาจาก Word Error Rate ซึ่งวัดเปอร์เซ็นต์ของข้อผิดพลาดในการถอดเสียงของระบบรู้จำเสียงเมื่อเทียบกับคำพูดต้นฉบับ

CER (Character Error Rate) วัดจำนวนข้อผิดพลาดในระดับตัวอักษรในการถอดเสียง ในขณะที่ WER (Word Error Rate) วัดจำนวนข้อผิดพลาดในระดับคำ

Cliff Weitzman

คลิฟ ไวซ์แมน

คลิฟ ไวซ์แมน เป็นผู้สนับสนุนด้านดิสเล็กเซียและเป็น CEO และผู้ก่อตั้ง Speechify แอปพลิเคชันแปลงข้อความเป็นเสียงอันดับ 1 ของโลก ที่มีรีวิว 5 ดาวมากกว่า 100,000 รีวิว และครองอันดับหนึ่งใน App Store ในหมวดข่าวและนิตยสาร ในปี 2017 ไวซ์แมนได้รับการยกย่องในรายชื่อ Forbes 30 under 30 จากผลงานของเขาในการทำให้อินเทอร์เน็ตเข้าถึงได้มากขึ้นสำหรับผู้ที่มีความบกพร่องในการเรียนรู้ คลิฟ ไวซ์แมน ได้รับการนำเสนอใน EdSurge, Inc., PC Mag, Entrepreneur, Mashable และสื่อชั้นนำอื่น ๆ