LLM ทำให้การแปลงเสียงเป็นข้อความใช้งานได้จริงอย่างไร

คุณคงเคยลองใช้การแปลงเสียงเป็นข้อความสักครั้ง แล้วก็ยอมแพ้ กลับไปพิมพ์ด้วยแป้นพิมพ์เหมือนเดิม คนส่วนใหญ่ก็เป็นแบบนั้น ที่แปลกคือมันมักไม่ได้เกี่ยวอะไรกับการถอดคำผิดเลย

การรู้จำเสียงพูดแม่นยำมาหลายปีแล้ว โมเดลสมัยใหม่ถอดเสียงพูดที่ชัดเจนได้แม่นยำราว 95% เหตุผลที่การพูดให้พิมพ์ยังรู้สึกไร้ประโยชน์ก็คือ ข้อความที่ถอดมาอย่างแม่นยำตามที่คุณพูดจริง ๆ นั้นมันรกไปหมด โมเดลภาษาขนาดใหญ่ (large language models) คือชิ้นส่วนที่เข้ามาแก้ปัญหานี้ และมันเปลี่ยนไปเลยว่าการแปลงเสียงเป็นข้อความเหมาะกับงานแบบไหน

ตลอดประวัติศาสตร์ส่วนใหญ่ของมัน การแปลงเสียงเป็นข้อความถูกตัดสินด้วยสิ่งเดียว นั่นคือถอดคำได้ถูกไหม ปรากฏว่านั่นเป็นคำถามที่ผิด การถอดคำให้ถูกไม่เคยเป็นกำแพงระหว่างคุณกับการเขียนด้วยเสียงเลย นี่คือสิ่งที่เปลี่ยนไปจริง ๆ

การแปลงเสียงเป็นข้อความไม่เคยเป็นปัญหาเรื่องการถอดเสียง

หลายสิบปีที่ผ่านมา ทุกทีมที่ทำการรู้จำเสียงพูดไล่ตามตัวเลขเดียวกัน นั่นคืออัตราความผิดพลาดของคำ หรือ WER (word error rate) มันนับว่าระบบถอดคำผิดไปกี่คำ ยิ่งต่ำยิ่งดี และทั้งวงการก็ปรับให้ตัวเลขนี้ดีขึ้น

พวกเขาทำได้สำเร็จเป็นส่วนใหญ่ Whisper ของ OpenAI ถอดเสียงที่ชัดเจนได้ที่อัตราความผิดพลาดของคำราว 2.7% ส่วนกับเสียงในโลกจริงที่ยุ่งเหยิงกว่า เช่นในที่ประชุม ในร้านกาแฟ หรือสายโทรศัพท์ มันจะอยู่ใกล้ ๆ 8 ถึง 12% ส่วนคนถอดเสียงที่เป็นมนุษย์อยู่ราว 4 ถึง 6% ช่องว่างนี้เล็กและยังแคบลงเรื่อย ๆ

ดังนั้นเรื่องความแม่นยำก็แก้ได้แล้วไม่มากก็น้อย แต่ถ้าลองถามใครก็ตามที่เลิกใช้การพูดให้พิมพ์ไปเมื่อปี 2018 ว่าทำไมถึงเลิก แทบไม่มีใครตอบว่า "พิมพ์ผิดเยอะเกินไป" พวกเขาจะบอกว่ามันใช้งานติดขัด หรือผลลัพธ์ต้องมาตามแก้เยอะจนไม่คุ้มกับความยุ่งยาก

นั่นแหละคือเบาะแส คอขวดไม่เคยอยู่ที่การถอดเสียง แต่อยู่ที่ทุกอย่างที่เกิดขึ้นหลังจากที่คำถูกต้องแล้วต่างหาก

ข้อความดิบที่ถอดจากเสียงพูดของคุณหน้าตาเป็นอย่างไร

นี่คือสิ่งที่ไม่มีใครเตือนคุณ คุณไม่ได้พูดเป็นประโยคที่เรียบร้อย ไม่มีใครพูดแบบนั้น

เวลาพูดตามธรรมชาติ คุณย้อนกลับ เริ่มใหม่ พูดค้างไว้ แล้วก็แทรกคำว่า "เอ่อ" "แบบว่า" "คือ" สมองของคุณตัดต่อสิ่งเหล่านั้นทั้งหมดในทันทีโดยที่คุณไม่ทันสังเกตเลย แต่เครื่องถอดเสียงสังเกตเห็นทุกอย่างและจดทุกเม็ดลงไป

สมมติว่าคุณพูดข้อความสั้น ๆ ส่งให้เพื่อนร่วมงาน เมื่อออกมาจากเครื่องถอดเสียงล้วน ๆ มันจะกลับมาหน้าตาแบบนี้

*"โอเค คือ เอ่อ อยากเช็กเรื่อง เรื่องของเมื่อวานน่ะ เรื่องรายงาน เธอ เอ่อ ส่งมาให้หน่อยตอนว่าง ๆ ได้ไหม ไม่รีบอะไรหรอก"*

ทุกคำถูกต้องหมด แต่ก็ใช้งานไม่ได้เช่นกัน คุณจะเสียเวลาแก้ข้อความนั้นมากกว่าเวลาที่ประหยัดได้จากการพูดเสียอีก นี่แหละคือจังหวะที่คนส่วนใหญ่เลิกใช้การพูดให้พิมพ์ไปอย่างถาวร

ภาพเปรียบเทียบเคียงข้างกันระหว่างข้อความดิบจากเสียงพูดที่รกไปด้วยคำเติมทางซ้าย กับข้อความที่สะอาดและขัดเกลาแล้วทางขวา

โมเดลภาษาขนาดใหญ่เพิ่มอะไรเข้ามาจริง ๆ

เครื่องถอดเสียงตอบคำถามเดียว คือคนคนนี้เปล่งเสียงอะไรออกมา ส่วนโมเดลภาษาตอบคำถามที่ต่างออกไป คือคนคนนี้หมายความว่าอย่างไร และมันควรอ่านแล้วได้ความแบบไหน

คำถามที่สองนี่แหละคือหัวใจทั้งหมด LLM รับข้อความที่รก ๆ มาแล้วเขียนใหม่ในแบบที่บรรณาธิการผู้พิถีพิถันจะทำ มันตัดคำเติมออก เติมประโยคที่พูดค้างไว้ให้สมบูรณ์ แก้ไวยากรณ์ และคงความหมายของคุณไว้ครบถ้วน ข้อความข้างบนกลายเป็น

*"สวัสดีค่ะ ขอรบกวนส่งรายงานของเมื่อวานมาให้หน่อยตอนสะดวกได้ไหมคะ ไม่รีบนะคะ"*

เจตนาเดียวกัน อ่านรู้เรื่องในรอบเดียว การถอดเสียงในที่นี้ไม่ได้ดีขึ้นเลย สิ่งที่เปลี่ยนไปคือเลเยอร์ที่สองที่นั่งอยู่ข้างบน คอยทำหน้าที่ตัดต่อแทนคุณซึ่งไม่อย่างนั้นคุณก็ต้องทำเอง

นี่ไม่ใช่แค่ลูกเล่นของผลิตภัณฑ์ นักวิจัยกำลังศึกษาเรื่องนี้โดยตรง งานวิจัยปี 2024 จากงานประชุม ACM CHI ชื่อ Rambler พบว่าการให้คนพูดแบบหลวม ๆ แล้วใช้ LLM มาเรียบเรียง "แก่นความหมาย" ใหม่ ได้งานเขียนที่ดีกว่าโดยใช้แรงน้อยกว่าทั้งการพิมพ์และการพูดให้พิมพ์แบบดิบ ๆ การพูดคือวิธีที่เราคิดออกมาดัง ๆ ส่วนโมเดลก็จัดการส่วนที่สมองของเรามักจะข้ามไป

งานวิจัยอื่นก็ชี้ไปในทิศทางเดียวกัน การศึกษาเรื่อง การขัดเกลาข้อความด้วย LLM แสดงให้เห็นว่าการนำเสียงพูดไปผ่านโมเดลภาษาหลังการรู้จำเสียง ช่วยลดข้อผิดพลาดและทำให้อ่านง่ายขึ้น โดยเฉพาะกับคำพ้องเสียงและวลีที่ขึ้นอยู่กับบริบทซึ่งเครื่องถอดเสียงธรรมดาไม่สามารถแยกแยะได้ด้วยตัวเอง

บริบทคืออีกครึ่งหนึ่งของเรื่องนี้

การจัดข้อความให้เรียบร้อยคืองานแรก ส่วนการรู้ว่าคุณต้องการงานเขียนแบบไหนคืองานที่สอง และนี่แหละคือจุดที่เรื่องเริ่มน่าสนใจ

"ส่งสไลด์มาให้ภายในวันนี้นะ" ใช้ได้กับข้อความใน Slack ที่ส่งหาเพื่อนร่วมทีม แต่มันห้วนเกินไปสำหรับอีเมลถึงลูกค้า คำต่าง ๆ นั้นดีอยู่แล้ว แต่ระดับน้ำเสียงมันเพี้ยน โมเดลภาษาสามารถอ่านสถานการณ์นั้นออกและปรับโทนได้ เพราะมันเข้าใจบริบท ไม่ใช่แค่เสียง

ในทางปฏิบัติ ประโยคที่พูดเหมือนกันสามารถออกมาเป็นกันเองในแอปหนึ่ง และขัดเกลาในอีกแอปหนึ่งได้ คุณไม่ต้องเปลี่ยนวิธีพูด แต่โมเดลจะเปลี่ยนวิธีเขียน ตามว่าข้อความนั้นกำลังจะไปลงที่ไหน

นี่คือสิ่งที่ Smart Rules ของ Voicr ทำพอดี คุณตั้งโทนแบบสบาย ๆ ให้ Slack และโทนแบบทางการให้อีเมลไว้ครั้งเดียว แล้ว Voicr จะสังเกตว่าคุณอยู่ในแอปไหนและปรับใช้สไตล์ที่เหมาะสมโดยอัตโนมัติ กด FN ค้างไว้ พูดสิ่งที่ต้องการ แล้วเวอร์ชันที่ลงในคลิปบอร์ดของคุณก็จะเข้ากับที่ที่คุณกำลังจะวางอยู่แล้ว

การเปลี่ยนแปลงที่แท้จริง คุณเลิกพูดกับคอมพิวเตอร์

การพูดให้พิมพ์แบบเก่าบังคับให้คุณต้องแสดง คุณต้องพูดเป็นประโยคที่จบสมบูรณ์ พูดคำว่า "จุลภาค" และ "ขึ้นย่อหน้าใหม่" ออกมาดัง ๆ และทิ้งนิสัยการพูดปกติของตัวเอง คุณต้องตัดต่อในหัวแบบเรียลไทม์ขณะที่พูดไปด้วย มันเหนื่อย ซึ่งเป็นเหตุผลที่มันไม่เคยติด

การแปลงเสียงเป็นข้อความที่ใช้ LLM ปลดงานนั้นออกจากบ่าคุณ คุณพูดเรื่อยเปื่อยได้ คุณเปลี่ยนใจกลางประโยคได้ คุณพูดแบบเดียวกับที่อธิบายอะไรให้เพื่อนฟังได้ แล้วเวอร์ชันที่สะอาดก็จะปรากฏขึ้นมาอยู่ดี

ฟังดูเหมือนเป็นเรื่องเล็ก แต่มันคือความแตกต่างทั้งหมดระหว่างการควบคุมเครื่องมือกับการแค่คิดออกมาดัง ๆ

เรื่องความเร็วก็จริงเช่นกัน คนส่วนใหญ่พูดราว 150 คำต่อนาที และพิมพ์ราว 40 คำต่อนาที งานวิจัยของ Stanford พบว่าการป้อนข้อความด้วยเสียงบนโทรศัพท์เร็วกว่าการพิมพ์ถึงสามเท่า และผิดพลาดน้อยกว่า แต่ความเร็วเลิกเป็นจุดขายหลักไปแล้วเมื่อผลลัพธ์ดีพอ จุดขายที่แท้จริงคือคุณไม่ต้องเสียกระแสความคิดไปกับแป้นพิมพ์อีกต่อไป เราเจาะลึกเรื่องตัวเลขนี้ไว้ใน ทำไมเสียงของคุณถึงเร็วกว่าแป้นพิมพ์

จุดที่ LLM ยังทำการแปลงเสียงเป็นข้อความผิดพลาด

มันดีขึ้นจริง ๆ ไม่ใช่เวทมนตร์ ความฉลาดแบบเดียวกันที่จัดข้อความของคุณให้สะอาด ก็สามารถล้ำเส้นได้เหมือนกัน และควรรู้ไว้ว่าตรงไหนบ้าง

มันเปลี่ยนความหมายของคุณได้ เวลาโมเดล "แก้" ประโยค บางครั้งมันก็เกลารายละเอียดที่คุณต้องการทิ้งไป หรือเดาเจตนาของคุณผิด ยิ่งถ้อยคำของคุณเป็นเชิงเทคนิคหรือผิดแผกมากเท่าไร ความเสี่ยงก็ยิ่งสูง อะไรที่สำคัญควรอ่านทวนเร็ว ๆ ก่อนส่งเสมอ

ชื่อและศัพท์เฉพาะยังทำให้มันสะดุด การถอดเสียงจัดการคำทั่วไปได้ดีแต่มีปัญหากับคำนามเฉพาะ ชื่อผลิตภัณฑ์ และศัพท์เฉพาะทาง โมเดลเดาจากบริบทได้ แต่มันก็จะถอดนามสกุลเพื่อนร่วมงานของคุณผิดอย่างมั่นใจ

คำพ้องเสียงยังแก้ไม่หมด คำอย่าง "their" "there" และ "they're" มักจะออกมาถูกเพราะบริบทช่วยได้ แต่ก็ไม่ทุกครั้ง

มันเพิ่มความหน่วงนิดหน่อย เครื่องถอดเสียงล้วน ๆ เกือบจะทันทีทันใด แต่การรันโมเดลที่สองมาขัดเกลามีต้นทุนตั้งแต่เสี้ยววินาทีไปจนถึงสองสามวินาที คุ้มค่ากับคุณภาพ แต่มันก็ไม่ได้มาฟรี ๆ

ทั้งหมดนี้ไม่ใช่ปัญหาใหญ่จนรับไม่ได้เมื่อคุณรู้ว่ามันมีอยู่ มันคือเหตุผลที่นิสัยอ่านทวนเร็ว ๆ ก่อนส่งยังคงคุ้มค่า ถ้าคุณอยากเห็นภาพรวมว่าไปป์ไลน์นี้ทำงานตั้งแต่ต้นจนจบอย่างไร เราเขียน คู่มือทีละขั้นตอนเกี่ยวกับการพูดให้พิมพ์ด้วย AI บน Mac ไว้แล้ว

แผนภาพแสดงสองเลเยอร์ที่ซ้อนกัน คือเลเยอร์การถอดเสียงที่เปลี่ยนเสียงให้เป็นคำ และเลเยอร์ภาษาที่เปลี่ยนคำให้เป็นงานเขียนที่สะอาด

สิ่งนี้มีความหมายอย่างไรต่อวิธีเขียนของคุณ

แบบจำลองทางความคิดที่ควรจำไว้คือ ตอนนี้การแปลงเสียงเป็นข้อความเป็นเครื่องมือสองอย่างที่ซ้อนกันอยู่

1. เลเยอร์การถอดเสียงที่เปลี่ยนเสียงให้เป็นคำที่แม่นยำ 2. เลเยอร์ภาษาที่เปลี่ยนคำเหล่านั้นให้เป็นงานเขียนที่อ่านแล้วได้ความจริง ๆ

การถอดเสียงล้วน ๆ ยังเป็นทางเลือกที่ถูกต้องเมื่อคุณต้องการบันทึกที่ตรงเป๊ะ เช่นการสัมภาษณ์ บันทึกทางกฎหมาย หรืออะไรก็ตามที่ทุกคำว่า "เอ่อ" มีความสำคัญ ส่วนงานอื่น ๆ ทั้งหมด เช่นอีเมล ข้อความ เอกสาร และโน้ต เลเยอร์ขัดเกลาคือสิ่งที่ทำให้การพูดเร็วกว่าการพิมพ์ แทนที่จะรกกว่าเฉย ๆ

ดังนั้นเมื่อคุณกำลังเลือกเครื่องมือ คำถามที่แท้จริงไม่ใช่ "การถอดเสียงแม่นแค่ไหน" เพราะส่วนใหญ่ตอนนี้ใกล้เคียงกันแล้ว คำถามคือ "เลเยอร์ที่อยู่ข้างบนดีแค่ไหน" บทความ เปรียบเทียบแอปแปลงเสียงเป็นข้อความที่ดีที่สุดสำหรับ Mac ของเราแจกแจงว่าตัวไหนทำส่วนนั้นได้ดี

วิธีลองใช้การแปลงเสียงเป็นข้อความที่ขัดเกลาด้วย LLM

วิธีที่เร็วที่สุดในการสัมผัสความแตกต่างคือ ลองพูดอีเมลฉบับถัดไปแทนการพิมพ์ แล้วดูว่าอะไรปรากฏขึ้นในร่าง มันจะไม่ใช่ข้อความดิบที่คุณจำได้จากเมื่อหลายปีก่อน แต่มันจะอ่านเหมือนคุณเขียนเองในวันที่ฟอร์มดี

ถ้าคุณอยากได้แบบนั้นโดยไม่ต้องเอาเครื่องมือหลายตัวมาต่อกัน Voicr ทำทั้งสองเลเยอร์ในขั้นตอนเดียว กด FN ค้างไว้ พูดยังไงก็ได้ตามใจ ปล่อย แล้วข้อความที่ขัดเกลาแล้วก็จะลงในคลิปบอร์ดของคุณพร้อมวาง มันใช้ Whisper สำหรับการถอดเสียงและโมเดลภาษาสำหรับการขัดเกลา พร้อมสไตล์แยกตามแต่ละแอปเพื่อให้โทนเข้ากับที่ที่คุณกำลังเขียน แพ็กเกจฟรีให้ 5,000 คำต่อเดือน ไม่ต้องใช้บัตรเครดิต

ในที่สุดการแปลงเสียงเป็นข้อความก็ทำงานได้อย่างที่มันควรจะเป็นมาตลอด ไม่ใช่เพราะเครื่องจักรฟังคุณได้เก่งขึ้น แต่เพราะในที่สุดมันก็เก่งขึ้นในการเข้าใจว่าคุณหมายความว่าอะไร