คุณจ้องเคอร์เซอร์ที่กะพริบอยู่ในอีเมลที่ยังว่างเปล่า คุณรู้ว่าอยากจะเขียนอะไร แค่ไม่อยากพิมพ์เท่านั้นเอง
การพิมพ์ด้วยเสียงบน Mac มีมาตั้งแต่ปี 2012 และคนส่วนใหญ่เลิกใช้กันไปนานแล้ว สิ่งที่เปลี่ยนเรื่องนี้ในช่วง 18 เดือนที่ผ่านมาคือการพิมพ์ด้วยเสียง AI สำหรับ Mac ประสบการณ์แบบเดิม ๆ ที่ "พูดใส่ไมโครโฟนแล้วเห็นกำแพงคำผิดโผล่ขึ้นมา" ค่อย ๆ ถูกแทนที่ด้วยอะไรบางอย่างที่ให้ความรู้สึกเหมือนการเขียนจริง ๆ
ส่วนที่บทความส่วนใหญ่ข้ามไปคือเรื่องนี้ ส่วนที่ยากไม่ใช่การถอดเสียงอีกต่อไป เรื่องนั้นแก้ได้แล้ว สิ่งที่เปลี่ยนคือชั้นที่อยู่ด้านบน ชั้นที่นำความคิดที่กระจัดกระจายของคุณมาเปลี่ยนให้เป็นข้อความสะอาด ๆ ก่อนที่มันจะปรากฏบนหน้าจอ บทความนี้จะพาคุณดูทั้งกระบวนการทีละขั้น เพื่อให้คุณเห็นว่า Mac ของคุณกำลังทำอะไรอยู่จริง ๆ ระหว่างวินาทีที่คุณเริ่มพูดกับวินาทีที่ข้อความเรียบร้อยปรากฏในร่างของคุณ
ทำไมการพิมพ์ด้วยเสียงบน Mac ถึงเริ่มใช้งานได้จริงสักที
ตัวเลขสองตัวอธิบายว่าทำไมผู้คนถึงกลับมาใช้การพิมพ์ด้วยเสียงอีกครั้ง คนทั่วไปพิมพ์ได้ราว 40 คำต่อนาที คนทั่วไปพูดได้ราว 150 คำต่อนาที นั่นคือพูดได้สี่คำในเวลาที่พิมพ์ได้คำเดียว
แต่ความเร็วไม่เคยเป็นปัญหาจริง ๆ ปัญหาคือผลลัพธ์ที่ออกมา การพิมพ์ด้วยเสียงแบบเก่าจะให้คุณได้ทุกอย่างตามตัวอักษร ทุกคำว่า "เอ่อ" ทุกการเริ่มต้นใหม่ ทุก "เดี๋ยว ไม่ใช่ ลบทิ้ง" คุณประหยัดเวลา 30 วินาทีจากการพูด แล้วเสียอีก 90 วินาทีไปกับการตามล้าง
แอปพิมพ์ด้วยเสียง AI สมัยใหม่แก้เรื่องนี้ด้วยการเพิ่มขั้นตอนที่สอง เสียงผ่านการถอดเสียงเหมือนเดิม แล้วถูกส่งต่อไปยังโมเดลภาษาที่เขียนใหม่ในแบบที่บรรณาธิการเรียบร้อยจะทำ คำฟุ่มเฟือยถูกตัดออก ไวยากรณ์ถูกแก้ ประโยคถูกเขียนให้จบ พอข้อความปรากฏบนหน้าจอ มันก็อ่านเหมือนสิ่งที่คุณเขียนในวันที่อารมณ์ดี
ห้าขั้นตอนเบื้องหลังการพิมพ์ด้วยเสียง AI บน Mac
กระบวนการสั้น ๆ ห้าขั้นตอน ส่วนใหญ่มองไม่เห็น: 1. รับเสียง ที่ Mac ของคุณรับเสียงเข้ามา 2. ถอดเสียง ที่เสียงกลายเป็นข้อความดิบ 3. ขัดเกลา ที่ข้อความดิบถูกเก็บกวาดโดยโมเดล AI 4. ปรับตามบริบท ที่สไตล์การเขียนปรับเปลี่ยนตามปลายทางของข้อความ 5. ส่งมอบ ที่ข้อความเรียบร้อยปรากฏตรงเคอร์เซอร์ของคุณ
แต่ละขั้นมีโมเดลของตัวเอง มีจุดแลกเปลี่ยนของตัวเอง และมีจุดที่ผิดพลาดได้ของตัวเอง คุ้มค่าที่จะทำความเข้าใจทีละขั้น
ขั้นที่ 1: รับเสียง Mac ของคุณรับเสียงอย่างไร
ส่วนนี้ไม่ได้ซับซ้อนอะไร คุณกดคีย์ลัด (FN, Option+Space หรือคีย์ที่แอปนั้น ๆ ใช้) แล้วไมโครโฟนเริ่มฟัง แอปบันทึกเสียงลงในหน่วยความจำ โดยปกติที่ 16-bit 16 kHz ซึ่งเป็นรูปแบบที่โมเดลถอดเสียงต้องการ
แอปพิมพ์ด้วยเสียงบน Mac สมัยใหม่ส่วนใหญ่ไม่ใช้ระบบตรวจจับเสียงพูดในการเริ่มและหยุด พวกเขาใช้คีย์ลัด กดค้างเพื่อพูด ปล่อยเพื่อหยุด เหตุผลคือความน่าเชื่อถือ การตรวจจับเสียงในร้านกาแฟที่เปิดไมค์ไว้คือการเสี่ยงดวง การกดปุ่มไม่ใช่
มีอีกหลายอย่างเกิดขึ้นระหว่างการรับเสียงที่คุณมองไม่เห็น เสียงถูกบัฟเฟอร์ มักถูกลดเสียงรบกวนด้วยเฟรมเวิร์กเสียงในตัวของ Apple และถูกแบ่งเป็นชิ้นเล็ก ๆ ถ้าคุณพูดยาวกว่าขนาดของชิ้น ซึ่งปกติคือ 30 วินาที แอปอาจตัดการบันทึกออกก่อนส่งต่อ
ขั้นที่ 2: ถอดเสียง Whisper แปลงเสียงเป็นคำได้อย่างไร
นี่คือจุดที่แอปพิมพ์ด้วยเสียง AI บน Mac ส่วนใหญ่มาบรรจบกันที่เทคโนโลยีเดียวกัน นั่นคือ โมเดล Whisper ของ OpenAI Whisper คือระบบจดจำเสียงพูดที่ถูกฝึกบนเสียงประมาณ 5 ล้านชั่วโมงใน 99 ภาษา เวอร์ชันปัจจุบัน large-v3 มีอัตราข้อผิดพลาดของคำราว 2.7% บนเสียงภาษาอังกฤษที่ชัดเจน และ 8 ถึง 12% บนเสียงในโลกจริงที่มีเสียงรบกวน
พูดง่าย ๆ คือ พูดตามปกติแล้วราว 92 ถึง 97 เปอร์เซ็นต์ของคำจะถูกถอดถูกต้องตั้งแต่แรก นั่นคือความแม่นยำคนละระดับกับสิ่งที่ระบบถอดเสียงดั้งเดิมของ Apple ทำได้ ซึ่งเป็นเหตุผลที่แอปจากผู้พัฒนาภายนอกได้รับความนิยม
นี่คือสิ่งที่ Whisper ทำกับเสียงของคุณคร่าว ๆ: - ตัดการบันทึกเป็นชิ้น ๆ ละ 30 วินาที - แปลงแต่ละชิ้นเป็นสเปกโตรแกรม ซึ่งเป็นภาพแทนของเสียงที่กระจายตามความถี่และเวลา - ป้อนสเปกโตรแกรมเข้าโครงข่ายประสาทเทียมที่เรียนรู้การจับคู่รูปแบบเสียงเข้ากับคำ - ทำนายภาษา เครื่องหมายวรรคตอน และจุดสิ้นสุดของประโยคไปด้วย
โมเดลสามารถรันบน Mac ของคุณได้ในเครื่อง (Apple Silicon จัดการได้สบาย) หรือบนคลาวด์ก็ได้ การรันในเครื่องเป็นส่วนตัวและทำงานได้แบบออฟไลน์ ส่วนคลาวด์เร็วกว่าบนฮาร์ดแวร์รุ่นเก่าและรองรับโมเดลที่ใหญ่กว่า แอปหลายตัวให้คุณเลือกได้
สิ่งที่คุณได้ตอนจบขั้นนี้คือข้อความถอดเสียงดิบ มีเครื่องหมายวรรคตอน ส่วนใหญ่แม่นยำ แต่บางทีก็ยังรกอยู่บ้าง นี่คือจุดที่ระบบพิมพ์ด้วยเสียงในตัวของ Apple หยุด แต่แอปที่น่าสนใจไม่หยุดแค่นี้
ขั้นที่ 3: ขัดเกลา ชั้นที่เปลี่ยนทุกอย่าง
นี่คือขั้นที่พลิกการพิมพ์ด้วยเสียงบน Mac จาก "ก็พอใช้ได้" มาเป็น "ฉันไม่ได้พิมพ์อีเมลมาเป็นสัปดาห์แล้ว"
หลังจากถอดเสียง ข้อความดิบจะถูกส่งผ่านโมเดลภาษา ปกติจะเป็นระดับ GPT-4 หรือ Claude พร้อมคำสั่งทำนองนี้: ``` เขียนข้อความนี้ใหม่ให้เรียบร้อยและเป็นทางการ ตัดคำฟุ่มเฟือยและการเริ่มต้นซ้ำออก รักษาความหมายไว้ ห้ามเติมอะไรเพิ่ม ```
นี่คือหน้าตาของมันในทางปฏิบัติ
สิ่งที่คุณพูด
*"โอเค คือเอ่อ ผมอยากตามเรื่อง เอ่อ ข้อเสนอจากสัปดาห์ที่แล้วหน่อยน่ะ ผมว่า ก็ คงน่าจะเดินหน้าด้วยตัวเลือกที่สองมั้ง? ใช่ ตัวเลือกที่สอง คุณช่วย ช่วยส่งสัญญามาให้ผมภายในวันศุกร์ได้ไหม?"*
สิ่งที่ปรากฏในคลิปบอร์ดของคุณ
*"ตามเรื่องข้อเสนอจากสัปดาห์ที่แล้ว ผมอยากเดินหน้าด้วยตัวเลือกที่สอง รบกวนส่งสัญญามาให้ภายในวันศุกร์ได้ไหมครับ?"*
ความหมายเดียวกัน แต่ประสบการณ์การอ่านต่างกัน และมันเกิดขึ้นในเวลาไม่ถึงสองวินาที

นี่คือส่วนที่อธิบายยากจนกว่าคุณจะลองด้วยตัวเอง คุณจะหยุดคิดว่าตัวเองฟังดูเป็นอย่างไร คุณจะหยุดแก้ตัวเองขณะพูด คุณแค่พูดสิ่งนั้นออกมา ในแบบที่คุณจะพูดกับเพื่อนร่วมงาน แล้วสิ่งที่ออกมาคือเวอร์ชันที่คุณคงจะเขียนถ้ามีเวลา
ถ้าคุณพิมพ์ด้วยเสียงอยู่แล้วแต่เสียเวลามากับการเก็บกวาดทีหลัง นี่คือช่องว่างที่ Voicr เข้ามาเติม กด FN ค้างไว้ พูดในแบบที่คุณอยากพูด แล้วสิ่งที่เข้าไปอยู่ในคลิปบอร์ดของคุณก็ขัดเกลามาแล้วเรียบร้อย ไม่ต้องผ่านรอบสอง ไม่ต้องมี "ฉันต้องแก้ประโยคนั้นหน่อย" แค่ข้อความสะอาด ๆ พร้อมวาง
ขั้นที่ 4: รับรู้บริบท สไตล์ที่ต่างกันสำหรับแอปที่ต่างกัน
ขั้นนี้ใหม่กว่า และเป็นขั้นที่แยกแอปพิมพ์ด้วยเสียงบน Mac ที่ดีกว่าออกจากแอปที่แค่พอใช้ได้
น้ำเสียงสุภาพและเป็นทางการเหมาะสำหรับอีเมลถึงลูกค้า แต่แปลก ๆ ในข้อความ Slack ถึงเพื่อนร่วมทีม และผิดสำหรับคอมเมนต์ในโค้ด แอปพิมพ์ด้วยเสียงที่ดีจะรู้ว่าคุณกำลังอยู่ในแอปไหนแล้วปรับให้เหมาะสม
กลไกตรงไปตรงมา แอปอ่านว่าแอปไหนกำลังถูกใช้งานอยู่ ดูกฎสไตล์ที่คุณบันทึกไว้สำหรับแอปนั้น แล้วพับกฎนั้นเข้าไปในคำสั่งที่ส่งไปยังโมเดลขัดเกลา
กฎสำหรับ Slack อาจระบุว่า: ``` ให้สบาย ๆ และกระชับ ห้ามใช้สำนวนแบบองค์กร ใช้คำย่อได้ ประโยคสั้น ๆ หนึ่งหรือสองประโยคก็พอ ``` กฎสำหรับอีเมลอาจระบุว่า: ``` เขียนในน้ำเสียงเป็นทางการ ประโยคสมบูรณ์ เพิ่มคำทักทายและคำลงท้ายถ้าเนื้อหานั้นควรมี ```
เสียงพูดเดียวกัน ผลลัพธ์สองแบบที่ต่างกันมากขึ้นอยู่กับว่าหน้าต่างไหนเปิดอยู่ คุณไม่ต้องสลับอะไร แค่พูด แล้วน้ำเสียงที่เหมาะสมก็ออกมา
ขั้นที่ 5: ส่งมอบ ข้อความไปอยู่ในที่ที่คุณต้องการได้อย่างไร
ขั้นสุดท้ายเป็นขั้นที่ใช้เวลานานที่สุดกว่าจะทำได้ดี คุณมีข้อความที่ขัดเกลาแล้ว ทีนี้มันจะไปอยู่ในช่องข้อความที่กำลังใช้งานอยู่ได้ยังไง?
มีสองแนวทางที่พบบ่อย: 1. เส้นทางคลิปบอร์ด แอปคัดลอกข้อความที่ขัดเกลาแล้วไปยังคลิปบอร์ดของคุณ จากนั้นสั่งคำสั่งวาง (Cmd+V) ผ่าน Accessibility APIs ของ macOS เร็ว เชื่อถือได้ ใช้ได้ในเกือบทุกแอป 2. การฉีดคีย์สโตรก แอปจำลองการพิมพ์ทีละตัวอักษร โดยใช้เครื่องมืออย่าง AppleScript หรือเฟรมเวิร์ก Accessibility เดียวกัน ช้ากว่า แต่ทำงานได้ในแอปที่บล็อกการวาง (เว็บไซต์ธนาคารบางที่ รีโมตเดสก์ท็อปบางตัว ตัวจัดการรหัสผ่าน)
แอปส่วนใหญ่ใช้การวางผ่านคลิปบอร์ดเป็นค่าเริ่มต้น และเปลี่ยนไปใช้การฉีดคีย์สโตรกเฉพาะเมื่อจำเป็นเท่านั้น ผลลัพธ์จากมุมมองของคุณ ข้อความปรากฏที่เคอร์เซอร์ของคุณราวครึ่งวินาทีหลังจากที่คุณปล่อยคีย์ลัด ไม่มีการสลับแอป ไม่มีขั้นคัดลอก ไม่มีการตรวจซ้ำ

การประมวลผลในเครื่องเทียบกับบนคลาวด์ เกิดอะไรขึ้นจริง ๆ
คำถามที่คนถามบ่อย เสียงของฉันไปไหน?
มีสองตัวเลือกจริง ๆ การประมวลผลในเครื่อง รันโมเดล Whisper บน Mac ของคุณ เสียงของคุณไม่เคยออกจากอุปกรณ์ บน Apple Silicon (ตั้งแต่ M1 ขึ้นไป) Whisper ในเครื่องรันได้เร็วพอสำหรับการพิมพ์ด้วยเสียงแบบเรียลไทม์ ปกติมีดีเลย์ไม่ถึงหนึ่งวินาที จุดแลกเปลี่ยน ขั้นขัดเกลายังคงต้องไปคลาวด์ตามปกติ เพราะการรันโมเดลภาษาขนาด 70 พันล้านพารามิเตอร์ในเครื่องไม่ใช่เรื่องที่เป็นไปได้สำหรับโน้ตบุ๊กส่วนใหญ่ บางแอปให้ทางเลือกประมวลผลในเครื่องทั้งหมดด้วยโมเดลขัดเกลาที่เล็กกว่า โดยแลกกับคุณภาพ
การประมวลผลบนคลาวด์ ส่งทั้งเสียงและขั้นขัดเกลาไปยัง API ที่อยู่ระยะไกล เร็วกว่าบน Mac รุ่นเก่า รองรับโมเดลที่ใหญ่ที่สุดและแม่นยำที่สุด จุดแลกเปลี่ยนคือเรื่องความเป็นส่วนตัว เสียงของคุณออกจากอุปกรณ์ แม้จะถูกลบทันทีหลังถอดเสียงก็ตาม
สำหรับคนส่วนใหญ่ "Whisper ในเครื่อง ขัดเกลาบนคลาวด์" เป็นค่าเริ่มต้นที่เหมาะสม สำหรับใครก็ตามที่ทำงานกับเนื้อหาที่ละเอียดอ่อน (บันทึกทางการแพทย์ ร่างทางกฎหมาย ข้อมูลภายในบริษัท) การประมวลผลในเครื่องทั้งหมดคุ้มกับคุณภาพที่ลดลงเล็กน้อย แอปที่ดีจะให้คุณเลือกได้ทีละครั้งหรือตั้งเป็นค่าเริ่มต้น
จุดที่การพิมพ์ด้วยเสียง AI ยังพลาดอยู่
ส่วนที่จริงใจหน่อย กระบวนการนี้ดี แต่ยังไม่สมบูรณ์แบบ
คำพ้องเสียงยังผิดอยู่ "Their" กับ "there" กับ "they're" ส่วนใหญ่ได้ตัวที่ถูก แต่ไม่เสมอไป การขัดเกลามักจับได้จากบริบท แต่ไม่ใช่ถ้าประโยครอบ ๆ คลุมเครือ
ชื่อเฉพาะและศัพท์เฉพาะทางแบบจับฉ่าย Whisper เคยเจอชื่อทั่วไปและศัพท์เทคโนโลยีส่วนใหญ่มาแล้ว แต่จะมั่วกับอะไรก็ตามที่เฉพาะทาง ชื่อยา ชื่อไลบรารีโค้ด นามสกุลแปลก ๆ ของเพื่อนร่วมงานคุณ แอปบางตัวให้คุณเพิ่มพจนานุกรมแบบกำหนดเองที่ถูกแนบเข้าไปกับคำสั่ง
สภาพแวดล้อมที่มีเสียงรบกวนทำให้ความแม่นยำลดลงอย่างรวดเร็ว Whisper รับมือกับเสียงในร้านกาแฟได้ดีอย่างน่าประหลาดใจ แต่โทรศัพท์ดังในระยะสองฟุตหรือใครที่กำลังคุยกันใกล้ ๆ จะดึงคำหายไปจากการถอดเสียงของคุณ
การพูดยาว ๆ มักจะเพี้ยน โมเดลทำงานได้ยอดเยี่ยมในช่วง 10 ถึง 30 วินาที พ้นจาก 90 วินาทีไป บางครั้งมันก็ลืมประเด็น ทวนเศษเสี้ยว หรือข้ามวลีสั้น ๆ วิธีแก้คือแค่หยุดและเริ่มอัดใหม่เป็นช่วง ๆ
ข้อจำกัดเหล่านี้สำคัญตอนคุณเริ่มต้น ไม่มีข้อไหนเป็นจุดตายถ้าคุณรู้ว่ามันมีอยู่ ถ้าคุณกำลังเลือกระหว่างตัวเลือกต่าง ๆ คู่มือแอปเสียงเป็นข้อความที่ดีที่สุดสำหรับ Mac ของเราจะพาคุณดูว่าแอปหลัก ๆ แต่ละตัวจัดการกับจุดแลกเปลี่ยนเหล่านี้อย่างไร
วิธีเริ่มใช้การพิมพ์ด้วยเสียง AI บน Mac ของคุณวันนี้
สามขั้นตอนจริง ๆ ตามลำดับ
1. เลือกงานหนึ่งอย่างมาพิมพ์ด้วยเสียงทุกวันเป็นเวลาหนึ่งสัปดาห์ อีเมลเป็นจุดเริ่มต้นที่ดี เพราะมีอัตราการแปลงจากพิมพ์มาเป็นพูดที่สูงที่สุด (คุณมักจะคิดก่อนเขียนอยู่แล้ว) อย่าพยายามพิมพ์ด้วยเสียงกับทุกอย่างพร้อมกัน คุณจะเลิก
2. คุ้นเคยกับการพูดกับความว่างเปล่า ครั้งแรก ๆ ที่คุณพิมพ์ด้วยเสียง คุณจะรู้สึกแปลก ๆ ที่พูดออกมาดัง ๆ ในห้องเงียบ ความรู้สึกนั้นจะหายไปในราวสี่วัน
3. เลือกแอปสักตัวแล้วยึดมั่น มีตัวเลือกดี ๆ ในทุกช่วงราคา ตั้งแต่ระบบพิมพ์ด้วยเสียงในตัวของ Apple ไปจนถึงเครื่องมือ Whisper แบบโอเพนซอร์ส ไปจนถึงแอปที่ครบกระบวนการ ถ้าคุณอยากได้ฟลว์ "ถอดเสียงและวาง" แบบขัดเกลาที่อธิบายไปข้างบน Voicr ทำได้แบบนั้นพอดี กด FN พูด วาง ใช้ Whisper สำหรับการถอดเสียง โมเดลภาษาที่แข็งแกร่งสำหรับการขัดเกลา และสไตล์การเขียนแยกตามแอปที่ปรับเข้ากับตำแหน่งที่เคอร์เซอร์คุณอยู่ แพ็กเกจฟรีให้คุณ 5,000 คำต่อเดือนโดยไม่ต้องใช้บัตรเครดิต
เบื้องหลังทั้งหมดของเรื่องนี้ในที่สุดก็ดีพอจนการพิมพ์ด้วยเสียงไม่ได้เป็นการประนีประนอมอีกต่อไป คุณไม่ได้แลกคุณภาพกับความเร็ว คุณได้ทั้งสองอย่าง ส่วนที่ยากเหลือแค่การตัดสินใจที่จะหยุดพิมพ์

