คุณกำลังประชุม Zoom กับซัพพลายเออร์ในเซาเปาโลที่เผลอพูดภาษาโปรตุเกสเป็นระยะ หรือกำลังดูคีย์โน้ตเปิดตัวสินค้าของญี่ปุ่น แล้วคำบรรยายอัตโนมัติตามไม่ทัน หรือคุณคิดเป็นภาษาสเปนแต่ลูกค้าคาดหวังอีเมลภาษาอังกฤษ
สามปัญหาที่ต่างกันโดยสิ้นเชิง ทั้งหมดถูกเหมารวมไว้ใต้คำว่า "การแปลเสียงพูดแบบเรียลไทม์บน Mac" และนั่นคือเหตุผลที่คู่มือเรื่องนี้ส่วนใหญ่ทำให้คนสับสน เครื่องมือที่ใช่ขึ้นอยู่กับว่าคุณกำลังพยายามแก้ปัญหาไหนกันแน่
Apple ปล่อย Live Translation ออกมาใน macOS 26 ตั้งแต่ฤดูใบไม้ร่วงที่แล้ว Whisper มีโมเดล Turbo ที่รันบน MacBook Air ได้โดยไม่ร้อนเป็นเตา เครื่องมือพิมพ์ด้วยเสียงที่เคยเป็นของเล่นนักทดลอง ตอนนี้ใช้งานได้ดีจริง คู่มือนี้จะพาดูตัวเลือกที่มี ว่าเครื่องมือไหนเหมาะกับสถานการณ์ไหน และจะตั้งค่ายังไงโดยไม่ตกหลุมพรางวิดีโอเดโม
"เรียลไทม์" หมายความว่าอะไรกันแน่
ก่อนเลือกเครื่องมือ ลองตั้งชื่อเวิร์กโฟลว์ของคุณก่อน "เรียลไทม์" บน Mac มีอยู่สามแบบที่แตกต่างกันชัดเจน และแต่ละแบบต้องใช้ซอฟต์แวร์คนละตัว
คำบรรยายสด — มีคนอื่นกำลังพูดอยู่ และคุณต้องการคำบรรยาย อาจแปลเป็นภาษาอื่นด้วย ในขณะที่พวกเขาพูด ใช้กับการโทร ประชุม บรรยาย หรือไลฟ์สตรีม ดีเลย์สำคัญมาก ดีเลย์ 4 วินาทีก็น่ารำคาญแล้ว ดีเลย์ 10 วินาทีถือว่าใช้ไม่ได้
พิมพ์ด้วยเสียง — คุณคือคนที่พูด และต้องการข้อความสะอาดเป็นอีกภาษาตอนพูดจบ ใช้กับอีเมล ข้อความ Slack เอกสาร การถอดเสียงและแปลเกิดขึ้นพร้อมกันเมื่อคุณหยุดพูด การตอบสนองภายในเสี้ยววินาทีหลังพูดจบสำคัญกว่าการสตรีมคำขณะพูด
ถอดเสียงจากไฟล์ — คุณมีไฟล์บันทึก (ไฟล์ส่งออกจาก Zoom บันทึกเสียง หรือพอดแคสต์) แล้วต้องการถอดเสียงพร้อมแปล อันนี้ไม่ใช่เรียลไทม์จริงๆ โยนเข้าโมเดลที่แม่นยำที่สุดที่หาได้แล้วรอสองนาที
การเอาทั้งสามแบบมาปนกันคือสาเหตุที่คนเอาเครื่องมือถอดเสียงประชุมไปเขียนอีเมลสั้นๆ หรือพยายามใส่คำบรรยายให้คลิป YouTube ด้วยแอปพิมพ์ด้วยเสียง เลือกประเภทให้ถูกก่อน แล้วค่อยเลือกเครื่องมือ
ตัวเลือกที่มีอยู่ใน macOS
ถ้าคุณใช้ macOS 26 บนเครื่อง Apple Silicon Apple ให้เครื่องมือสองตัวที่ฝังมาในระบบ พร้อมจุดบอดหนึ่งจุดที่ต้องรู้
Live Translation (macOS 26)
Live Translation ทำงานผ่าน Messages, FaceTime และแอป Phone ตัวใหม่บน Mac ขับเคลื่อนด้วย Apple Intelligence และรันบนเครื่องทั้งหมด ไม่มีอะไรหลุดออกจากเครื่อง ในการโทร FaceTime คุณกดปุ่มเมนู เลือก Live Captions แล้วคำบรรยายที่แปลแล้วจะปรากฏใกล้ขอบบนของหน้าจอ
ข้อจำกัดอยู่ที่รายการภาษา สำหรับ Live Translation ใน FaceTime และ Phone นั้น Apple รองรับภาษาอังกฤษ ฝรั่งเศส เยอรมัน โปรตุเกส (บราซิล) และสเปน (สเปน) โดยมีจีนกลาง อิตาลี ญี่ปุ่น และเกาหลีกำลังทยอยมา ส่วน Messages ครอบคลุมกว้างกว่า รวมถึงเดนมาร์ก ดัตช์ นอร์เวย์ สวีเดน ตุรกี และเวียดนาม
ฟรี เป็นส่วนตัว และดีเลย์ดี แต่ใช้ได้เฉพาะในแอปของ Apple เท่านั้น Zoom, Google Meet, Slack huddles, YouTube ไม่มีตัวไหนวิ่งผ่าน Live Translation
Live Captions
เปิด Live Captions ใน System Settings → Accessibility → Live Captions แล้วคุณจะได้หน้าต่างลอยที่ถอดเสียงทุกอย่างที่ Mac ของคุณรับได้ ทั้งเสียงระบบ ไมโครโฟน หรือทั้งสองอย่าง ใช้งานได้ในทุกแอป ไม่ว่าจะเป็น Zoom, YouTube, พอดแคสต์ หรือเพื่อนร่วมงานที่พูดอยู่ข้างๆ
Live Captions ถอดเสียงได้แต่ไม่แปล และในขณะที่เขียนนี้รองรับเฉพาะภาษาอังกฤษ ถ้าประชุมเป็นภาษาอังกฤษและคุณแค่อยากได้ข้อความติดตาม นี่คือคำตอบ แต่ถ้าประชุมเป็นภาษาโปรตุเกส Live Captions ช่วยไม่ได้

คำบรรยายสดและการแปลสำหรับการโทรและวิดีโอ
เมื่อเครื่องมือที่ติดมากับ Apple ครอบคลุมการโทรของคุณไม่ได้ มีแอปจากผู้พัฒนาภายนอกกลุ่มเล็กๆ ที่อุดช่องว่างนี้ พวกเขาดึงเสียงระบบ (อะไรก็ตามที่กำลังเล่นผ่านลำโพง Mac) หรือไมโครโฟนของคุณ ถอดเสียงด้วยโมเดล Whisper ที่รันในเครื่อง และแปลให้ด้วยถ้าต้องการ ทั้งสามตัวข้างล่างนี้รันบนเครื่อง ซึ่งสำคัญมากถ้าคุณอยู่ในสายที่เป็นความลับ
MacWhisper — หนึ่งในแอป Mac ที่อยู่ในวงการนี้มานานที่สุด มีคำบรรยายสดพร้อมแปล รันบน Whisper และ Nvidia Parakeet รองรับการจับเสียงระบบสำหรับเครื่องมือประชุมทุกตัว ใช้กับ Zoom, Meet, Teams ได้ดี เวอร์ชัน Pro ซื้อครั้งเดียวจบ
Superwhisper — รวมการถอดเสียงสดกับโฟลว์การพิมพ์ด้วยเสียงที่ใช้ Whisper รองรับกว่า 100 ภาษาและแปลทุกภาษาเป็นอังกฤษได้ พยายามเป็นทั้งเครื่องมือคำบรรยายและเครื่องมือพิมพ์ด้วยเสียงในตัวเดียวกัน ซึ่งใช้ได้ถ้าอยากได้แอปเดียวสำหรับทั้งสองงาน แต่หมายความว่าฝั่งพิมพ์ด้วยเสียงจะหนักกว่าแอปเฉพาะทาง
Transcrybe — ใหม่กว่า เบากว่า โฟกัสที่การแปลแบบเรียลไทม์โดยเฉพาะ รันบนเครื่องอย่างเดียว อินเทอร์เฟซออกแบบมารอบไอเดียที่ว่า "มีคนพูดภาษาที่ฉันไม่รู้ ช่วยบอกฉันหน่อยว่าพวกเขาพูดอะไร" เหมาะกับการเดินทาง สายซัพพอร์ต หรือดูคอนเทนต์ภาษาต่างประเทศ
เลือกตามว่าคุณเจอสถานการณ์นี้บ่อยแค่ไหน ถ้าคุณอยู่ในการโทรระหว่างประเทศตลอดเวลา MacWhisper หรือ Superwhisper คุ้มที่จะอยู่บนแถบเมนู ถ้าใช้แค่บางครั้ง Live Translation ของ Apple ใน FaceTime อาจจะพอแล้ว
พูดภาษาหนึ่ง เขียนอีกภาษาหนึ่ง
ความต้องการ "การแปลเรียลไทม์" ที่พบบ่อยที่สุดไม่ได้เกี่ยวข้องกับคนอื่นที่กำลังพูด มันเกี่ยวกับ *ตัวคุณเอง* ที่คิดเป็นภาษาแม่ของตัวเอง แต่ต้องการภาษาอังกฤษบนหน้ากระดาษเพราะนั่นคือสิ่งที่งานคาดหวัง
ถ้าคุณเป็นคนสเปน ฝรั่งเศส หรือโปแลนด์ที่เขียนภาษาอังกฤษเยอะที่งาน คุณรู้ดีว่าต้นทุนคืออะไร คุณเรียบเรียงประโยคในหัวเป็นภาษาตัวเอง แปลในใจ แล้วพิมพ์คำแปลออกมา ทุกอีเมลคือสองดราฟต์ อันที่คุณเขียนในหัว กับอันที่นิ้วคุณพิมพ์ออกมา
รูปร่างของเครื่องมือที่ใช่ตรงนี้ต่างจากคำบรรยายสด คุณไม่ต้องการคำบรรยายแบบสตรีม คุณต้องการแค่ กดปุ่มเดียวค้างไว้ พูดอย่างเป็นธรรมชาติในภาษาของคุณ ปล่อยปุ่ม แล้วได้ข้อความที่ขัดเกลาดีในภาษาเป้าหมายอยู่บนคลิปบอร์ด พร้อมวางลงที่ไหนก็ได้ (Gmail, Slack, Notion, ตั๋ว Jira)
นี่คือช่องว่างที่ Voicr เข้ามาเติม กด FN ค้างไว้ พูดภาษาไหนก็ได้จาก 100 ภาษา ตั้งภาษาอังกฤษเป็นปลายทาง แล้วสิ่งที่ถูกวางคือภาษาอังกฤษที่สะอาด ไม่ใช่ทรานสคริปต์ดิบที่ส่งเข้าเครื่องแปลอีกที การถอดเสียงและการแปลเกิดขึ้นในขั้นเดียว แทนที่จะเป็น พูด → ทรานสคริปต์ → คัดลอก → เครื่องแปล → วาง ทั้งหมดใช้เวลาราวๆ เท่ากับเวลาที่คุณพูด
ยังมีโหมด Auto-detect ที่เดาภาษาที่พูดจากเสียงเองได้ ดังนั้นถ้าคุณสลับไปมาระหว่างภาษาสเปนสำหรับ Slack ส่วนตัวกับภาษาอังกฤษสำหรับอีเมลลูกค้า คุณไม่ต้องเปิดตัวเลือก รายละเอียดเล็กน้อยที่มองข้ามได้ง่ายในรายการฟีเจอร์ คำอธิบายแบบลึกอยู่ใน การแปลงเสียงเป็นข้อความใน 100 ภาษาบน Mac
การถอดเสียงไฟล์ที่บันทึกไว้แล้ว
ถ้าคุณมีไฟล์ (บันทึกจาก Zoom เสียงบันทึก สัมภาษณ์ พอดแคสต์) คำว่า "เรียลไทม์" ไม่ใช่กรอบที่ถูกต้อง โยนไฟล์เข้าเครื่องมือที่ใช้ Whisper และรันที่คุณภาพเต็มที่ ปล่อยให้รันสองนาที สิ่งที่สำคัญคือความแม่นยำ
MacWhisper และ Whisper Transcription จัดการเรื่องนี้ได้ดีทั้งคู่ OpenAI API โดยตรงก็เช่นกัน ถ้าคุณสบายใจกับการเขียนสคริปต์ สำหรับการแปลโดยเฉพาะ ขอบอกว่าการแปลในตัวของ Whisper ทำได้ทางเดียว คือ ภาษาใดๆ → ภาษาอังกฤษ ถ้าคุณต้องการอีกทิศ (เช่น อังกฤษ → ญี่ปุ่น) ส่งทรานสคริปต์ผ่านโมเดลแปลแยกต่างหากภายหลัง อย่าง Claude, GPT หรือ DeepL
ข้ามส่วนนี้ได้ถ้าอินพุตของคุณเป็นไลฟ์เสมอ แต่ถ้าคุณบันทึกสัมภาษณ์หรือดึงทรานสคริปต์จากประชุมเก่าๆ เวิร์กโฟลว์ออฟไลน์ยังถูกกว่า แม่นยำกว่า และแก้ง่ายกว่าการสตรีม
เลือกการตั้งค่าที่ใช่สำหรับเวิร์กโฟลว์ของคุณ
ต้นไม้การตัดสินใจสั้นๆ
1. อยากได้คำบรรยายระหว่างการสนทนา FaceTime หรือ Messages → Apple Live Translation ฟรี ติดมาในเครื่อง รันบนเครื่อง 2. อยากได้คำบรรยายระหว่างโทร Zoom/Meet/Teams ในภาษาที่ฉันไม่รู้ → MacWhisper, Superwhisper หรือ Transcrybe เลือกตัวใดตัวหนึ่ง 3. อยากพูดภาษาแม่ของฉันแล้วได้ข้อความภาษาอังกฤษที่วางได้ทุกที่ → เครื่องมือพิมพ์ด้วยเสียงปุ่มเดียวอย่าง Voicr นี่คือเคสใช้งานประจำวันของมืออาชีพที่ใช้สองภาษา 4. อยากถอดเสียงไฟล์ที่บันทึกไว้ในอีกภาษาหนึ่งและได้ภาษาอังกฤษ → MacWhisper หรือแอปเดสก์ท็อปใดๆ ที่ใช้ Whisper ออฟไลน์ โมเดลคุณภาพเต็ม รอสองนาที
คนส่วนใหญ่จบลงด้วยเครื่องมือสองตัว ไม่ใช่ตัวเดียว ตัวหนึ่งสำหรับคำบรรยายสดเมื่อต้องการ (บางครั้ง) และอีกตัวสำหรับการพิมพ์ด้วยเสียงประจำวัน (ตลอดเวลา) การแยกแบบนั้นปกติ เครื่องมือคำบรรยายและเครื่องมือพิมพ์ด้วยเสียงถูกออปติไมซ์มาเพื่อสิ่งที่ต่างกัน และพยายามทำให้ตัวเดียวทำได้ทั้งสองอย่าง ปกติแล้วหมายถึงทำได้แย่ลงทั้งสองอย่าง
ตั้งความคาดหวังตามความเป็นจริง
เรื่องสองสามอย่างที่วิดีโอเดโมทุกตัวมักจะข้ามไป ควรรู้ก่อนตัดสินใจ
ดีเลย์มีอยู่จริง แม้ Whisper บนเครื่องก็ยังมีดีเลย์ 1–3 วินาทีสำหรับคำบรรยายสด เครื่องมือคลาวด์เพิ่มอีก 1–2 วินาที วางแผนเผื่อไว้ อย่าพยายามใช้คำบรรยายสดตามการดีเบตการเมืองที่พูดเร็ว คุณจะตามไม่ทัน
คุณภาพการแปลตกลงนอกภาษายอดนิยม 10 อันดับแรก Whisper เองยอดเยี่ยมสำหรับอังกฤษ สเปน ฝรั่งเศส เยอรมัน โปรตุเกส อิตาลี จีนกลาง ญี่ปุ่น แต่อ่อนลงอย่างชัดเจนกับไทย กวางตุ้ง เวียดนาม และภาษาแอฟริกันส่วนใหญ่ ถ้าภาษาของคุณอยู่ในกลุ่มหางยาว ทดสอบก่อนพึ่งพา
การจับเสียงระบบต้องขออนุญาต macOS ไม่ให้แอปฟังเสียงระบบโดยอัตโนมัติ เครื่องมือทุกตัวในหมวดคำบรรยายสดจะแนะนำให้คุณอนุญาต Screen Recording หรือ audio loopback ครั้งแรกที่ใช้ นี่ปกติ และเป็นเหตุผลที่บางแอปต้องติดตั้งอุปกรณ์เสียงเสมือนครั้งเดียว
เรื่องความเป็นส่วนตัวต่างกัน เครื่องมือของ Apple และแอปที่ใช้ Whisper ส่วนใหญ่รันบนเครื่องเต็มที่ อะไรก็ตามที่ส่งเสียงไปยัง API คลาวด์ (เครื่องมือ "ผู้ช่วยประชุม AI" บางตัว) กำลังแลกเปลี่ยนแบบอื่น ถ้าคุณอยู่ในวงการกฎหมาย สาธารณสุข หรืออะไรก็ตามที่ถูกควบคุม ตรวจสอบก่อนเปิดเครื่องมือในสายลูกค้า

จุดเริ่มต้นที่ใช้ได้จริง
ที่ที่ง่ายที่สุดในการเริ่ม ไม่ว่าเป้าหมายปลายทางของคุณคืออะไร คือการเลือกเคสใช้งานเดียวที่คุณเจอบ่อยที่สุดในสัปดาห์นี้ ไม่ใช่อันที่นานๆ จะเจอครั้ง แต่อันที่เจอทุกวัน
ถ้าคุณอยู่ในการประชุมระหว่างประเทศเยอะ ติดตั้งเครื่องมือคำบรรยายสดสักตัว ทิ้งไว้บนแถบเมนู และใช้สองสัปดาห์ก่อนตัดสินใจ ถ้าคุณเขียนภาษาอังกฤษเยอะขณะที่คิดเป็นอีกภาษา ลองแทนที่อีเมลสิบฉบับถัดไปที่ปกติคุณจะพิมพ์ ด้วยการพิมพ์ด้วยเสียงในภาษาแม่ของคุณ แล้วปล่อยให้เครื่องมือผลิตภาษาอังกฤษออกมา
Voicr จัดการเคสพิมพ์ด้วยเสียงโดยเฉพาะ กด FN ค้าง พูดภาษาของคุณ ตั้งภาษาอังกฤษเป็นปลายทาง วางที่ไหนก็ได้ มีแพ็กเกจ Free (5,000 คำต่อเดือน ไม่ต้องใช้บัตรเครดิต) ที่มากพอจะดูว่าเวิร์กโฟลว์เข้ากับวิธีเขียนของคุณจริงไหม สำหรับเคสคำบรรยายสด MacWhisper มีเวอร์ชันฟรีพร้อมโมเดล Whisper พื้นฐานที่มากพอจะลองประสบการณ์ก่อนจ่ายเงิน
เทคโนโลยีหยุดเป็นคอขวดมาสักพักแล้ว คำถามที่น่าสนใจตอนนี้คือเวิร์กโฟลว์ไหนที่คุณตั้งค่าและใช้จริง และนั่นมาจากการเลือกเครื่องมือที่ใช่สำหรับ friction เฉพาะที่คุณเจอซ้ำๆ สำหรับเรื่องฝั่งพิมพ์ด้วยเสียงเพิ่มเติม การพิมพ์ด้วยเสียงบน Mac ทำงานอย่างไรจริงๆ จะพาดูสิ่งที่เกิดขึ้นระหว่างเสียงของคุณกับข้อความขัดเกลาบนคลิปบอร์ด

