กลับไปที่บล็อก

Voicr Team · 5 มิถุนายน 2569

อีก 10 ปีเราจะยังพิมพ์อยู่ไหม? ยุคของการสั่งงานด้วยเสียง

เสียงเร็วกว่าการพิมพ์มาเป็นสิบปีแล้ว สิ่งเดียวที่เคยฉุดมันไว้เพิ่งถูกแก้ไปแบบเงียบ ๆ นี่คือเหตุผลตามจริงว่าทำไมการสั่งงานด้วยเสียงถึงจะมาก่อน

อีก 10 ปีเราจะยังพิมพ์อยู่ไหม? ยุคของการสั่งงานด้วยเสียง

เสียงถูกยกให้เป็นอนาคตของการใช้คอมพิวเตอร์มาราว ๆ สิบห้าปีแล้ว Siri เปิดตัวในปี 2011 และทุกปีหลังจากนั้นก็มีคนเขียนบทความประกาศว่าวันสุดท้ายของคีย์บอร์ดใกล้มาถึง แต่ทุกปีคุณก็ยังพิมพ์อยู่ดี

ฉะนั้นมีคำถามหนึ่งที่ควรตั้งข้อสงสัยไว้ก่อน: แล้วทำไมสิบปีข้างหน้าถึงจะทำลายรูปแบบเดิมนี้ได้ ผมเชื่อว่ามันจะเกิดขึ้น แต่ไม่ใช่ด้วยเหตุผลที่บทความปลุกกระแสมักยกมาอ้าง เสียงไม่ได้แพ้ตลอดหลายปีที่ผ่านมาเพราะมันช้า มันแพ้เพราะสิ่งที่เกิดขึ้น *หลัง* จากที่คุณพูดจบต่างหาก

ช่องว่างตรงนั้นน่าหยุดคิด สิ่งเดียวที่ฉุดเสียงเอาไว้จริง ๆ เพิ่งถูกแก้ไปแบบเงียบ ๆ และคนส่วนใหญ่ยังตามไม่ทัน นี่คือเหตุผลของการสั่งงานด้วยเสียง โดยเก็บส่วนที่ตรงไปตรงมาเอาไว้ครบ

คำทำนายที่ผิดซ้ำแล้วซ้ำเล่า

มีคำทำนายทางเทคโนโลยีอย่างหนึ่งที่กลับมาทุกสองสามปีเหมือนดาวหาง นั่นคือ การพิมพ์กำลังจะตาย เสียงกำลังจะเข้ามาแทน มันโผล่มาพร้อม Siri แล้วก็ Alexa แล้วก็แอปสั่งงานด้วยเสียงทุกระลอกหลังจากนั้น คีย์บอร์ดถูกบอกว่ากำลังจะถูกแทนที่อยู่เสมอ แต่มันไม่เคยถูกแทนเลย

ถ้าอยากรู้ว่าทำไม ลองดูตอนที่มีใครสักคนใช้ระบบสั่งงานด้วยเสียงที่ติดมากับ Mac เป็นครั้งแรก เขาพูดออกมาหนึ่งย่อหน้า ข้อความที่ได้กลับมามีคำว่า "เอ่อ" ครบทุกคำ มีจุดที่พูดผิดแล้วเริ่มใหม่สองครั้งปนกันมั่ว และมีประโยคที่ลากยาวสี่สิบคำเพราะเขาไม่ได้เว้นจังหวะ เขาเสียเวลาไม่กี่นาทีไปกับการแก้ไข แล้วก็สรุปว่าพิมพ์เองน่าจะเร็วกว่า สุดท้ายภายในหนึ่งสัปดาห์ก็กลับไปใช้คีย์บอร์ดอย่างเงียบ ๆ

นั่นแหละคือเรื่องราวทั้งหมดของสาเหตุที่เสียงแพ้มาตลอด คำสัญญาคือ "เลิกพิมพ์" แต่ความจริงคือ "พิมพ์น้อยลง แต่แก้มากขึ้น" คนไม่ได้ปฏิเสธเสียงเพราะมันตามความคิดเขาไม่ทัน เขาปฏิเสธมันเพราะค่าใช้จ่ายของการมานั่งเก็บกวาดทีหลังกินเวลาที่ประหยัดได้จากการพูดคืนไปหมด

เสียงไม่เคยเป็นส่วนที่ช้า

นี่คือส่วนที่มักหายไปท่ามกลางการถกเถียงกลับไปกลับมา ในแง่ความเร็วล้วน ๆ ข้อถกเถียงนี้จบไปตั้งแต่สิบปีก่อนแล้ว และเสียงชนะแบบสบาย ๆ

คนที่พิมพ์บนคอมพิวเตอร์ได้คล่องทำได้ราว ๆ 40 คำต่อนาที ส่วนการพูดแบบสบาย ๆ อยู่ที่ราว 150 คำต่อนาที โดยไม่ต้องออกแรงเลย เสียงในหัวของคุณ ตัวที่เรียบเรียงประโยคขึ้นมาก่อนที่นิ้วจะตามทัน วิ่งเร็วกว่านั้นอีก การพิมพ์คือช่วงที่ช้าที่สุดในห่วงโซ่นี้แบบทิ้งห่างมาก

นี่ไม่ใช่แค่การคาดเดาคร่าว ๆ ในปี 2016 นักวิจัยจาก Stanford, Baidu และ University of Washington ได้ทำการศึกษาเปรียบเทียบแบบตัวต่อตัว: การพูดข้อความใส่โทรศัพท์เร็วกว่าการพิมพ์ด้วยหัวแม่มือถึงสามเท่า และฉบับที่พูดยังมีอัตราความผิดพลาด *ต่ำกว่า 20 เปอร์เซ็นต์* อีกด้วย ทั้งเร็วกว่าและแม่นกว่าในการทดสอบเดียวกัน เมื่อสิบปีก่อน

ฉะนั้นความเร็วไม่เคยเป็นอุปสรรค คอขวดอยู่ถัดลงไปอีกขั้น ตรงข้อความรก ๆ ที่คุณได้รับมาหลังจากนั้น แก้ขั้นนั้นได้ สมการทั้งหมดก็เปลี่ยน

สิ่งที่เปลี่ยนไปจริง ๆ: ชั้น AI ระหว่างเสียงกับข้อความ

ชิ้นส่วนที่ขาดหายไปไม่เคยเป็นไมโครโฟนที่ดีกว่าเดิม มันคือชั้นหนึ่งที่เปลี่ยนเสียงดิบให้กลายเป็นข้อความที่เสร็จสมบูรณ์โดยที่คุณไม่ต้องมานั่งเก็บงานเอง มีสองสิ่งที่สุกงอมขึ้นในช่วงเวลาใกล้เคียงกันจนทำให้สิ่งนี้เป็นไปได้

อย่างแรก การถอดเสียงเก่งขึ้นจริง ๆ โมเดลเสียงชั้นนำตอนนี้ทำได้ต่ำกว่าอัตราความผิดพลาดของคำ 5 เปอร์เซ็นต์ กับภาษาอังกฤษเชิงสนทนาที่ชัดเจน และโมเดลแบบเปิดอย่าง Whisper ทำได้ใกล้ 3 เปอร์เซ็นต์ การจับเสียงดิบไม่ใช่จุดอ่อนอีกต่อไป

อย่างที่สอง และนี่คือการเปลี่ยนแปลงตัวจริง โมเดลภาษาขนาดใหญ่เก่งพอที่จะ *เขียนใหม่* ข้อความถอดเสียงแทนที่จะแค่เก็บมันไว้เฉย ๆ โมเดลชนิดเดียวกับที่ร่างอีเมลให้คุณ สามารถเอาคำพูดที่คุณพล่ามออกมา ตัดคำเติมที่ไม่จำเป็นทิ้ง แก้ไวยากรณ์ และซอยกำแพงคำพูดให้กลายเป็นย่อหน้าจริง ๆ ผลลัพธ์เลิกเป็นการบันทึกสิ่งที่คุณพูด และกลายเป็นร่างของสิ่งที่คุณตั้งใจจะสื่อ

ชั้นที่สองนั้นคือหัวใจของทั้งหมด มันคือความต่างระหว่างการสั่งงานด้วยเสียงที่โยนการบ้านมาให้คุณ กับการสั่งงานด้วยเสียงที่ส่งของที่คุณพร้อมใช้ได้ทันทีมาให้ นี่คืองานที่ Voicr ทำพอดี: คุณกดปุ่มเดียวค้างไว้แล้วพูดตามปกติ และข้อความที่ไปถึงคลิปบอร์ดของคุณก็ถูกขัดเกลาเรียบร้อยแล้ว คำว่า "เอ่อ" หายไป และประโยคถูกจัดให้สะอาด ภาษีของการเก็บกวาดที่ฆ่าเสียงทิ้งมายี่สิบปีคือส่วนที่มันจัดการให้คุณแบบเงียบ ๆ

การเปลี่ยนแปลงปรากฏอยู่ในข้อมูลแล้ว

ถ้านี่เป็นแค่ทฤษฎีสวยหรู คุณคงคาดว่าตัวเลขการใช้งานจะนิ่ง ๆ แต่มันไม่นิ่งเลย

การใช้ผู้ช่วยเสียงในสหรัฐฯ คาดว่าจะทะลุ 157 ล้านคนในปี 2026 และคนราวหนึ่งในสามตอนนี้ค้นหาด้วยเสียงทุกวันแทนที่จะพิมพ์ มีอุปกรณ์ที่รองรับเสียงอยู่หลายพันล้านเครื่องนอนอยู่ในกระเป๋าและบนโต๊ะแล้ว พฤติกรรมนี้ไม่ได้รอใครอนุญาต มันกำลังแพร่ออกไป

สัญญาณที่ชัดที่สุดมาจากคนทำงานรุ่นเล็กที่สุด งานวิจัยที่ Fortune นำเสนอ ชี้ว่า Gen Alpha อาจก้าวเข้าสู่ตลาดแรงงานโดยไม่เคยเขียนอีเมลที่เป็นทางการเลย และหันไปใช้ข้อความเสียงส่งหาเจ้านายแทน ไม่ว่าอีเมลจะอยู่รอดหรือไม่ ทิศทางก็ยากที่จะมองข้าม สำหรับคนที่โตมากับการกดปุ่มอัดเสียงค้างไว้เพื่อพูด การพิมพ์ทั้งย่อหน้านั้นรู้สึกเป็นตัวเลือกที่ช้าไปแล้ว

กราฟเส้นขาขึ้นที่ทำจากกล่องคำพูดเล็ก ๆ แสดงการนำการป้อนข้อมูลด้วยเสียงไปใช้ที่เพิ่มขึ้นเรื่อย ๆ ตามเวลา

ทั้งหมดนี้ไม่ได้แปลว่าคีย์บอร์ดจะหายไปในไตรมาสหน้า มันแปลว่าค่าตั้งต้นกำลังขยับ การสั่งงานด้วยเสียงมาก่อนไม่ใช่คำพยากรณ์อีกต่อไป มันคือเส้นแนวโน้มที่คุณลากตามได้แล้ว และมันชี้ไปทางเดียว

การสั่งงานด้วยเสียงมาก่อนหน้าตาเป็นยังไงจริง ๆ

"เสียงมาก่อน" ฟังดูเหมือนครัวในหนังไซไฟที่คุยโต้ตอบกับคุณได้ แต่เวอร์ชันจริงเงียบกว่านั้น และพูดตามตรงคือมีประโยชน์กว่าด้วย

มันหมายความว่าเสียงกลายเป็นวิธีตั้งต้นที่คุณใช้พาความคิดลงสู่หน้ากระดาษ ส่วนคีย์บอร์ดกลายเป็นเครื่องมือที่คุณหยิบมาใช้เพื่อขัดเกลา คุณพูดอีเมล พูดข้อความตอบใน Slack พูดร่างแรกหยาบ ๆ พูดโน้ตถึงตัวเอง แล้วคุณก็อ่านทวนและแก้วลีเดียวที่ฟังไม่เข้าท่าด้วยการเคาะแป้นไม่กี่ที จับด้วยเสียง แก้ด้วยมือ

ส่วนที่ทำให้สิ่งนี้ใช้ได้จริงคือน้ำเสียง คุณไม่ได้คุยกับเจ้านายแบบเดียวกับที่คุยในแชทกลุ่ม และเครื่องมือที่บีบทุกอย่างให้เหลือน้ำเสียงเดียวจะถูกทิ้งอย่างรวดเร็ว การตั้งค่าแบบเสียงมาก่อนจะปรับผลลัพธ์ให้เข้ากับปลายทาง: กันเองในแชท เป็นทางการในอีเมล เรียบ ๆ ในคอมเมนต์โค้ด คุณพูดแบบเดิมทุกครั้ง แล้วงานเขียนก็ปรับให้เข้ากับสถานการณ์เอง ผมเขียนถึงเรื่องที่สิ่งนี้เปลี่ยนเวิร์กโฟลว์ประจำวันของผมไว้ใน วิธีที่ผมใช้ AI ปิดช่องว่างระหว่างความคิดกับการเขียน

สังเกตว่าภาพนี้ไม่ใช่อะไร มันไม่ใช่โลกที่ไม่มีคีย์บอร์ด มันคือโลกที่คุณพูดก่อนแล้วค่อยพิมพ์ทีหลัง แทนที่จะพิมพ์ทุกอย่างตั้งแต่ศูนย์

สิ่งที่คีย์บอร์ดยังครองอยู่

เหตุผลของการสั่งงานด้วยเสียงมาก่อนที่แกล้งทำเป็นว่าคีย์บอร์ดจะไร้ประโยชน์นั้นไม่น่าเชื่อถือ มีงานจริง ๆ ที่เสียงทำได้ไม่ดี และงานพวกนั้นจะไม่หายไปไหนในเร็ว ๆ นี้

บางอย่างยังพิมพ์เร็วกว่า: - โค้ดและอะไรก็ตามที่มีสัญลักษณ์เยอะ การสั่งงานด้วยเสียงจับคำได้ แต่มันงงกับวงเล็บ ขีดล่าง และชื่อตัวแปรที่ต้องสะกดเป๊ะ ๆ คุณยังต้องพิมพ์โค้ดเอง - พื้นที่ที่มีเสียงดังหรือใช้ร่วมกัน พูดกับแล็ปท็อปในห้องเงียบ ๆ นั้นโอเค แต่ทำบนรถไฟที่คนแน่นหรือในออฟฟิศแบบเปิดโล่งข้างคนที่กำลังคุยโทรศัพท์นั้นไม่โอเค - อะไรที่คุณไม่อยากพูดออกมาดัง ๆ ฟีดแบ็กที่ตรงเกินไป ข้อความตอบที่อ่อนไหว ข้อความที่คุณไม่อยากให้คนข้าง ๆ ได้ยิน คีย์บอร์ดเป็นส่วนตัวในแบบที่เสียงไม่เป็น - การแก้แบบละเอียด เมื่อร่างทำงานได้เกือบหมดแล้ว การเลื่อนจุลภาคหรือสลับคำเดียวทำได้เร็วกว่าด้วยปุ่ม มากกว่าด้วยทั้งประโยค

ภาพแบ่งครึ่งดูเป็นมิตร แสดงไมโครโฟนสำหรับพูดและคีย์บอร์ดสำหรับแก้ไข ทำงานเคียงข้างกัน

ดังนั้นคำตอบส่วนหนึ่งของ "เราจะยังพิมพ์อยู่ไหม" ก็คือใช่ สำหรับงานพวกนี้ สิ่งที่เปลี่ยนไปคือคีย์บอร์ดเลิกเป็นสิ่งที่คุณใช้ทำทุกอย่าง และกลายเป็นเครื่องมือเฉพาะทางที่คุณหยิบขึ้นมาเมื่อเสียงไม่เหมาะ นั่นคือการลดตำแหน่ง ไม่ใช่การสูญพันธุ์

อะไรจะมาหลังจากเสียง

ถ้ามองออกไปไกลถึงสิบปีเต็ม เสียงก็ไม่ใช่ปลายทางสุดท้ายด้วยซ้ำ วิธีป้อนข้อมูลที่ล้ำกว่านั้นกำลังอยู่ในห้องแล็บแล้ว

Meta ได้โชว์สายรัดข้อมือที่อ่านสัญญาณไฟฟ้าในกล้ามเนื้อของคุณ ทำให้คุณ "พิมพ์" ด้วยการขยับนิ้วเล็ก ๆ บนพื้นผิวอะไรก็ได้ โดยไม่ต้องใช้คีย์บอร์ด มันเป็นงานวิจัยที่น่าทึ่งจริง ๆ แต่ลองสังเกตตัวเลข: ผู้ทดสอบช่วงแรกทำได้ราว 21 คำต่อนาทีด้วยการเขียนด้วยท่ามือ นั่นเร็วกว่าการพิมพ์ด้วยหัวแม่มือบางแบบ และเหนือชั้นกว่ามากในฐานะเครื่องมือช่วยการเข้าถึง แต่มันก็ยังเป็นแค่เศษเสี้ยวของ 150 คำต่อนาทีที่คุณได้แค่จากการพูด

นั่นคือประเด็นที่เงียบ ๆ ในเรื่องทั้งหมดนี้ ในอนาคตอันใกล้ที่มองเห็นได้ เสียงของคุณคือช่องทางที่เร็วที่สุดระหว่างความคิดกับข้อความที่เสร็จสมบูรณ์ โดยไม่ต้องผ่าตัดหรือเทคโนโลยีไซไฟ การป้อนข้อมูลด้วยระบบประสาทกำลังจะมา และมันจะสำคัญที่สุดสำหรับคนที่พูดหรือพิมพ์ได้ไม่สะดวก ส่วนคนที่เหลือ เสียงคือสะพานที่เราข้ามก่อน และมันมาถึงแล้ว

แล้วเราจะยังพิมพ์อยู่ไหม?

ใช่ แต่ภายในสิบปี การพิมพ์จะกลายเป็นข้อยกเว้นแทนที่จะเป็นปฏิกิริยาอัตโนมัติ มันจะกลายเป็นสิ่งที่คุณหยิบมาใช้เมื่อเสียงไม่เหมาะกับจังหวะนั้น แบบเดียวกับที่คุณหยิบปากกาทุกวันนี้: มีประโยชน์ ตั้งใจ และไม่ใช่วิธีที่คุณใช้เขียนเกือบทุกอย่างอีกต่อไป

เหตุผลที่ครั้งนี้ต่างออกไปไม่ได้เกี่ยวกับการที่เสียงเร็วขึ้นเลย มันเร็วอยู่แล้วตลอด มันคือการที่ขั้นตอนเก็บกวาดในที่สุดก็ถูกจัดการ ดังนั้นการพูดจึงไม่ได้หมายความว่าต้องไปนั่งแก้ไขทีหลังอีกต่อไป เอาภาษีนั้นออกไป แล้วเครื่องมือที่ช้าที่สุดบนโต๊ะคุณก็แทบไม่มีอะไรเหลือให้แนะนำสำหรับการเขียนในชีวิตประจำวัน

คุณไม่จำเป็นต้องเชื่อคำพยากรณ์สิบปีแบบหลับหูหลับตาเพื่อทดสอบสมมติฐานนี้ ลองเลือกข้อความตอบกลับครั้งถัดไปที่ต้องเขียนยาวกว่าสองบรรทัด แทนที่จะพิมพ์ ให้กดปุ่มสั่งงานด้วยเสียงค้างไว้ พูดสิ่งที่คุณหมายถึงโดยไม่ต้องร่างบทไว้ก่อน แล้วอ่านทวนสิ่งที่ได้มา ถ้าคุณอยากให้มันออกมาขัดเกลาแล้วแทนที่จะดิบ ๆ นั่นคือเหตุผลทั้งหมดที่ Voicr มีอยู่: กด FN ค้าง พูด วาง แล้วข้อความก็โผล่มาแบบสะอาดและเข้ากับแอปที่คุณกำลังใช้อยู่ แพ็กเกจฟรีครอบคลุม 5,000 คำต่อเดือน ซึ่งมากพอจะหาคำตอบว่าคุณกำลังใช้ชีวิตอยู่ในอนาคตที่พาดหัวข่าวเอาแต่สัญญาไว้แล้วหรือยัง