กลับไปที่บล็อก

Voicr Team · 5 มิถุนายน 2569

AI ที่เข้าใจบริบทเขียนคำพูดของคุณใหม่ให้เหมาะกับแต่ละแอปอย่างไร

คุณพูดแบบเดียว แต่ประโยคเดียวกันควรออกมาต่างกันใน Slack อีเมล และเอกสาร นี่คือวิธีที่ AI เข้าใจบริบทเขียนคำพูดของคุณใหม่ให้เหมาะกับแต่ละแอป

AI ที่เข้าใจบริบทเขียนคำพูดของคุณใหม่ให้เหมาะกับแต่ละแอปอย่างไร

ลองพูดออกเสียงสักประโยค: "เฮ้ ส่งตัวเลขล่าสุดมาให้หน่อยได้ไหมตอนที่ว่าง" ปลายทางที่มันจะไปต่างหากที่ตัดสินว่ามันควรกลายเป็นอะไร ส่งใน Slack มันก็โอเคอยู่แล้ว แต่พอใส่ในอีเมลถึงลูกค้า มันต้องมีคำทักทายและคำขอที่นุ่มนวลขึ้น ถ้าบันทึกเป็นคอมเมนต์ใน Jira มันควรย่อเหลือไม่กี่คำว่า "ขอตัวเลขล่าสุด"

คุณปรับเปลี่ยนแบบนั้นโดยไม่ต้องคิด สมองของคุณอ่านสถานการณ์ว่าเป็นแอปไหน คุยกับใคร เป็นทางการแค่ไหน แล้วก็ปั้นคำใหม่ตอนที่พ่นออกมา AI ที่เข้าใจบริบทก็ทำงานแบบเดียวกันโดยอัตโนมัติ กับคำพูดที่คุณบอกออกไป

เรื่องนี้น่าใส่ใจตอนนี้เพราะการสั่งงานด้วยเสียงดีพอแล้วจริงๆ คุณพูดได้ ราว 150 คำต่อนาที เร็วกว่าการพิมพ์ 40 คำต่อนาทีที่คนส่วนใหญ่ทำได้ราวสามถึงสี่เท่า แต่คำพูดดิบๆ ไม่เข้ากับวิธีที่แต่ละแอปอยากให้คุณเขียน ชั้นของการเขียนใหม่นี่แหละที่ปิดช่องว่างตรงนั้น

ประโยคเดียว หกข้อความที่ต่างกัน

คำพูดเป็นกลางทางระดับภาษา เวลาคุณพูด คุณไม่ได้เลือกรูปแบบ คุณแค่พูดสิ่งที่อยากพูดออกมา แล้วรูปแบบค่อยถูกแปะเข้าไปทีหลังโดยตัวคุณเอง ตอนที่คุณตัดสินใจว่ามันจะไปลงที่ไหน

การเขียนทำงานกลับด้านกัน ทุกแอปที่คุณพิมพ์ลงไปมีกฎเงียบๆ ของตัวเองว่าข้อความควรมีหน้าตาและน้ำเสียงอย่างไร

ลองเอาคำขอเรื่องตัวเลขอันเดิมนั่นมาดู แล้วดูว่ามันเปลี่ยนรูปไปตามหน้าต่างที่อยู่อย่างไร: - Slack: "เฮ้ ส่งตัวเลขล่าสุดมาหน่อยได้ไหมตอนว่างๆ?" - อีเมล: "สวัสดีคุณมาเรีย เมื่อคุณสะดวก รบกวนช่วยส่งตัวเลขล่าสุดให้หน่อยได้ไหมคะ ขอบคุณค่ะ!" - Jira: "ขอตัวเลขล่าสุด" - โน้ตเตือนตัวเอง: "ค้างอยู่: ตัวเลขล่าสุดจากมาเรีย" - ข้อความถึงเพื่อนร่วมงาน: "ส่งตัวเลขล่าสุดมาหน่อยดิ?"

เจตนาเดียวกันทุกครั้ง ห้าพื้นที่ ห้าคำตอบที่ถูกต่างกัน คุณสร้างทั้งหมดนี้ได้เองอยู่แล้วเมื่อจำเป็น แต่ที่จุกอยู่คือแต่ละอันต้องเสียเวลาปรับจูนเล็กๆ ที่คุณแทบไม่รู้ตัว และมันเกิดขึ้นตลอดเวลา งานวิจัยจาก Harvard Business Review จับเวลาได้ว่าพนักงาน สลับไปมาระหว่างแอปราว 1,200 ครั้งต่อวัน หรือราวทุก 24 วินาที และการสลับเหล่านั้นจำนวนมากมาพร้อมสไตล์การเขียนใหม่ติดมาด้วย

การถอดเสียงเทียบกับการเขียนใหม่ที่เข้าใจบริบท

ลองแยกสองงานที่มักถูกเหมารวมเป็นอันเดียวกันออกจากกัน การถอดเสียงเปลี่ยนเสียงให้เป็นคำ ส่วนการเขียนใหม่ที่เข้าใจบริบทเปลี่ยนคำเหล่านั้นให้เป็นข้อความที่ถูกต้องสำหรับปลายทางที่มันกำลังจะไป

การถอดเสียงล้วนๆ หยุดอยู่แค่ขั้นแรก การสั่งงานด้วยเสียงในตัวของ Apple เครื่องมือแปลงเสียงเป็นข้อความส่วนใหญ่ คำบรรยายสดบนมือถือของคุณ ทั้งหมดส่งบันทึกตามตัวอักษรของสิ่งที่คุณพูดมาให้ รวมทั้งคำเอ้ออ้าและการเริ่มพูดผิดๆ ด้วย

นี่คือหน้าตาจริงๆ ของบันทึกเสียงดิบจากความคิดเร็วๆ หนึ่งอัน: ``` เอ่อ ก็ คือเราว่าเราน่าจะเลื่อนการเปิดตัวไปอาทิตย์หน้านะเพราะว่า QA มันยังไม่เสร็จอ่ะรู้ป่ะ ```

การเขียนใหม่ที่เข้าใจบริบทเอาเสียงอันเดียวกันนั้นมาแล้วถามคำถามที่สอง: นี่กำลังจะไปไหน และมันควรฟังดูเป็นอย่างไรที่นั่น พอมุ่งหน้าไปเป็นข้อความ Slack ถึงทีมของคุณ มันก็กลับมาเป็น: ``` เลื่อนการเปิดตัวไปอาทิตย์หน้ากันเถอะ QA ยังไม่เสร็จ ```

คำเดียวกันเข้าไป คำต่างกันออกมา ปั้นรูปตามปลายทาง อันแรกคือการบันทึก อันที่สองคือสิ่งที่คุณส่งได้จริง อยากอ่านเพิ่มเรื่องด้านการขัดเกลานี้ ดูคำอธิบายของเราเรื่อง การสั่งงานด้วยเสียงแบบ AI ทำงานอย่างไร

บันทึกเสียงดิบที่รกอันเดียวทางซ้ายแตกแขนงออกเป็นข้อความที่สะอาดสามอันทางขวา: โน้ต Slack แบบกันเอง อีเมลที่เป็นทางการ และคอมเมนต์ในทิกเก็ตสั้นๆ

"บริบท" หมายถึงอะไรกันแน่สำหรับ AI

"เข้าใจบริบท" ฟังดูคลุมเครือจนกว่าคุณจะมองที่สัญญาณเฉพาะเจาะจงที่เครื่องมือเหล่านี้อ่าน มันไม่มีอะไรลึกลับเลย บริบทคือรายการสั้นๆ ของสัญญาณที่ AI ตรวจสอบก่อนจะแตะคำสักคำ

แอปที่กำลังใช้งานอยู่

สัญญาณที่ดังที่สุดคือแอปไหนที่กำลังโฟกัสอยู่ตอนคุณพูด เครื่องมือมองเห็นได้ว่า Slack อยู่ข้างหน้า หรือ Gmail หรือ VS Code ข้อเท็จจริงเพียงข้อเดียวนั้นช่วยจำกัดสไตล์ได้มาก แชตต้องการสั้นและไม่เป็นทางการ เมลต้องการเป็นโครงสร้างและสุภาพ ส่วนเอดิเตอร์โค้ดต้องการรัดกุมและตรงตัว

ข้อความรอบๆ เคอร์เซอร์ของคุณ

เครื่องมือบางตัวอ่านข้อความใกล้ๆ จุดที่คุณกำลังจะพิมพ์เล็กน้อย ถ้าข้อความด้านบนขึ้นต้นด้วย "เรียน ดร. แคทซ์" AI ก็จะรักษาความเป็นทางการไว้และสะกดชื่อให้ถูก แต่ถ้าเธรดนั้นเต็มไปด้วยมุกตลกบรรทัดเดียว มันก็จะเข้ากับแบบนั้นแทน

เว็บไซต์ ไม่ใช่แค่เบราว์เซอร์

การตรวจจับแอปจะคลุมเครือในเบราว์เซอร์ ที่ Gmail, X และ Google Doc ต่างก็ซ่อนอยู่หลังหน้าต่างเดียวกัน เครื่องมือที่ดีกว่าจะดูที่ URL เพื่อแยกแยะออกจากกัน เพื่อให้แท็บ Gmail ได้รับการปฏิบัติแบบอีเมล และแท็บ X ได้โพสต์ที่จัดจ้าน

หมวดหมู่ของแอป

แทนที่จะเก็บกฎไว้สำหรับทุกแอปที่เคยสร้างขึ้น ระบบส่วนใหญ่จัดแอปเข้ากลุ่มไม่กี่กลุ่ม: อีเมล แชตงาน แชตส่วนตัว เอกสาร โค้ด และกลุ่มรวมๆ สำหรับอย่างอื่นทั้งหมด แต่ละกลุ่มมีสไตล์ของตัวเอง แอปใหม่ที่ตกลงในกลุ่มที่รู้จักอยู่แล้วจะรับสไตล์นั้นมาตั้งแต่วันแรก

เอาสัญญาณเหล่านี้มาซ้อนกัน AI ก็อ่านสถานการณ์ได้พอใช้: อีเมลทางการถึงคนที่ระบุชื่อ หรือประโยคทิ้งๆ ขว้างๆ ในเธรดสบายๆ การอ่านนั้นแหละคือสิ่งที่มันเขียนใหม่โดยอ้างอิงด้วย

คำพูดของคุณกลายเป็นข้อความที่ถูกต้องได้อย่างไร

เรียงชิ้นส่วนให้ตรงกัน ทั้งหมดก็เป็นสี่ขั้นตอนเร็วๆ ที่เกิดขึ้นในหนึ่งหรือสองวินาทีระหว่างที่คุณพูดประโยคจบกับตอนที่ข้อความปรากฏขึ้น 1. จับเสียง คุณกดปุ่มค้างแล้วพูด เครื่องมือบันทึกจนกว่าคุณจะปล่อย 2. ถอดเสียง โมเดลเสียงเปลี่ยนเสียงให้เป็นข้อความดิบ คำของคุณตรงตามที่คุณพูดเป๊ะ 3. ตรวจจับบริบท เครื่องมือตรวจสอบแอปที่ใช้งานอยู่ ข้อความใกล้เคอร์เซอร์ และแอปนั้นตกอยู่ในกลุ่มไหน 4. เขียนใหม่ โมเดลภาษาเอาบันทึกดิบบวกกับบริบทนั้นมาแล้วเขียนข้อความสุดท้าย ปรับขนาดและน้ำเสียงให้เหมาะกับปลายทาง

ขั้นที่สี่คือจุดที่โมเดลภาษาขนาดใหญ่ทำงานหนัก มันได้บันทึกที่รกๆ ของคุณกับคำสั่งที่สรุปง่ายๆ ว่า "อันนี้จะไปลงอีเมลงาน ทำให้มันอ่านเหมือนอีเมลงาน" แล้วส่งข้อความกลับมาในความยาว น้ำเสียง และรูปแบบที่ถูกต้อง ผลลัพธ์แตกต่างกันไปตามโมเดล ดังนั้นให้มองผลที่ได้เป็นร่างแรกที่ดีมากกว่าจะเป็นคำตอบสุดท้าย

นี่คือกระบวนการเป๊ะๆ ที่ Voicr ทำงานบน macOS คุณกดปุ่ม FN ค้างแล้วพูดจากแอปไหนก็ได้ Voicr มองออกว่าแอปไหนอยู่ข้างหน้า ปรับใช้สไตล์ที่เข้ากันผ่าน Smart Rules ของมัน แล้ววางข้อความที่ขัดเกลาแล้วลงบนคลิปบอร์ดของคุณ: กันเองใน Slack เป็นทางการใน Gmail รัดกุมในเอดิเตอร์ของคุณ คุณไม่ต้องเปิดเมนูเพื่อเลือกน้ำเสียงเลย ถ้าอยากดูว่าสไตล์เฉพาะแต่ละแอปเหล่านั้นถูกเขียนขึ้นมาอย่างไร คู่มือของเราเรื่อง กฎการเขียนอัจฉริยะ จะพาไปดูว่ากฎที่ดีควรมีอะไรบ้าง

ไปป์ไลน์สี่ขั้นตอนแสดงเป็นไอคอนเป็นกันเอง: ไมโครโฟนจับเสียงพูด บันทึกถอดเสียง แว่นขยายตรวจจับแอปที่ใช้งานอยู่ และข้อความที่ขัดเกลาแล้วหล่นลงในคลิปบอร์ด

สองรูปแบบ: การตรวจจับอัตโนมัติและกฎที่กำหนดเอง

ความเข้าใจบริบทไม่ได้ทำงานเหมือนกันหมด เครื่องมือแบ่งออกเป็นสองค่าย และความต่างส่วนใหญ่อยู่ที่ว่าใครเป็นคนตัดสินสไตล์

แบบอัตโนมัติตัดสินใจแทนคุณ มันอ่านแอป จัดเข้าหมวดหมู่ แล้วปรับใช้สไตล์ที่มีมาในตัวโดยไม่ต้องตั้งค่าอะไรเลย คุณติดตั้งแล้วมันก็ทำงานทันที ข้อแลกเปลี่ยนคือการควบคุม: เมื่อความคิดของมันเรื่อง "น้ำเสียงอีเมล" ไม่ตรงกับของคุณ คุณก็ต้องมานั่งปรับผลลัพธ์ด้วยมือ

แบบกำหนดเองยื่นพวงมาลัยให้คุณ คุณเขียนคำสั่งสั้นๆ สำหรับแต่ละแอปด้วยภาษาธรรมดา อธิบายให้ชัดว่ามันควรฟังดูอย่างไร ต้องตั้งค่ามากกว่าตอนแรก แต่ผลลัพธ์ตรงกับรสนิยมของคุณเพราะคุณเป็นคนกำหนดรสนิยมนั้นเอง กฎสำหรับ Slack อาจเขียนว่า: ``` เขียนใหม่เป็นข้อความ Slack แบบกันเอง สองหรือสามประโยค ใช้คำย่อได้ ไม่ต้องมีคำทักทายหรือลงท้าย ใส่อิโมจิเบาๆ ได้ถ้าเข้ากัน ```

เครื่องมือที่ดีกว่าผสานทั้งสองแบบเข้าด้วยกัน: ค่าเริ่มต้นที่สมเหตุสมผลและใช้งานได้ทันที บวกกับกฎเฉพาะแต่ละแอปที่คุณเขียนได้เมื่อคุณใส่ใจมากพอ คุณพึ่งค่าเริ่มต้นสำหรับแอปที่คุณแทบไม่ได้แตะ และตั้งกฎที่ชัดเจนสำหรับสองสามแอปที่การเขียนของคุณสำคัญจริงๆ

อะไรที่มันทำได้ดี และตรงไหนที่มันยังสะดุด

การเขียนใหม่ที่เข้าใจบริบทมีประโยชน์จริงๆ แต่มันเป็นจุดเริ่มต้น ไม่ใช่เครื่องอ่านใจ การรู้ว่ามันสะดุดตรงไหนช่วยกันไม่ให้คุณไว้ใจมันแบบหลับหูหลับตา

มันจัดรูปแบบได้แม่นยำ แต่เดาเจตนา

AI บอกได้ว่าคุณอยู่ในอีเมลและเติมคำทักทายให้ แต่มันบอกไม่ได้แน่ๆ ว่าคุณกำลังพูดจริงจังหรือประชด หรือว่าคำว่า "ก็ดี" หมายถึงดีจริงหรือหมายถึงคุณกำลังโกรธเงียบๆ น้ำเสียงภายในระดับภาษาเดียวกันยังเป็นหน้าที่ของคุณอยู่

แอปที่คลุมเครือทำให้มันสับสน

เบราว์เซอร์แบบรวมๆ เทอร์มินัลที่รันโปรแกรมแชต แอปโน้ตที่คุณใช้ทำทุกอย่าง พวกนี้ให้สัญญาณที่อ่อน เมื่อบริบทขุ่นมัว การเขียนใหม่จะถอยกลับไปขัดเกลาแบบทั่วไปที่อาจเป็นทางการมากหรือน้อยกว่าที่คุณต้องการ

มันลบตัวตนในน้ำเสียงของคุณได้

ดันการเขียนใหม่หนักเกินไป ข้อความของคุณก็เริ่มฟังดูเหมือนของคนอื่นๆ ลื่นไหล มีความสามารถ และตายด้านไปนิดหน่อย เครื่องมือที่ดีจะย้ายน้ำเสียงของคุณเข้าสู่ระดับภาษาที่ถูกต้อง แทนที่จะสลับมันออกไปเป็นค่าเริ่มต้นแบบองค์กร ถ้าผลลัพธ์เริ่มฟังไม่เหมือนตัวคุณ ก็ผ่อนกฎลงบ้าง

คุณยังต้องอ่านก่อนกดส่งอยู่ดี

ชื่ออาจออกมาผิด ตัวเลขอาจหลุดได้ กวาดตาอ่านผลลัพธ์ก่อนยิงออกไป แบบเดียวกับที่คุณจะชำเลืองดูข้อความที่ถูกแก้คำอัตโนมัติก่อนกดส่ง

เอาการเขียนใหม่ที่เข้าใจบริบทมาใช้จริง

อยากลองวันนี้เลยไหม? เริ่มจากสองแอปที่คุณเขียนมากที่สุด ปกติคือเครื่องมือแชตกับอีเมล สั่งงานด้วยเสียงสำหรับข้อความสองสามอันถัดไปแทนการพิมพ์ แล้วดูว่าจริงๆ แล้วคุณแทบไม่ต้องแก้อะไรหลังจากนั้นเลย

จากนั้นใส่ใจกับจุดที่พลาด เมื่อผลลัพธ์ไม่ถูกต้อง นั่นคือข้อมูลที่มีประโยชน์ มันบอกคุณว่าสไตล์ของแอปนั้นต้องปรับจูน หรือว่าคุณควรพูดเจตนาออกมาให้ชัดกว่านี้ เครื่องมือเหล่านี้คมขึ้นเรื่อยๆ ยิ่งคุณบอกชัดเจนว่าแต่ละแอปควรฟังดูเป็นอย่างไร เคล็ดลับเดียวกันใช้ได้กับทุกแอปที่คุณเขียน ไม่ใช่แค่สองแอปที่ชัดเจน ดังที่เราอธิบายไว้ใน การสั่งงานด้วยเสียงในทุกแอป Mac ด้วยปุ่มเดียว

ชัยชนะที่แท้จริงไม่ใช่แค่ความเร็ว ถึงแม้การพูดเร็วกว่าการพิมพ์สามเท่าจะเป็นการออกตัวที่ดี สิ่งที่เปลี่ยนไปจริงๆ คือคุณเลิกแบกรูปแบบไว้ในหัว คุณคิดความคิดนั้น พูดออกมาครั้งเดียว แล้วปล่อยให้เครื่องมือจัดการว่าเวอร์ชันไหนควรไปอยู่ตรงไหน

พูดครั้งเดียว ลงตัวทุกที่

นิสัยเดิมๆ คือการเขียนข้อความและจัดรูปแบบในจังหวะเดียวกัน คำ น้ำเสียง คำทักทาย คำลงท้าย ทั้งหมดในรอบเดียว สำหรับทุกแอป ตลอดทั้งวัน AI ที่เข้าใจบริบทแบ่งภาระนั้นออกเป็นสองส่วน คุณเอาความคิดมา มันเอารูปแบบมา

วิธีที่เร็วที่สุดในการสัมผัสความต่างคือสั่งงานด้วยเสียงสำหรับอีเมลฉบับถัดไปแทนการพิมพ์ ถ้าคุณอยากได้คำพูดที่ปรากฏขึ้นมาในรูปแบบที่เหมาะกับปลายทางอยู่แล้ว Voicr ทำสิ่งนั้นบน Mac ของคุณ: กด FN ค้าง พูด แล้วข้อความก็ลงตัวในน้ำเสียงที่ถูกต้องสำหรับแอปที่คุณอยู่ ประโยคเดียวออกจากปากคุณ ข้อความที่ถูกต้องในทุกหน้าต่าง