Πώς τα LLM κάνουν τη φωνή σε κείμενο πραγματικά χρήσιμη

Πιθανότατα δοκίμασες κάποτε τη φωνή σε κείμενο, τα παράτησες και γύρισες στο πληκτρολόγιο. Οι περισσότεροι το έκαναν. Το παράξενο είναι ότι συνήθως δεν είχε καμία σχέση με το ότι οι λέξεις έβγαιναν λάθος.

Η αναγνώριση ομιλίας έγινε ακριβής εδώ και χρόνια. Τα σύγχρονα μοντέλα μεταγράφουν καθαρή ομιλία με ακρίβεια γύρω στο 95%. Ο λόγος που η υπαγόρευση εξακολουθούσε να φαίνεται άχρηστη είναι ότι μια ακριβής μεταγραφή του πώς πραγματικά μιλάς είναι ένα χάος. Τα μεγάλα γλωσσικά μοντέλα είναι το κομμάτι που το διόρθωσε αυτό, και άλλαξαν το για ποιο πράγμα είναι καλή η φωνή σε κείμενο.

Για το μεγαλύτερο μέρος της ιστορίας της, η φωνή σε κείμενο κρινόταν με βάση ένα πράγμα: πέτυχε σωστά τις λέξεις; Αυτό αποδείχθηκε λάθος ερώτημα. Το να βγαίνουν σωστά οι λέξεις δεν ήταν ποτέ αυτό που στεκόταν ανάμεσα σε σένα και στο να γράφεις με τη φωνή σου. Να τι πραγματικά άλλαξε.

Η φωνή σε κείμενο δεν ήταν ποτέ πρόβλημα μεταγραφής

Για δεκαετίες, κάθε ομάδα αναγνώρισης ομιλίας κυνηγούσε τον ίδιο αριθμό: το ποσοστό σφάλματος λέξεων, ή WER. Μετράει πόσες λέξεις πετυχαίνει λάθος το σύστημα. Όσο χαμηλότερο τόσο καλύτερο, και ολόκληρος ο κλάδος βελτιστοποιήθηκε γι' αυτό.

Ως επί το πλείστον τα κατάφεραν. Το Whisper της OpenAI μεταγράφει καθαρό ήχο με ποσοστό σφάλματος λέξεων περίπου 2,7%. Σε πιο μπερδεμένες ηχογραφήσεις του πραγματικού κόσμου, όπως μια συνάντηση ή ένα καφέ ή μια τηλεφωνική κλήση, κινείται πιο κοντά στο 8 με 12%. Οι άνθρωποι μεταγραφείς βρίσκονται γύρω στο 4 με 6%. Η διαφορά είναι μικρή και συνεχίζει να μικραίνει.

Άρα η ακρίβεια λύθηκε, λίγο πολύ. Όμως ρώτα οποιονδήποτε παράτησε την υπαγόρευση το 2018 γιατί σταμάτησε, και σχεδόν κανείς δεν λέει «πάρα πολλά τυπογραφικά». Λένε ότι ήταν αδέξιο, ή ότι το αποτέλεσμα χρειαζόταν τόσο πολύ καθάρισμα που δεν άξιζε τον κόπο.

Αυτό είναι το ένδειξη. Το εμπόδιο δεν ήταν ποτέ η μεταγραφή. Ήταν όλα όσα συμβαίνουν αφού οι λέξεις είναι ήδη σωστές.

Πώς μοιάζει μια ακατέργαστη μεταγραφή της ομιλίας σου

Να τι κανείς δεν σε προειδοποιεί: δεν μιλάς με καθαρές προτάσεις. Κανείς δεν μιλάει έτσι.

Όταν μιλάς φυσικά, κάνεις πίσω, ξεκινάς από την αρχή, σβήνεις στο τέλος και πετάς μέσα «εεε» και «τύπου» και «ξέρεις». Ο εγκέφαλός σου επεξεργάζεται όλα αυτά εν κινήσει και δεν το αντιλαμβάνεσαι ποτέ. Μια μηχανή μεταγραφής τα αντιλαμβάνεται όλα και τα καταγράφει όλα μέχρι το παραμικρό.

Ας πούμε ότι υπαγορεύεις ένα γρήγορο μήνυμα σε έναν συνάδελφο. Από έναν καθαρό μεταγραφέα, επιστρέφει κάπως έτσι:

*«οκ λοιπόν εεε ήθελα να ρωτήσω για το το θέμα από χθες, την αναφορά, μπορείς εμ να τη στείλεις όταν βρεις μια στιγμή, δεν βιάζομαι ή κάτι τέτοιο»*

Κάθε λέξη είναι σωστή. Είναι επίσης άχρηστο. Θα ξόδευες περισσότερο χρόνο διορθώνοντάς το απ' όσο γλίτωσες λέγοντάς το. Αυτή είναι ακριβώς η στιγμή που οι περισσότεροι παράτησαν την υπαγόρευση για τα καλά.

Σύγκριση δίπλα δίπλα μιας μπερδεμένης ακατέργαστης μεταγραφής φωνής γεμάτης παρεμβαλλόμενες λέξεις στα αριστερά και ενός καθαρού, καλοδουλεμένου μηνύματος στα δεξιά

Τι προσθέτουν πραγματικά τα μεγάλα γλωσσικά μοντέλα

Ένας μεταγραφέας απαντά σε ένα ερώτημα: τι ήχους έβγαλε αυτό το άτομο; Ένα γλωσσικό μοντέλο απαντά σε ένα διαφορετικό: τι εννοούσε αυτό το άτομο, και πώς πρέπει να διαβάζεται;

Αυτό το δεύτερο ερώτημα είναι όλο το παιχνίδι. Ένα LLM παίρνει την μπερδεμένη μεταγραφή και την ξαναγράφει όπως θα έκανε ένας προσεκτικός επιμελητής. Πετάει τις παρεμβαλλόμενες λέξεις, ολοκληρώνει τις μισές προτάσεις σου, διορθώνει τη γραμματική και κρατάει το νόημά σου ανέπαφο. Το παραπάνω μήνυμα γίνεται:

*«Γεια, μπορείς να στείλεις τη χθεσινή αναφορά όταν βρεις μια στιγμή; Δεν βιάζομαι.»*

Ίδια πρόθεση, ευανάγνωστο με μία ανάγνωση. Η μεταγραφή δεν έγινε καθόλου καλύτερη εδώ. Αυτό που άλλαξε είναι το δεύτερο στρώμα που κάθεται από πάνω της, κάνοντας την επιμέλεια που αλλιώς θα έκανες εσύ ο ίδιος.

Αυτό είναι κάτι παραπάνω από κόλπο προϊόντος. Οι ερευνητές το μελετούν απευθείας. Μια εργασία του 2024 από το συνέδριο ACM CHI, με το όνομα Rambler, διαπίστωσε ότι το να αφήνεις τους ανθρώπους να μιλούν χαλαρά και να χρησιμοποιείς ένα LLM για να αναδιαμορφώνεις την «ουσία» παρήγαγε καλύτερο γράψιμο με λιγότερο κόπο απ' ό,τι η πληκτρολόγηση ή η ακατέργαστη υπαγόρευση. Το να μιλάμε είναι ο τρόπος που σκεφτόμαστε φωναχτά. Το μοντέλο αναλαμβάνει το κομμάτι που ο εγκέφαλός μας συνήθως παρακάμπτει.

Άλλες έρευνες δείχνουν προς την ίδια κατεύθυνση. Μελέτες για τη βελτίωση μεταγραφών με βάση LLM δείχνουν ότι το να περνάς την ομιλία μέσα από ένα γλωσσικό μοντέλο μετά την αναγνώριση μειώνει τα σφάλματα και βελτιώνει την αναγνωσιμότητα, ιδίως για ομόηχες λέξεις και φράσεις που εξαρτώνται από τα συμφραζόμενα και που ένας απλός μεταγραφέας δεν μπορεί να ξεδιαλύνει μόνος του.

Τα συμφραζόμενα είναι το άλλο μισό

Το καθάρισμα μιας μεταγραφής είναι η πρώτη δουλειά. Το να ξέρεις τι είδους κείμενο ήθελες είναι η δεύτερη, και εκεί τα πράγματα γίνονται ενδιαφέροντα.

Το «Στείλε μου την παρουσίαση μέχρι το τέλος της ημέρας» λειτουργεί για ένα μήνυμα στο Slack προς έναν συνάδελφο. Είναι πολύ απότομο για ένα email προς πελάτη. Οι λέξεις είναι μια χαρά· το ύφος είναι λάθος. Ένα γλωσσικό μοντέλο μπορεί να διαβάσει αυτή την κατάσταση και να προσαρμόσει τον τόνο, γιατί κατανοεί τα συμφραζόμενα, όχι μόνο τον ήχο.

Στην πράξη, η ίδια προφορική πρόταση μπορεί να βγει ανεπίσημη σε μία εφαρμογή και καλοδουλεμένη σε μια άλλη. Δεν αλλάζεις τον τρόπο που μιλάς. Το μοντέλο αλλάζει τον τρόπο που γράφει, ανάλογα με το πού κατευθύνεται το κείμενο.

Αυτό ακριβώς κάνουν τα Smart Rules του Voicr. Ορίζεις μία φορά έναν χαλαρό τόνο για το Slack και έναν επίσημο για το email, και το Voicr αντιλαμβάνεται σε ποια εφαρμογή βρίσκεσαι και εφαρμόζει αυτόματα το σωστό ύφος. Κράτα το FN, πες αυτό που θέλεις, και η εκδοχή που καταλήγει στο πρόχειρό σου ταιριάζει ήδη εκεί που πρόκειται να την επικολλήσεις.

Η πραγματική αλλαγή: σταματάς να μιλάς σε έναν υπολογιστή

Η παλιά υπαγόρευση σε έβαζε να υποδύεσαι ρόλο. Έπρεπε να μιλάς με ολοκληρωμένες προτάσεις, να λες «κόμμα» και «νέα παράγραφος» φωναχτά, και να εγκαταλείπεις τις φυσιολογικές σου συνήθειες ομιλίας. Έκανες την επιμέλεια μέσα στο κεφάλι σου, σε πραγματικό χρόνο, ενώ μιλούσες. Ήταν εξαντλητικό, και γι' αυτό δεν έπιασε ποτέ.

Η φωνή σε κείμενο με βάση LLM σου βγάζει αυτή τη δουλειά από πάνω σου. Μπορείς να φλυαρείς. Μπορείς να αλλάξεις γνώμη στη μέση μιας πρότασης. Μπορείς να μιλάς όπως θα εξηγούσες κάτι σε έναν φίλο, και η καθαρή εκδοχή εμφανίζεται ούτως ή άλλως.

Αυτό ακούγεται μικρό πράγμα. Είναι όλη η διαφορά ανάμεσα στο να χειρίζεσαι ένα εργαλείο και στο απλά να σκέφτεσαι φωναχτά.

Και η ταχύτητα είναι πραγματική. Οι περισσότεροι μιλούν γύρω στις 150 λέξεις το λεπτό και πληκτρολογούν γύρω στις 40. Μια μελέτη του Stanford διαπίστωσε ότι η εισαγωγή με φωνή σε ένα τηλέφωνο ήταν τρεις φορές πιο γρήγορη από την πληκτρολόγηση, με λιγότερα σφάλματα. Όμως η ταχύτητα έπαψε να είναι το κύριο δέλεαρ μόλις το αποτέλεσμα έγινε καλό. Το πραγματικό δέλεαρ είναι ότι δεν χάνεις πια τον ειρμό σου εξαιτίας του πληκτρολογίου σου. Αναλύσαμε αυτά τα νούμερα στο γιατί η φωνή σου είναι πιο γρήγορη από το πληκτρολόγιό σου.

Πού τα LLM εξακολουθούν να κάνουν λάθος τη φωνή σε κείμενο

Αυτό είναι γνήσια καλύτερο, όχι μαγεία. Η ίδια νοημοσύνη που καθαρίζει το κείμενό σου μπορεί επίσης να το παρακάνει, και αξίζει να ξέρεις πού.

Μπορεί να αλλάξει το νόημά σου. Όταν ένα μοντέλο «διορθώνει» μια πρόταση, μερικές φορές εξομαλύνει μια λεπτομέρεια που ήθελες ή μαντεύει λάθος την πρόθεσή σου. Όσο πιο τεχνική ή ασυνήθιστη είναι η διατύπωσή σου, τόσο μεγαλύτερος ο κίνδυνος. Δώσε σε οτιδήποτε σημαντικό μια γρήγορη ματιά πριν το στείλεις.

Τα ονόματα και η ορολογία ακόμα το μπερδεύουν. Η μεταγραφή χειρίζεται καλά τις κοινές λέξεις και δυσκολεύεται με τα κύρια ονόματα, τα ονόματα προϊόντων και τους εξειδικευμένους όρους. Ένα μοντέλο μπορεί να μαντέψει από τα συμφραζόμενα, αλλά θα πει με αυτοπεποίθηση λάθος το επώνυμο του συναδέλφου σου.

Οι ομόηχες λέξεις δεν έχουν λυθεί πλήρως. Λέξεις όπως «καλώς» και «κάλος», ή «και» και «κ.», συνήθως βγαίνουν σωστά γιατί βοηθούν τα συμφραζόμενα, αλλά όχι κάθε φορά.

Προσθέτει μια στάλα καθυστέρησης. Ένας καθαρός μεταγραφέας είναι σχεδόν στιγμιαίος. Το να τρέχεις ένα δεύτερο μοντέλο για να γυαλίσει το κείμενο κοστίζει από κλάσμα δευτερολέπτου μέχρι κάνα δυο δευτερόλεπτα. Αξίζει για την ποιότητα, αλλά δεν είναι δωρεάν.

Κανένα από αυτά δεν είναι ανυπέρβλητο μόλις ξέρεις ότι υπάρχει. Είναι ο λόγος που μια γρήγορη ματιά πριν στείλεις εξακολουθεί να αξίζει. Αν θέλεις την πλήρη εικόνα του πώς τρέχει αυτή η ροή από άκρη σε άκρη, γράψαμε έναν οδηγό βήμα προς βήμα για την υπαγόρευση φωνής με AI στο Mac.

Διάγραμμα που δείχνει δύο στοιβαγμένα στρώματα: ένα στρώμα μεταγραφής που μετατρέπει τον ήχο σε λέξεις, και ένα γλωσσικό στρώμα που μετατρέπει τις λέξεις σε καθαρό κείμενο

Τι σημαίνει αυτό για το πώς γράφεις

Το νοητικό μοντέλο που αξίζει να κρατήσεις είναι ότι η φωνή σε κείμενο είναι πλέον δύο εργαλεία στοιβαγμένα μαζί:

1. Ένα στρώμα μεταγραφής που μετατρέπει τον ήχο σε ακριβείς λέξεις. 2. Ένα γλωσσικό στρώμα που μετατρέπει αυτές τις λέξεις σε κείμενο που πραγματικά διαβάζεται καλά.

Η σκέτη μεταγραφή είναι ακόμα η σωστή επιλογή όταν χρειάζεσαι ακριβές αρχείο. Συνεντεύξεις, νομικές σημειώσεις, οτιδήποτε όπου μετράει κάθε «εεε». Για όλα τα υπόλοιπα, όπως email, μηνύματα, έγγραφα και σημειώσεις, το στρώμα γυαλίσματος είναι αυτό που κάνει το μιλάμε πιο γρήγορο από το πληκτρολογούμε αντί απλώς πιο ακατάστατο.

Έτσι, όταν διαλέγεις εργαλείο, το πραγματικό ερώτημα δεν είναι «πόσο ακριβής είναι η μεταγραφή». Τα περισσότερα είναι κοντά τώρα. Το ερώτημα είναι «πόσο καλό είναι το στρώμα από πάνω». Η σύγκρισή μας με τις καλύτερες εφαρμογές φωνής σε κείμενο για Mac αναλύει ποιες κάνουν καλά αυτό το κομμάτι.

Πώς να δοκιμάσεις φωνή σε κείμενο γυαλισμένη από LLM

Ο πιο γρήγορος τρόπος να νιώσεις τη διαφορά είναι να υπαγορεύσεις το επόμενο email σου αντί να το πληκτρολογήσεις, και μετά να κοιτάξεις τι εμφανίζεται στο προσχέδιο. Δεν θα είναι η ακατέργαστη μεταγραφή που θυμάσαι από χρόνια πριν. Θα διαβάζεται σαν να το έγραψες μια καλή σου μέρα.

Αν το θέλεις αυτό χωρίς να συρράπτεις εργαλεία μεταξύ τους, το Voicr κάνει και τα δύο στρώματα σε ένα βήμα. Κράτα το FN, μίλα όπως θέλεις, άφησε, και γυαλισμένο κείμενο καταλήγει στο πρόχειρό σου έτοιμο για επικόλληση. Χρησιμοποιεί το Whisper για τη μεταγραφή και ένα γλωσσικό μοντέλο για το καθάρισμα, με ύφη ανά εφαρμογή ώστε ο τόνος να ταιριάζει όπου κι αν γράφεις. Η δωρεάν βαθμίδα είναι 5.000 λέξεις τον μήνα, χωρίς πιστωτική κάρτα.

Η φωνή σε κείμενο επιτέλους λειτουργεί όπως πάντα έπρεπε. Όχι επειδή οι μηχανές έγιναν καλύτερες στο να σε ακούν, αλλά επειδή επιτέλους έγιναν καλές στο να καταλαβαίνουν τι εννοούσες.