Jag var halvvägs in i ett Slack-svar när insikten slog mig. Jag hade tänkt samma mening i tolv sekunder medan fingrarna kämpade sig igenom de fyra första orden. Hjärnan stod på tomgång och väntade på att händerna skulle hinna i kapp.
Det var ögonblicket då jag gav röstdiktering en riktig chans. Inte det halvhjärtade "jag testar för en mötesanteckning" som jag redan hade gett upp två gånger. En hel månad, varje långt meddelande, varje mejl, varje dokument. Här är vad som faktiskt hände.
Säljpitchen låter som hype tills du ser siffrorna. En genomsnittlig person skriver runt 40 ord per minut. Samma person pratar i 130 till 150. Forskare på Stanford gjorde jämförelsen redan 2017 och kom fram till att röstinmatning är ungefär 3x snabbare än att skriva på en telefon, även för dem som skriver fort. Samma förhållande gäller i stort sett även på ett Mac-tangentbord.
Matten är brutal: 40 WPM mot 150 WPM
Vi kan lika gärna ta den biten direkt. De flesta otränade vuxna skriver runt 38 till 40 WPM. Tränade maskinskrivare, de som aldrig tittar på tangentbordet, ligger på toppen runt 65. Konversations-svenska landar på 130 till 150 WPM. Även mot en snabb skribent är det mer än 2x. Mot en genomsnittlig person är det närmare 3,75x.
Så långt teorin. Praktiken är mer intressant. Första gången du faktiskt tar tid på dig själv när du dikterar ett mejl jämfört med att skriva det, är skillnaden inte så stor som matten antyder. Varför? För att skriva är en rörelse. Att diktera är prata, korrekturläsa, kanske diktera om en mening, sedan klistra in. Städskatten äter upp vinsten.
Lösningen ligger i verktyget. Gammal diktering ger dig en rå transkription med varje "öh", varje "hmm", varje "så det jag egentligen menar är". Nyare verktyg putsar det till ren text i ett enda steg. När städningen sker automatiskt blir 3x verklig.
Hur "3x snabbare" faktiskt ser ut i en riktig arbetsdag
Så här såg en vanlig tisdag ut för mig innan bytet. Sex längre Slack-meddelanden (~80 ord vardera), fyra mejl (~120 ord vardera), två korta dokument (~400 ord), en handfull enradssvar. Total textproduktion: runt 1 800 ord. Tid vid tangentbordet, exklusive tänktid: ungefär 45 minuter.
Samma volym efter bytet. Total taltid, inklusive städning, hamnade på runt 14 minuter. Nästan exakt 3x. Det som överraskade mig var inte tidsvinsten. Det var vart tiden tog vägen. Jag slutade öppna ett utkast, gå därifrån, komma tillbaka och skriva om hela grejen. Tanken lämnade huvudet och landade på skärmen i ett enda svep.

Där diktering funkar bra för mig: - Långa Slack-trådar - Mejlsvar som är mer än två meningar - Mötesanteckningar under mötet - Första utkast av allt - Brain-dump-dokument - Röstanteckningar som senare blir dokument
Där det inte hjälper: - Korta svar ("ok", "tack") - Kod - Strukturerade tabeller - Lösenord - Sånt du måste tänka hårt på, ord för ord
Vecka ett var katastrof. Här är vad som gick fel.
Jag var nära att ge upp på dag tre. Första problemet var att överhuvudtaget prata med datorn. Det kändes utstuderat. Jag började en mening, tappade modet, stannade och slutade med en halvtranskriberad tanke som tog längre tid att fixa än att bara skriva.
Andra problemet var att jag försökte för mycket. Jag pratade som om jag dikterade ett formellt brev, långsamt och försiktigt, artikulerade varje ord. Resultatet blev robotaktigt och hastighetsfördelen försvann. Jag skrev bara med munnen, dåligt.
Lösningen visade sig vara raka motsatsen till vad jag förväntade mig. Prata snabbare, inte långsammare. Prata som om du förklarar något för en kollega, inklusive falska starter och "nej förresten, glöm det, låt mig säga det på ett annat sätt". Ett bra putsverktyg städar bort sånt. Sluta försöka diktera. Bara prata.
Genombrottet: att veta när man inte ska diktera
Det som tippade röstdiktering från "experiment då och då" till "standardinmatning" var en mental modell: röst för *första utkast*, tangentbord för *redigering*. Tangentbordet är precist. Rösten är snabb. Tala in den stökiga versionen, och fixa sedan det enda ord som blev fel med tangentbordet.
Det låter självklart i efterhand. Det var det inte när jag började. Jag försökte hela tiden diktera perfekt prosa och blev frustrerad när det putsade resultatet inte var *exakt* det jag ville ha. Det som till slut hjälpte var att sänka kraven på det dikterade utkastet. Få ut idén. Fixa den på två sekunder med tangentbordet. Vidare.
Det är också därför putsa-medan-du-pratar-flödet betyder så mycket. Om du måste diktera, sedan manuellt städa utfyllnadsord, sedan fixa grammatiken, sedan formatera för appen du är i, då är hastighetsfördelen borta. Hela poängen är att städningen sker automatiskt. När du slutat prata är texten redan klar att klistra in. Voicr gör precis det på Mac: håll in FN, prata, släpp, klistra in. Städningen körs i bakgrunden.
Flödet som blev kvar (Slack, mejl, dokument)
En månad in hade tre flöden satt sig. Vart och ett krävde lite olika inställningar.

Slack och chatt
Det här var den största vinsten. Jag skriver mycket långa Slack-meddelanden: förklaringar av beslut, post-mortems, långa trådar. Det brukade ta tio minuter. Nu tar det tre. Jag dikterar meddelandet i ett svep, klistrar in, ögnar igenom efter typos, skickar. (Voice to text in Slack on Mac går igenom upplägget per kanal.)
Mejl
Mejl var där jag förväntade mig den största vinsten och fick det rörigaste resultatet till en början. Problemet: mejl har en ton. Du kan inte diktera ett svar till chefen på samma sätt som du dikterar ett Slack-meddelande till en kollega. Lösningen var att använda en stil per app. Formell för mejl, ledig för chatt. (How to dictate emails on Mac går igenom detta i detalj.)
Dokument och anteckningar
Dokument är det knepigaste fallet. Korta anteckningar funkar utmärkt. Diktera, klistra in, klart. Långa dokument gör det inte, för där är tänkandet strukturellt. Du skriver inte meningar. Du skissar avsnitt, flyttar runt grejer, omorganiserar. För långa dokument dikterar jag stycke för stycke och håller strukturen på tangentbordet.
Vad jag vann som inte var hastighet
3x är rubriken. De oväntade vinsterna är större.
Färre halvfärdiga utkast. När skrivandet är flaskhalsen börjar varje långt meddelande som ett utkast du tänker avsluta senare. De flesta dör i utkastmappen. Rösten stänger gapet mellan tanke och utfört. Jag skickar saker nu som tidigare låg oavsända i två dagar.
Mindre belastning på handlederna. Jag tänker inte påstå att röstdiktering botade mina händer. Men skillnaden mellan 6 timmars skrivande och 2 timmars skrivande är högst verklig, och mina handleder känner det på fredagskvällen.
Bättre första utkast. Det här var en överraskning. När du talar igenom en tanke strukturerar du den naturligt så som en människa skulle förklara den. Skrivna första utkast tenderar att bli stelare. De låter skrivna, för det är de. Dikterade utkast låter som en människa, vilket oftast är precis det du vill ha.
Haken som ingen varnar dig för
Två riktiga nackdelar. Båda har lösningar, men de är värda att känna till innan du ger dig in i det.
Du kan inte diktera i ett öppet kontorslandskap. Eller på ett kafé. Eller någonstans där en annan person hör vad du säger. Det låter självklart men det är en större begränsning än det verkar. Om din arbetsmiljö är delad blir röstdiktering ett "bara hemmadagar"-verktyg, vilket begränsar produktivitetsvinsten.
Det finns fortfarande en städskatt, även med bra verktyg. Den är liten. Kanske en fix per stycke istället för en per mening. Men den är inte noll. Matten går fortfarande ihop med stor marginal, men att låtsas att städningen är noll kommer att leda till besvikelse.
Så testar du faktiskt det här utan att ge upp på tre dagar
Några regler jag önskar att någon gett mig dag ett.
Börja med en app, inte alla. Välj appen där du skriver mest lågdramatisk långtext. För mig: Slack. Använd röst i den appen och bara den i en vecka. Försök inte ställa om hela arbetsflödet på en gång.
Sätt en skepsisgräns på en vecka. Dag tre blir kass. Dag fem blir okej. Dag sju börjar du känna gapet när du går tillbaka till tangentbordet. Om du ger upp dag tre kommer du aldrig fram till dag sju.
Använd ett verktyg som putsar som standard. Det här är den enskilt största faktorn. Råa transkriptionsverktyg slösar bort vinsten i städning. Ett verktyg som tar bort utfyllnadsord, fixar grammatiken och strukturerar resultatet automatiskt är det enda slaget där 3x faktiskt visar sig.
Diktera aldrig framför andra människor. Inte för att det är högljutt (det är det inte). För att självmedvetenheten dödar din hastighet. Hitta en privat plats den första månaden.
Var du börjar
Ärlig sammanfattning: röstdiktering funkar. Inte i "det här förändrar allt"-meningen som marknadsföringen lovar. I "jag är klar 16.00 nu"-meningen. 3x är på riktigt, och varje verktyg som inte sköter städningen åt dig är anledningen till att folk ger upp dikteringen redan vecka ett.
Snabbaste sättet att testa det själv är att diktera ditt nästa långa Slack-meddelande istället för att skriva det. Vill du att städningen sköts automatiskt, med tal putsat till färdig text i ett enda steg och en stil per app, är det precis det Voicr gör på Mac. Håll in FN var som helst, prata i trettio sekunder, släpp, klistra in. Testa på ett meddelande i morgon bitti. I slutet av veckan vet du om 3x stämmer för dig.

