Powrót do bloga

Voicr Team · 23 maja 2026

Jak tłumaczyć i transkrybować mowę w czasie rzeczywistym na Macu

Napisy na żywo, tłumaczenie na urządzeniu i dyktowanie jednym klawiszem w 100 językach. Wybierz właściwe narzędzie do swojego rzeczywistego scenariusza pracy.

Jak tłumaczyć i transkrybować mowę w czasie rzeczywistym na Macu

Jesteś na rozmowie Zoom z dostawcą z São Paulo, który co chwilę przechodzi na portugalski. Albo oglądasz japońską prezentację produktu, a automatyczne napisy ciągle nie nadążają. Albo myślisz po polsku, ale klient oczekuje e-maili po angielsku.

Trzy zupełnie różne problemy. Wszystkie trzy wrzuca się do jednego worka pod hasłem „tłumaczenie mowy w czasie rzeczywistym na Macu” i właśnie dlatego większość poradników na ten temat wprowadza w błąd. Właściwe narzędzie zależy od tego, który problem faktycznie próbujesz rozwiązać.

Apple wprowadziło Live Translation w macOS 26 zeszłej jesieni. Whisper doczekał się modelu Turbo, który działa na MacBooku Air, nie zamieniając go w grzałkę. Narzędzia do dyktowania, które kiedyś były domeną pasjonatów, są dziś naprawdę dobre. Ten przewodnik pokazuje, co jest dostępne, kiedy każda z opcji faktycznie pasuje i jak je skonfigurować, nie wpadając w pułapkę filmów demonstracyjnych.

Co naprawdę znaczy „w czasie rzeczywistym”

Zanim wybierzesz narzędzie, nazwij scenariusz. Na Macu są trzy wyraźnie różne odmiany „czasu rzeczywistego” i każda wymaga innego oprogramowania:

Napisy na żywo — ktoś inny mówi, a ty chcesz widzieć napisy, najlepiej przetłumaczone, podczas gdy on mówi. Rozmowy, spotkania, wykłady, transmisje. Tu liczy się opóźnienie. 4-sekundowe opóźnienie jest irytujące; 10-sekundowe jest bezużyteczne.

Dyktowanie — to ty mówisz i chcesz na koniec dostać czysty tekst w innym języku. E-maile, wiadomości na Slacku, dokumenty. Transkrypcja i tłumaczenie dzieją się jednym ruchem, kiedy przestajesz mówić. Ważniejsza od strumieniowania słów w trakcie mówienia jest reakcja w ułamku sekundy po zakończeniu.

Transkrypcja plików — masz nagranie (eksport z Zooma, notatkę głosową, podcast) i chcesz przetłumaczoną transkrypcję. To tak naprawdę nie jest czas rzeczywisty. Wrzuć plik do najbardziej dokładnego modelu, jaki znajdziesz, i poczekaj dwie minuty.

Mylenie tych scenariuszy to powód, dla którego ludzie próbują pisać szybkie e-maile narzędziem do transkrypcji spotkań albo robić napisy do filmu na YouTube aplikacją do dyktowania. Najpierw wybierz właściwą kategorię, potem narzędzie.

Wbudowane opcje w macOS

Jeśli masz macOS 26 na Macu z Apple Silicon, Apple daje ci dwa wbudowane narzędzia oraz jedną istotną lukę.

Live Translation (macOS 26)

Live Translation działa w Wiadomościach, FaceTime i nowej aplikacji Telefon na Maca. Napędza je Apple Intelligence i działa na urządzeniu, więc nic nie opuszcza twojego komputera. W trakcie rozmowy FaceTime klikasz przycisk menu, wybierasz Napisy na żywo, a przetłumaczona transkrypcja pojawia się przy górnej krawędzi ekranu.

Haczyk tkwi w liście języków. Dla Live Translation w FaceTime i Telefonie Apple obsługuje angielski, francuski, niemiecki, portugalski (Brazylia) i hiszpański (Hiszpania), a wkrótce dojdą mandaryński, włoski, japoński i koreański. Wiadomości obejmują szerszy zestaw, w tym duński, niderlandzki, norweski, szwedzki, turecki i wietnamski.

Jest darmowe, prywatne, a opóźnienia są w porządku. Działa też wyłącznie wewnątrz aplikacji Apple. Zoom, Google Meet, huddle na Slacku, YouTube — żadne z nich nie przechodzi przez Live Translation.

Napisy na żywo

Włącz Napisy na żywo w Ustawieniach systemowych → Dostępność → Napisy na żywo, a dostaniesz pływające okno, które transkrybuje dowolny dźwięk, jaki łapie twój Mac — dźwięk systemowy, mikrofon albo oba naraz. Działa w każdej aplikacji: Zoom, YouTube, podcast, kolega mówiący obok ciebie.

Napisy na żywo transkrybują, ale nie tłumaczą. W chwili pisania tego tekstu obsługują też wyłącznie angielski. Jeśli twoje spotkanie jest po angielsku i potrzebujesz po prostu tekstu, żeby nadążyć, to jest właściwa odpowiedź. Jeśli spotkanie jest po portugalsku, Napisy na żywo nic ci nie dadzą.

Porównanie trzech scenariuszy tłumaczenia mowy w czasie rzeczywistym na Macu: napisy na żywo na spotkaniach, dyktowanie do pisania i transkrypcja plików

Napisy i tłumaczenia na żywo do rozmów i filmów

Kiedy wbudowane narzędzia Apple nie obsługują twojej rozmowy, lukę wypełnia niewielka grupa aplikacji firm trzecich. Podpinają się do dźwięku systemowego (czyli wszystkiego, co leci przez głośniki Maca) albo do mikrofonu, transkrybują to lokalnym modelem Whisper, a opcjonalnie też tłumaczą. Wszystkie trzy poniższe aplikacje działają na urządzeniu, co ma znaczenie, jeśli prowadzisz poufną rozmowę.

MacWhisper — Jedna z najdłużej obecnych aplikacji macowych w tej kategorii. Napisy na żywo z tłumaczeniem, działa na Whisperze i Nvidia Parakeet, obsługuje przechwytywanie dźwięku systemowego z dowolnego narzędzia do spotkań. Solidna pod Zoom, Meet, Teams. Wersja Pro to jednorazowy zakup.

Superwhisper — Łączy transkrypcję na żywo z dyktowaniem opartym o Whisper. Obsługuje ponad 100 języków i potrafi przetłumaczyć każdy z nich na angielski. Próbuje być jednocześnie narzędziem do napisów i dyktowania, co sprawdza się, jeśli chcesz mieć jedną aplikację do obu zadań, ale oznacza, że strona dyktowania jest cięższa niż w aplikacji wyspecjalizowanej.

Transcrybe — Nowsza, lżejsza, skupiona wyłącznie na tłumaczeniu w czasie rzeczywistym. Wyłącznie na urządzeniu. Interfejs zbudowany wokół scenariusza „ktoś mówi w języku, którego nie znam — pokaż mi, co mówi”. Dobre do podróży, rozmów ze wsparciem, oglądania treści w obcym języku.

Wybierz w oparciu o to, jak często ten scenariusz cię dotyczy. Jeśli żyjesz w międzynarodowych rozmowach, MacWhisper albo Superwhisper zasługują na miejsce w pasku menu. Jeśli potrzebujesz tego tylko sporadycznie, Live Translation Apple w FaceTime może wystarczyć.

Dyktowanie w jednym języku, pisanie w innym

Najczęstsza potrzeba „tłumaczenia w czasie rzeczywistym” nie ma nic wspólnego z tym, że ktoś inny mówi. Chodzi o *ciebie* — myślisz w swoim języku, ale na papierze potrzebujesz angielskiego, bo tego oczekuje praca.

Jeśli jesteś Polakiem, Hiszpanem albo Francuzem i piszesz dużo po angielsku w pracy, znasz ten podatek. Układasz zdanie w głowie w swoim języku, mentalnie je tłumaczysz, a potem wpisujesz tłumaczenie. Każdy e-mail to dwa szkice: ten, który napisałeś w głowie, i ten, który wystukały twoje palce.

Właściwe narzędzie wygląda tu inaczej niż w przypadku napisów na żywo. Nie potrzebujesz strumieniowych napisów. Potrzebujesz: przytrzymaj jeden klawisz, mów naturalnie w swoim języku, puść klawisz, a w schowku ląduje dopracowany tekst w języku docelowym, gotowy do wklejenia gdziekolwiek (Gmail, Slack, Notion, ticket w Jirze).

Tę lukę wypełnia Voicr. Przytrzymaj FN, mów w jednym ze 100 języków, ustaw angielski jako docelowy, a tym, co się wkleja, jest czysty angielski — nie surowa transkrypcja przepuszczona przez osobne tłumaczenie. Transkrypcja i tłumaczenie dzieją się w jednym kroku zamiast w schemacie mowa → transkrypt → kopiuj → tłumacz → wklej. Całość zajmuje mniej więcej tyle, ile twoja wypowiedź.

Jest też tryb automatycznego wykrywania, który rozpoznaje język wypowiedzi na podstawie samego dźwięku, więc jeśli przeskakujesz np. między polskim do prywatnego Slacka i angielskim do maili z klientem, nie otwierasz żadnego okienka wyboru. Drobiazg, łatwo go przeoczyć w liście funkcji. Dłuższy opis znajdziesz w Voice-to-Text w 100 językach na Macu.

Transkrypcja nagranego dźwięku

Jeśli masz plik (nagranie z Zooma, notatkę głosową, wywiad, podcast), „czas rzeczywisty” to nie jest właściwa rama. Wrzuć plik do narzędzia opartego o Whisper, które działa w pełnej jakości, i pozwól mu pracować dwie minuty. Liczy się dokładność.

MacWhisper i Whisper Transcription dobrze sobie z tym radzą. Tak samo bezpośrednie API OpenAI, jeśli czujesz się komfortowo ze skryptem. W kwestii tłumaczenia warto pamiętać, że wbudowane tłumaczenie Whispera działa tylko w jedną stronę: dowolny język → angielski. Jeśli potrzebujesz drugiej strony (np. angielski → japoński), przepuść transkrypt przez osobny model tłumaczeniowy, np. Claude, GPT albo DeepL.

Pomiń tę sekcję, jeśli twój materiał jest zawsze na żywo. Ale jeśli nagrywasz wywiady albo ściągasz transkrypcje ze starych spotkań, workflow offline jest tańszy, dokładniejszy i łatwiejszy do poprawienia niż strumieniowanie.

Wybór odpowiedniego zestawu do twojego workflowu

Krótkie drzewko decyzyjne:

1. Chcę napisów podczas rozmowy w FaceTime albo Wiadomościach → Apple Live Translation. Za darmo, wbudowane, na urządzeniu. 2. Chcę napisów podczas rozmowy w Zoomie/Meecie/Teamsach w języku, którego nie znam → MacWhisper, Superwhisper albo Transcrybe. Wybierz jedną. 3. Chcę dyktować w swoim języku i dostawać angielski tekst do wklejenia gdziekolwiek → Jednoklawiszowe narzędzie do dyktowania, np. Voicr. To codzienny scenariusz dla dwujęzycznych profesjonalistów. 4. Chcę przepisać nagrany plik w innym języku i dostać angielski → MacWhisper albo dowolna desktopowa aplikacja oparta o Whispera. Offline, model w pełnej jakości, dwie minuty czekania.

Większość ludzi kończy z dwoma narzędziami, nie jednym: czymś do napisów na żywo, kiedy są potrzebne (sporadycznie), i czymś do codziennego dyktowania (cały czas). Taki podział jest normalny. Narzędzie do napisów i narzędzie do dyktowania są optymalizowane pod różne rzeczy, a próba zmuszenia jednego do robienia obu zwykle kończy się tym, że obie funkcje wychodzą gorzej.

Realistyczne oczekiwania

Kilka rzeczy, o których każde demo zapomina, a warto je znać przed wdrożeniem:

Opóźnienie istnieje. Nawet Whisper działający na urządzeniu ma 1–3 sekundy opóźnienia dla napisów na żywo. Narzędzia chmurowe dodają kolejne 1–2 sekundy. Planuj z tym założeniem. Nie próbuj napisami na żywo śledzić szybkiej debaty politycznej, zostaniesz w tyle.

Jakość tłumaczenia spada poza ~10 najpopularniejszych języków. Sam Whisper jest świetny dla angielskiego, hiszpańskiego, francuskiego, niemieckiego, portugalskiego, włoskiego, mandaryńskiego i japońskiego. Wyraźnie słabnie przy tajskim, kantońskim, wietnamskim i większości języków afrykańskich. Jeśli twój język jest z długiego ogona, przetestuj zanim się na nim oprzesz.

Przechwytywanie dźwięku systemowego wymaga uprawnień. macOS domyślnie nie pozwala aplikacji nasłuchiwać dźwięku systemowego. Każde narzędzie z kategorii napisów na żywo poprowadzi cię przez przyznanie uprawnień do Nagrywania ekranu albo audio loopback przy pierwszym uruchomieniu. To normalne. To także powód, dla którego niektóre aplikacje wymagają jednorazowej instalacji wirtualnego urządzenia audio.

Prywatność bywa różna. Narzędzia Apple i większość aplikacji opartych o Whispera działa w pełni na urządzeniu. Wszystko, co wysyła dźwięk do chmurowego API (niektóre „asystenci spotkań AI”), to inny kompromis. Jeśli pracujesz w prawie, ochronie zdrowia albo w czymkolwiek regulowanym, sprawdź to, zanim uruchomisz narzędzie w rozmowie z klientem.

Dwujęzyczny profesjonalista mówi w swoim ojczystym języku, a w szkicu e-maila na Macu pojawia się czysty tekst po angielsku

Praktyczny punkt startowy

Najłatwiejszy punkt startowy, niezależnie od celu, to wybranie jednego scenariusza, na który trafiasz najczęściej w tym tygodniu. Nie tego rzadkiego. Tego codziennego.

Jeśli masz dużo międzynarodowych spotkań, zainstaluj jedno narzędzie do napisów na żywo, zostaw je w pasku menu i używaj go przez dwa tygodnie, zanim coś zdecydujesz. Jeśli piszesz dużo po angielsku, myśląc w innym języku, spróbuj zastąpić następnych dziesięć e-maili, które normalnie byś napisał, dyktowaniem w swoim języku i pozwól narzędziu wyprodukować angielski.

Voicr odpowiada konkretnie za scenariusz dyktowania. Przytrzymaj FN, mów w swoim języku, ustaw angielski jako docelowy, wklej gdziekolwiek. Jest darmowy plan (5000 słów miesięcznie, bez karty kredytowej), który wystarczy, żeby sprawdzić, czy taki workflow faktycznie pasuje do tego, jak piszesz. W przypadku napisów na żywo MacWhisper ma darmową wersję z podstawowym modelem Whispera, która wystarczy, żeby przetestować doświadczenie przed zapłaceniem.

Technologia przestała być wąskim gardłem już jakiś czas temu. Ciekawe pytanie brzmi teraz, który workflow faktycznie wdrożysz i będziesz używał, a to sprowadza się do wybrania właściwego narzędzia do konkretnego tarcia, na które wciąż trafiasz. Więcej o stronie dyktowania znajdziesz w Jak naprawdę działa dyktowanie głosowe na Macu — przewodnik po tym, co dzieje się między twoim głosem a dopracowanym tekstem w schowku.