Vous cherchez une solution simple, rapide et sécurisée pour transcrire des fichiers audio en texte, sans envoyer vos données à des serveurs externes ? Découvrez Whisper Web, une application web libre, conçue pour fonctionner entièrement dans le navigateur, grâce aux dernières avancées en WebAssembly et WebGPU.
👉 Tester l’outil en ligne
📦 Code source disponible sur GitHub
Table of Contents
🔍 Qu’est-ce que Whisper Web ?
Whisper Web est une interface web moderne permettant d’utiliser le modèle de transcription automatique Whisper de OpenAI, directement dans votre navigateur. Contrairement à d’autres solutions qui nécessitent un backend ou une API externe, ici tout se passe localement :
- Aucun fichier audio n’est envoyé sur un serveur.
- Toutes les étapes de traitement (découpage, vectorisation, reconnaissance vocale) s’effectuent côté client.
- Le tout fonctionne même hors ligne après le chargement initial du modèle.
⚙️ Fonctionnalités clés
- 🎤 Transcription audio locale : prise en charge de nombreux formats (WAV, MP3, FLAC…)
- 🧠 Modèle Whisper embarqué : prise en charge des modèles comme
distil-whisper
(via Hugging Face) - 🌐 Multilingue : prise en charge de plusieurs langues grâce à l’intégration i18next
- 🚀 Accélération GPU/WebAssembly : support de WebGPU si disponible, sinon fallback en WASM
- 🔒 Confidentialité assurée : vos données audio ne quittent jamais votre machine
- 🖥️ Interface intuitive : glisser-déposer, affichage en temps réel des sous-titres, TPS (tokens par seconde)
💡 Cas d’usage
- Retranscription d’interviews ou réunions sans passer par un service cloud
- Outils éducatifs ou linguistiques, pour analyser la prononciation et les sous-titres
- Utilisation dans des environnements réglementés (RGPD, données sensibles)
📸 Aperçu de l’interface

L’interface permet de :
- sélectionner un modèle Whisper,
- choisir la langue d’entrée,
- glisser un fichier audio,
- suivre en temps réel la transcription par segments.
🧪 Fonctionnement technique
Whisper Web repose sur une stack moderne :
- React + TypeScript côté frontend
- Hugging Face Transformers.js pour faire tourner les modèles en WebGPU/WASM
- WhisperTextStreamer pour une transcription incrémentale, avec détection des segments et sous-titres horodatés
- Détection dynamique du device WebGPU avec fallback CPU
- i18next pour la gestion multilingue (FR, EN, ES, NO, SV…)
Une attention particulière a été portée à la gestion des erreurs, la récupération automatique en cas de perte GPU (device.lost
), et à l’optimisation des performances pour des machines modérées.
🧪 Technologies utilisées
- Transformers.js (ONNX + Whisper)
- WebGPU pour l’accélération matérielle
- i18next pour la traduction
- React, TailwindCSS, Vite
🧑💻 Contribuer au projet
Le code est libre et disponible sur GitHub :
➡️ https://github.com/pmietlicki/whisper-web
Vous pouvez :
- proposer des traductions supplémentaires,
- signaler des bugs ou comportements inattendus,
- améliorer l’UI ou l’intégration des modèles.
📥 Déploiement local
Un simple :
git clone https://github.com/pmietlicki/whisper-web
cd whisper-web
pnpm install
pnpm dev
… et vous obtenez votre propre instance de Whisper Web localement.
🔐 Respect de la vie privée
Whisper Web ne collecte aucune donnée utilisateur. Aucun tracking, aucun envoi réseau. Il s’agit d’un outil pensé pour la confidentialité.
📣 Conclusion
Whisper Web montre à quel point les technologies modernes du web permettent aujourd’hui d’exécuter des modèles IA avancés sans dépendre du cloud. En permettant la transcription locale avec une interface simple, ce projet allie performance, sécurité et accessibilité.