Comment sauvegarder une vidéo YouTube en Markdown (transcription, résumé, timestamps)
YouTube ne veut pas que vous repartiez avec le contenu. Pas de bouton d’export, pas de téléchargement de transcription, pas d’option « copier dans les notes ». La barre latérale des sous-titres vous donne des blocs de sous-titres bruts sans ponctuation. Si vous avez déjà essayé de coller une vidéo YouTube dans Claude ou ChatGPT comme contexte, vous connaissez le problème --- coller l’URL ne donne rien au modèle, parce que le modèle ne peut pas regarder.
Ce guide couvre toutes les méthodes pour convertir une vidéo YouTube en Markdown propre --- d’une conférence isolée à un podcast de plusieurs heures.
Pourquoi sauvegarder les vidéos YouTube en Markdown ?
Le Markdown est le format qui fonctionne partout où une transcription doit aller :
- Le passer à un LLM --- Claude, ChatGPT, Gemini et les modèles locaux lisent tous le Markdown nativement comme contexte
- Le déposer dans Obsidian ou Notion --- un fichier, entièrement cherchable, avec une bonne hiérarchie de titres
- Citer un timestamp précis --- revenir à la « minute 34 » dans une conférence de 2 heures se fait en une recherche
- Archiver une conférence avant qu’elle soit retirée --- des chaînes disparaissent, des vidéos passent en privé, vos notes ne devraient pas dépendre de la disponibilité de YouTube
- Traduire une vidéo en langue étrangère --- une fois en texte, n’importe quel outil de traduction fonctionne dessus
Le cas d’usage qui génère le plus de trafic YouTube-vers-Markdown en 2026 est le premier : les gens veulent poser des questions à un LLM sur une vidéo qu’ils viennent de regarder, et coller l’URL ne marche pas.
Méthode 1 : Minibase (le plus rapide, un clic)
Minibase est une extension Chrome qui transforme n’importe quelle page YouTube en fichier Markdown en un clic. Elle transcrit l’audio avec un modèle de classe Whisper, fait passer un court nettoyage, et produit quelque chose qui se lit vraiment comme de la prose, pas comme des sous-titres bruts.
Comment ça marche :
- Ouvrez la vidéo YouTube dans Chrome
- Cliquez sur l’icône de l’extension Minibase dans votre barre d’outils
- Un fichier
.mdse télécharge instantanément (ou arrive dans votre Minibase Vault si elle est connectée)
Ce que vous obtenez :
- Un résumé généré par IA en haut pour que vous puissiez scanner avant de lire
- Les points clés sous forme de liste à puces
- Transcription complète avec des timestamps toutes les quelques minutes
- Titres de chapitres quand la vidéo en a
- Un frontmatter avec titre, chaîne, date de publication, durée et URL
- Étiquettes de locuteurs quand il y a plus d’une voix
Ce qui est supprimé :
- La barre latérale des vidéos recommandées et la navigation YouTube
- Les pauses publicitaires et les segments de sponsors dans la transcription
- Les commentaires (sauf option explicite)
- Les artefacts répétés des sous-titres auto-générés
Idéal pour : chercheurs, utilisateurs d’IA, étudiants, auditeurs de podcasts. Si vous avez besoin d’une transcription propre que vous collerez dans Claude ou lirez dans Obsidian, c’est la voie la plus directe.
Exemple de sortie
Sauvegarder une conférence de 60 minutes de Karpathy produit :
---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---
## Summary
Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.
## Key Points
- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap
## Full Transcript
[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...
[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...
Ce fichier est à un coller d’être un contexte Claude utilisable, à un raccourci clavier d’être une note Obsidian permanente.
Méthode 2 : les sous-titres YouTube (gratuit, brouillon)
YouTube expose des sous-titres auto-générés via la barre latérale CC. Vous pouvez les extraire et les reformater manuellement.
Étapes :
- Ouvrez la vidéo, cliquez sur le menu
..., choisissez Ouvrir la transcription - Copiez les lignes avec timestamps dans un éditeur de texte
- Retirez les timestamps, ajoutez la ponctuation, corrigez les changements de locuteur à la main
Problèmes de cette approche :
- Les sous-titres auto n’ont ni ponctuation ni frontières de phrases
- Les changements de locuteur ne sont absolument pas marqués
- La musique, les applaudissements et les silences apparaissent comme des artefacts
[Music]/[Applause] - Les longues pauses et les mots de remplissage (« euh », « hum », « genre ») ne sont pas retirés
- La sortie est rarement utilisable comme contexte LLM sans 30 minutes de nettoyage
Acceptable pour un clip de 3 minutes. S’effondre dès que c’est plus long.
Méthode 3 : yt-dlp + Whisper en local
Pour un contrôle total, vous pouvez faire tourner Whisper vous-même sur l’audio.
yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt
Idéal pour : équipes d’ingénierie qui transcrivent à grande échelle, ou quiconque fait tourner Whisper hors ligne pour la confidentialité. Nécessite un environnement Python, quelques Go de disque pour le modèle, et soit un GPU soit de la patience.
Problèmes de cette approche :
- Pas de résumé, pas de points clés, pas de structure propre --- juste du texte brut de transcription
- La diarisation des locuteurs nécessite un modèle séparé (
pyannote.audioou similaire) - Les marqueurs de chapitres de la page YouTube ne sont pas récupérés
- La passe de nettoyage (ponctuation, paragraphes, retrait du remplissage) est une étape séparée
C’est la bonne méthode si vous construisez un pipeline. C’est surdimensionné pour une seule vidéo.
Méthode 4 : services de transcription tiers
Des outils comme Descript, Otter.ai et Sonix peuvent ingérer une URL YouTube et produire une transcription.
Idéal pour : podcasteurs et équipes de contenu qui ont aussi besoin de montage, d’identification des locuteurs et de collaboration en équipe sur la transcription.
Problèmes pour l’usage Markdown :
- La sortie est généralement dans un format propriétaire (projet Descript, notes Otter), pas du Markdown propre
- La plupart sont des services payants avec un coût à la minute qui s’accumule vite
- La transcription est rarement structurée en résumé + points clés + corps
- Conçus pour les workflows de montage vidéo, pas pour alimenter des modèles d’IA
Quelle méthode utiliser ?
| Scénario | Meilleure méthode |
|---|---|
| Coller une vidéo dans Claude ou ChatGPT | Minibase --- un clic, sortie structurée |
| Sauvegarder un podcast à lire plus tard | Minibase --- le résumé rend les contenus longs scannables |
| Citer un moment précis dans une conférence de 2 heures | Minibase --- timestamps préservés |
| Construire un pipeline de transcription interne | yt-dlp + Whisper --- programmable et hors ligne |
| Transcrire pour du montage vidéo | Descript ou Otter --- conçus pour ce workflow |
| Obtenir une transcription rapide et brute d’un clip de 3 min | YouTube CC --- gratuit, rapide, brouillon |
Pour la plupart des gens --- surtout ceux qui utilisent du contenu YouTube comme contexte IA --- Minibase est la réponse. Il produit le Markdown le plus propre sans configuration, et il gère les vidéos longues à la même vitesse qu’un tweet.
Cas limites que Minibase gère
- Vidéos longues (2 à 4 heures). Minibase découpe l’audio en morceaux et recolle la transcription avec des timestamps continus. Le résumé en haut est l’élément clé. Sans lui, personne ne lit 30 000 mots.
- Plusieurs locuteurs. Whisper fait une diarisation basique. Minibase ajoute des étiquettes de locuteurs quand il y a plus d’une voix. Pas toujours parfait sur les émissions d’interview avec des échanges rapides, mais généralement bon sur les podcasts et les panels de conférence.
- Vidéos multilingues. Si l’audio est en français, la transcription reste en français. Pas de traduction forcée. Si vous la voulez en anglais, demandez à Claude de la traduire après.
- Sous-titres auto désactivés. Aucune importance. Minibase transcrit l’audio directement, ne dépend pas de la piste CC de YouTube.
- Shorts. Même pipeline, juste plus rapide. La sortie est plus courte mais a toujours le frontmatter de métadonnées et un résumé.
- Vidéos restreintes ou réservées aux membres. Minibase voit ce que votre navigateur connecté voit. Si vous pouvez la regarder, Minibase peut la transcrire.
- Lives (une fois terminés). Fonctionne sur le VOD archivé une fois que YouTube a fini de le traiter. Les lives en cours ne sont pas supportés.
Couplez-le à votre workflow
La sortie Markdown fonctionne partout où vous en avez besoin :
- Claude / ChatGPT / Gemini --- collez le fichier, posez des questions de suivi sur la vidéo
- Obsidian --- déposez-le dans votre vault, liez-le à des notes connexes, cherchez à travers toutes vos conférences sauvegardées
- Notion --- collez directement, les titres et les blocs de code s’affichent correctement
- Apple Notes --- import propre via l’extension de partage Markdown
- Minibase Vault --- si vous en avez connecté un, chaque sauvegarde YouTube y atterrit automatiquement avec backlinks et tags
FAQ
Est-ce que Minibase fonctionne sur le site mobile ou l’application YouTube ? L’extension est uniquement Chrome desktop pour le moment. Sur mobile, copiez l’URL et ouvrez-la sur desktop, ou collez-la dans une Minibase Vault sur Mac (qui dispose d’un gestionnaire d’URL).
Et YouTube Music ou les playlists ? Vidéos uniques seulement. Les playlists ne sont pas crawlées comme un seul document. Les clips musicaux fonctionnent, mais la transcription n’est que les paroles s’il y en a.
Puis-je obtenir seulement le résumé, sans la transcription complète ? Oui. L’extension vous laisse choisir : transcription seule, résumé seul, ou les deux. Par défaut les deux, parce que les deux sont courts sur la plupart des vidéos.
Est-ce que les chapitres sont préservés ? Si la vidéo a des marqueurs de chapitres, Minibase les utilise comme titres de section dans la transcription. Les vidéos longues deviennent beaucoup plus faciles à naviguer.
La transcription inclut-elle les mots de remplissage ? La passe de nettoyage retire la plupart des « euh », « hum » et faux départs. Elle garde la voix et le ton du locuteur, juste débarrassés du bruit verbal qui rend les transcriptions brutes difficiles à lire.
La transcription est-elle assez précise pour être citée ? Pour un débit normal, oui. Pour du contenu très technique avec des noms propres rares, vérifiez l’orthographe contre la vidéo. Minibase utilise un modèle de classe Whisper, qui est l’état de l’art en anglais et très bon pour la plupart des grandes langues.
Combien ça coûte ? Minibase a un palier gratuit pour que vous puissiez l’essayer sur quelques vidéos. Au-delà, un petit abonnement couvre les coûts de transcription.
Guides Minibase connexes
- Sauvegarder des fils Reddit en Markdown --- les fils avec l’imbrication des commentaires préservée
- Sauvegarder des conversations ChatGPT en Markdown --- chaque tour, blocs de code intacts
- Sauvegarder des repos et issues GitHub en Markdown --- README, issues, discussions de PR, tout dans un fichier
- Sauvegarder des pages Notion en Markdown --- toggles dépliés, bases de données en tableaux
- Sauvegarder des fils Twitter / X en Markdown --- chaque tweet, dans l’ordre, avec attribution
Continue reading
Comment sauvegarder une conversation ChatGPT en Markdown (chaque tour, blocs de code intacts)
Convertissez n'importe quelle conversation ChatGPT en Markdown propre : chaque tour, blocs de code, tableaux, citations. Guide complet 2026.
Comment sauvegarder un fil Reddit en Markdown (avec commentaires et contexte)
Convertissez n'importe quel fil Reddit en Markdown propre avec commentaires imbriqués, karma, flair et marqueurs OP préservés. Guide complet 2026 pour chercheurs et utilisateurs d'IA.
Comment enregistrer une conversation Claude en Markdown (Artifacts, citations, Projects)
Convertissez vos conversations Claude en Markdown propre : chaque tour, les Artifacts en blocs de code, les citations préservées. Guide complet pour chercheurs et utilisateurs d'IA.
Sauvegarder un post Substack en Markdown (paywall géré, sans cross-promo)
Convertissez n'importe quelle newsletter Substack en Markdown propre : corps complet, citations, audio intégré, sans modales d'abonnement. Guide complet 2026.