Comment sauvegarder une vidéo YouTube en Markdown (transcription, résumé, timestamps)

·

YouTube ne veut pas que vous repartiez avec le contenu. Pas de bouton d’export, pas de téléchargement de transcription, pas d’option « copier dans les notes ». La barre latérale des sous-titres vous donne des blocs de sous-titres bruts sans ponctuation. Si vous avez déjà essayé de coller une vidéo YouTube dans Claude ou ChatGPT comme contexte, vous connaissez le problème --- coller l’URL ne donne rien au modèle, parce que le modèle ne peut pas regarder.

Ce guide couvre toutes les méthodes pour convertir une vidéo YouTube en Markdown propre --- d’une conférence isolée à un podcast de plusieurs heures.

Pourquoi sauvegarder les vidéos YouTube en Markdown ?

Le Markdown est le format qui fonctionne partout où une transcription doit aller :

  • Le passer à un LLM --- Claude, ChatGPT, Gemini et les modèles locaux lisent tous le Markdown nativement comme contexte
  • Le déposer dans Obsidian ou Notion --- un fichier, entièrement cherchable, avec une bonne hiérarchie de titres
  • Citer un timestamp précis --- revenir à la « minute 34 » dans une conférence de 2 heures se fait en une recherche
  • Archiver une conférence avant qu’elle soit retirée --- des chaînes disparaissent, des vidéos passent en privé, vos notes ne devraient pas dépendre de la disponibilité de YouTube
  • Traduire une vidéo en langue étrangère --- une fois en texte, n’importe quel outil de traduction fonctionne dessus

Le cas d’usage qui génère le plus de trafic YouTube-vers-Markdown en 2026 est le premier : les gens veulent poser des questions à un LLM sur une vidéo qu’ils viennent de regarder, et coller l’URL ne marche pas.

Méthode 1 : Minibase (le plus rapide, un clic)

Minibase est une extension Chrome qui transforme n’importe quelle page YouTube en fichier Markdown en un clic. Elle transcrit l’audio avec un modèle de classe Whisper, fait passer un court nettoyage, et produit quelque chose qui se lit vraiment comme de la prose, pas comme des sous-titres bruts.

Comment ça marche :

  1. Ouvrez la vidéo YouTube dans Chrome
  2. Cliquez sur l’icône de l’extension Minibase dans votre barre d’outils
  3. Un fichier .md se télécharge instantanément (ou arrive dans votre Minibase Vault si elle est connectée)

Ce que vous obtenez :

  • Un résumé généré par IA en haut pour que vous puissiez scanner avant de lire
  • Les points clés sous forme de liste à puces
  • Transcription complète avec des timestamps toutes les quelques minutes
  • Titres de chapitres quand la vidéo en a
  • Un frontmatter avec titre, chaîne, date de publication, durée et URL
  • Étiquettes de locuteurs quand il y a plus d’une voix

Ce qui est supprimé :

  • La barre latérale des vidéos recommandées et la navigation YouTube
  • Les pauses publicitaires et les segments de sponsors dans la transcription
  • Les commentaires (sauf option explicite)
  • Les artefacts répétés des sous-titres auto-générés

Idéal pour : chercheurs, utilisateurs d’IA, étudiants, auditeurs de podcasts. Si vous avez besoin d’une transcription propre que vous collerez dans Claude ou lirez dans Obsidian, c’est la voie la plus directe.

Exemple de sortie

Sauvegarder une conférence de 60 minutes de Karpathy produit :

---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---

## Summary

Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.

## Key Points

- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap

## Full Transcript

[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...

[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...

Ce fichier est à un coller d’être un contexte Claude utilisable, à un raccourci clavier d’être une note Obsidian permanente.

Méthode 2 : les sous-titres YouTube (gratuit, brouillon)

YouTube expose des sous-titres auto-générés via la barre latérale CC. Vous pouvez les extraire et les reformater manuellement.

Étapes :

  1. Ouvrez la vidéo, cliquez sur le menu ..., choisissez Ouvrir la transcription
  2. Copiez les lignes avec timestamps dans un éditeur de texte
  3. Retirez les timestamps, ajoutez la ponctuation, corrigez les changements de locuteur à la main

Problèmes de cette approche :

  • Les sous-titres auto n’ont ni ponctuation ni frontières de phrases
  • Les changements de locuteur ne sont absolument pas marqués
  • La musique, les applaudissements et les silences apparaissent comme des artefacts [Music] / [Applause]
  • Les longues pauses et les mots de remplissage (« euh », « hum », « genre ») ne sont pas retirés
  • La sortie est rarement utilisable comme contexte LLM sans 30 minutes de nettoyage

Acceptable pour un clip de 3 minutes. S’effondre dès que c’est plus long.

Méthode 3 : yt-dlp + Whisper en local

Pour un contrôle total, vous pouvez faire tourner Whisper vous-même sur l’audio.

yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt

Idéal pour : équipes d’ingénierie qui transcrivent à grande échelle, ou quiconque fait tourner Whisper hors ligne pour la confidentialité. Nécessite un environnement Python, quelques Go de disque pour le modèle, et soit un GPU soit de la patience.

Problèmes de cette approche :

  • Pas de résumé, pas de points clés, pas de structure propre --- juste du texte brut de transcription
  • La diarisation des locuteurs nécessite un modèle séparé (pyannote.audio ou similaire)
  • Les marqueurs de chapitres de la page YouTube ne sont pas récupérés
  • La passe de nettoyage (ponctuation, paragraphes, retrait du remplissage) est une étape séparée

C’est la bonne méthode si vous construisez un pipeline. C’est surdimensionné pour une seule vidéo.

Méthode 4 : services de transcription tiers

Des outils comme Descript, Otter.ai et Sonix peuvent ingérer une URL YouTube et produire une transcription.

Idéal pour : podcasteurs et équipes de contenu qui ont aussi besoin de montage, d’identification des locuteurs et de collaboration en équipe sur la transcription.

Problèmes pour l’usage Markdown :

  • La sortie est généralement dans un format propriétaire (projet Descript, notes Otter), pas du Markdown propre
  • La plupart sont des services payants avec un coût à la minute qui s’accumule vite
  • La transcription est rarement structurée en résumé + points clés + corps
  • Conçus pour les workflows de montage vidéo, pas pour alimenter des modèles d’IA

Quelle méthode utiliser ?

ScénarioMeilleure méthode
Coller une vidéo dans Claude ou ChatGPTMinibase --- un clic, sortie structurée
Sauvegarder un podcast à lire plus tardMinibase --- le résumé rend les contenus longs scannables
Citer un moment précis dans une conférence de 2 heuresMinibase --- timestamps préservés
Construire un pipeline de transcription interneyt-dlp + Whisper --- programmable et hors ligne
Transcrire pour du montage vidéoDescript ou Otter --- conçus pour ce workflow
Obtenir une transcription rapide et brute d’un clip de 3 minYouTube CC --- gratuit, rapide, brouillon

Pour la plupart des gens --- surtout ceux qui utilisent du contenu YouTube comme contexte IA --- Minibase est la réponse. Il produit le Markdown le plus propre sans configuration, et il gère les vidéos longues à la même vitesse qu’un tweet.

Cas limites que Minibase gère

  • Vidéos longues (2 à 4 heures). Minibase découpe l’audio en morceaux et recolle la transcription avec des timestamps continus. Le résumé en haut est l’élément clé. Sans lui, personne ne lit 30 000 mots.
  • Plusieurs locuteurs. Whisper fait une diarisation basique. Minibase ajoute des étiquettes de locuteurs quand il y a plus d’une voix. Pas toujours parfait sur les émissions d’interview avec des échanges rapides, mais généralement bon sur les podcasts et les panels de conférence.
  • Vidéos multilingues. Si l’audio est en français, la transcription reste en français. Pas de traduction forcée. Si vous la voulez en anglais, demandez à Claude de la traduire après.
  • Sous-titres auto désactivés. Aucune importance. Minibase transcrit l’audio directement, ne dépend pas de la piste CC de YouTube.
  • Shorts. Même pipeline, juste plus rapide. La sortie est plus courte mais a toujours le frontmatter de métadonnées et un résumé.
  • Vidéos restreintes ou réservées aux membres. Minibase voit ce que votre navigateur connecté voit. Si vous pouvez la regarder, Minibase peut la transcrire.
  • Lives (une fois terminés). Fonctionne sur le VOD archivé une fois que YouTube a fini de le traiter. Les lives en cours ne sont pas supportés.

Couplez-le à votre workflow

La sortie Markdown fonctionne partout où vous en avez besoin :

  • Claude / ChatGPT / Gemini --- collez le fichier, posez des questions de suivi sur la vidéo
  • Obsidian --- déposez-le dans votre vault, liez-le à des notes connexes, cherchez à travers toutes vos conférences sauvegardées
  • Notion --- collez directement, les titres et les blocs de code s’affichent correctement
  • Apple Notes --- import propre via l’extension de partage Markdown
  • Minibase Vault --- si vous en avez connecté un, chaque sauvegarde YouTube y atterrit automatiquement avec backlinks et tags

FAQ

Est-ce que Minibase fonctionne sur le site mobile ou l’application YouTube ? L’extension est uniquement Chrome desktop pour le moment. Sur mobile, copiez l’URL et ouvrez-la sur desktop, ou collez-la dans une Minibase Vault sur Mac (qui dispose d’un gestionnaire d’URL).

Et YouTube Music ou les playlists ? Vidéos uniques seulement. Les playlists ne sont pas crawlées comme un seul document. Les clips musicaux fonctionnent, mais la transcription n’est que les paroles s’il y en a.

Puis-je obtenir seulement le résumé, sans la transcription complète ? Oui. L’extension vous laisse choisir : transcription seule, résumé seul, ou les deux. Par défaut les deux, parce que les deux sont courts sur la plupart des vidéos.

Est-ce que les chapitres sont préservés ? Si la vidéo a des marqueurs de chapitres, Minibase les utilise comme titres de section dans la transcription. Les vidéos longues deviennent beaucoup plus faciles à naviguer.

La transcription inclut-elle les mots de remplissage ? La passe de nettoyage retire la plupart des « euh », « hum » et faux départs. Elle garde la voix et le ton du locuteur, juste débarrassés du bruit verbal qui rend les transcriptions brutes difficiles à lire.

La transcription est-elle assez précise pour être citée ? Pour un débit normal, oui. Pour du contenu très technique avec des noms propres rares, vérifiez l’orthographe contre la vidéo. Minibase utilise un modèle de classe Whisper, qui est l’état de l’art en anglais et très bon pour la plupart des grandes langues.

Combien ça coûte ? Minibase a un palier gratuit pour que vous puissiez l’essayer sur quelques vidéos. Au-delà, un petit abonnement couvre les coûts de transcription.

Guides Minibase connexes

Continue reading

S

Written by

Save Team

Learn more about Minibase

Prêt à sauvegarder plus intelligemment ?

Convertissez n'importe quelle page web en Markdown en un clic.

Ajouter à Chrome