Cómo guardar un vídeo de YouTube como Markdown (transcripción, resumen, marcas de tiempo)

·

YouTube no quiere que te lleves el contenido. No hay botón de exportar, ni descarga de transcripción, ni opción de «copiar a notas». La barra lateral de subtítulos te entrega bloques de subtítulos sin puntuación. Si alguna vez has intentado pegar un vídeo de YouTube en Claude o ChatGPT como contexto, ya conoces el problema --- pegar la URL no le da nada al modelo, porque el modelo no puede ver.

Esta guía cubre todos los métodos para convertir un vídeo de YouTube en Markdown limpio --- desde una charla puntual hasta un podcast de varias horas.

¿Por qué guardar vídeos de YouTube como Markdown?

Markdown es el formato que funciona en cualquier lugar al que tenga que ir una transcripción:

  • Pasárselo a un LLM --- Claude, ChatGPT, Gemini y los modelos locales leen Markdown como contexto de forma nativa
  • Soltarlo en Obsidian o Notion --- un solo archivo, totalmente buscable, con jerarquía de títulos
  • Citar una marca de tiempo concreta --- volver al «minuto 34» de una charla de 2 horas está a una búsqueda
  • Archivar una charla antes de que la retiren --- los canales desaparecen, los vídeos se hacen privados, tus notas no deberían depender del uptime de YouTube
  • Traducir un vídeo en otro idioma --- una vez convertido en texto, cualquier herramienta de traducción funciona sobre él

El caso de uso que mueve la mayor parte del tráfico YouTube-a-Markdown en 2026 es el primero: la gente quiere hacerle preguntas a un LLM sobre un vídeo que acaba de ver, y pegar la URL no funciona.

Método 1: Minibase (el más rápido, un solo clic)

Minibase es una extensión de Chrome que convierte cualquier página de YouTube en un archivo Markdown con un solo clic. Transcribe el audio con un modelo de clase Whisper, hace una pasada corta de limpieza y produce algo que se lee como prosa, no como subtítulos en bruto.

Cómo funciona:

  1. Abre el vídeo de YouTube en Chrome
  2. Haz clic en el icono de la extensión Minibase en tu barra de herramientas
  3. Se descarga un archivo .md al instante (o llega a tu Minibase Vault si está conectada)

Lo que obtienes:

  • Resumen generado por IA arriba para que puedas escanear antes de leer
  • Puntos clave como lista con viñetas
  • Transcripción completa con marcas de tiempo cada pocos minutos
  • Títulos de capítulo cuando el vídeo los tiene
  • Frontmatter con título, canal, fecha de publicación, duración y URL
  • Etiquetas de hablante cuando hay más de una voz

Lo que se elimina:

  • Barra lateral de vídeos recomendados y navegación de YouTube
  • Cortes publicitarios y segmentos de patrocinador dentro de la transcripción
  • Comentarios (salvo que se active expresamente)
  • Artefactos repetidos de subtítulos autogenerados

Ideal para: investigadores, usuarios de IA, estudiantes y oyentes de podcasts. Si necesitas una transcripción limpia para pegar en Claude o leer en Obsidian, este es el camino más directo.

Ejemplo de salida

Guardar una charla de Karpathy de 60 minutos produce:

---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---

## Summary

Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.

## Key Points

- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap

## Full Transcript

[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...

[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...

Ese archivo está a un pegado de ser contexto utilizable para Claude, a una pulsación de ser una nota permanente en Obsidian.

Método 2: subtítulos de YouTube (gratis, sucio)

YouTube expone subtítulos autogenerados a través de la barra lateral de CC. Puedes extraerlos y reformatearlos a mano.

Pasos:

  1. Abre el vídeo, haz clic en el menú ..., elige Abrir transcripción
  2. Copia las líneas con marcas de tiempo en un editor de texto
  3. Quita las marcas de tiempo, añade puntuación, arregla los cambios de hablante a mano

Problemas de este enfoque:

  • Los subtítulos automáticos no tienen puntuación ni límites de frase
  • Los cambios de hablante no están marcados en absoluto
  • La música, los aplausos y los silencios aparecen como artefactos [Music] / [Applause]
  • Las pausas largas y las muletillas («eh», «mmm», «o sea») no se eliminan
  • La salida rara vez sirve como contexto para un LLM sin 30 minutos de limpieza

Aceptable para un clip de 3 minutos. Se cae con cualquier cosa más larga.

Método 3: yt-dlp + Whisper en local

Para tener control total, puedes ejecutar Whisper tú mismo sobre el audio.

yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt

Ideal para: equipos de ingeniería que transcriben a escala, o cualquiera que ejecute Whisper offline por privacidad. Requiere un entorno Python, unos GB de disco para el modelo y, o bien una GPU, o bien paciencia.

Problemas de este enfoque:

  • Sin resumen, sin puntos clave, sin estructura limpia --- solo texto de transcripción en bruto
  • La diarización de hablantes necesita un modelo aparte (pyannote.audio o similar)
  • Los marcadores de capítulo de la página de YouTube no se recuperan
  • La pasada de limpieza (puntuación, párrafos, eliminación de muletillas) es un paso separado

Este es el método correcto si estás construyendo un pipeline. Es excesivo para un solo vídeo.

Método 4: servicios de transcripción de terceros

Herramientas como Descript, Otter.ai y Sonix pueden ingerir una URL de YouTube y producir una transcripción.

Ideal para: podcasters y equipos de contenido que también necesitan edición, identificación de hablantes y colaboración en equipo sobre la transcripción.

Problemas para el caso Markdown:

  • La salida suele estar en formato propietario (proyecto de Descript, notas de Otter), no Markdown limpio
  • La mayoría son servicios de pago con tarifa por minuto que se acumula rápido
  • La transcripción rara vez está estructurada como resumen + puntos clave + cuerpo
  • Diseñados para flujos de edición de vídeo, no para alimentar modelos de IA

¿Qué método deberías usar?

EscenarioMejor método
Pegar un vídeo en Claude o ChatGPTMinibase --- un clic, salida estructurada
Guardar un podcast para leer luegoMinibase --- el resumen hace escaneable el contenido largo
Citar un momento concreto en una charla de 2 horasMinibase --- marcas de tiempo conservadas
Construir un pipeline interno de transcripciónyt-dlp + Whisper --- programable y offline
Transcribir para edición de vídeoDescript u Otter --- diseñados para ese flujo
Conseguir una transcripción rápida y tosca de un clip de 3 minSubtítulos de YouTube --- gratis, rápido, sucio

Para la mayoría de la gente --- especialmente cualquiera que use contenido de YouTube como contexto para IA --- Minibase es la respuesta. Produce el Markdown más limpio sin configuración y maneja vídeo largo a la misma velocidad que un tweet.

Casos límite que Minibase resuelve

  • Vídeos largos (de 2 a 4 horas). Minibase trocea el audio y vuelve a coser la transcripción con marcas de tiempo continuas. El resumen de arriba es la pieza clave. Sin él, nadie va a leer 30.000 palabras.
  • Varios hablantes. Whisper hace diarización básica. Minibase añade etiquetas de hablante cuando hay más de una voz. No siempre perfecto en entrevistas con réplica rápida, pero suele acertar en podcasts y mesas redondas.
  • Vídeos multilingües. Si el audio está en francés, la transcripción se queda en francés. Sin traducción forzada. Si la quieres en inglés, pídele a Claude que la traduzca después.
  • Subtítulos automáticos desactivados. Da igual. Minibase transcribe el audio directamente, no depende de la pista CC de YouTube.
  • Shorts. Mismo pipeline, solo más rápido. La salida es más corta pero sigue teniendo el frontmatter de metadatos y un resumen.
  • Vídeos restringidos o solo para miembros. Minibase ve lo que ve tu navegador con sesión iniciada. Si puedes verlo, Minibase puede transcribirlo.
  • Streams en directo (cuando acaban). Funciona sobre el VOD archivado en cuanto YouTube termina de procesarlo. Los directos en curso no están soportados.

Combínalo con tu flujo de trabajo

La salida en Markdown funciona allí donde la necesites:

  • Claude / ChatGPT / Gemini --- pega el archivo, haz preguntas de seguimiento sobre el vídeo
  • Obsidian --- déjalo en tu vault, enlázalo con notas relacionadas, busca a través de todas tus charlas guardadas
  • Notion --- pega directamente; los títulos y bloques de código se renderizan bien
  • Apple Notes --- importación limpia vía la extensión de compartir Markdown
  • Minibase Vault --- si tienes una conectada, cada guardado de YouTube cae allí automáticamente con backlinks y etiquetas

FAQ

¿Funciona Minibase en el sitio o la app móvil de YouTube? La extensión es solo Chrome de escritorio por ahora. En móvil, copia la URL y ábrela en escritorio, o pégala en una Minibase Vault en Mac (que tiene un manejador de URL).

¿Y YouTube Music o las playlists? Solo vídeos sueltos. Las playlists no se rastrean como un único documento. Los videoclips funcionan, pero la transcripción es solo la letra si la hay.

¿Puedo obtener solo el resumen, sin la transcripción completa? Sí. La extensión te deja elegir: solo transcripción, solo resumen o ambos. Por defecto los dos, porque en la mayoría de vídeos los dos son cortos.

¿Conserva los capítulos? Si el vídeo tiene marcadores de capítulo, Minibase los usa como títulos de sección en la transcripción. Los vídeos largos se vuelven mucho más fáciles de navegar.

¿La transcripción incluye muletillas? La pasada de limpieza elimina la mayoría de «eh», «mmm» y falsos arranques. Mantiene la voz y el tono del hablante, solo despojados del ruido verbal que hace ilegibles las transcripciones en bruto.

¿Es la transcripción lo bastante precisa como para citar? Para habla a ritmo normal, sí. Para contenido muy técnico con nombres propios poco habituales, comprueba la ortografía contra el vídeo. Minibase usa un modelo de clase Whisper, que es el estado del arte en inglés y muy bueno para la mayoría de idiomas principales.

¿Cuánto cuesta? Minibase tiene un plan gratuito para que lo pruebes con unos vídeos. A partir de ahí, una pequeña suscripción cubre los costes de transcripción.

Guías relacionadas de Minibase

Continue reading

S

Written by

Save Team

Learn more about Minibase

¿Listo para guardar de forma más inteligente?

Convierte cualquier página web a Markdown con un clic.

Agregar a Chrome