Ein YouTube-Video als Markdown speichern (Transkript, Zusammenfassung, Zeitstempel)
YouTube möchte nicht, dass Sie mit dem Inhalt rausgehen. Es gibt keinen Export-Button, keinen Download des Transkripts, keine „In Notizen kopieren”-Option. Die Seitenleiste mit den Untertiteln liefert rohe Untertitelblöcke ohne Satzzeichen. Wer schon einmal versucht hat, ein YouTube-Video als Kontext in Claude oder ChatGPT zu kippen, kennt das Problem --- die URL einzufügen bringt dem Modell nichts, weil das Modell nicht zusehen kann.
Diese Anleitung deckt alle Methoden ab, um ein YouTube-Video in sauberes Markdown zu verwandeln --- vom einzelnen Vortrag bis zum mehrstündigen Podcast.
Warum YouTube-Videos als Markdown speichern?
Markdown ist das Format, das überall dort funktioniert, wo ein Transkript landen soll:
- An ein LLM verfüttern --- Claude, ChatGPT, Gemini und lokale Modelle lesen Markdown nativ als Kontext
- In Obsidian oder Notion ablegen --- eine Datei, vollständig durchsuchbar, sauber überschriftet
- Einen bestimmten Zeitstempel zitieren --- der Sprung zurück zu „Minute 34” in einem 2-Stunden-Talk ist eine Suche entfernt
- Einen Vortrag archivieren, bevor er verschwindet --- Kanäle werden entfernt, Videos auf privat gestellt, Ihre Notizen sollten nicht von YouTubes Verfügbarkeit abhängen
- Ein fremdsprachiges Video übersetzen --- sobald es Text ist, funktioniert jedes Übersetzungstool darauf
Der Use Case, der 2026 den meisten YouTube-zu-Markdown-Traffic treibt, ist der erste: Leute wollen einem LLM Fragen zu einem Video stellen, das sie gerade gesehen haben, und die URL einzufügen funktioniert nicht.
Methode 1: Minibase (am schnellsten, ein Klick)
Minibase ist eine Chrome-Erweiterung, die jede YouTube-Seite mit einem Klick in eine Markdown-Datei verwandelt. Sie transkribiert das Audio mit einem Modell der Whisper-Klasse, schiebt einen kurzen Aufräumdurchlauf hinterher und produziert etwas, das sich tatsächlich wie Fließtext liest, nicht wie rohe Untertitel.
So funktioniert es:
- Öffnen Sie das YouTube-Video in Chrome
- Klicken Sie in der Symbolleiste auf das Minibase-Erweiterungssymbol
- Eine
.md-Datei wird sofort heruntergeladen (oder landet in Ihrem Minibase Vault, wenn er verbunden ist)
Was Sie erhalten:
- KI-generierte Zusammenfassung oben, damit Sie vor dem Lesen scannen können
- Kernpunkte als Aufzählungsliste
- Vollständiges Transkript mit Zeitstempeln alle paar Minuten
- Kapitelüberschriften, wenn das Video welche hat
- Frontmatter mit Titel, Kanal, Veröffentlichungsdatum, Dauer und URL
- Sprecher-Labels, wenn es mehr als eine Stimme gibt
Was entfernt wird:
- Seitenleiste mit empfohlenen Videos und YouTube-Navigations-Chrome
- Werbepausen und Sponsorensegmente innerhalb des Transkripts
- Kommentare (sofern nicht ausdrücklich aktiviert)
- Wiederholte Untertitel-Artefakte aus auto-generierten Captions
Am besten für: Forschende, KI-Nutzende, Studierende, Podcast-Hörer. Wenn Sie ein sauberes Transkript brauchen, das Sie in Claude einfügen oder in Obsidian lesen, ist das der direkteste Weg.
Beispiel-Output
Das Speichern eines 60-minütigen Karpathy-Vortrags ergibt:
---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---
## Summary
Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.
## Key Points
- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap
## Full Transcript
[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...
[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...
Diese Datei ist ein Einfügen davon entfernt, nutzbarer Claude-Kontext zu sein, und ein Tastendruck davon entfernt, eine permanente Obsidian-Notiz zu sein.
Methode 2: YouTubes Untertitel (kostenlos, unsauber)
YouTube stellt auto-generierte Untertitel über die CC-Seitenleiste bereit. Sie können sie extrahieren und manuell neu formatieren.
Schritte:
- Video öffnen, auf das
...-Menü klicken, Transkript öffnen wählen - Die Zeilen mit Zeitstempeln in einen Texteditor kopieren
- Zeitstempel entfernen, Satzzeichen einfügen, Sprecherwechsel von Hand reparieren
Probleme dieses Ansatzes:
- Auto-Untertitel haben keine Satzzeichen und keine Satzgrenzen
- Sprecherwechsel sind überhaupt nicht markiert
- Musik, Applaus und Stille tauchen als
[Music]/[Applause]-Artefakte auf - Lange Pausen und Füllwörter („äh”, „ähm”, „so”) werden nicht entfernt
- Der Output ist ohne 30 Minuten Aufräumarbeit selten als LLM-Kontext brauchbar
Für einen 3-Minuten-Clip gangbar. Bricht bei allem darüber hinaus zusammen.
Methode 3: yt-dlp + Whisper lokal
Für volle Kontrolle können Sie Whisper selbst auf dem Audio laufen lassen.
yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt
Am besten für: Engineering-Teams, die im großen Stil transkribieren, oder alle, die Whisper aus Datenschutzgründen offline betreiben. Benötigt eine Python-Umgebung, ein paar GB Plattenspeicher für das Modell und entweder eine GPU oder Geduld.
Probleme dieses Ansatzes:
- Keine Zusammenfassung, keine Kernpunkte, keine saubere Struktur --- nur roher Transkripttext
- Sprecher-Diarisierung benötigt ein separates Modell (
pyannote.audiooder ähnlich) - Kapitelmarken aus der YouTube-Seite werden nicht zurückgewonnen
- Der Aufräumdurchlauf (Satzzeichen, Absätze, Füllwortentfernung) ist ein separater Schritt
Das ist die richtige Methode, wenn Sie eine Pipeline bauen. Für ein einzelnes Video ist sie Overkill.
Methode 4: Drittanbieter-Transkriptionsdienste
Tools wie Descript, Otter.ai und Sonix können eine YouTube-URL aufnehmen und ein Transkript erzeugen.
Am besten für: Podcaster und Content-Teams, die auch Schnitt, Sprechererkennung und Team-Zusammenarbeit am Transkript brauchen.
Probleme für den Markdown-Use-Case:
- Der Output ist meist in einem proprietären Format (Descript-Projekt, Otter-Notizen), kein sauberes Markdown
- Die meisten sind kostenpflichtige Dienste mit Minutenpreisen, die sich schnell aufsummieren
- Das Transkript ist selten in Zusammenfassung + Kernpunkte + Body strukturiert
- Konzipiert für Videoschnitt-Workflows, nicht zum Füttern von KI-Modellen
Welche Methode sollten Sie nutzen?
| Szenario | Beste Methode |
|---|---|
| Ein Video in Claude oder ChatGPT einfügen | Minibase --- ein Klick, strukturierter Output |
| Einen Podcast zum späteren Lesen speichern | Minibase --- die Zusammenfassung macht lange Inhalte scannbar |
| Einen bestimmten Moment in einem 2-Stunden-Talk zitieren | Minibase --- Zeitstempel bleiben erhalten |
| Eine interne Transkriptions-Pipeline bauen | yt-dlp + Whisper --- programmierbar und offline |
| Für Videoschnitt transkribieren | Descript oder Otter --- für diesen Workflow gemacht |
| Schnelles, grobes Transkript eines 3-Minuten-Clips | YouTube-Untertitel --- gratis, schnell, unsauber |
Für die meisten Leute --- besonders alle, die YouTube-Inhalte als KI-Kontext nutzen --- ist Minibase die Antwort. Es produziert das sauberste Markdown ohne Setup und bewältigt Langform-Video in derselben Geschwindigkeit wie einen Tweet.
Edge Cases, die Minibase abdeckt
- Lange Videos (2 bis 4 Stunden). Minibase zerteilt das Audio in Chunks und näht das Transkript mit durchgängigen Zeitstempeln wieder zusammen. Die Zusammenfassung oben ist das Schlüsselstück. Ohne sie liest niemand 30.000 Wörter.
- Mehrere Sprecher. Whisper macht eine grundlegende Diarisierung. Minibase fügt Sprecher-Labels hinzu, wenn es mehr als eine Stimme gibt. Bei Interview-Formaten mit schnellem Hin und Her nicht immer perfekt, aber bei Podcasts und Konferenz-Panels meist richtig.
- Mehrsprachige Videos. Wenn das Audio Französisch ist, bleibt das Transkript Französisch. Keine erzwungene Übersetzung. Wenn Sie es auf Englisch wollen, lassen Sie Claude es danach übersetzen.
- Auto-Untertitel deaktiviert. Egal. Minibase transkribiert das Audio direkt und ist nicht auf YouTubes CC-Spur angewiesen.
- Shorts. Gleiche Pipeline, nur schneller. Der Output ist kürzer, hat aber immer noch das Metadaten-Frontmatter und eine Zusammenfassung.
- Eingeschränkte oder Member-only-Videos. Minibase sieht, was Ihr eingeloggter Browser sieht. Wenn Sie es anschauen können, kann Minibase es transkribieren.
- Livestreams (nach Ende). Funktioniert auf dem archivierten VOD, sobald YouTube mit der Verarbeitung fertig ist. Laufende Livestreams werden nicht unterstützt.
Paaren Sie es mit Ihrem Workflow
Der Markdown-Output funktioniert überall dort, wo Sie ihn brauchen:
- Claude / ChatGPT / Gemini --- Datei einfügen, Folgefragen zum Video stellen
- Obsidian --- in Ihren Vault legen, mit verwandten Notizen verlinken, über all Ihre gespeicherten Talks suchen
- Notion --- direkt einfügen, Überschriften und Codeblöcke werden korrekt gerendert
- Apple Notes --- sauberer Import via Markdown-Share-Extension
- Minibase Vault --- wenn Sie einen verbunden haben, landet jedes YouTube-Minibase automatisch dort mit Backlinks und Tags
FAQ
Funktioniert Minibase auf der mobilen YouTube-Seite oder -App? Die Erweiterung ist vorerst nur Desktop-Chrome. Auf dem Handy kopieren Sie die URL und öffnen sie am Desktop, oder fügen sie in einen Minibase Vault auf dem Mac ein (der einen URL-Handler hat).
Was ist mit YouTube Music oder Playlists? Nur Einzelvideos. Playlists werden nicht als ein einzelnes Dokument gecrawlt. Musikvideos funktionieren, aber das Transkript ist nur der Songtext, falls vorhanden.
Kann ich nur die Zusammenfassung bekommen, ohne das volle Transkript? Ja. Die Erweiterung lässt Sie wählen: nur Transkript, nur Zusammenfassung oder beides. Standard ist beides, weil beides bei den meisten Videos kurz ist.
Bleiben Kapitel erhalten? Wenn das Video Kapitelmarken hat, nutzt Minibase sie als Abschnittsüberschriften im Transkript. Lange Videos werden so deutlich leichter navigierbar.
Enthält das Transkript Füllwörter? Der Aufräumdurchlauf entfernt die meisten „äh”s, „ähm”s und Fehlstarts. Er behält die Stimme und den Ton des Sprechers, bereinigt nur vom verbalen Rauschen, das rohe Transkripte schwer lesbar macht.
Ist das Transkript genau genug zum Zitieren? Für Sprache in normalem Tempo, ja. Für sehr technische Inhalte mit seltenen Eigennamen die Schreibweise gegen das Video gegenprüfen. Minibase nutzt ein Modell der Whisper-Klasse, das im Englischen State of the Art und in den meisten großen Sprachen sehr gut ist.
Was kostet es? Minibase hat eine Gratisstufe, damit Sie es an ein paar Videos ausprobieren können. Danach deckt ein kleines Abo die Transkriptionskosten.
Verwandte Minibase-Anleitungen
- Reddit-Threads als Markdown speichern --- Threads mit erhaltener Kommentar-Verschachtelung
- ChatGPT-Konversationen als Markdown speichern --- jeder Turn, mit intakten Codeblöcken
- GitHub-Repos und -Issues als Markdown speichern --- README, Issues, PR-Diskussionen, alles als eine Datei
- Notion-Seiten als Markdown speichern --- ausgeklappte Toggles, Datenbanken als Tabellen
- Twitter- / X-Threads als Markdown speichern --- jeder Tweet, in Reihenfolge, mit Zuordnung
Continue reading
Wie man ein ChatGPT-Gespräch als Markdown speichert (jeder Turn, Code-Blöcke intakt)
Konvertiere jedes ChatGPT-Gespräch in sauberes Markdown: jeder Turn, Code-Blöcke, Tabellen, Zitate. Vollständiger Leitfaden 2026 für Forscher und KI-Nutzer.
Reddit-Thread als Markdown speichern (mit Kommentaren und Kontext)
Konvertiere jeden Reddit-Thread in sauberes Markdown mit verschachtelten Kommentaren, Karma, Flair und OP-Markern. Vollständiger Leitfaden 2026 für Forscher und KI-Nutzer.
So speichern Sie eine Claude-Konversation als Markdown (Artifacts, Quellen, Projects)
Konvertieren Sie Claude-Konversationen in sauberes Markdown: jede Runde, Artifacts als Codeblöcke, Quellen erhalten. Vollständiger Leitfaden für Forscher und KI-Nutzer.
Substack-Posts als Markdown speichern (Paywall-fähig, ohne Cross-Promo)
Konvertiere jeden Substack-Newsletter in sauberes Markdown: vollständiger Text, Pull-Quotes, eingebettetes Audio, keine Abo-Modals. Vollständiger Guide 2026.