Ein YouTube-Video als Markdown speichern (Transkript, Zusammenfassung, Zeitstempel)

YouTube möchte nicht, dass Sie mit dem Inhalt rausgehen. Es gibt keinen Export-Button, keinen Download des Transkripts, keine „In Notizen kopieren”-Option. Die Seitenleiste mit den Untertiteln liefert rohe Untertitelblöcke ohne Satzzeichen. Wer schon einmal versucht hat, ein YouTube-Video als Kontext in Claude oder ChatGPT zu kippen, kennt das Problem --- die URL einzufügen bringt dem Modell nichts, weil das Modell nicht zusehen kann.

Diese Anleitung deckt alle Methoden ab, um ein YouTube-Video in sauberes Markdown zu verwandeln --- vom einzelnen Vortrag bis zum mehrstündigen Podcast.

Warum YouTube-Videos als Markdown speichern?

Markdown ist das Format, das überall dort funktioniert, wo ein Transkript landen soll:

An ein LLM verfüttern --- Claude, ChatGPT, Gemini und lokale Modelle lesen Markdown nativ als Kontext
In Obsidian oder Notion ablegen --- eine Datei, vollständig durchsuchbar, sauber überschriftet
Einen bestimmten Zeitstempel zitieren --- der Sprung zurück zu „Minute 34” in einem 2-Stunden-Talk ist eine Suche entfernt
Einen Vortrag archivieren, bevor er verschwindet --- Kanäle werden entfernt, Videos auf privat gestellt, Ihre Notizen sollten nicht von YouTubes Verfügbarkeit abhängen
Ein fremdsprachiges Video übersetzen --- sobald es Text ist, funktioniert jedes Übersetzungstool darauf

Der Use Case, der 2026 den meisten YouTube-zu-Markdown-Traffic treibt, ist der erste: Leute wollen einem LLM Fragen zu einem Video stellen, das sie gerade gesehen haben, und die URL einzufügen funktioniert nicht.

Methode 1: Minibase (am schnellsten, ein Klick)

Minibase ist eine Chrome-Erweiterung, die jede YouTube-Seite mit einem Klick in eine Markdown-Datei verwandelt. Sie transkribiert das Audio mit einem Modell der Whisper-Klasse, schiebt einen kurzen Aufräumdurchlauf hinterher und produziert etwas, das sich tatsächlich wie Fließtext liest, nicht wie rohe Untertitel.

So funktioniert es:

Öffnen Sie das YouTube-Video in Chrome
Klicken Sie in der Symbolleiste auf das Minibase-Erweiterungssymbol
Eine .md-Datei wird sofort heruntergeladen (oder landet in Ihrem Minibase Vault, wenn er verbunden ist)

Was Sie erhalten:

KI-generierte Zusammenfassung oben, damit Sie vor dem Lesen scannen können
Kernpunkte als Aufzählungsliste
Vollständiges Transkript mit Zeitstempeln alle paar Minuten
Kapitelüberschriften, wenn das Video welche hat
Frontmatter mit Titel, Kanal, Veröffentlichungsdatum, Dauer und URL
Sprecher-Labels, wenn es mehr als eine Stimme gibt

Was entfernt wird:

Seitenleiste mit empfohlenen Videos und YouTube-Navigations-Chrome
Werbepausen und Sponsorensegmente innerhalb des Transkripts
Kommentare (sofern nicht ausdrücklich aktiviert)
Wiederholte Untertitel-Artefakte aus auto-generierten Captions

Am besten für: Forschende, KI-Nutzende, Studierende, Podcast-Hörer. Wenn Sie ein sauberes Transkript brauchen, das Sie in Claude einfügen oder in Obsidian lesen, ist das der direkteste Weg.

Beispiel-Output

Das Speichern eines 60-minütigen Karpathy-Vortrags ergibt:

---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---

## Summary

Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.

## Key Points

- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap

## Full Transcript

[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...

[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...

Diese Datei ist ein Einfügen davon entfernt, nutzbarer Claude-Kontext zu sein, und ein Tastendruck davon entfernt, eine permanente Obsidian-Notiz zu sein.

Methode 2: YouTubes Untertitel (kostenlos, unsauber)

YouTube stellt auto-generierte Untertitel über die CC-Seitenleiste bereit. Sie können sie extrahieren und manuell neu formatieren.

Schritte:

Video öffnen, auf das ...-Menü klicken, Transkript öffnen wählen
Die Zeilen mit Zeitstempeln in einen Texteditor kopieren
Zeitstempel entfernen, Satzzeichen einfügen, Sprecherwechsel von Hand reparieren

Probleme dieses Ansatzes:

Auto-Untertitel haben keine Satzzeichen und keine Satzgrenzen
Sprecherwechsel sind überhaupt nicht markiert
Musik, Applaus und Stille tauchen als [Music] / [Applause]-Artefakte auf
Lange Pausen und Füllwörter („äh”, „ähm”, „so”) werden nicht entfernt
Der Output ist ohne 30 Minuten Aufräumarbeit selten als LLM-Kontext brauchbar

Für einen 3-Minuten-Clip gangbar. Bricht bei allem darüber hinaus zusammen.

Methode 3: yt-dlp + Whisper lokal

Für volle Kontrolle können Sie Whisper selbst auf dem Audio laufen lassen.

yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt

Am besten für: Engineering-Teams, die im großen Stil transkribieren, oder alle, die Whisper aus Datenschutzgründen offline betreiben. Benötigt eine Python-Umgebung, ein paar GB Plattenspeicher für das Modell und entweder eine GPU oder Geduld.

Probleme dieses Ansatzes:

Keine Zusammenfassung, keine Kernpunkte, keine saubere Struktur --- nur roher Transkripttext
Sprecher-Diarisierung benötigt ein separates Modell (pyannote.audio oder ähnlich)
Kapitelmarken aus der YouTube-Seite werden nicht zurückgewonnen
Der Aufräumdurchlauf (Satzzeichen, Absätze, Füllwortentfernung) ist ein separater Schritt

Das ist die richtige Methode, wenn Sie eine Pipeline bauen. Für ein einzelnes Video ist sie Overkill.

Methode 4: Drittanbieter-Transkriptionsdienste

Tools wie Descript, Otter.ai und Sonix können eine YouTube-URL aufnehmen und ein Transkript erzeugen.

Am besten für: Podcaster und Content-Teams, die auch Schnitt, Sprechererkennung und Team-Zusammenarbeit am Transkript brauchen.

Probleme für den Markdown-Use-Case:

Der Output ist meist in einem proprietären Format (Descript-Projekt, Otter-Notizen), kein sauberes Markdown
Die meisten sind kostenpflichtige Dienste mit Minutenpreisen, die sich schnell aufsummieren
Das Transkript ist selten in Zusammenfassung + Kernpunkte + Body strukturiert
Konzipiert für Videoschnitt-Workflows, nicht zum Füttern von KI-Modellen

Welche Methode sollten Sie nutzen?

Szenario	Beste Methode
Ein Video in Claude oder ChatGPT einfügen	Minibase --- ein Klick, strukturierter Output
Einen Podcast zum späteren Lesen speichern	Minibase --- die Zusammenfassung macht lange Inhalte scannbar
Einen bestimmten Moment in einem 2-Stunden-Talk zitieren	Minibase --- Zeitstempel bleiben erhalten
Eine interne Transkriptions-Pipeline bauen	yt-dlp + Whisper --- programmierbar und offline
Für Videoschnitt transkribieren	Descript oder Otter --- für diesen Workflow gemacht
Schnelles, grobes Transkript eines 3-Minuten-Clips	YouTube-Untertitel --- gratis, schnell, unsauber

Für die meisten Leute --- besonders alle, die YouTube-Inhalte als KI-Kontext nutzen --- ist Minibase die Antwort. Es produziert das sauberste Markdown ohne Setup und bewältigt Langform-Video in derselben Geschwindigkeit wie einen Tweet.

Edge Cases, die Minibase abdeckt

Lange Videos (2 bis 4 Stunden). Minibase zerteilt das Audio in Chunks und näht das Transkript mit durchgängigen Zeitstempeln wieder zusammen. Die Zusammenfassung oben ist das Schlüsselstück. Ohne sie liest niemand 30.000 Wörter.
Mehrere Sprecher. Whisper macht eine grundlegende Diarisierung. Minibase fügt Sprecher-Labels hinzu, wenn es mehr als eine Stimme gibt. Bei Interview-Formaten mit schnellem Hin und Her nicht immer perfekt, aber bei Podcasts und Konferenz-Panels meist richtig.
Mehrsprachige Videos. Wenn das Audio Französisch ist, bleibt das Transkript Französisch. Keine erzwungene Übersetzung. Wenn Sie es auf Englisch wollen, lassen Sie Claude es danach übersetzen.
Auto-Untertitel deaktiviert. Egal. Minibase transkribiert das Audio direkt und ist nicht auf YouTubes CC-Spur angewiesen.
Shorts. Gleiche Pipeline, nur schneller. Der Output ist kürzer, hat aber immer noch das Metadaten-Frontmatter und eine Zusammenfassung.
Eingeschränkte oder Member-only-Videos. Minibase sieht, was Ihr eingeloggter Browser sieht. Wenn Sie es anschauen können, kann Minibase es transkribieren.
Livestreams (nach Ende). Funktioniert auf dem archivierten VOD, sobald YouTube mit der Verarbeitung fertig ist. Laufende Livestreams werden nicht unterstützt.

Paaren Sie es mit Ihrem Workflow

Der Markdown-Output funktioniert überall dort, wo Sie ihn brauchen:

Claude / ChatGPT / Gemini --- Datei einfügen, Folgefragen zum Video stellen
Obsidian --- in Ihren Vault legen, mit verwandten Notizen verlinken, über all Ihre gespeicherten Talks suchen
Notion --- direkt einfügen, Überschriften und Codeblöcke werden korrekt gerendert
Apple Notes --- sauberer Import via Markdown-Share-Extension
Minibase Vault --- wenn Sie einen verbunden haben, landet jedes YouTube-Minibase automatisch dort mit Backlinks und Tags

FAQ

Funktioniert Minibase auf der mobilen YouTube-Seite oder -App? Die Erweiterung ist vorerst nur Desktop-Chrome. Auf dem Handy kopieren Sie die URL und öffnen sie am Desktop, oder fügen sie in einen Minibase Vault auf dem Mac ein (der einen URL-Handler hat).

Was ist mit YouTube Music oder Playlists? Nur Einzelvideos. Playlists werden nicht als ein einzelnes Dokument gecrawlt. Musikvideos funktionieren, aber das Transkript ist nur der Songtext, falls vorhanden.

Kann ich nur die Zusammenfassung bekommen, ohne das volle Transkript? Ja. Die Erweiterung lässt Sie wählen: nur Transkript, nur Zusammenfassung oder beides. Standard ist beides, weil beides bei den meisten Videos kurz ist.

Bleiben Kapitel erhalten? Wenn das Video Kapitelmarken hat, nutzt Minibase sie als Abschnittsüberschriften im Transkript. Lange Videos werden so deutlich leichter navigierbar.

Enthält das Transkript Füllwörter? Der Aufräumdurchlauf entfernt die meisten „äh”s, „ähm”s und Fehlstarts. Er behält die Stimme und den Ton des Sprechers, bereinigt nur vom verbalen Rauschen, das rohe Transkripte schwer lesbar macht.

Ist das Transkript genau genug zum Zitieren? Für Sprache in normalem Tempo, ja. Für sehr technische Inhalte mit seltenen Eigennamen die Schreibweise gegen das Video gegenprüfen. Minibase nutzt ein Modell der Whisper-Klasse, das im Englischen State of the Art und in den meisten großen Sprachen sehr gut ist.

Was kostet es? Minibase hat eine Gratisstufe, damit Sie es an ein paar Videos ausprobieren können. Danach deckt ein kleines Abo die Transkriptionskosten.

Ein YouTube-Video als Markdown speichern (Transkript, Zusammenfassung, Zeitstempel)

Warum YouTube-Videos als Markdown speichern?

Methode 1: Minibase (am schnellsten, ein Klick)

Beispiel-Output

Methode 2: YouTubes Untertitel (kostenlos, unsauber)

Methode 3: yt-dlp + Whisper lokal

Methode 4: Drittanbieter-Transkriptionsdienste

Welche Methode sollten Sie nutzen?

Edge Cases, die Minibase abdeckt

Paaren Sie es mit Ihrem Workflow

FAQ

Verwandte Minibase-Anleitungen

Continue reading

Wie man ein ChatGPT-Gespräch als Markdown speichert (jeder Turn, Code-Blöcke intakt)

Reddit-Thread als Markdown speichern (mit Kommentaren und Kontext)

So speichern Sie eine Claude-Konversation als Markdown (Artifacts, Quellen, Projects)

Substack-Posts als Markdown speichern (Paywall-fähig, ohne Cross-Promo)

Save Team