YouTube動画をMarkdownで保存する方法(文字起こし・要約・タイムスタンプ)

·

YouTubeは、コンテンツを持ち出されることを望んでいません。エクスポートボタンも、文字起こしのダウンロードも、「ノートにコピー」オプションもありません。字幕サイドバーは、句読点のない生の字幕ブロックをよこすだけです。YouTube動画をコンテキストとしてClaudeやChatGPTに貼り付けようとしたことがあるなら、問題はわかるはずです --- URLを貼ってもモデルには何も渡らない、モデルは動画を見られないからです。

このガイドでは、YouTube動画をきれいなMarkdownに変換するすべての方法をカバーします --- 1本のトークから数時間のポッドキャストまで。

なぜYouTube動画をMarkdownで保存するのか?

Markdownは、文字起こしが行く必要のあるどこででも機能するフォーマットです:

  • LLMに渡す --- Claude、ChatGPT、Gemini、ローカルモデル、すべてMarkdownをコンテキストとしてネイティブに読みます
  • ObsidianやNotionに放り込む --- 1ファイル、完全に検索可能、見出しも整っている
  • 特定のタイムスタンプを引用する --- 2時間のトークの「34分」に戻るのは検索一発
  • アーカイブされる前にトークを保存する --- チャンネルは削除され、動画は非公開になる、あなたのノートがYouTubeの稼働率に依存すべきではない
  • 外国語の動画を翻訳する --- いったんテキストになれば、どんな翻訳ツールでも使える

2026年にYouTube-to-Markdownのトラフィックの大半を動かしているユースケースは最初のものです:人々は今見たばかりの動画についてLLMに質問したいのに、URLを貼っても機能しない。

方法1:Minibase(最速・ワンクリック)

Minibaseは、どんなYouTubeページもワンクリックでMarkdownファイルに変えるChrome拡張機能です。Whisperクラスのモデルで音声を文字起こしし、短いクリーンアップパスを通し、生の字幕ではなく本当に散文として読めるものを出力します。

動作の仕組み:

  1. ChromeでYouTube動画を開く
  2. ツールバーのSave拡張機能アイコンをクリック
  3. .mdファイルが即座にダウンロードされる(接続されていればMinibase Vaultに届く)

得られるもの:

  • 読む前に流し見できるよう、冒頭にAI生成の要約
  • 箇条書きでの要点
  • 数分ごとのタイムスタンプ付きの完全な文字起こし
  • 動画にチャプターがあればチャプター見出し
  • タイトル、チャンネル、公開日、長さ、URLのフロントマター
  • 複数の声があるときは話者ラベル

取り除かれるもの:

  • 関連動画サイドバーとYouTubeのナビゲーションUI
  • 文字起こし内の広告ブレイクとスポンサーセグメント
  • コメント(明示的にオプトインしない限り)
  • 自動生成字幕からの繰り返される字幕アーティファクト

最適: 研究者、AIユーザー、学生、ポッドキャストリスナー。Claudeに貼り付けたり、Obsidianで読んだりするためのきれいな文字起こしが必要なら、これが一番すっきりした道です。

出力例

60分のKarpathyのトークを保存するとこうなります:

---
title: "[1hr Talk] Intro to Large Language Models"
channel: Andrej Karpathy
url: https://youtube.com/watch?v=zjkBMFhNj_g
duration: 60m
date: 2024-01-15
---

## Summary

Karpathy walks through what an LLM is at the level of bytes on a hard drive,
how training works in practice, and where the discipline is heading. The
core framing: LLMs are file compressors with a thinking layer on top, the
training stack is straightforward but the data work is brutal, and prompt
engineering is becoming software engineering.

## Key Points

- An LLM at rest is two files (parameters and run.c)
- Training is next-token prediction on the internet
- Fine-tuning is what makes models useful for a task
- Scaling laws still hold, but data quality matters more now
- Tool use is the next leap

## Full Transcript

[00:00] Hi everyone, so I've been wanting to do this talk for a while.
We have a lot of really exciting topics to cover...

[02:34] So let's start with what an LLM actually is, at the level of
bytes on a hard drive...

そのファイルは、貼り付け1回で使えるClaudeのコンテキストになり、キー1回で恒久的なObsidianノートになります。

方法2:YouTubeの字幕(無料、雑)

YouTubeはCCサイドバーから自動生成字幕を公開しています。それを抽出して手動で整形できます。

手順:

  1. 動画を開き、...メニューをクリックし、文字起こしを開くを選ぶ
  2. タイムスタンプ付きの行をテキストエディタにコピー
  3. タイムスタンプを取り除き、句読点を追加し、話者の切れ目を手で直す

このアプローチの問題:

  • 自動字幕には句読点も文の切れ目もない
  • 話者の交代はまったく印が付かない
  • 音楽、拍手、無音は[Music] / [Applause]のアーティファクトとして表される
  • 長い間や言いよどみ(「えー」「あの」「みたいな」)は取り除かれない
  • 30分のクリーンアップなしには、LLMコンテキストとしてはほぼ使えない

3分のクリップなら使えます。それより長いものではぼろぼろになります。

方法3:yt-dlp + Whisperをローカルで

完全な制御が欲しいなら、自分でWhisperを音声に対して動かせます。

yt-dlp -x --audio-format mp3 "https://youtube.com/watch?v=VIDEO_ID"
whisper VIDEO_ID.mp3 --model medium --output_format txt

最適: 大規模に文字起こしするエンジニアリングチーム、またはプライバシーのためにWhisperをオフラインで動かしたい人。Python環境、モデル用に数GBのディスク、そしてGPUか忍耐のどちらかが必要です。

このアプローチの問題:

  • 要約なし、要点なし、きれいな構造なし --- 文字起こしテキストの生データのみ
  • 話者のダイアリゼーションには別のモデル(pyannote.audioなど)が必要
  • YouTubeページのチャプターマーカーは復元されない
  • クリーンアップパス(句読点、段落、言いよどみ除去)は別工程

パイプラインを構築しているなら正しい方法です。1本の動画には大げさすぎます。

方法4:サードパーティの文字起こしサービス

Descript、Otter.ai、SonixのようなツールはYouTube URLを取り込み、文字起こしを出せます。

最適: 編集、話者識別、文字起こしへのチーム共同作業も必要なポッドキャスターやコンテンツチーム。

Markdownユースケースでの問題:

  • 出力は通常、独自フォーマット(Descriptプロジェクト、Otterノート)であり、きれいなMarkdownではない
  • ほとんどが分単位の料金がかかる有料サービスで、すぐに積み上がる
  • 文字起こしは要約+要点+本文に構造化されていることはまれ
  • 動画編集のワークフロー向けに設計されており、AIモデルへの供給用ではない

どの方法を使うべきか?

シナリオ最適な方法
動画をClaudeやChatGPTに貼り付けるMinibase --- ワンクリック、構造化された出力
ポッドキャストを後で読むために保存するMinibase --- 要約で長尺コンテンツがスキャンしやすくなる
2時間のトークの特定の瞬間を引用するMinibase --- タイムスタンプが保持される
社内文字起こしパイプラインを構築するyt-dlp + Whisper --- プログラム可能でオフライン
動画編集のために文字起こしするDescriptまたはOtter --- そのワークフロー向け
3分のクリップの粗い文字起こしを素早く得るYouTube CC --- 無料、速い、雑

ほとんどの人にとって --- 特にYouTubeコンテンツをAIコンテキストとして使う人にとって --- 答えはSaveです。セットアップなしで最もきれいなMarkdownを出力し、長尺動画もツイートと同じスピードでさばきます。

Saveが処理するエッジケース

  • 長い動画(2〜4時間)。 Saveは音声をチャンクに分割し、連続したタイムスタンプで文字起こしを縫い合わせます。冒頭の要約が鍵です。それなしでは誰も3万語を読みません。
  • 複数の話者。 Whisperは基本的なダイアリゼーションを行います。Saveは複数の声があるときに話者ラベルを追加します。応答の速いインタビュー番組では常に完璧とは限りませんが、ポッドキャストや会議のパネルではたいてい正確です。
  • 多言語動画。 音声がフランス語なら、文字起こしはフランス語のままです。強制翻訳はしません。英語で欲しければ、後でClaudeに翻訳してもらってください。
  • 自動字幕が無効。 関係ありません。Saveは音声を直接文字起こしし、YouTubeのCCトラックに依存しません。
  • Shorts。 同じパイプライン、ただ速いだけ。出力は短くなりますが、メタデータのフロントマターと要約は変わらず付きます。
  • 制限付きまたはメンバー限定の動画。 Saveはあなたのログイン済みブラウザが見ているものを見ます。あなたが見られるなら、Saveは文字起こしできます。
  • ライブ配信(終了後)。 YouTubeが処理を終えたアーカイブVODで機能します。進行中のライブ配信はサポートされていません。

あなたのワークフローと組み合わせる

Markdown出力は、必要なところならどこでも機能します:

  • Claude / ChatGPT / Gemini --- ファイルを貼り付け、動画についてフォローアップ質問
  • Obsidian --- ボルトに入れ、関連ノートにリンクし、保存したすべてのトークを横断検索
  • Notion --- 直接貼り付け、見出しとコードブロックが正しくレンダリングされる
  • Apple Notes --- Markdown共有エクステンション経由できれいにインポート
  • Minibase Vault --- 接続済みなら、YouTube保存は自動的にそこに着地し、バックリンクとタグも付く

FAQ

SaveはYouTubeのモバイルサイトやアプリで動きますか? 拡張機能は今のところデスクトップChromeのみです。モバイルでは、URLをコピーしてデスクトップで開くか、Mac上のMinibase Vault(URLハンドラあり)に貼り付けてください。

YouTube Musicやプレイリストはどうですか? 単一動画のみです。プレイリストは1つのドキュメントとしてクロールされません。ミュージックビデオは動作しますが、文字起こしはあれば歌詞だけです。

完全な文字起こしなしで要約だけ取れますか? はい。拡張機能で選べます:文字起こしのみ、要約のみ、または両方。デフォルトは両方です、ほとんどの動画でどちらも短いからです。

チャプターは保持されますか? 動画にチャプターマーカーがあれば、Saveはそれを文字起こしのセクション見出しとして使います。長い動画がはるかにナビゲートしやすくなります。

文字起こしに言いよどみは含まれますか? クリーンアップパスは「えー」「あの」や言い出しの言い直しのほとんどを取り除きます。話者の声とトーンは保ち、生の文字起こしを読みづらくする言葉のノイズだけを取り除きます。

文字起こしは引用に耐えるほど正確ですか? 通常の速度の話なら、はい。珍しい固有名詞を含む非常に技術的な内容では、動画と照合してスペルを確認してください。SaveはWhisperクラスのモデルを使用しており、英語では最先端、主要言語のほとんどで非常に良好です。

料金はいくらですか? Saveには無料枠があり、数本の動画で試せます。それを超えると、小さなサブスクリプションが文字起こしコストをカバーします。

関連するSaveガイド

Continue reading

S

Written by

Save Team

Learn more about Minibase

よりスマートに保存しませんか?

あらゆるウェブページをワンクリックでMarkdownに変換。

Chromeに追加