無料で使用可能！AIを使った文字起こしと文章校正の方法を教えます

こんにちは、blueです。

オンライン会議動画の文字起こしがしたい
とにかく無料でやりたい

以上のような方に、動画からの文字起こしの方法を説明します。

この記事の内容

動画を音声ファイルにする：MP4ファイルをMP3に変換する
音声ファイルを文章に変換する：「Whisper」を使って文字起こしをする
文章を校正する・・・「ChatGPT」を使って文章校正をする

聞きなれない言葉もあると思いますが、ステップ自体はたったの3つです。図入りでわかりやすく説明しますので一つ一つ勉強していってください。
またどのアプリも無料で使用することができます。体験版で途中から課金する必要があるといったこともないので安心してください。

ちなみに文字起こしや文章校正にはAIを使用します。機密情報や個人情報についての取り扱いについては十分に注意してください。

ChatGPTにおいて初心者から上級者レベルまでを勉強したい方は以下がお勧めです。プロンプトエンジニアリングの基礎から応用、動画からの文字起こしなど、一冊で網羅的に学ぶ事ができます。なぜこのようなプロンプトを書く必要があるのか？という事を一から知りたい方にお勧めの書籍です。

リンク

ChatGPTにおいてプロンプトの有効的な書き方を一からを勉強したい方は以下がお勧めです。正しい質問の仕方からプロンプトの事例集まで幅広く記載されています。仕事の質と生産性を劇的にアップさせたい方にお勧めの書籍です。

リンク

MP4ファイルをMP3に変換する
1. VLCメディアプレイヤーのインストール
MP3ファイルをWhisperで文字起こしする
文字起こしした文章をChatGPTで文章校正する
1. ChatGPTでの文章校正のプロンプト
2. プロンプトの実行結果
追加情報
1. 文字起こし量を増やす
2. 文章を分割する
今回のまとめ

MP4ファイルをMP3に変換する

VLCメディアプレイヤーのインストール

（最初から音声ファイルがある場合はこの章は飛ばしていただいてかまいません）

動画ファイルであるMP4ファイルを音声ファイルであるMP3に変換するにはVLCメディアプレイヤーが便利です。
VLCメディアプレイヤーは無料で使用でき、操作方法も非常に簡単です。

1 VLC media playerのサイトからダウンロードする
2 ダウンロードした.exeファイルを実行する。指示に従いインストールする。コーンが表示されればOK

3 [メディア]-[変換/保存]をクリックする

4 [＋追加]をクリックし、動画ファイルを選択する。[変換/保存]をクリックする

5 中段の設定にて[変換のラジオボタン]をクリック、プロファイルを[Audio-MP3]にする。出力ファイルの[参照]をクリックし、保存先を設定する。
この際拡張子をmp3とする。[開始]をクリックする

変換が始まります。青色バーが右端まで行けば変換完了です。

MP3ファイルをWhisperで文字起こしする

WhisperとはOpenAI 社によって作成された音声認識および文字起こしのための機械学習音響モデルです。
Whisperを使用する方法として、APIの方法とGitHubのオープンソースモデルを使用する方法がありますが今回は無料で使用できる後者の方法を使用します。
ただし実行環境を整える必要があるので[Google Colaboratory]というものをインストールします。

ちなみに導入、使用に関しては以下の記事を参考にしました。

note（ノート）

文字起こしAI「Whisper」でTwitterスペース音声を書き出してみた｜Yuzunoki

https://note.com/y_ibris/n/nbd6320fe92b3

■使用するツール・アプリケーションボイスレコーダー（Windows10標準搭載） Google Colaboratory（Googleアカウントあればすぐ使用可能） ■文字起こしAI「Whisper」って？きっかけは、議事録の作成が面倒で色々調べているうちに見かけた、こちらの記事でした。「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた！」――急遽テレワークを導入した中小企業の顛末記（118）【急遽テレワーク導入！の顛末記】　最近では重要なビデオ会議がある時は、「Texta」という議事録作成支援ツールを使って...

Google Colaboratoryの準備

Google Colaboratory（グーグル・コラボレイトリーもしくはコラボラトリー）とは、Googleが機械学習の教育及び研究用に提供しているインストール不要かつ、すぐにPythonや機械学習・深層学習の環境を整えることが出来る無料のサービスです。無料で利用する事が出来ますが、Googleアカウントが必要になります。またCPU及びGPU(1回12時間)の環境が利用可能です（引用元：【初学者必読】Google Colaboratory とは？使い方・便利な設定などをわかりやすく解説！)。

ようは、手軽にプログラミングの実行環境を作れるのがGoogle Colaboratoryです。

Google Colaboratoryのインストール

1 Google Colaboratoryにログインする。
Googleアカウントを持っている人は、そのままログインしてください。持っていない人はアカウント作成が必要です。

ノートブックの作成

1 [ノートブックを新規作成]をクリックする。間違えてキャンセルした場合は[ファイル]-[ノートブックを新規作成]をクリックする

ランタイム接続

ノートブック作成時は低速の「CPU」が適用されています。今回はより高速処理ができる「GPU」に接続します（CPU,GPUについてはこちら）。

1 右上にある[接続]をクリック。接続中に変わる

2 [RAM,ディスク]に変わったらクリックし、[ランタイムのタイプを変更]をクリックする

3 ランタイムのタイプを[Python 3] ハードウェアアクセラレータを[T4 GPU]にし、保存する

音声ファイルのアップロード

1 左端の[ファイルアイコン]をクリック、[アップロードアイコン]をクリックし、音声ファイルを選択する

2 警告が出るがそのまま[OK]をクリックする

以下の様にファイルが追加されればOKです。

コードの貼り付け

以下のコードをそのまま貼り付けます。
1 以下のコードをコピーする

!pip install git+https://github.com/openai/whisper.git

2 ノートブックの1行目に貼り付ける

3 以下のコードをコピーする

import whisper

4ノートブックの [+コード]をクリックし、2行目を追加する。2行目に貼り付ける

5 以下のコードをコピーする

model = whisper.load_model("large")

6 同様の方法で3行目に貼り付ける

7 以下のコードをコピーする（”音声ファイルのパス”はとりあえずそのままでよいです）

result = model.transcribe("音声ファイルのパス")
print(result["text"])

8 同様の方法で4行目に貼り付ける
9 左端の[ファイルアイコン]をクリック、アップロードしたファイルを右クリックし、[パスをコピー]をクリックする

10 先ほどの[音声ファイルのパス]の部分を選択し、貼り付ける。
“/content/(ファイル名).mp3”になればOK

Google ColaboratoryでのWhisperの実行

準備が整ったので、コードを実行していきます。Google Colaboratoryでは1行ずつコードを実行していきます。
コードの実行は各行の左端の再生ボタンをクリックします。毎回各行の処理を待つのがポイントです。

1 1行目を実行する。左端に✅と秒数が表示されるまで待つ(以下は12秒)

2 2行目を実行する。左端に✅と秒数が表示されるまで待つ(以下は5秒)

3 3行目を実行する。左端に✅と秒数が表示されるまで待つ(以下は1分)。ここは少し時間がかかる

4 4行目を実行する。左端に✅と秒数が表示され、結果が出るまで待つ(以下は46秒)

赤枠のテキストをコピーすれば文字起こしは完了です。ちなみに全選択は文字の任意の場所をクリックして「Ctrl＋A」あるいはトリプルクリックで可能です。

今回は2分34秒の音声ファイルを使用して、46秒かかりました。

文字起こしした文章をChatGPTで文章校正する

文字起こしした文章についてですが、句読点が打たれていない場合があります。
このままでは読みにくい文章になるので文章を校正します。
ちなみに今回は以下の記事と書籍を参考にさせていただきました。

文章校正

Docswell

WhisperとChatGPTで文字起こし | ドクセル

https://www.docswell.com/s/karaage0703/K7VJV8-2023-06-24-233535

2023/06/24 ChatGPT のAPIを使ったハンズオン #機械学習名古屋 LTにて発表

文章中のケバ取り

＠DIME アットダイム

議事録の精度がアップ！ChatGPTで文字起こしの内容を整えるテンプレートとは？｜@D...

https://dime.jp/genre/1594900/

議事録や商談の内容を共有すために行なう、文字起こし作業。必要性はわかっていても、地味でやりがいがないと感じている人は多いはずだ。そんな面倒な作業こそ、ChatGPTに押しつけるべきだ。編集チバ取り除...

ChatGPTの文字数制限を回避する、「Whisper」と「メガプロンプト」で動画を記事化

リンク

ChatGPTでの文章校正のプロンプト

文章校正の為のプロンプトは以下になります。なお文字数制限を回避する為2つのプロンプトを用意しました。
〇文章の分割と文章校正を指示するプロンプト

これから文章を複数に分けて分割して渡しますので、その内容を記憶してください。その後以下の内容で文章校正をしてください。私が「文章校正をして」というまでは、作業を始めないでください。
代わりに「次の入力を待っています」とだけ出力してください。

#文章校正
文章の誤記訂正、句読点の追加をしてください。元の文章を維持するようにしてください。

〇分割された文章を入力するプロンプト

{入力文章}

上記の文章は全体のテキストの一部です。まだ作業をはじめないでください。

プロンプトの実行結果

以下は以前とあるクラブでスピーチをした際の音声の一部です。
しっかりと読める文章になっていることが分かると思います。

追加情報

文字起こし量を増やす

原因はわからないのですが、Google Collaboratoryでの4行目の実行時間が短くなる時があります。その場合は再度4行目の処理を行うと実行時間が伸びます。実行回数を増やすほど時間が延びる傾向もあるので、もし思った時間の文字起こしができなかった場合は何度か繰り返すとよいかもしれません。
ちなみに2時間の研修で40000文字の生成も可能でした。