テープ起こしはウィスパートランスクリプション(Whisper Transcription)一択!

MacOS専用でM1以上などと制約もあるが文句なしのアプリ

音声データからテキストデータを抽出する「テープ起こし」ニーズは多かったものの、これまでは変換精度が甘くライターベースで言うと事実上使えないものばかりでした。

ですが2023年、OpenAIの最先端テープ起こし技術Whisperを使った画期的なアプリが登場しました。
それが100カ国の言語が解析可能なウィスパートランスクリプション(Whisper Transcription)です。

変換後にストレスの(ほぼ)無いデータ作成には有料のPROバージョン購入(一括3000円!)が必須で、またM1Pro以上のMacで無いと動かないようです。
しかし無印M1をお持ちなら無料版を試してみるのもオススメで、使い方によってはこれで十分な方も少なくないでしょう。

何より私がこのアプリで一番気に入っているのは、データ解析がローカルPC内で行われインターネットに流れない点です。
個人情報保護の観点からも嬉しいですね。

実際の操作

環境はMacbook Pro2021 14インチ M1pro mem16GB ssd500GB macOS13.4.1、アプリバージョンは3.2。

インストールはMac App Storeからで、立ち上げると上の画面に。
右上がLargeなのは導入後有料版にしたからで、無料版はSmallと表示されます。

左の「Open Files」をクリックして変換したいファイルを読み込みます。
今回は自分の講演動画ファイル(mov)を使いました。
ちなみに動画でも音声ファイルでも変換時間はさほど変わらず、2時間収録で45分ほど。
ちなみに無料のSmallだと10分ほどで終わります。

冒頭のカッコ書き(本日講師を~)部分は、発言者を判断してアプリが付けてくれます。
今回は自分だけなので最初だけ登場。

で、1行目から誤変換、「浩也」が「博弥」ですね。
固有名詞なので仕方ないですし、後に一括変換すればいいのでここでは問題なしとしましょう。

いろんな形式で出力可能

通常はこのまま変換終了を待ちますが、今回は右上「Stop」で止めて検証します。
ヘッダの「Export」をクリックして出力形式を「Export formats」から選びます。

まず名前以外、カンペキな変換ぶりをご覧ください。

フォーマット別出力データ

各フォーマットで出力したデータをTeraPadで表示したのがこちら。
(変換後の作業はWindowsなので)

1.Full Transcript 拡張子「.txt」 改行なしのフラットテキスト

2.SRT 拡張子「.srt」 動画編集ソフト用字幕ファイル

3.vtt(WEBVTT) 拡張子「.vtt」 テキストを時間ごとに表示させる

4.Sentences  拡張子「.txt」 1文ごとに改行(\n)2個つくテキスト

5.Speaker Paragraphs 拡張子「.txt」 1文ごとに改行(\n)2個つくテキスト

  ※4に発言者()が付く

6.CSV 拡張子「.csv」

7.HTML 拡張子「.html」 ※有料版のみ ブラウザ表示は下のPDFに同じ

8.PDF 拡張子「.pdf」 ※有料版のみ

9.DOTE 拡張子「.json」 ※有料版のみ

10.DOCX 拡張子「.docx」 ※有料版のみ Wordファイル

以上です。
ご自分の用途にあったファイル形式を選んでください。

最後に、
生成AIはどこに行くんでしょうね?
嬉しいような怖いような・・・

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です