Whisperの最新音声認識モデルWhisper large-v3の機能や使い方
ビジネスシーンやプライベートでも文字起こしをする機会は少なくありません。例えば、YouTubeの動画をもとに記事を書きたいときです。記事を書く際の参照元はインターネット上の情報になることも多いですが、場合によってはYouTubeのほうが詳しく説明されていたり、わかりやすかったりするので、動画を参照して記事を書く人も少なくありません。
また、文字起こしをすることでプレゼンテーションを記録してスキルアップに役立てられたり、言われたことをテキストで振り返ることができたりするなど、数多くのメリットがあるといえるでしょう。
しかし、手動による文字起こしは負担が大きくなります。例えば、動画を視聴しながらその音声に合わせてキーボードを叩いて文字起こしをすることもできますが、非常に負担が大きいです。そのため、自動で文字起こしをするためにOpenAIのWhisperを活用される方が多いです。
そして、近年Whisperの最新の音声認識モデルであるWhisper large-v3が登場し、多くの人から注目を集めています。実際に最新の音声認識モデル『Whisper large-v3』の利用を検討している人の中には、内蔵されている機能や使い方について知りたいという方もいるのではないでしょうか?
そこで、今回は最新の音声認識モデルWhisper large-v3の概要や機能、使い方について詳しく解説します。
目次
Whisper large-v3とは?
Whisper large-v3とは、OpenAIが開発しているWhisper最新の音声認識モデルです。従来のバージョンはlarge-v2が使用されていました。しかし、2023年11月6日に開催されたはじめてのOpenAIのカンファレンス『OpenAI Dev Day 2023』によって新モデルであるWhisper large-v3が発表されました。これにより、従来の音声認識モデルよりも性能などが改善されており、さらにパワフルな文字起こしAIの利用が可能です。
そもそもOpenAIのWhisperとは?
Whisperは、OpenAIが開発・提供している文字起こしAIのことです。簡単にいえば、音声データをテキストに変換してくれるAIと表現することができます。インターネット上にある合計68時間以上の音声データを学習しているAIであり、さまざまな音声のテキスト化を実現してくれます。例えば、YouTube動画から音声を収集してテキストに変換することも可能です。また、mp3ファイルから音声だけを抽出してテキストを生成することもできます。
WhisperはMITライセンスが適用されているため、誰でも自由に利用することができます。また、米国のOpenAIが開発した音声認識モデルになりますが、日本語の音声をテキストに変換することも可能です。
Whisper large-v3の2つのメリット
最新の音声認識モデル『Whisper large-v3』のメリットについて改めてチェックしてきましょう。なぜほかの音声認識AIよりも選ばれているのかがわかるので、ぜひチェックしてみてください。
高度な音声認識能力
1つ目は、高度な音声認識能力が搭載されている点です。
元々、従来の音声認識バージョンであるlarge-v2でも非常に精度が高いと好評でしたが、Whisper large-v3になりさらに性能が改善されたことで、音声認識の精度は各段に向上しています。音声のテキスト化、動画から音声だけを抽出してテキストにすることができるだけでなく、さらにテキスト自体も正確なので、活用することで大きなメリットを獲得できます。
無料で利用可能
2つ目は、無料で利用することができるという点です。
Whisper large-v3はオープンソースの音声認識AIになるため、誰でも無料で利用することができます。つまり、Whisper large-v3を利用する人はコストを払う必要がありません。精度が高く、さらに価格も無料になるので、利用を検討している多くの人がWhisper large-v3にメリットを感じることができるでしょう。
最新版Whisper large-v3の機能4選
最新モデルWhisper large-v3が登場したことにより性能が大幅に向上されています。ここでは、Whisper large-v3の機能や性能について解説していきますので、large-v2の違いを把握したい方は、ぜひ参考にしてください。
訓練データ量
1つ目は、訓練データ量です。
Whisper large-v3は、large-v2よりも訓練データが多くなっています。最新版のモデルはWhisperを使用して収集された約100万時間の弱いラベル付き音声と400万時間の疑似ラベル付き音声でトレーニングされています。
音声認識AIに限らず、AIは訓練量が多ければ多いほど正確な予測を行えたり、高速に処理することができたりします。また、汎用性が高くなり、新しいデータに対応できるなどのメリットがあるため、Whisper large-v3のほうが優れているといえるでしょう。さらに、論文『Robust Speech Recognition via Large-Scale Weak Supervision』においてもAIのトレーニングデータ量とパフォーマンスは相関関係にあることが記載されています。
出典:Robust Speech Recognition via Large-Scale Weak Supervision
言語トークン
2つ目は、言語トークンです。
Whisper large-v3には、広東語が導入されています。これにより、広東語を含む多くの言語に対応できるようになることで、モデルの性能が大幅に改善されているといえるでしょう。
音声周波数の範囲
3つ目は、音声周波数の範囲です。
OpenAIの音声認識AI最新モデルであるWhisper large-v3は音声周波数の範囲が拡大しています。従来は入力の際に80が使用されていましたが、音声認識最新モデルのWhisper large-v3は120のメル周波数ビンが使用されています。周波数の範囲が拡大したことによって広く音声周波数をキャプチャすることができるようになったので、従来の音声認識モデルに比べて音声認識精度が向上しています。
エラー率と性能
4つ目は、エラー率の低減と性能の向上です。
最新版の音声認識であるWhisper large-v3は、従来のlarge-v2に比べてエラー率が1割~2割程度削減されています。前述で説明した通り、Whisper large-v3は従来の音声認識モデルに比べて訓練データ量が多くなっているため、それによりエラー率が改善されています。
また、従来の音声認識モデルに比べて幅広い言語の音声認識性能が改善されました。実際に、large-v2は英語の文字起こし精度が高かったですが、一方で日本語の文字起こしには課題を感じていた方も多いでしょう。しかし、最新版の音声認識であるWhisper large-v3に関しては日本語でも音声認識精度が高く、非常に使いやすくなったといえます。
Whisper large-v3の使い方
Whisper large-v3は、オープンソースになっているため、誰でも自由に使用することができます。この見出しでは、Google Colaboratoryを使用し、Whisper large-v3を使用する手順を解説します。Whisper large-v3を無料で利用したい方やPythonからどのように使うのか知りたい人はぜひチェックしてみてください。
Google Colaboratory環境にライブラリをインストールする
はじめに、Google Colaboratory環境でライブラリをインストールします。手順は下記の通りです。
1.はじめに、下記のURLからGoogle Colaboratoryにアクセスします。Google Colaboratoryは、Googleが開発・提供を行っているブラウザ上で使用することができる機械学習構築のためのプラットフォームです。ブラウザ上でPythonを動かすことができるため、パソコンにPythonをインストールするなど、事前の環境整備が不要となっています。
・https://colab.research.google.com/?hl=ja
2.最新版の音声認識であるWhisper large-v3を使うためには、はじめにライブラリをインストールする必要があります。Google Colaboratoryのデフォルトでは、ランタイムのタイプの設定がCPUとなっています。そのため、手動でGPUに変更する必要があるので、Google Colaboratoryの上部メニューから『ランタイム』→『ランタイムのタイプの変更』をクリックしてください。
3.ランタイムのタイプの変更のポップアップが表示されます。この設定の中にある『ハードウェアアクセラレータ』の設定をCPUからGPUに変更してください。今回のチュートリアルでは『T4 GPU』を選択しました。
4.次に、音声認識AIのWhisperをインストールします。『!pip install -U openai-whisper』と入力し、インストールしましょう。『Successfully installed openai-whisper-20231117 tiktoken-0.5.1』と最後に表示されたら完了です。
5.以上で音声認識AIモデルWhisper large-v3のインストールは完了です。
音声認識AIのWhisper large-v3を使ってmp3ファイルをテキストに変換する
次に、最新版の音声認識AIであるWhisper large-v3を使い、mp3ファイルに記録されている音声をテキストに変換します。音声認識をさせてテキストに変換するためには、Pythonを使用する必要がありますが、簡単な実装であればコードも少ないです。Pythonに慣れている方であればすぐにWhisper large-v3を使って音声認識ができるので、ぜひ挑戦してみてください。
早速、Whisper large-v3にmp3を認識させてテキストに変換する手順は下記の通りです。
1.Whisper large-v3に音声認識させるためには、まずmp3のファイルを用意する必要があります。任意のmp3ファイルをGoogle Colaboratoryのファイルにアップロードしてください。今回のチュートリアルでは、audio.mp3という任意のファイルをGoogle Colaboratoryにアップロードしました。
2.次にPythonのコードを書いていきます。コードの流れは、はじめにWhisperをインポートして、モデルを指定。そのあとにファイルを指定します。そのあとに、print関数でmp3ファイルを音声認識してテキストに変換した文字列を出力させます。
3.以上でWhisper large-v3の使い方の手順は以上です。
Whisper large-v3を使う際に気を付けたい注意点
Whisper large-v3で音声認識をする際に、気を付けたい注意点がいくつか存在します。どのような注意点があるのか詳しく解説しますので、ぜひ参考にしてください。
プログラミングに馴染みのない人は使いづらい
1つ目は、Whisper large-v3を無料で利用して音声認識させるためには、プログラミングが必須になるという点です。
Whisper large-v3はオープンソースの音声認識AIとなっており、誰でも無料で利用することができます。しかし、上記で使い方を解説した通り、コンソールを使ってライブラリをインストールする必要があったり、インストールしたライブラリを使用してPythonにコードを記述してWhisper large-v3に音声認識させたりしなければなりません。
エンジニアなど普段からPythonのコードやほかのプログラミング言語を扱うことができる人であれば問題なくWhisper large-v3を使って音声認識ができます。しかし、今までプログラミングをしたことがない人の場合、手順通りに行っているのにうまくいかないこともあるでしょう。
プログラミングが苦手な方でWhisper large-v3を使用したいという人は、Whisper APIを活用するもしくは専門のシステム開発会社に委託する必要があるでしょう。
Whisper API経由で利用すると料金がかかる
2つ目は、Whisper API経由で利用する場合、料金がかかるという点です。
オープンソースからWhisper large-v3を利用する場合は、無料で使用できます。しかし、プログラミングが必須です。そのため、プログラミングが苦手な人の中には、Whisper APIの活用を検討している人も少なくないでしょう。
しかし、Whisper APIからWhisper large-v3を使用して音声認識させる場合、料金が必要です。具体的な料金は、1分あたり0.006ドルになります。約1時間利用した場合、約50円~60円かかります。もちろん、為替レートは変動するため、使用するときに改めて計算するようにしましょう。
金額は非常に安いですが、利用頻度が多い場合や容量の大きいmp3ファイルなどを音声認識させてテキスト変換するとき、金額が積み重なってコストが増大する可能性があります。また、従量課金制となっているため、使用する度に料金が発生することになるでしょう。そのため、トータルでコストを抑えたいという方は、オープンソースを使用して実装するもしくはシステム開発会社に依頼して初期費用のみで運用するのがおすすめです。
Whisper large-v3でも正確ではないテキストが生成されることもある
3つ目の注意点は、完璧な音声認識を実現することが難しいという点です。
Whisper large-v3は、訓練データが従来の音声認識モデルlarge-v2よりも多くなっています。そのため、精度が高くなったといえるでしょう。しかし、すべて完璧に音声認識できるわけではないので注意が必要です。
Whisper large-v3は従来通り、早口のセールスや独特のアクセントが含まれる会話なども比較的正しく音声認識できます。しかし、音声の中には認識が難しいものもあるため、生成されたテキストをそのまま使用するのではなく、内容を確認してから使用するようにしましょう。
まとめ
今回は、最新音声認識モデルWhisper large-v3の機能や概要について詳しく解説しました。Whisper large-v3は従来の音声認識モデルであるlarge-v2に比べて訓練データ量が多くなっています。そのため、従来の音声認識モデルよりも精度が非常に高いです。
例えば、従来の音声認識モデルであるlarge-v2は日本語の音声認識の精度が英語よりも良くありませんでした。しかし、Whisper large-v3では従来のバージョンよりも日本語の音声認識が正確になっています。Whisper large-v3はオープンソースとなっており、Pythonからなら誰でも無料で利用することができるので、この機会にWhisper large-v3の精度を試してみてはいかがでしょうか。
ホームページ制作・システム開発を依頼したい企業様がいたら
株式会社クラウドシードでは、各種ホームページ制作やシステム開発のご相談を承っています。
ご検討の方は、以下よりお気軽にご相談ください。