SpeechRecognitionライブラリとは?
Pythonの「SpeechRecognition」ライブラリは、音声をテキストに変換するための非常に強力かつ使いやすいツールです。このライブラリを使用することで、音声入力を簡単に処理し、さまざまなアプリケーションに音声認識機能を組み込むことができます。たとえば、音声コマンドによるデバイスの操作、音声アシスタント、音声入力を使ったデータ検索など、幅広い分野で応用されています。

Pythonで音声認識を試してみたい方にぴったりのチュートリアルを用意しました!このガイドでは、音声認識のセットアップ方法を初心者向けに丁寧に解説しています。ちょっとしたプロジェクトにも活かせるので、興味がある方はぜひ気軽にチェックしてみてくださいね!
主な機能と用途
- 音声からテキストへの変換
SpeechRecognitionの主な機能は、録音した音声やリアルタイムの音声入力をテキストに変換することです。 - さまざまな音声ソースへの対応
マイクからのリアルタイム音声入力や、音声ファイル(WAV、FLAC、AIFFなど)を処理することができます。 - 複数の音声認識エンジンの利用
Google Web Speech API、Sphinx、IBM Watsonなど、さまざまな音声認識エンジンに対応しています。これにより、アプリケーションに最適なエンジンを選択して組み込むことができます。
対応する音声認識エンジン
SpeechRecognitionは、以下のような主要な音声認識エンジンをサポートしています。
- Google Web Speech API
Googleが提供する高精度な音声認識エンジンで、インターネット接続が必要です。無料枠がありますが、大量の音声を処理する場合は有料のAPIキーが必要になります。 - CMU Sphinx
オープンソースの音声認識エンジンで、オフラインでも動作するため、インターネット接続が不要です。ただし、認識精度はGoogle APIなどに比べてやや劣ります。 - IBM Watson Speech to Text
IBMが提供する高精度な音声認識サービスで、有料プランが利用可能です。カスタマイズ可能なモデルや、専門的な音声分析が必要な場合に適しています。 - その他のAPI
Microsoft Azure Speech、Houndify、Wit.aiなどもサポートされており、用途に応じて選択できます。
このように、SpeechRecognitionは柔軟で多機能なライブラリであり、音声認識技術を手軽にアプリケーションに統合できる点が魅力です。
SpeechRecognitionのインストール方法
Pythonで「SpeechRecognition」ライブラリを使うためには、まずライブラリをインストールする必要があります。さらに、音声認識の精度を高めるためにいくつかの追加ツールやライブラリも準備する必要があります。以下に、インストール手順を詳しく解説します。
必要なソフトウェアとライブラリ
- Python:Python 3.6以上が推奨されます。Pythonがまだインストールされていない場合は、公式サイトからダウンロードしてインストールしてください。
- PyAudio:マイクからリアルタイムで音声を取得する際に必要なライブラリです。WindowsやMacではインストールが少し手間がかかる場合がありますが、後述の手順で解説します。
SpeechRecognitionライブラリのインストール
SpeechRecognitionライブラリ自体は、pipを使って簡単にインストールできます。以下のコマンドを実行してインストールしてください。
pip install SpeechRecognitionPyAudioのインストール
マイクから音声を取得するためには、PyAudioも必要です。しかし、PyAudioはプラットフォームによってはビルドエラーが発生することがあるため、少し注意が必要です。
Windowsの場合
- 事前にPyAudioのホイールファイルをダウンロードし、以下のようにインストールします。例えば、Python 3.9の場合:
pip install PyAudio‑0.2.11‑cp39‑cp39‑win_amd64.whl上記のコマンドは、Windows環境にPyAudioをインストールする際に使用します。cp39はPython 3.9に対応したホイールファイルで、使用しているPythonバージョンに合わせたファイルをダウンロードしてください。
MacOSの場合
brewコマンドを使ってportaudioをインストールします。以下のコマンドで実行してください。
brew install portaudio上記のコマンドを使って、MacOSにPortAudioをインストールします。PortAudioはPyAudioが依存するオーディオライブラリで、これがインストールされていないとPyAudioを使用できません。まずPortAudioをインストールし、その後pipコマンドを使ってPyAudioをインストールします。
pip install pyaudioLinuxの場合
Linuxの場合、portaudioライブラリとPyAudioを以下のコマンドでインストールします。
sudo apt-get install portaudio19-dev python3-pyaudioLinux環境では、apt-getを使ってPortAudioの開発用ライブラリとPyAudioをインストールします。portaudio19-devはPortAudioの開発パッケージで、これをインストールしないとPyAudioが正常に動作しない場合があります。
pip install pyaudioインストール確認
インストールが正常に完了したかどうかは、Pythonのインタプリタ上で以下のコマンドを実行することで確認できます。
import speech_recognition as srエラーメッセージが表示されなければ、インストールは成功です。
基本的な使用方法
SpeechRecognitionライブラリを使って音声をテキストに変換するプロセスは、非常に簡単です。この章では、音声認識を行うための基本的なコード例を紹介し、マイクや音声ファイルからの入力の取り扱い方を説明します。
簡単な音声認識コード例
以下は、SpeechRecognitionライブラリを使って音声をテキストに変換する基本的な流れを示したコードです。この例では、音声ファイルから音声を読み込み、それをテキストに変換しています。
import speech_recognition as sr
# Recognizerオブジェクトを作成
recognizer = sr.Recognizer()
# 音声ファイルを読み込む
with sr.AudioFile('path_to_audio_file.wav') as source:
audio_data = recognizer.record(source) # 音声を読み取る
# 認識結果をテキストに変換
try:
text = recognizer.recognize_google(audio_data)
print("認識されたテキスト: " + text)
except sr.UnknownValueError:
print("音声が理解できませんでした")
except sr.RequestError:
print("Google Speech Recognitionサービスに接続できませんでした")このコードでは、with sr.AudioFile(audio_file)という構文で音声ファイルを読み込み、recognizer.record(source)でそのファイルから音声データを取り出しています。その後、Google Web Speech APIを使用して音声をテキストに変換しています。
音声入力ソースの選択
SpeechRecognitionでは、さまざまな音声入力ソースを扱うことができます。代表的なものは以下の2つです。
- 音声ファイル:WAV、AIFF、FLACなどのフォーマットをサポートしており、ファイルを読み込んで音声認識を行うことができます。
- マイク:リアルタイムでマイクから音声を取得し、音声認識を実行できます。
音声ファイルからの入力
音声ファイルを使用する場合は、先ほどのコード例のようにAudioFileを使ってファイルを読み込みます。WAV形式が最もよく使われますが、FLAC形式も対応しています(MP3はサポートされていません)。
以下に、FLAC形式の音声ファイルを使用する例を示します。
with sr.AudioFile('path_to_audio_file.flac') as source:
audio_data = recognizer.record(source)
text = recognizer.recognize_google(audio_data)
print("認識されたテキスト: " + text)マイクからの入力
マイクを使ってリアルタイムで音声認識を行う場合は、Microphoneクラスを使用します。以下は、マイクからの音声入力をテキストに変換するコード例です。
import speech_recognition as sr
# Recognizerオブジェクトを作成
recognizer = sr.Recognizer()
# マイクを使用して音声を取得
with sr.Microphone() as source:
print("何か話してください...")
recognizer.adjust_for_ambient_noise(source) # 環境音を調整
audio_data = recognizer.listen(source) # 音声を聞き取る
# 音声認識を実行
try:
text = recognizer.recognize_google(audio_data)
print("認識されたテキスト: " + text)
except sr.UnknownValueError:
print("音声が理解できませんでした")
except sr.RequestError:
print("Google Speech Recognitionサービスに接続できませんでした")recognizer.adjust_for_ambient_noise()は、周囲の環境音に基づいてノイズのレベルを調整するメソッドで、マイクを使う際に有効です。これにより、ノイズの多い環境でも認識精度が向上します。
マイクからの音声認識
マイクを使ってリアルタイムで音声を入力し、それをテキストに変換するのは、SpeechRecognitionライブラリの最も一般的な使用方法の一つです。この章では、マイクを使った音声認識の手順や、環境音に応じた設定のポイントについて詳しく説明します。
マイクから音声を取得する方法
マイクから音声を取得してテキストに変換するには、Microphoneクラスを使用します。以下に基本的なコード例を示します。
import speech_recognition as sr
# Recognizerオブジェクトを作成
recognizer = sr.Recognizer()
# マイクを使用して音声を取得
with sr.Microphone() as source:
print("何か話してください...")
audio_data = recognizer.listen(source) # マイクからの音声を取得
# 認識結果を表示
try:
text = recognizer.recognize_google(audio_data)
print("認識されたテキスト: " + text)
except sr.UnknownValueError:
print("音声が理解できませんでした")
except sr.RequestError:
print("Google Speech Recognitionサービスに接続できませんでした")このコードでは、recognizer.listen()メソッドを使ってマイクから音声を取得し、それをGoogleの音声認識APIで処理しています。マイクがデフォルトのオーディオ入力デバイスとして設定されていれば、Microphone()クラスは自動的にそのマイクを使用します。
環境音の調整
マイクを使った音声認識では、周囲の環境音(雑音)が認識精度に影響を与えることがあります。SpeechRecognitionライブラリには、環境ノイズを軽減し、音声認識の精度を向上させるための便利なメソッドが用意されています。その一つが、adjust_for_ambient_noise()です。
with sr.Microphone() as source:
recognizer.adjust_for_ambient_noise(source, duration=1) # 環境音を1秒間キャリブレーション
print("何か話してください...")
audio_data = recognizer.listen(source)adjust_for_ambient_noise()メソッドは、指定された時間(duration=1の場合は1秒間)を使って、マイクの周囲のノイズレベルを検出し、そのレベルに応じて音声認識を最適化します。この設定は、特に雑音の多い場所で有効です。
マイクの設定
システムに複数のマイクが接続されている場合、デフォルトのマイクではないマイクを選択して使いたい場合があります。その場合、Microphoneクラスのdevice_indexを指定することで、特定のマイクを選ぶことができます。
まず、システムに接続されているマイクのリストを取得する方法です。
import speech_recognition as sr
# システム上のマイクデバイスをリスト表示
for index, name in enumerate(sr.Microphone.list_microphone_names()):
print(f"Microphone {index}: {name}")これを実行すると、利用可能なマイクのリストが表示されます。リストの中から使いたいマイクのインデックスを確認し、そのインデックスをdevice_indexに指定します。
with sr.Microphone(device_index=1) as source: # 例: 1番目のマイクを選択
recognizer.adjust_for_ambient_noise(source)
print("何か話してください...")
audio_data = recognizer.listen(source)長時間の音声を取得する場合
recognizer.listen()メソッドは、デフォルトでは話者が話し終わったタイミングで自動的に音声の取得を停止します。ただし、長時間の音声や、区切りのない音声入力を処理する場合、timeoutやphrase_time_limitといった引数を使って、取得する音声の長さを制御することが可能です。
with sr.Microphone() as source:
print("音声入力開始...(最大5秒)")
audio_data = recognizer.listen(source, timeout=5, phrase_time_limit=10)- timeout:音声入力が開始されるまでの最大待機時間(秒)。
- phrase_time_limit:音声入力の最大長さ(秒)。これを超えると、音声入力は自動的に停止します。
音声ファイルからの音声認識
音声認識は、リアルタイムのマイク入力だけでなく、録音された音声ファイルにも対応しています。SpeechRecognitionライブラリはWAV、FLAC、AIFFなどのさまざまな音声ファイル形式をサポートしており、これらのファイルから音声を取得してテキストに変換することができます。
音声ファイルの使用方法
音声ファイルを扱う場合、AudioFileクラスを使用してファイルを読み込み、その後にRecognizerオブジェクトのrecord()メソッドで音声データを取得します。以下はWAVファイルを読み込み、Googleの音声認識APIを使って音声をテキストに変換する基本的なコード例です。
import speech_recognition as sr
# Recognizerオブジェクトを作成
recognizer = sr.Recognizer()
# 音声ファイルを読み込む
audio_file = 'path_to_audio_file.wav' # 例: "audio.wav"
with sr.AudioFile(audio_file) as source:
audio_data = recognizer.record(source) # 音声データを取得
# 認識結果をテキストに変換
try:
text = recognizer.recognize_google(audio_data)
print("認識されたテキスト: " + text)
except sr.UnknownValueError:
print("音声が理解できませんでした")
except sr.RequestError:
print("Google Speech Recognitionサービスに接続できませんでした")このコードでは、with sr.AudioFile(audio_file)という構文で音声ファイルを読み込み、recognizer.record(source)でそのファイルから音声データを取り出しています。その後、Google Web Speech APIを使用して音声をテキストに変換しています。
対応するファイル形式
SpeechRecognitionライブラリは複数の音声ファイル形式をサポートしていますが、特にWAV形式が最も扱いやすく、推奨されています。FLAC形式もサポートされていますが、MP3形式はサポートされていないため、MP3ファイルを使用する場合は別途変換が必要です。音声ファイルの形式に応じて適切なフォーマットでファイルを準備しましょう。
対応する主な音声ファイル形式:
- WAV:一般的な非圧縮音声フォーマット。高品質な音声を扱う場合に最適です。
- FLAC:ロスレス圧縮の音声フォーマット。ファイルサイズを小さくしながら高品質を維持します。
- AIFF:Appleが開発した非圧縮音声フォーマット。主にApple製品で使用されます。
部分的に音声を読み取る
音声ファイルが長い場合や、ファイルの一部だけを認識したい場合は、record()メソッドにduration引数を使うことで、指定した長さだけ音声を読み込むことが可能です。
with sr.AudioFile('path_to_audio_file.wav') as source:
audio_data = recognizer.record(source, duration=5) # 最初の5秒間だけ読み取るまた、音声ファイルの特定の開始位置から読み込みたい場合は、offset引数を指定します。
with sr.AudioFile('path_to_audio_file.wav') as source:
audio_data = recognizer.record(source, offset=10, duration=5) # 10秒後から5秒間を読み取るこのように、音声ファイル全体を処理せずに必要な部分のみを認識することが可能です。
長時間の音声ファイルの処理
長時間の音声ファイルを一度にすべて読み込むと、メモリを大量に消費してしまう場合があります。このような場合、record()メソッドを使って音声ファイルを分割して読み込むことができます。
with sr.AudioFile('path_to_long_audio_file.wav') as source:
while True:
audio_data = recognizer.record(source, duration=30) # 30秒ずつ処理
try:
text = recognizer.recognize_google(audio_data)
print("認識されたテキスト: " + text)
except sr.UnknownValueError:
print("音声が理解できませんでした")
except sr.RequestError:
print("Google Speech Recognitionサービスに接続できませんでした")
# ファイルの終端に達したらループを終了
if source.DURATION - source.OFFSET <= 0:
breakこの方法を使うことで、大きなファイルでもメモリを効率的に使用しながら処理を進めることができます。
エラーハンドリング
音声認識アプリケーションを実装する際、さまざまなエラーが発生する可能性があります。例えば、音声が認識できなかった場合や、インターネット接続の問題でAPIにアクセスできない場合です。SpeechRecognitionライブラリには、これらのエラーに対応するためのエラーハンドリング機構が組み込まれています。この章では、よくあるエラーとその対処方法について詳しく解説します。
よくあるエラー
音声認識の過程で発生しやすいエラーには、主に次の2種類があります。
- UnknownValueError:このエラーは、ライブラリが音声を聞き取れなかった場合に発生します。たとえば、音声が不明瞭だったり、マイクにノイズが多すぎたりすると、このエラーが発生します。
- RequestError:音声認識サービス(たとえばGoogle Web Speech API)にアクセスできない場合、またはリクエストに失敗した場合にこのエラーが発生します。インターネット接続の問題や、APIの使用制限が原因となることが一般的です。
エラー処理の方法
これらのエラーを適切に処理することで、アプリケーションがユーザーフレンドリーになります。以下に、エラー処理を組み込んだコードの例を示します。
import speech_recognition as sr
recognizer = sr.Recognizer()
# マイクから音声を取得
with sr.Microphone() as source:
print("何か話してください...")
audio_data = recognizer.listen(source)
# 音声認識の実行とエラーハンドリング
try:
text = recognizer.recognize_google(audio_data)
print("認識されたテキスト: " + text)
except sr.UnknownValueError:
print("エラー: 音声が理解できませんでした。もう一度試してください。")
except sr.RequestError as e:
print(f"エラー: 音声認識サービスにアクセスできませんでした。詳細: {e}")このコードでは、try-except構文を使って、音声認識に失敗した場合のエラー処理を行っています。エラーに対して適切なメッセージを表示することで、ユーザーに再試行を促すことができます。
ネットワーク関連のエラー
音声認識APIを使用する場合、インターネット接続が必要です。ネットワークの問題や、APIの使用制限によってリクエストが失敗することがあります。このようなエラーはRequestErrorとしてキャッチされます。
ネットワーク関連のエラーを処理する際には、次のポイントに注意する必要があります。
- インターネット接続を確認する: エラーが発生した場合、まずはインターネット接続が正しく機能しているかを確認します。
- APIの使用制限: Google Web Speech APIなどのサービスには無料の使用制限が設定されています。無料枠を超えると、リクエストが失敗する可能性があるため、APIの使用状況を定期的に確認しましょう。
ネットワークの一時的な問題に対しては、以下のように再試行を試みる実装も考えられます。
max_retries = 3
for attempt in range(max_retries):
try:
text = recognizer.recognize_google(audio_data)
print("認識されたテキスト: " + text)
break
except sr.RequestError as e:
if attempt < max_retries - 1:
print("リトライ中...")
else:
print(f"エラー: 音声認識サービスに接続できませんでした。詳細: {e}")ノイズによる失敗の対処
環境ノイズが多い場所では、音声認識の精度が低下する可能性があります。そのため、adjust_for_ambient_noise()を使って環境ノイズを考慮することが重要です。さらに、ノイズの影響を受けやすい場所では、ユーザーに静かな環境で再度試してもらうように指示することも有効です。
with sr.Microphone() as source:
recognizer.adjust_for_ambient_noise(source)
print("環境ノイズに合わせて調整しました。話してください...")
audio_data = recognizer.listen(source)これにより、マイクが周囲のノイズに合わせて音声感度を調整し、認識の精度が向上します。
カスタム音声認識エンジンの利用
SpeechRecognitionライブラリは、デフォルトでGoogle Web Speech APIを利用していますが、他にもさまざまな音声認識エンジンを利用することができます。これにより、用途に応じてエンジンを切り替えることができ、さらに高度なカスタマイズや特殊な要件に対応することが可能です。この章では、代表的なカスタム音声認識エンジンの設定方法と利用方法について解説します。
Google Web Speech API
Google Web Speech APIは、SpeechRecognitionライブラリで最もよく使われる音声認識エンジンです。インターネット接続が必要で、高精度な音声認識を提供しています。無料で利用できますが、一定のリクエスト量を超えると有料になるため、商用アプリケーションではAPIキーを取得して使用する必要があります。
APIキーの設定方法
- Google Cloud Platformでプロジェクトを作成し、Google Cloud Speech-to-Text APIを有効にします。
- 認証情報としてAPIキーを作成します。
- APIキーをプログラムに設定し、リクエストに使用します。
以下は、APIキーを使ってGoogle Web Speech APIにアクセスする例です。
import speech_recognition as sr
recognizer = sr.Recognizer()
audio_file = 'path_to_audio_file.wav'
with sr.AudioFile(audio_file) as source:
audio_data = recognizer.record(source)
# Google Web Speech APIにAPIキーを使ってリクエスト
API_KEY = 'your_google_cloud_api_key'
try:
text = recognizer.recognize_google(audio_data, key=API_KEY)
print("認識されたテキスト: " + text)
except sr.RequestError as e:
print(f"エラー: APIにアクセスできませんでした。詳細: {e}")
except sr.UnknownValueError:
print("音声が理解できませんでした")このコードでは、recognize_googleメソッドにAPIキーを指定することで、Google Cloud Speech-to-Text APIを使用しています。
IBM Watson Speech to Text
IBM Watsonは、音声認識において高い精度と柔軟性を提供するサービスです。特に、カスタマイズ可能な音声モデルを使用することで、特定の専門分野や業界向けの音声認識を最適化できます。IBM Watson Speech to Textサービスは有料ですが、無料プランも提供されています。
設定方法
- IBM Cloudにサインアップし、Speech to Textサービスを作成します。
- サービスのAPIキーとURLを取得します。
以下は、APIキーとURLを使ってIBM Watson Speech to Textにアクセスする例です。
import speech_recognition as sr
recognizer = sr.Recognizer()
audio_file = 'path_to_audio_file.wav'
with sr.AudioFile(audio_file) as source:
audio_data = recognizer.record(source)
# IBM WatsonのAPIキーとURLを設定
IBM_USERNAME = 'apikey' # "apikey"は固定値
IBM_APIKEY = 'your_ibm_api_key'
IBM_URL = 'your_ibm_service_url'
try:
text = recognizer.recognize_ibm(audio_data, username=IBM_USERNAME, password=IBM_APIKEY, url=IBM_URL)
print("認識されたテキスト: " + text)
except sr.RequestError as e:
print(f"エラー: IBM Watsonサービスにアクセスできませんでした。詳細: {e}")
except sr.UnknownValueError:
print("音声が理解できませんでした")このコードでは、recognize_ibmメソッドを使用し、IBM WatsonのAPIキーとサービスURLを指定しています。IBM Watsonの特徴は、カスタマイズモデルを使うことで特定の業界や専門分野の音声認識精度を高められる点です。
CMU Sphinx(PocketSphinx)
CMU Sphinxは、オープンソースの音声認識エンジンで、オフラインで動作します。SpeechRecognitionライブラリは、このエンジンの軽量版であるPocketSphinxをサポートしています。CMU Sphinxは、インターネット接続を必要としないため、ネットワーク環境が整っていない場合や、プライバシーを重視するアプリケーションに向いています。ただし、精度はGoogle Web Speech APIなどに比べてやや劣ります。
インストール方法
PocketSphinxを使用するには、事前に以下のコマンドで必要なパッケージをインストールします。
pip install pocketsphinx以下は、PocketSphinxを使ってオフライン音声認識を行うコード例です。
import speech_recognition as sr
recognizer = sr.Recognizer()
audio_file = 'path_to_audio_file.wav'
with sr.AudioFile(audio_file) as source:
audio_data = recognizer.record(source)
# PocketSphinxによるオフライン音声認識
try:
text = recognizer.recognize_sphinx(audio_data)
print("認識されたテキスト: " + text)
except sr.UnknownValueError:
print("音声が理解できませんでした")
except sr.RequestError as e:
print(f"エラー: PocketSphinxに問題があります。詳細: {e}")PocketSphinxはローカルで処理を行うため、インターネットに依存しないというメリットがありますが、精度が低い場合があるため、用途に応じて適切なエンジンを選択することが重要です。
実践的な応用例
SpeechRecognitionライブラリを使うと、さまざまな実用的なアプリケーションを簡単に構築することができます。この章では、音声アシスタントの実装や、音声コマンドを使用したアプリケーションの簡単な例を紹介します。これらの応用例を通じて、ライブラリの強力な機能を活用できる方法を学びます。
音声アシスタントの実装
音声アシスタントは、音声認識と自然言語処理を組み合わせることで、ユーザーの指示を音声で受け取り、それに基づいてタスクを実行するアプリケーションです。以下は、Pythonで非常にシンプルな音声アシスタントを作るコード例です。
import speech_recognition as sr
import pyttsx3 # テキストを音声に変換するライブラリ
# 音声認識の初期化
recognizer = sr.Recognizer()
# 音声出力の初期化
engine = pyttsx3.init()
# 音声出力関数
def speak(text):
engine.say(text)
engine.runAndWait()
# 音声認識関数
def listen():
with sr.Microphone() as source:
recognizer.adjust_for_ambient_noise(source)
print("何か話してください...")
audio = recognizer.listen(source)
try:
command = recognizer.recognize_google(audio, language='ja-JP') # 日本語設定
print(f"認識されたコマンド: {command}")
return command
except sr.UnknownValueError:
speak("音声が理解できませんでした。もう一度お話しください。")
except sr.RequestError as e:
speak(f"音声認識サービスに接続できませんでした。詳細: {e}")
# 音声アシスタントのループ処理
def assistant():
speak("こんにちは、何をお手伝いできますか?")
while True:
command = listen()
if command:
if "終了" in command:
speak("さようなら")
break
elif "天気" in command:
speak("現在の天気を調べます...")
# 天気情報を取得するコードを追加可能
elif "時間" in command:
from datetime import datetime
current_time = datetime.now().strftime("%H時%M分です")
speak(f"今の時間は {current_time}")
else:
speak("すみません、そのコマンドは理解できませんでした。")
# アシスタントの起動
assistant()このコードでは、Google Web Speech APIを使って音声認識を行い、認識されたテキストに基づいていくつかのコマンド(時間を教える、天気を調べるなど)に反応する簡単な音声アシスタントを実装しています。また、pyttsx3ライブラリを使ってテキストを音声で返答しています。
音声コマンドによる操作アプリ
音声コマンドを使用してコンピュータやアプリケーションを操作するのも、音声認識技術の一般的な応用例です。ここでは、音声コマンドで特定のアプリケーションを起動するプログラムを作成します。
import speech_recognition as sr
import os
# 音声認識の初期化
recognizer = sr.Recognizer()
# 音声コマンドでアプリを起動する関数
def listen_and_execute():
with sr.Microphone() as source:
recognizer.adjust_for_ambient_noise(source)
print("どのアプリを開きますか?")
audio = recognizer.listen(source)
try:
command = recognizer.recognize_google(audio, language='ja-JP') # 日本語設定
print(f"認識されたコマンド: {command}")
# コマンドに基づいてアプリを起動
if "メモ帳" in command:
os.system("notepad") # メモ帳を起動(Windows)
elif "ブラウザ" in command:
os.system("start chrome") # Chromeを起動
elif "計算機" in command:
os.system("calc") # 計算機を起動(Windows)
else:
print("コマンドが認識されませんでした。")
except sr.UnknownValueError:
print("音声が理解できませんでした")
except sr.RequestError as e:
print(f"エラー: 音声認識サービスに接続できませんでした。詳細: {e}")
# コマンドの受付と実行
listen_and_execute()このプログラムは、ユーザーの音声入力を解析し、そのコマンドに基づいてアプリケーションを起動します。os.system()を使ってシステムのコマンドを実行し、メモ帳やブラウザなどのアプリを開きます。この仕組みを応用して、さまざまなシステム操作を音声コマンドで行うことが可能です。
音声データの自動文字起こしツール
音声データを自動で文字起こしするツールも、音声認識の強力な応用例の一つです。例えば、会議の録音ファイルをテキストに変換することができます。以下は、音声ファイルを読み込み、その内容を自動で文字起こしするコード例です。
import speech_recognition as sr
# 音声認識の初期化
recognizer = sr.Recognizer()
# 音声ファイルを文字起こし
def transcribe_audio(audio_file_path):
with sr.AudioFile(audio_file_path) as source:
audio_data = recognizer.record(source)
try:
text = recognizer.recognize_google(audio_data, language='ja-JP') # 日本語設定
print("認識されたテキスト: ")
print(text)
return text
except sr.UnknownValueError:
print("音声が理解できませんでした")
except sr.RequestError as e:
print(f"エラー: 音声認識サービスに接続できませんでした。詳細: {e}")
# 音声ファイルのパスを指定して実行
transcribe_audio("path_to_audio_file.wav")このコードでは、音声ファイルを読み込み、その内容をテキストに変換します。音声データの自動文字起こしは、会議記録やインタビューのテキスト化など、ビジネスやメディアで非常に役立つツールになります。

ここまで読んでいただきありがとうございます!
UdemyのPythonコースにはオンラインで学習ができる動画コンテンツがたくさんあります。
当ブログのような文章メインの説明では足りない箇所を補えると思うので、もっと詳しく勉強したいという方はぜひチェックしてみてください!



コメント