Linuxで以下のリンクにあるプログラムを使用しています。
私が直面している問題は、pyaudio を使用してマイクで録音された自分の生のオーディオ ファイルを取得し、上記のプログラムを使用して録音したもののテキストを取得する方法です。
以下のpyaudioのプログラムがありますが、wavファイルが得られます。しかし、Google Cloud Speech API 用に未加工のオーディオ ファイルを保存したいと考えています。wav を raw オーディオ ファイルに変換したくありません。pyaudioを使用して生のオーディオファイルを直接保存したい。
import pyaudio
import wave
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 44100
CHUNK = 1024
RECORD_SECONDS = 5
WAVE_OUTPUT_FILENAME = "file.wav"
audio = pyaudio.PyAudio()
# start Recording
stream = audio.open(format=FORMAT, channels=CHANNELS,
rate=RATE, input=True,
frames_per_buffer=CHUNK)
print "recording..."
frames = []
for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
data = stream.read(CHUNK)
frames.append(data)
print "finished recording"
# stop Recording
stream.stop_stream()
stream.close()
audio.terminate()
waveFile = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
waveFile.setnchannels(CHANNELS)
waveFile.setsampwidth(audio.get_sample_size(FORMAT))
waveFile.setframerate(RATE)
waveFile.writeframes(b''.join(frames))
waveFile.close()