私は、ASR 結果と対応するオーディオ ファイルの両方を入力として取得する必要がある対話システムに取り組んでいます。私は Ubuntu 14.04 で ROS indigo を使用し、ASR からのテキストとそれぞれのオーディオ ファイルの両方を受け取るために、 recognizer.py ( http://docs.ros.org/indigo/api/pocketsphinx/html/recognizer_8py_source.html ) を編集します。認識された発話。gst パイプラインを次のように変更しました。
self.launch_config += " ! audioconvert ! audioresample ! tee name=t ! queue ! audioresample " \
+ '! vader name=vad auto-threshold=true ' \
+ '! pocketsphinx name=asr ! fakesink dump=1 t. ! valve drop=0 ! queue ! wavenc ! filesink location=test.wav async=0'
しかし、私がなんとかしたことは、認識機能が停止するまですべてのオーディオ信号を記録することでした (例: ^C)。さらに私は後に使用しようとしました
self.pipeline.set_property('rawlogdir', 'folder_name/') 101行目
しかし、GstPipeline にはプロパティ「rawlogdir」がないようです
必要なのは、ROS ポケットフィンクス ノードを使用した音声処理 (感情認識) に必要な、認識された発話の音声信号を取得することだけです。
どんなアイデアでも本当に役に立ちます!