音声文字変換ファイルを出力として提供するVoice-to-Textアプリケーションを使用しています。文字起こしされたテキストには、(s)
(文の始まり).. (/s)
(文の終わり).. (VOCAL_NOISE)
(認識されない単語)などのタグがいくつか含まれています。テキストには、、、、など(VOCAL_N)
の不要なタグも含まれています。私はSEDを使用してテキストを処理していますが、適切なregexを記述して、、、を除く他のすべてのタグをタグに置き換えることはできません。それ..(VOCAL_NOISED)
(VOCAL_SOUND)
(UNKNOWN)
(s)
(/s)
(VOCAL_NOISE)
~NS
テキストの例:
(s) Hi Stacey , this is Stanley (/s) (s) I would (VOCAL_N) appreciate if you could call (UNKNOWN) and let him know I want an appointment (VOCAL_NOISE) with him (/s)
出力は次のようになります。
(s) Hi Stacey , this is Stanley (/s) (s) I would ~NS appreciate if you could call ~NS and let him know I want an appointment (VOCAL_NOISE) with him (/s)