問題タブ [phoneme]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
6437 参照

windows-7 - Win7 64 で SAPI 5.1 を使用する

Annosoft コンソール プログラム ( Annosoft ツールへのリンク) に基づく自動化されたリップ シンク ツールを作成しています。この「プログラム」は、SAPI 5.1 を使用します。私にとっては、Win XP 32 ビットでうまく動作します。しかし、これを Win7 64 ビット システムで動作させる方法はありますか?

PS コンソール プログラムはオープン ソースですが、私は SAPI とオーディオ処理にあまり詳しくないので、コード全体を書き直すという選択肢はありません。

編集:私の言語化は、私の問題を他の人にとって本当に意味のあるものにしていないのではないかと思います.Windows SAPI 5.1をWindows 7 64ビットで動作させることは可能ですか? はいの場合 - どのように?

0 投票する
2 に答える
1446 参照

speech-recognition - Sphinx4 で音声を音素にデコードする

CMUSphinx4 を使用して特定の音声を音素にデコードし、それらの音素をさらに実装することはできますか?

0 投票する
4 に答える
3517 参照

dictionary - CMU発音データベースの韻辞書

無料またはオープンソースの押韻データベースを探しています。

CMU の発音「データベース」とその一連のアプリを見つけましたが、それらを理解することも、データがどこから来ているのかを理解することもできません。

必要なのは、単語とその音素を含む単純なテキスト ファイルだけです。

どこで見つけられるか、または CMU ファイルからそのようなリストを導き出す場所を知っている人はいますか?

0 投票する
1 に答える
512 参照

vb.net - SSML 音素要素の使用

私は Visual Basic.net Ultimate を使用しており、TTS アプリケーションを開発しています。音素要素について少し助けてください。

ここに私が話したいテキストがあります:

肩と首の緊張をほぐしたら、もう一度深呼吸をしてください。

現在、「息を吸う」という 2 つの単語が一緒に実行されているようで、「息が薄い」ように聞こえます。(SSML を介して) このステートメントを変更して、単語が「息を吸う」ように聞こえるようにしたいと考えています。

SSML経由でこれを行う最良の方法は何ですか? 音素要素はこれを行うための最良の方法だと考えています。

トマトという言葉を発音するために私が見つけた例を次に示します。

上記のコードの ph セクションの間のテキストは、まったく別の言語のようです (:))。この言語を使って単語を綴るにはどうすればよいですか?

0 投票する
2 に答える
1526 参照

audio - オープンソースの音素セット (音声合成用) はありますか?

私は非常に基本的な音声シンセサイザーを作成しようとしています。それらをつなぎ合わせて単語を作成できるように、何らかの形式の音素オーディオ ファイルが必要です。これに使用できるオープンな音素セットはありますか?

0 投票する
1 に答える
122 参照

python - リスト内の現在、先行、および後続の要素に対する操作

一度に 3 つの要素にまたがる操作をリストに適用したいと考えています。

要素は文字列で、数字と文字で構成されます。

したがって、サンプル文字列は次のようになります

各文字列の数字は開始時間 (次の要素の開始時間は前の要素の終了時間をマークします) であり、文字は実際には音素です。私が今達成しようとしているのは、一度に 3 つの音素の時間を計算することです。したがって、最初の要素である から始め'0.234 sil'ます。先行要素がないので、始点は とし0ます。ここで、次の +1 要素 ( ) を見てみます。したがって、からのスパンが'0.822 ax'わかります。次は で、これは にまたがるなどです。後続の +1 要素がない場合、または最後の要素である場合は、代わりに値を使用する必要があります。したがって、最後から 2 番目の結果はの範囲になります。range を持つ最後の要素の場合。sil-dh0-0.822sil-dh-ax0.234-1.122end_pointr-ih-p1.45-2.56ih-p1.890-2.56

理解できることを願っています。これを達成するための「簡単な」方法はありますか?フィルターの一種?

0 投票する
4 に答える
3798 参照

c# - .Net の音素への音声

問題は、C# 言語で音声音声の音素を取得したいということです。「こんにちは、シャミムさん」という「x.wav」のような音声ファイルがあるとします。音声のすべての音素とそれらの相対的なタイミングを抽出したいと考えています。下の写真のようなもの:

音素エディタ

System.Speechライブラリ (recognitionと名前空間の両方)を使用しましsynthesisたが、必要なものが見つかりませんでした。今、誤解しないでください!「こんにちはシャミム」という文の音素は必要ありません。話す未知の音声入力と英語の文から音素を抽出したいのです。試してみSystem.Speech.Recognitionましたが、音素ではなく、音声ファイルから単語を抽出しようとします! ご想像のとおり、言葉は 30% 間違っています。;)

0 投票する
2 に答える
1594 参照

macos - OSX での音素ペアの合成

「Da Di Du、Beh Bi Burr、...」など、144 の音素ペアの wave ファイルを作成する必要があります。

具体的には、それぞれが一定のピッチを維持する必要があるため、それらをピッチシフトして音符を作成できます (ピッチ値を入力できればさらに良いでしょう!)。

歌おうとしている自分の .WAV ファイルを 144 個も録音したくありません。

OSX に組み込まれている音声合成 API を使用してこれを行うことはできますか?

そうでない場合、他にできる方法はありますか?

編集: 特定の品質グレードは必要ありません。重要なことは、各発話が区別可能で、正しいピッチであることです。

編集:これを解決するための試みを以下に示します。満足できるものに到達した場合は、それを回答に分割します。

Speech Synthesis Programming Guideにはすべてが含まれているようです。ここでは輪郭を使用してピッチを制御し、ここでは音声入力を入力する方法について説明します

ただし、API 全体を理解し、それを実行するための OS X プロジェクトを作成するのは大変な作業です。だから、コマンドライン オプションや既存のシンセサイザーの使用に興味があります。

マンページに記載されていないことを「言う」ためのCRGreenの回答ユーザーパラメーター:

ここで例を見つけました: http://hints.macworld.com/article.php?story=20120204172337402

編集: 音素https://apple.stackexchange.com/questions/53858/in-terminal-how-to-get-say-to-say-things-right-ie-using-custom-phonetics