問題タブ [phoneme]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
encoding - 発音可能なエンコーディングは存在しますか?
私は UUID を使用していますが、読み取り、書き込み、および通信には特に適していません。だから私はそれらをエンコードしたいと思います。base64 または base32 を使用することもできますが、とにかく簡単ではありません。base64 には大文字と記号が含まれています。Base32 の方が少し優れていますが、それでも不器用なものを取得できます。
読みやすさを向上させ、できれば少し圧縮するために、数値を口当たりの良い音素にエンコードするためのきれいできれいな方法があるかどうか疑問に思っていました。
ruby - Ruby で発音が似ている単語を検出する
SOUNDEX と (double) Metaphone は知っていますが、これらでは単語全体の類似性をテストできません。たとえば、「こんにちは」は「さようなら」と非常によく似ていますが、これらの方法はどちらもそれらをマークします。まるで違う。
Ruby に、2 つの単語の類似性を判断できるライブラリ、またはあなたが知っているメソッドはありますか? (ブール値が似ている/似ていない、または数値が 40% 似ている)
編集:別の方言や言語に「立ち寄る」簡単な方法があれば、追加のボーナス ポイント!
delphi - 音声認識で音素を取得するには?
Delphi2009を使用して、VistaおよびWindows 7の組み込み音声認識を使用して、可能であれば音素とその波形を表示するための音声認識に取り組んでいます。他のプログラミング言語は大歓迎です。
speech-recognition - 音声(音声)ファイルからの音素の抽出
オーディオファイルから音素を抽出できるツールキット/ライブラリを探しています。CMU SphinxのWebサイトで、sphinx3を使用して音素を出力できることがわかりましたが、Windowsボックスで正常にビルドできませんでした。
ライブラリとは別に、独自のライブラリを構築するための最良の方法は何ですか?
java - getX()はjava.awt.Rectangleでプライベートアクセスを持っていますか?
次のコードがエラーメッセージを生成する理由:getX() has private access in java.awt.Rectangle
(int)dest.getX(), (int)dest.getY(), (int)dest.getWidth(), (int)dest.getHeight()
ドキュメントによるとRectangle
、パブリックメソッドがありgetX()
ます。
ios - iOS / C:音素を検出するアルゴリズム
リアルタイムの音声入力が、与えられた144個の(そして快適に区別できる)音素ペアの1つと一致するかどうかを判断するアルゴリズムを探しています。
できれば、その仕事をする最低レベル。
私はiPhone/iPad用の過激で実験的な音楽トレーニングソフトウェアを開発しています。
私の音楽システムは、12個の子音音素と12個の母音音素で構成されています。これにより、144の音素ペアが可能になります。生徒は視覚刺激に応じて正しい音素ペア「laaduubee」などを歌わなければなりません。
私はこれについて多くの調査を行いましたが、私の最善の策はiOS Sphinxラッパーの1つを使用することかもしれないようです(iPhoneアプリ› 音声認識を追加しますか? は私が見つけた最良の情報源です)。しかし、そのようなパッケージをどのように適応させるかはわかりません。これらのテクノロジーのいずれかを使用した経験のある人は、必要な手順の基本的な概要を説明できますか?
ユーザーによるトレーニングは必要ですか?何千もの単語とはるかに大きくて微妙な音素ベースの完全な言語モデルと比較して、それはそのような基本的なタスクであるため、私は考えなかったでしょう。ただし、ユーザーに12個の音素ペアをトレーニングさせることは許容されます(理想的ではありません):{consonant1 + vowel1、consonant2 + vowel2、...、consonant12+vowel12}。144全体は負担が大きすぎます。
より簡単なアプローチはありますか?フル機能の連続音声認識装置を使用しているのは、ハンマーを使用してナットを割っているような気がします。問題を解決する最小限のテクノロジーを使用する方がはるかにエレガントです。
だから本当に私は音素を認識するオープンソースソフトウェアを探しています。
PS私はほとんどリアルタイムで実行されるソリューションが必要です。そのため、彼らがノートを歌っているときでも、最初に点滅して、歌われた音素ペアをピックアップしたことを示し、次に、彼らが正しいノートピッチを歌っているかどうかを示すために光ります。
api - 音声を音素に分割する/音声サンプルを指定して新しい音声を合成するAPI?
技術オタクが誰かの声を録音し、彼らのソフトウェアがそれを音素に分解する映画を知っていますか?次に、どのフレーズを入力して、ターゲットがそれを言っているように見せるために使用できますか?
そのソフトウェアはAPIバージョンに存在しますか?グーグルに何をすればいいのかさえわからない。
nlp - Elman SRN の単語/音素コーパス (英語)
Elman Simple Recurrent Network を書いています。各単語が音素のシーケンスである単語のシーケンスを与えたいのですが、多くのトレーニング データとテスト データが必要です。
だから、私が必要としているのは、ARPAbet や SAMPA のように書かれた英単語のコーパスと、それを構成する音素です。イギリス英語はいいかもしれませんが、自分が何を扱っているかを知っている限り、必須ではありません. 助言がありますか?
私は現在、話し言葉や書き言葉のデータから単語を構成する音素を導き出す何かをコード化する時間も意欲もないので、それを提案しないでください。
注: 私はCMU 発音辞書を知っていますが、ARPABet 記号セットのみに基づいていると主張しています。(無ければそのまま使えますが…)
編集: CMUPD 0.7a記号リスト- 母音には語彙強勢がある可能性があり、これを示す (ARPABET 標準記号の) バリエーションがあります。
speech-recognition - ポケットフィンクスを使用した音素の抽出
pocketphinx の助けを借りて話し言葉の音素を抽出することは可能ですか?
java - CMU Sphinx4 音素ディクテーション
ディクテーション内の音素のみを検出できるように sphinx4 を構成するにはどうすればよいですか?
部分的な結果については既に読みました
「デコーダーで構成変数「featureBlockSize」を設定することにより、結果リスナーが起動される頻度を制御できます。」
しかし、私の問題は、helloworld の例の hello.gram のように、常に必要な文法があることです。連続発話から音素を検出して認識できるようにする必要があります。