問題タブ [speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
191 参照

javascript - JavaScript から NSSpeechSynthesizer を使用できますか?

短くて簡単な質問があります: JavaScript から NSSpeechSynthesizer または Mac OS のテキスト読み上げエンジンを使用できますか (Mac で Safari を使用している場合)。もしそうなら:どのように?

ありがとう!

  • ヨハネス
0 投票する
3 に答える
2615 参照

java-me - J2MEでの音声認識

j2meを使用してモバイルアプリケーションを開発しています。そこで、アプリケーションがユーザーからのコマンドを処理して実行できるように、音声認識機能が必要です。私が知りたかったのは

  1. これは技術的に可能ですか(私はj2meプログラミングの初心者です)?

  2. 可能であれば、音声認識用のj2meライブラリはどこにありますか?

前もって感謝します、

ヌワン

0 投票する
2 に答える
683 参照

speech-recognition - 音韻レベルで音声をテキストに出力するソフトウェアはありますか?

オーディオファイルを取得して音韻(IPA)テキストを出力できるソフトウェアはありますか?

私はそこにあるソフトウェアの多くがそれを言語に直接導くことを理解していますが、「教えることができる」ものはありますか?

0 投票する
2 に答える
10856 参照

c++ - 誰かがC++でまともなDSP/音声ライブラリをお勧めできますか?

SPUCが私の注意を引いたが、Googleはあまりにも多くの結果を返します。ビジョン用のOpenCVのような標準の推奨ライブラリはありますか?必要な機能は次のとおりです。

  • 無料のオープンソース
  • フィルター設計(バターワース、チェビシェフなど)
  • FFT
  • 可能であれば、MFCC計算などの一部の音声処理機能は、その部分にSPTK(sp-tk.sourceforge.net)を使用できるため、二次的なものです。
0 投票する
2 に答える
690 参照

.net - 共有ホスティングの Speechlib - ASP.NET

個人の Web サイトで SpeechLib を使用しようとしています。テキストをwavファイルに保存する非常にシンプルなアプリです-標準的なものです。開発マシンでうまく機能します。しかし、共有ホストにデプロイすると、すべてが崩壊します。

wav ファイルの書き込み時に、ユーザー名とパスワードの入力を求められることがあります。時々、「セキュリティ例外」が発生します。このサイトは完全に信頼されており、アプリから単純な txt ファイルを問題なく書き込むことができます。

インターネットを精査すると、SpeechLib コンポーネントが一時的にファイルを次の場所に書き込むことに気付きました。

開発マシンでこれを確認しました。確かにそうです。

したがって、私の推測では、共有ホストでは、ASPNET にはそのフォルダーに書き込む権限がありません (?)。そのため、ホスティング サービスに連絡したところ、Virtual Private Server にアップグレードする必要があると言われました。彼らが何について話しているかを知っているかどうかはわかりません。

SpeechLib を共有ホストで動作させた人はいますか? これが私が直面しているまったく同じ問題です:

http://www.eukhost.com/forums/f41/interop-speechlib-dll-6743/

何かご意見は?

0 投票する
3 に答える
1679 参照

c++ - ソースコードの読み上げ

この質問を見た後、盲目のプログラマーが直面するさまざまな課題と、それらのいくつかが目の見えるプログラマーにもどのように適用できるかについて考えるようになりました. 特に、ソースコードを声に出して読む問題は、私を一時停止させます。私はこれまでの人生のほとんどをプログラミングに費やしてきました。また、仲間の学生にプログラミングの指導を頻繁に行っています。ほとんどの場合、C++ または Java を使用しています。

C++ 式の本質的な構文を口頭で伝えようとすることは、非常に腹立たしいことです話し手は、英語への慣用的な翻訳、または「開き括弧」、「ビットごとの and」などの明示的で遅い用語を使用して、口頭でコードの完全な仕様を提供する必要があります。これらのソリューションはどちらも最適ではありません。

一方では、慣用的な翻訳は、関連するプログラミング コードに逆翻訳できるプログラマーにとってのみ有用です。これは通常、学生を指導する場合には当てはまりません。次に、教育 (または単に誰かをプロジェクトに慣れさせること) は、ソースが読み上げられる最も一般的な状況であり、エラーの余地はほとんどありません。

一方、リテラル仕様は非常に遅くなります。「シャープ、インクルード、左山括弧、iostream、右山括弧、改行」と言うのは、単に入力するよりもはるかに時間がかかります#include <iostream>。実際、ほとんどの経験豊富な C++ プログラマーは、これを単に「iostream を含める」と読むでしょうが、経験の浅いプログラマーは多く、文字通りの仕様が必要な場合もあります。

そこで、この問題の潜在的な解決策について考えました。

C++ には、有限のキーワード( 63) と演算子(54) のセットがあり、名前付き演算子を無視し、複合代入演算子と前置対後置の自動インクリメントとデクリメントを別個のものとして扱います。数種類のリテラル、同様の数のグループ化記号、およびセミコロンがあります。私が完全に間違っていない限り、それはそれについてです。

それでは、簡潔でユニークな発音をこれらの異なる概念 (必要な場合は空白の発音を含む) のそれぞれに単純に帰し、そこから進むことは実行可能ではないでしょうか? プログラミング言語は自然言語よりもはるかに規則的であるため、発音を標準化することができます。どの言語の話者でもC++ コードを口頭で伝えることができ、言語の規則性と固定性により、音声テキスト変換ソフトウェアを最適化して C++ 音声を高い精度で受け入れることができます。

したがって、私の質問は 2 つあります。まず、私の解決策は実行可能ですか。第二に、他の誰かが他の潜在的な解決策を持っていますか? ここから提案を受け取り、それらを使用して、私のソリューションの実装例を含む正式な論文を作成するつもりです。

0 投票する
1 に答える
2722 参照

vector - 音声処理におけるベクトル量子化の説明

この研究論文から、トレーニングセットのデータに基づいて、標準ベクトル量子化アルゴリズムを再現して、識別されていない音声入力の言語を決定する方法を正確に判断するのに苦労しています。ここにいくつかの基本的な情報があります:

抽象情報 音響機能を使用した言語認識(日本語、英語、ドイツ語など)は、現在の音声技術にとって重要でありながら難しい問題です。...この論文で使用されている音声データベースには、20の言語が含まれています。16の文が4人の男性と4人の女性によって2回発声されました。各文の長さは約8秒です。最初のアルゴリズムは、標準のベクトル量子化(VQ)手法に基づいています。すべての言語は、独自のVQコードブックによって特徴付けられ代替テキストます。

認識アルゴリズム 最初のアルゴリズムは、標準のベクトル量子化(VQ)手法に基づいています。すべての言語はk、独自のVQコードブックによって特徴付けられ代替テキストます。認識段階では、入力音声がによって量子化され代替テキスト、累積された量子化歪みd_kが計算されます。最小限の歪みとして認識される言語。VQ歪みを計算すると、いくつかのLPCスペクトル歪み測定が適用されます...この場合、WLR-加重最小比-距離:

標準VQアルゴリズム: コードブック、代替テキスト

、各言語はトレーニング文を使用して生成されます。文中の入力ベクトルの累積距離![alt text] [4]は、次のように定義されます。[![alt text] [5]] [5]

距離dは、音響特性に対応する任意の距離にすることができ、コードブックの生成に使用される距離と同じである必要があります。各言語は、そのVQコードブックによって特徴付けられ代替テキストます。

私の質問は、これをどのように正確に行うのですか?私は英語で50文のセットを持っています。MATLABでは、任意の信号のWLRを簡単に計算できます。しかし、英語の「コードブック生成」にはWLRを使用する必要があるため、コードブックを作成するにはどうすればよいですか。サイズ16のVQコードブック(最適なサイズであることがわかった)を特定の入力信号と比較する方法についても興味があります。誰かが私のためにこの論文を蒸留するのを手伝ってくれるなら、私はそれを大いに感謝します。

ありがとう!

0 投票する
0 に答える
39 参照

speech - Speech Server 2007 を使用したデータベースの検索

Microsoft Speech Server (現在は Office Communications Server 2007 R2) を使用して電話音声アプリケーションを構築することを計画しています。

始める前に、データベースに保持される認識されたテキストを検索する方法について、いくつかのサンプル コードまたはチュートリアルを見つけようとしました。古典的な例は電話帳です (Microsoft には電話帳用の電話帳があると思います)。希望する人の姓を言うように誰かに促し、それをデータベースで調べて通話を接続したいと考えています。明らかに、認識された応答テキストを取得してデータベースを検索することもできますが、スペルが異なるため、これがあまり効果的ではないのではないかと心配しています.

認識されたテキストに最もよく一致するデータベース内の名前をデータベースで検索する方法はありますか?

0 投票する
5 に答える
4736 参照

c# - どのオーディオ コーデックを使用すればよいですか?

生のオーディオをトランスコード/トランスポート/使用する C# ソフトウェア開発プロジェクトでは、次の基準に基づいてどのオーディオ コーデックを選択する必要がありますか?

  1. 音声のみをエンコードする場合
  2. オーディオはステレオまたはモノラルにすることができます
  3. ライブストリーミングに対応
  4. ファイルサイズと品質の適切なトレードオフ
  5. エンコードされた形式で TCP/IP 経由で転送される
  6. 追加の処理なしで、すぐに利用できる無料のプレーヤーで再生できます

トランスコーディングを実行するための無料のコーデック ライブラリがすぐに利用できるかどうかは、考慮する必要がないことに注意してください。

0 投票する
2 に答える
700 参照

c# - System.Speech and Voices

Scansoft voices .exeファイルからポータブルアプリケーションを作成することは可能ですか?(www.portableapps.com)。

次に、.NET 3.5のSystem.Speech名前空間を介してプログラムで音声にアクセスできますか?

私はそれをやりたいので、テキスト読み上げWebアプリをインストールするためだけに専用サーバーを使用する必要はありません。

ヘルプ !