13

アルゴリズム設計者がそれに取り組むのに苦労している主題について、何がそれほど難しいのですか?

本当にそんなに複雑ですか?

このトピックがなぜそれほど問題になるのか理解するのに苦労しています。なぜこれが当てはまるのか、誰かが私に例を教えてもらえますか?

4

21 に答える 21

40

聴覚処理は非常に複雑な作業です。人類の進化は非常に優れたシステムを生み出したので、それがどれほど優れているかはわかりません。3人が同時に話している場合は、音量が大きくても、1つの信号に集中して、他の信号を破棄することができます。ノイズも非常によく廃棄されます。実際、人間の声が逆方向に再生されるのを聞くと、聴覚システムの最初の段階では、システムが「無声」と見なすため、実際の音声信号の場合とは異なる処理領域にこの信号を送信します。これは人間が持つ卓越した能力の一例です。

研究者が音声の生成を研究していたため、音声認識は70年代から急速に進歩しました。これはより単純なシステムです:声帯が興奮しているかどうか、声帯の共鳴...それは理解しやすい機械的なシステムです。このアプローチの主な成果は、ケプストラム分析です。これにより、自動音声認識(ASR)が許容可能な結果を​​達成しました。しかし、これは次善のアプローチです。ノイズの分離は非常に悪く、クリーンな環境で多かれ少なかれ機能する場合でも、人間のように、バックグラウンドで大音量の音楽を処理することはできません。

最適なアプローチは、聴覚システムの理解に依存します。蝸牛の最初の段階である下丘...だけでなく、脳も関与しています。そして、私たちはこれについてあまり知りません。それはパラダイムの難しい変化です。

Hynek Hermansky教授は、論文の中で、研究の現状と人間が飛びたいと思った時期を比較しました。何が秘密なのかわからなかった—羽?羽ばたき?—ベルヌーイの力を発見するまで。

于 2009-12-06T00:24:41.930 に答える
37

アクセントの強い人を理解するのが難しいと思ったら、なぜコンピューターの方が上手くいくと思いますか?

于 2009-07-09T09:56:29.127 に答える
18

Microsoftには音声認識に取り組んでいるチームがあり、彼らは自分たちを「Wreck a NiceBeach」チーム(独自のソフトウェアによって付けられた名前)と呼んでいたことを読んだことを覚えています。

実際にスピーチを単語に変えるには、個別の音をマッピングするほど簡単ではなく、文脈も理解する必要があります。ソフトウェアには、生涯にわたる人間の経験がエンコードされている必要があります。

于 2009-07-09T10:15:52.177 に答える
9

この種の問題は、音声認識だけよりも一般的です。視覚処理、自然言語処理、人工知能などにも存在します...

音声認識は、セマンティックギャップの問題の影響を受けます。

セマンティックギャップは、言語や記号などの異なる言語表現によって、オブジェクトの2つの記述の違いを特徴づけます。コンピュータサイエンスでは、通常の人間の活動、観察、およびタスクが計算表現に転送される場合は常に、この概念が関係します。

音声波形とテキストの単語の間のギャップは大きく、

言葉とその意味の間で、それはさらに大きくなります...

于 2009-07-09T10:30:11.697 に答える
6

beecos iyfe peepl uvver peepl wif e strang acsent wie doo yoo fink compootrs wyll bee ani bettre ayt it?

私が入力している地獄を理解するのに0.5秒かかったに違いありません。私がしているのは、別の「アクセント」でシモンズの答えを繰り返すことだけでした。処理能力はまだありませんが、そこに到達しています。

于 2009-07-09T10:00:44.720 に答える
6

言語の多様性が主な要因であり、それを困難にします。方言とアクセントはこれをより複雑にするでしょう。また、コンテキスト。その本を読んだ。その本は赤かった。違いをどのように判断しますか。これに必要な余分な労力は、そもそも物をタイプすることをより簡単にするでしょう。

さて、もっと必要ならこれにもっと力を注ぐことになるでしょうが、他の形式のデータ入力の進歩は非常に急速に進んでいるので、それは必要であるとはみなされません。

もちろん、それが素晴らしい、さらには非常に役立つまたは役立つ領域があります。手がいっぱいになっている、または画面を見て入力できない状況。障害者などを支援します。しかし、これらのほとんどは、独自のソリューションを持つニッチ市場です。おそらくこれらのいくつかはこれに向けてより取り組んでいますが、コンピューターが使用されるほとんどの環境は音声認識の良い候補ではありません。私は自分の職場環境が静かであることを好みます。そして、コンピュータへの終わりのないおしゃべりは、クロストークを現実的な問題にするでしょう。

さらに、コンピューターに散文を口述する場合を除いて、キーボード、マウス、またはタッチを使用すると、他のタイプの入力がより簡単かつ迅速になります。音声入力を使ってコーディングしてみたことがあります。全体が最初から最後まで苦痛でした。

于 2009-07-09T10:02:30.283 に答える
3

Lernout&Hauspieが破産したので:)

(申し訳ありませんが、ベルギー人として私は抵抗できませんでした)

于 2009-07-09T10:09:54.590 に答える
3

基本的な問題は、人間の言語が曖昧であるということです。したがって、スピーチを理解するために、コンピューター(または人間)は話されている内容のコンテキストを理解する必要があります。その文脈は、実際には話者と聴取者が住む物理的な世界です。そして、物理的な世界を深く理解していることを実証したAIプログラムはまだありません。

于 2009-07-09T10:27:16.473 に答える
2

音声合成はそれ自体が非常に複雑です。多くのパラメータが組み合わされて、結果の音声が形成されます。それをバラバラにすることは、人々にとってさえ難しいです-時々あなたはある単語を別の単語と間違えます。

于 2009-07-09T10:00:01.320 に答える
1

あなたはそれを自分で言いました、アルゴリズム設計者はそれに取り組んでいます...しかし言語とスピーチはアルゴリズム構造ではありません。それらは、概念、メタ概念、構文、例外、文法、調性、感情、ニューロンおよびホルモン活動などを含む非常に複雑な人間システムの開発のピークです。

言語には非常にヒューリスティックなアプローチが必要です。そのため、進歩は遅く、見通しは楽観的ではないかもしれません。

于 2009-07-09T10:13:14.833 に答える
1

私はかつて私のインストラクターに同様の質問をしました。私は彼に、音声からテキストへのコンバーターを作成する際にどのような課題があるのか​​を尋ねました。彼が出した答えの中で、彼は私に「p」と「b」を発音するように頼んだ。それから彼はそれらが最初に非常に短い時間の間異なっていると言いました、そしてそれからそれらは似ているように聞こえます。私の言いたいことは、どのような音が出ているのかを認識するのはさらに難しく、声を認識するのはさらに難しいということです。また、人の声を録音すると、保存するのは数字だけであることに注意してください。アクセント、頻度、および数値の行列などの入力だけから音声を識別するのに役立つその他のパラメータなどのメトリックを見つけようとしていると想像してみてください。コンピュータは数値処理などが得意ですが、音声は実際には「数字」ではありません。音声を数字でエンコードしてから、それらに対してすべての計算を行う必要があります。

于 2009-07-09T10:18:55.557 に答える
1

ほとんどの場合、私たち人間は文脈に基づいて理解しています。ある特定の文が会話全体と調和しているように、残念ながらコンピュータはこの意味で大きなハンディキャップを持っています。それは、その間にあるものではなく、単語をキャプチャしようとするだけです。

英語の訛りが非常に悪い外国人は、実際に何を言っているのかではなく、何を言おうとしているのかを推測しているのかもしれません。

于 2009-07-09T10:06:29.887 に答える
1

音声をうまく認識するためには、人々が何を意味するのかを知る必要があります-そしてコンピュータはまだそこにありません。

于 2009-07-09T10:08:46.573 に答える
1

1-800-GOOG411を介した音声データ収集により、将来的にGoogleからの進歩が期待できます。

于 2009-07-16T05:37:22.417 に答える
0

それは私の分野ではありませんが、ゆっくりと進んでいると思います。

そして、私はサイモンの答えはある意味でいくぶん正しいと信じています。問題の一部は、コンピューターが認識するようにプログラムされているパターンに関して、2人が同じように話すことはないということです。したがって、音声を分析することは困難です。

于 2009-07-09T10:01:11.613 に答える
0

コンピュータは、そもそも自然言語処理があまり得意ではありません。彼らはマッチングに優れていますが、推測することになると、それは毛むくじゃらになります。

次に、何百もの異なるアクセント/語尾変化から同じ単語を理解しようとすると、突然、それほど単純に見えなくなります。

于 2009-07-09T10:06:21.510 に答える
0

G1にGoogle音声検索があり、驚くほどうまく機能しています。答えは、フィールドが進んでいるということですが、あなたは気づいていません!

于 2009-07-09T10:10:07.523 に答える
0

人間の脳よりも大幅に少ないMIPSで音声認識が可能であれば、実際に動物と話すことができます。

彼らが仕事をする必要がなければ、進化論はそれらのカロリーすべてを灰白質に費やすことはありませんでした。

于 2009-07-09T10:27:22.293 に答える
0

口頭言語は文脈依存であり、曖昧です。コンピュータはあいまいなコマンドをうまく処理しません。

于 2009-07-09T15:25:09.780 に答える
0

私は質問の仮定に同意しません-私は最近マイクロソフトの音声認識を紹介され、感銘を受けました。数分後に私の声を学習し、通常は一般的な単語を正しく識別します。また、新しい単語を追加することもできます。それは確かに私の目的(化学を理解する)に使用できます。

(単語)トークンを認識することと、それらの意味を理解することを区別します。

他の言語やオペレーティングシステムについてはまだ知りません。

于 2009-10-19T06:37:48.113 に答える
0

問題は、音声認識エンジンには2つのタイプがあることです。ドラゴンのような話者の訓練を受けたものは口述に適しています。ほぼすべてのスポークテキストをかなり正確に認識できますが、(a)ユーザーによるトレーニング、および(b)優れたマイクが必要です。

スピーカーに依存しない音声録音エンジンは、テレフォニーで最も頻繁に使用されます。ユーザーによる「トレーニング」は必要ありませんが、どの単語が期待されているかを事前に正確に知る必要があります。これらの文法を作成する(そしてエラーに対処する)ためのアプリケーション開発の努力は莫大です。公衆電話ネットワークの歴史的な制限により、テレフォニーは4Khzの帯域幅に制限されています。この限られた音質は、人々が言っ​​ていることを「聞く」スピーチレックエンジンの能力を大きく妨げます。「6」や「7」などの数字には、エンジンが特に区別しにくいssssサウンドが含まれています。これは、最も基本的な認識タスクの1つである数字の文字列の認識に問題があることを意味します。地域のアクセントを追加します。一部の場所では「nine」が「nan」と発音され、精度が大幅に低下します。

最高の希望は、グラフィックスと音声録音を組み合わせたインターフェースです。自分の声で制御できるiPhoneアプリケーションを考えてみてください。

于 2009-12-06T00:04:14.977 に答える