0

私はこれを学術的に尋ねます。非常に重要な質問を声に出して尋ね、コミュニティに答えてもらいたいと思います。入力されたテキストを読み取り、チャットボットで応答できる、ライブの匿名グループ ビデオ チャットルームに沿って再生するシーンを生成するシステムを構築できますか?

ライブのインターネット ビデオは、ぼやけて解像度が低いことがよくあります。遠くのパーティーのシーンでは、多くの詳細を理解することはできません. シーンは、動いていないときに非常にリアルに見える最新のソフトウェア ツールでレンダリングできます。それらをリアルに動かすことは、大きなシミュレーション ソフトウェアです。

顔は、毎秒 1 フレームが可能な 24 のシステムのクラスターによって、毎秒 24 フレームでレンダリングできます。ビデオには、どの表情を生成するかが決定された時点から 1 秒のラグがあります。これらの表情とその生成は重要な問題です。スキン リアリズムの要件は、グラフィックス コミュニティによって解決された問題です。

顔の表情は、複数の研究者によって分類されています。それらはレンダリングすることもできます。これは、最新のコンピューター グラフィックスの文献で示されています。どちらが特定の状況に適しているかを知ることができれば、それらを行うことができます。

チャットボットは何十年も使用されています。現在では、尋ねられたことを読み、適切な方法で応答する、非常に「スマートな」チャット プログラムが存在します。彼らは常にこれをテキストで行ってきましたが、テキストリーダーソフトウェアは人間のような声で話すことができ、音声認識ソフトウェアは毎年改善されています.

私が提案するのは、ソフトウェア開発のこれらの異なる部分をすべて結び付けて、真に驚くべきチューリングテストビーターを作成することは、非常に初歩的であるべきだという事実です。

このプログラムは仮想空間に入り、他の参加者と同じようにウェブカメラのようにリアルな環境を表示できます。顔の表情を見ることができ、スピーチを聞くことができ、テキストを読むことができます。次に、応答を作成し、グループに入力または発声することができます。何を応答するかを選択することは、ほとんどの人間でさえ習得していない難しい問題です。多くの作業を行うことで、それに近づけることができます。

チューリング テストは、コミュニケーターが人間であることを証明することを目的としていますが、「証明」は、人間の判断者をだますのに十分であるという意味でのみです。人間の審査員が全員である場合、厳格な正式な手順を適用することはほとんどありません。推測するか、トリックに引っかかるだけで十分です。

これができると思いますか?

この計画は間違っていますか?平均的な視聴者をこのようにだますことには、道徳的な意味がありますか? パーソナル インテリジェント アシスタントを生成することで、何百万ドルも稼ぐことができるでしょうか?

4

4 に答える 4

2

従来のテキスト ベースのチューリング テストに合格することはできません。上にビデオを追加しても意味がありません。

于 2009-10-30T08:57:53.060 に答える
2

ここでのあなたの質問の存在には同意しませんが、チューリングテストのポイントが何であるかをひどく誤解していることを指摘する必要があると思います. 人間のように見えることや、人間のように聞こえることとは何の関係もありません。

実際、ほとんどの提案されたテストには、時間遅延テレタイプ端末が含まれているため、テスト中の実際の通信以外の情報の転送は可能な限り少なくなります。

私はあなたのバブルを壊したくありませんが、現在の世代のチャットボットや、研究室の最も高度な AI でさえ、チューリング テストを打ち負かすことはできません. そこには実在の人物がいないことがすぐに明らかになります。

于 2009-10-30T08:58:30.220 に答える
2

この分野ではすでに研究が進んでいます。デジタルアバターが使用され、ある程度の成功を収めています。いくつかの重要なポイント:

  • 最新の PC は、説得力のある人間の顔をリアルタイムでレンダリングできます。問題ありません。中程度の gfx カードと優れたモデルを入れるだけで完了です。(たとえば、Dawnを参照してください)。

  • 現在の音声生成ソフトウェアは、流暢なテキストを生成でき、適切に発音できます。話し手は感情を持っていないので、まだ少し単調です。(この記事を参照してください)。

  • 機械に「感じさせる」研究があります。私が「感じる」と言ったのは、基本的に、いくつかの変数 (「怒り」、「恐怖」、「空腹」、「退屈」、「悲しみ」など) と影響を与える複雑な一連のルールを備えた小さなプログラムだからです。これらの変数。(詳細については、ウィキペディアの記事を参照してください)。

現在の主な問題は、私たちが感情とは何かを知らないことです。脳の特定の部分に浮遊している分子の量だけですか? もしそうなら、どの分子が脳のどの部分にありますか? 今日の神経科学者は、MRT 画像を見て心の状態を予測しようとしています。これが何を意味するかを理解するために、ここに類推があります。彼らは、月から地球への光の分布を肉眼で見て、人類が何をしようとしているのかを推測しようとします。

だから私たちは感情が何であるかを理解していません。次のハードルは、感情は文脈がなければ意味がないということです。sadness変数の値を 1.0に設定するだけで、「悲しい」と感じるプログラムを簡単に作成できます。しかし、理由がなければ、それは奇妙に感じるでしょう。そのため、プログラムは会話をたどり、その精神的イメージ (人々が何について話し、今どのように感じているか) を構築しそれぞれのグループの現在のルールに従って自分の精神状態を調整できる必要があります。

初めて新しいグループに参加し、何が起こっているのか、どのように振る舞うべきかを把握しようとするときの気持ちを知っています. これは人間にとって難しい作業であり、プログラムにとってはなおさらです。

「Können wir eine Seele simulieren?」という記事があります。(ドイツ語のみですが、Google 翻訳の出力はかなり良いです。)

于 2009-10-30T09:31:13.907 に答える
1

大きな問題は、外見(視覚や声)を表現することではなく、知性と感情を表現することです。

あなたが提案するのは、リアルタイムのシュレックのフロントエンドです。しかし、バックエンドはどうですか?

于 2009-10-30T08:58:07.703 に答える