video-streaming - 最新のソフトウェアでチューリングテストを破る可能性はありますか?

Question

私はこれを学術的に尋ねます。非常に重要な質問を声に出して尋ね、コミュニティに答えてもらいたいと思います。入力されたテキストを読み取り、チャットボットで応答できる、ライブの匿名グループビデオチャットルームに沿って再生するシーンを生成するシステムを構築できますか?

ライブのインターネットビデオは、ぼやけて解像度が低いことがよくあります。遠くのパーティーのシーンでは、多くの詳細を理解することはできません. シーンは、動いていないときに非常にリアルに見える最新のソフトウェアツールでレンダリングできます。それらをリアルに動かすことは、大きなシミュレーションソフトウェアです。

顔は、毎秒 1 フレームが可能な 24 のシステムのクラスターによって、毎秒 24 フレームでレンダリングできます。ビデオには、どの表情を生成するかが決定された時点から 1 秒のラグがあります。これらの表情とその生成は重要な問題です。スキンリアリズムの要件は、グラフィックスコミュニティによって解決された問題です。

顔の表情は、複数の研究者によって分類されています。それらはレンダリングすることもできます。これは、最新のコンピューターグラフィックスの文献で示されています。どちらが特定の状況に適しているかを知ることができれば、それらを行うことができます。

チャットボットは何十年も使用されています。現在では、尋ねられたことを読み、適切な方法で応答する、非常に「スマートな」チャットプログラムが存在します。彼らは常にこれをテキストで行ってきましたが、テキストリーダーソフトウェアは人間のような声で話すことができ、音声認識ソフトウェアは毎年改善されています.

私が提案するのは、ソフトウェア開発のこれらの異なる部分をすべて結び付けて、真に驚くべきチューリングテストビーターを作成することは、非常に初歩的であるべきだという事実です。

このプログラムは仮想空間に入り、他の参加者と同じようにウェブカメラのようにリアルな環境を表示できます。顔の表情を見ることができ、スピーチを聞くことができ、テキストを読むことができます。次に、応答を作成し、グループに入力または発声することができます。何を応答するかを選択することは、ほとんどの人間でさえ習得していない難しい問題です。多くの作業を行うことで、それに近づけることができます。

チューリングテストは、コミュニケーターが人間であることを証明することを目的としていますが、「証明」は、人間の判断者をだますのに十分であるという意味でのみです。人間の審査員が全員である場合、厳格な正式な手順を適用することはほとんどありません。推測するか、トリックに引っかかるだけで十分です。

これができると思いますか？

この計画は間違っていますか？平均的な視聴者をこのようにだますことには、道徳的な意味がありますか? パーソナルインテリジェントアシスタントを生成することで、何百万ドルも稼ぐことができるでしょうか?

score 2 · Accepted Answer

従来のテキストベースのチューリングテストに合格することはできません。上にビデオを追加しても意味がありません。

score 2 · Accepted Answer

ここでのあなたの質問の存在には同意しませんが、チューリングテストのポイントが何であるかをひどく誤解していることを指摘する必要があると思います. 人間のように見えることや、人間のように聞こえることとは何の関係もありません。

実際、ほとんどの提案されたテストには、時間遅延テレタイプ端末が含まれているため、テスト中の実際の通信以外の情報の転送は可能な限り少なくなります。

私はあなたのバブルを壊したくありませんが、現在の世代のチャットボットや、研究室の最も高度な AI でさえ、チューリングテストを打ち負かすことはできません. そこには実在の人物がいないことがすぐに明らかになります。

score 2 · Accepted Answer

この分野ではすでに研究が進んでいます。デジタルアバターが使用され、ある程度の成功を収めています。いくつかの重要なポイント:

最新の PC は、説得力のある人間の顔をリアルタイムでレンダリングできます。問題ありません。中程度の gfx カードと優れたモデルを入れるだけで完了です。(たとえば、Dawnを参照してください)。
現在の音声生成ソフトウェアは、流暢なテキストを生成でき、適切に発音できます。話し手は感情を持っていないので、まだ少し単調です。（この記事を参照してください）。
機械に「感じさせる」研究があります。私が「感じる」と言ったのは、基本的に、いくつかの変数 (「怒り」、「恐怖」、「空腹」、「退屈」、「悲しみ」など) と影響を与える複雑な一連のルールを備えた小さなプログラムだからです。これらの変数。(詳細については、ウィキペディアの記事を参照してください)。

現在の主な問題は、私たちが感情とは何かを知らないことです。脳の特定の部分に浮遊している分子の量だけですか? もしそうなら、どの分子が脳のどの部分にありますか? 今日の神経科学者は、MRT 画像を見て心の状態を予測しようとしています。これが何を意味するかを理解するために、ここに類推があります。彼らは、月から地球への光の分布を肉眼で見て、人類が何をしようとしているのかを推測しようとします。

だから私たちは感情が何であるかを理解していません。次のハードルは、感情は文脈がなければ意味がないということです。sadness変数の値を 1.0に設定するだけで、「悲しい」と感じるプログラムを簡単に作成できます。しかし、理由がなければ、それは奇妙に感じるでしょう。そのため、プログラムは会話をたどり、その精神的イメージ (人々が何について話し、今どのように感じているか) を構築し、それぞれのグループの現在のルールに従って自分の精神状態を調整できる必要があります。

初めて新しいグループに参加し、何が起こっているのか、どのように振る舞うべきかを把握しようとするときの気持ちを知っています. これは人間にとって難しい作業であり、プログラムにとってはなおさらです。

「Können wir eine Seele simulieren?」という記事があります。(ドイツ語のみですが、Google 翻訳の出力はかなり良いです。)

score 1 · Accepted Answer

大きな問題は、外見（視覚や声）を表現することではなく、知性と感情を表現することです。

あなたが提案するのは、リアルタイムのシュレックのフロントエンドです。しかし、バックエンドはどうですか？

video-streaming - 最新のソフトウェアでチューリング テストを破る可能性はありますか?

4 に答える 4

Related

Reference

video-streaming - 最新のソフトウェアでチューリングテストを破る可能性はありますか?