5

一部のデータを分析し、一部の結果を平易な英語で出力するシステムを構築しました (つまり、グラフなどはありません)。現在の実装は、テキストに可能な限り多くの多様性を与えるために、多くのテンプレートといくつかのランダム化に依存しています。

生成されたテキストが反復的でなく、ロボットっぽく聞こえないことを期待して、より高度なものに切り替えたいと考えています。私はグーグルでたくさん検索しましたが、具体的なものを見つけることができません。何か案は?

編集: NLG メカニズムに供給されるデータは JSON 形式です。Web 分析データの例を次に示します。json ファイルには、指標 (訪問数など)、過去 X 日間の値、最後の値が予想されるかどうか、変更に影響を与えたディメンション (国やマーケティング チャネルなど) などを含めることができます。

現在の実装では、次のような結果が得られます。

主に ABC メール キャンペーンからの英国での全体的な訪問数は 10,000 件 (+20% DoD) に達し、予想値を 10% 上回っていました。ユーザーは主に XXX ページにアクセスしていましたが、増加はデバイス間で一貫していました。

テンプレートへの依存を減らし、より自然に聞こえ、語彙を増やす方法を見つけようとしています。

4

2 に答える 2

1

ニューラル ネットワーク、特に LSTM と GRU アーキテクチャを試したことがありますか? これらのモデルは、単語シーケンスの予測における最新の開発です。自然言語の生成とは、入力された単語やシーケンス内の前の単語に対して意味をなすように、一連の単語を生成することを意味します。これは、時系列を予測することと同じです。LSTM は、時系列を予測するために設計されています。したがって、入力シーケンス、入力単語、またはベクトルに埋め込むことができるその他の入力が与えられた場合に、単語のシーケンスを予測するために一般的に使用されます。

Tensorflow、Keras、Torch などのディープ ラーニング ライブラリにはすべて、入力が与えられた単語のシーケンスを予測することで自然言語を生成するために使用できるシーケンス ツー シーケンスの実装があります。

通常、これらのモデルには大量のトレーニング データが必要であることに注意してください。

このようなモデルを利用するには、次の 2 つの基準を満たす必要があります。

  1. 入力をベクトルとして表すことができるはずです。
  2. 比較的大量の入力/ターゲットのペアが必要です。
于 2017-05-31T15:45:48.237 に答える