問題タブ [collocation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - ArrayList を使用した N グラム
「ngram」を分析しているプロジェクトを進めています。私のプログラムには、バイグラムとトライグラムを作成するメソッドがあります。ただし、単語のすべての組み合わせを取得したい場合、連続した隣接する単語のみを取得します...
例えば、
しかし、文字列内のすべての単語の組み合わせを取得したいと考えています。例えば
このようなバイグラムを生成する方法を修正するにはどうすればよいですか?
助けてくれてありがとう。
python - 順序が異なる単語のタプルの 2 つのリスト間の共通部分を見つけるエレガントな方法を探しています
私がやろうとしていることの例を示すのが最善だと思います。ポイントは、エレガントな方法を探しているということです。
タプルのリストが 2 つあるとします。
x と y の交点を計算すると、空のセットが得られます。
私の目標は、x の 2 つの要素と同一の y に 2 つの要素があることを確認することですが、タプルの順序の違いは気にしません。さらに、リスト yの一致する要素のインデックスを取得したいと考えています。
私にとって x[0] と y[1] は同じです (繰り返しますが、順序は気にしません)、取得したいインデックスは 1 で、 x[1] と y[2] も同じです。どちらも私にとっても同じで、この場合はインデックス 2 を返すはずです。
これをエレガントな方法で行う方法についてのアイデアはありますか?
python - 通話からのコロケーション データ
毎日何千もの電話が音声からテキストに変換されています。以下の2つのオプションを使用してコロケーションデータを生成してみました
オプション1
オプション # 2
オプション#1を使用すると、良いデータが得られたようですが、用語はあまり意味がないようです。たとえば、「おはよう」、「こんにちは」、「アメリカンエクスプレス」などの用語が得られます...これらは重要な用語ですしかし、電話ではあまりにも一般的です。
オプション#2はより良いデータを取得しているようです..例..それは私に車のメーカーとモデル、都市の名前..などを与えます...
誰かがすでにこれらのオプションの両方を使用しており、どちらかのルートに進むことを決定しているのではないかと思っていました。
オプション 1 からの良いデータがいくつか見られます...そのため、両方のオプションを使用してデータを生成することを考えています..
ご意見はありますか?
*私の質問をもう少し編集 これまで見てきたことに基づいて、ほとんどの場合、オプション 2 からほとんどの結果を取得し、オプション 1 の結果とマージします。 2 つの働きの違いに光を当てます。
r - Rで2つの単語が近接して表示されるドキュメントをカウントするにはどうすればよいですか?
2 つの文字列が設定された距離内 (互いに 10 語以内) にあるドキュメントをカウントしたいと考えています。「ドイツ*」と「戦争」としましょう。それらが合計で表示される回数を数えたくはありませんが、セットが表示されるドキュメントの数のみをカウントします (1 回表示される場合は 1 つとしてカウントします)。
単語を含む文書を数える方法を知っています。しかし、10 グラムを抽出して 2 つの単語が表示されるかどうかを確認し、ドキュメントごとにこれをカウントする必要があるかどうか、またはより効率的な方法があるかどうかはわかりません。