問題タブ [mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Term Document Matrix の用語の名前変更
R で Term Document Matrix を作成しましたが、いくつかの用語の名前を変更したいと考えています。
たとえば、ここ
TDM マトリックスを調べると、次のように出力されます
ここで、たとえば「test」という名前に変更したいと思います。「何でも」に。その理由は、テキストをマイニングすると、明らかに一緒に属する「ビッグデータ」のような単語があるからです。最初のステップでは、gsub を使用して「ビッグデータ」を「ビッグデータ」に置き換えます。ただし、最終的には、出力を「ビッグデータ」にしたいと考えています。
事前に助けてください。
text - テキストマイニングアルゴリズム類似テキスト
こんにちは、Facebook を使用してソーシャル ネットワークで人々をグループ化する小さなアプリを作成しています。私が直面している主な問題は、類似したテキストをグループ化することです。教育を受けている人もいれば、教育を受けている人もい Anna University, Guindy
ますAnna University
。これらをグループ化するにはどうすればよいですか? どのアルゴリズムまたは用語を検索すればよいですか?
r - 非構造化テキスト データからデータ フレームへ
R を使用して、このテキスト データの複数の行をデータ フレームに変換しようとしています。read.delim を効果的に使用できません。これらすべての行を : で区切られた 10 個の固定列に入力する必要があります。
python - python-TypeError: 文字列インデックスは整数でなければなりません。直し方?
TF-IDF を使用して Google+ データをクエリし、データをJSON
ファイルとして保存しています。このファイルの操作中にエラーが発生します。
コード
エラーメッセージ
Python 2.7 を使用しています。
twitter - ソーシャル ネットワーク データセット
私はソーシャル ネットワーク マイニング プロジェクトに取り組んでおり、「実際のソーシャル ネットワーク データセット」 (コメント、コメント、いいね、友情、興味、感情、場所、いいね! のページ、公開された写真、ビデオ、投稿に対するコメント) を探しています。 、ハッシュタグ以上のものはポジティブです )
私はたくさん検索しましたが、利用可能なネットワークはすべてノードとエッジに関するものです (A が B に従うなど)。例えば
http://snap.stanford.edu/ Twitter を検索しましたが、プライバシー条件のために公開されていません http://an.kaist.ac.kr/traces/WWW2010.html
データセットに関する提案はありますか?
javascript - 何百万ものレコードをマイニングするアルゴリズム
次の形式のデータのチャット レコードが 100 万件以上あります。
ここで、「旅行」、「宿泊」、「ホテル」などの旅行に関連するキーワードを確認する必要があります。旅行に関連する約 15 のキーワードが集まったとします。
要件は、キーワードを使用して旅行に関連するチャット メッセージをマイニングすることです。どうやって?
私が考えることができる解決策 - 旅行関連のキーワードの配列を用意します。次に、各キーワード (アルゴに一致する文字列) のすべてのメッセージをスキャンします。
解決策はかなり力ずくだと思います。検索するためのより効率的なアルゴリズムに関するアイデア、またはチャット記録または/およびキーワードの設定はありますか?
search - アソシエーションとシーケンスマイニング
スペースを表すハイフンを含む数字の文字列があるとします。
興味のある既知の数のグループがあり、
つまり、12または21の順序は気にしません。知りたいのは、1と2のみを含むすべての部分文字列とその開始位置を見つけるアルゴリズムがあるかどうかです(部分文字列には1が含まれている必要があります)および 2 であり、隣接する繰り返しがない、つまり、22 または 11 が表示されることはありません)
つまり、文字列 A とグループ G でアルゴリズムを実行すると、次のような結果が得られます。
アルゴリズムが、キーを部分文字列として、キー値を文字列内の開始位置のリストとして含む辞書を返した場合。
別の例は次のとおりです。
そして、アルゴリズムは生成します