問題タブ [web-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1832 参照

python - Pythonでのより良い前処理ライブラリまたは実装はありますか?

fcm などの分類手法や、潜在的ディリクレ配分などの他のトピック モデリング手法を適用できるように、いくつかのテキスト ドキュメントを前処理する必要があります。

前処理を少し詳しく説明するには、ストップ ワードを削除し、名詞とキーワードを抽出して、ステミングを実行する必要があります。この目的で使用したコードは次のとおりです。

上記のコードの問題は、

  1. 名詞とキーワードの抽出に使用される nltk モジュールには、多くの単語がありません。たとえば、一部のドキュメントに対して前処理が実行され、「サチン」などの名前がキーワードとして認識されず、前処理後に見落とされました。
  2. 語幹が正しくない。ステミングが多すぎて (ネットワークとネットワークからネットへ)、名詞もステミングされる場合があります。

必要な機能のためのより良いモジュールはありますか、または同じモジュールのより良い実装はありますか? 親切に助けて

0 投票する
1 に答える
121 参照

javascript - 複数の AJAX ページからデータを収集する (ブラウザのアドオンを使用していますか?)

多くの日付と目的地について、特定の Web サイトから航空券の価格を収集したいと考えています。URL でソース、宛先、および日付を指定できますが、Web サイトは AJAX を使用してデータをフェッチするため、ページの応答で価格をすぐに取得できません。そのような場合、任意のプログラミング言語を使用してデータを取得できます。

このタスクは、Web ブラウザーを使用して各 URL を次々にロードし、ページをレンダリングさせてから、必要なタグを (CSS セレクターまたは JS を使用して) 探して保存する方がよいと考えました。ファイルまたはログに移動し、次の URL に移動します。後でデータを確認して、最良の価格を見つけることができました。

しかし、残念ながら、このタスクを実行するためのブラウザー拡張機能/アドオンが見つかりませんでした (Linux ブラウザーは問題ありませんが、Firefox と Chrome の可能性が高いです)。私はすでに GreaseMonkey に精通していますが、それは彼が行うように設計された種類のタスクではありませんが、同様のツールまたは同様の方法で動作することになると思います。

このタスクに使用できるツールを知っている人はいますか? 他のアプローチも大歓迎です!

0 投票する
1 に答える
1477 参照

java - Webクロール中のウイルス/マルウェアの危険性

私は最近、Java と JSoup (http://jsoup.org/) HTML パーサーを使用してカスタム Web クローラー/スパイダーを作成しました。Web クローラーは非常に初歩的なものです。Jsoup のconnectメソッドとgetメソッドを使用してページのソースを取得し、次に他の JSoup メソッドを使用してコンテンツを解析します。見つけたほぼすべてのリンクをランダムにたどりますが、ファイルのダウンロードやスクリプトの実行を試みることはありません。

クローラーは、基本的にランダムな Web ページの長いリストからシード ページを選択します。その中には、アダルト コンテンツや悪意のあるコードが含まれている可能性があるものもあります。最近、クローラーを実行しているときに、ウイルス対策 (Avast) がリクエストの 1 つに「脅威が検出されました」というフラグを立てました。問題のある URL は悪意があるように見えました。

私の質問は、私のコンピューターが Web クローラーを介してウイルスやマルウェアに感染することはありますか? 実施すべき予防策やチェックはありますか?

0 投票する
2 に答える
84 参照

data-mining - 2 つの Web ページ間の意味的関係を測定する方法

大学の Web ページにアクセスしているとします。そこにはたくさんの先生のプロフィールがあります。これらのページは構文的に関連していませんが、意味的に関連しています。このタイプの関係をどのように測定できますか? 実際、関係を見つけるためにどのパラメータに焦点を合わせるべきですか?

0 投票する
2 に答える
214 参照

data-mining - テキスト マイニングを使用した分類 - 値とキーワードによる分類

都市ごとの経済学と高度に相関する分類問題があります。人口、収入の中央値、雇用などの非構造化データをフリー テキストで持っています。テキスト マイニングを使用して、テキスト内の値を理解し、分類を行うことはできますか。ほとんどのテキスト マイニング記事を読んだことがあれば、キーワードまたはフレーズ カウントを使用して分類を行います。テキストの意味とテキストの頻度で分類できるようにしたいと思います。これは可能ですか?

ところで、私は現在 RapidMiner と R を使用しています。

前もって感謝します、ジョン

0 投票する
1 に答える
495 参照

command - WEKA シンプル CLI コマンドの強制終了

I WEKA SimpleCLI ツールで次のコードを実行します

java weka.core.converters.TextDirectoryLoader -dir c:/mydir/ > c:/output/result.arff

そして、それは次の結果を示しました

[...強制終了] 'c:/output/result.arff' への出力のリダイレクトが完了しました

result.arff ファイルのサイズは 0 KB です。

誰でも問題を知っていますか?

/* 私のデータは約 63,000 ファイルの *.txt ですが、それらのデータの 10 サンプルを試してみるとうまくいきます */