問題タブ [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text - データを情報に変換する: どこから始めればよいでしょうか?
私たち(私の会社)は、ユーザー登録、訪問、クリック、投稿内容など、多くのデータが記録されたWebサイトを運営していますが、これまでのところ、全体を監視する方法や監視する方法を見つけるツールはありません。そこからどのような情報を得ることができるかを理解できるように、そこからパターンを見つけますか? そのため、管理者はそれに基づいて決定を下すことができます。要するに、人々は取得したデータに基づいて Amazon や Google で行っていますが、私たちも同様のことを望んでいます。
さて、イントロの後、私はそれが何と呼ばれるかを知りたいと思います.それはデータマイニングですか、機械学習ですか、それとも何ですか? 無意味なデータを有用な情報に変換するには、どこから始めればよいでしょうか?
data-mining - 文書分類を開始するために求められる書籍および記事の参照
私は文書分類に関するプロジェクトを行うことに興味があり、これに関連するテキスト マイニングの理論的な部分に役立つ可能性のある本、または分類された文書 (サブカテゴリを含む) を使用したトレーニング データからデータへの移行プロセスを説明する記事の例を探しています。ドキュメントのクラスを予測するシステム。入手可能な (かなり高価な!) タイトルがいくつかあるようですが、これらは小規模で非常に具体的なトピックに関する記事を含む会議議事録です。テキスト マイニングに関するプロジェクトの優れた理論的基礎を提供するデータ マイニングの文献から、具体的にはドキュメントの分類やこのプロセスの概要を説明した記事を提案してくれる人はいますか?
ruby - ユーザーが送信したテキストからキーワードを抽出するための適切なアプローチは何ですか?
私は、特定の問題に対する賛否両論をグラフィカルに表現することで、ユーザーが議論を理解できるようにするサイトを構築しています。(ラングル)
これらの議論を分類して、より簡単に見つけて接続できるようにしたいと思います。議論の作成者が利益を得る前にタグやカテゴリを追加するよう求めて、議論を作成する人をいらいらさせたくないので、キーワードを自動的に抽出する方法を検討しています。
討論のタイトルと説明 (および場合によっては議論自体の内容) を取得して、類似の討論を結び付けるためのメタデータとして使用できる 10 個の強力なキーワードを抽出するための良いアプローチ討論が表示される HTML ページの先頭にある「メタ」キーワード タグのコンテンツ。例えば。データマッパーとアクティブレコード
このサイトは、データ ストレージに DataMapper を使用して、Sinatra を使用して Ruby でコーディングされています。私は理想的には、Heroku で動作するものを探しています (動的にファイルをディスクに書き込む方法がありません)。Web サービス、API、または理想的には Ruby gem を検討します。
machine-learning - テキスト分類に単純ベイズを実装する可能性の対数
テキスト分類に単純ベイズ アルゴリズムを実装しています。トレーニング用に約 1000 個のドキュメント、テスト用に 400 個のドキュメントがあります。トレーニング部分は正しく実装したと思いますが、テスト部分で混乱しています。これが私が簡単にやったことです:
私のトレーニング機能では:
トレーニング部分を正しく理解して実装したと思いますが、テスト部分を正しく実装できたかどうかはわかりません。ここでは、各テスト ドキュメントを調べて、各ドキュメントの logP(spam|d) と logP(non-spam|d) を計算します。次に、クラス (スパム/非スパム) を決定するために、これら 2 つの量を比較します。
私のテスト機能では:
私の問題は; 正確な 1 と 0 (スパム/非スパム) ではなく、各クラスの確率を返したいと考えています。たとえば、 newclass = 0.8684212 を見たいので、後でしきい値を適用できます。しかし、私はここで混乱しています。各ドキュメントの確率を計算するにはどうすればよいですか? logProbabilities を使用して計算できますか?
java - Mallet: 各予測に対する機能の寄与
CRF を使用して Mallet で NER システムを開発しています。
各予測の機能の寄与を収集できるかどうか知っていますか? CRF モデルの正確な動作を知り、理解する必要があります。
助言がありますか?
ありがとう。
乾杯、ウクライナ
data-mining - Web ページからナビゲーション メニューを抽出するには、どのような手法がありますか?
リンク(およびおそらくテキスト)が多いWebページからナビゲーションに使用されるメニューを抽出する方法を探しています。私が興味を持っているページは、非常に単純で有効な XHTML であり、メニューがページの最初または最後のどこかにあることは間違いありません。しかし、それが正確にどこにあるかを見つけるための優れた一般的な方法は、これまでのところ私にはわかりませんでした.
簡単なメモ: 私は読みやすさのようなものを探しているのではありません - メインの記事を見つけて他のすべてを取り除きますが、具体的にメニューを見つける何かを探しています. また、「後継者として多くのリンクを持つ要素を見つける」という単純な方法はあまりうまく機能しません。ページにはかなり長いリンクのリストが含まれる傾向があるためです。
編集: リンクされているページのコンテンツを取得するためのメニューが必要です (情報抽出プロジェクト用の Web スクレーパーを構築しています)。私が使用するいくつかのサンプルページ:
- http://p2.cs.berkeley.edu/
- http://www.cs.cornell.edu/bigreddata/maybms/ (注: ここでは、サイドバー ナビゲーションではなく、出版物/ダウンロードを指すメニューが必要ですが、読みやすさなどを使用すると、サイド バー ナビゲーションを取り除く方が簡単です) .
web-crawler - トピック関連のクローラーの辞書はどのように定義されていますか?
特定のウェブサイトの関連性を計算するための辞書を定義するための最良の方法は何でしょうか。少なくとも単語のある辞書は、リンクを介して見つかった新しいWebサイトの関連性を測定する重要な方法のようです(たとえば、Webサイトがリンクされているが、サッカーに関する単語が含まれていない場合、私のサッカークローラーにはおそらく無関係です)。
私は次のアイデアを思いつきましたが、それらすべてに大きな欠点があります。
- 手で辞書を書く->たくさんの単語を忘れてしまうかもしれませんし、とても時間がかかります
- 最初のウェブサイトから最も重要な単語を辞書として取ります->多くの単語がおそらく欠落しているでしょう
- すべてのWebサイトで最も重要な単語を辞書のエントリとして取得し、関連性で重み付けします(たとえば、関連性のある0.4のみのWebサイトは、関連性のある0.8のWebサイトほど辞書に大きな影響を与えません)->かなり複雑に見えます予期しない結果につながる可能性があります
最後の方法が私には最善のように思えますが、もっと良い、より一般的な方法があるのではないでしょうか。
python - データマイニングにおけるデータマッピングのアルゴリズム
いくつかの Web ページをスクレイピングして、それらからコンテンツを抽出する必要があります。いくつかの特定のキーワードを選択し、それらと何らかの関係があるデータをマッピングすることを計画しています。しかし、どうすればそれができるのか、私にはわかりません。誰かがそれを行うためのアルゴリズムを提案してもらえますか?.
たとえば、リンゴに関するいくつかの Web ページをダウンロードし、リンゴに関する関連データをマップしてデータベースに保存する必要があります。これにより、誰かがそれに関する特定の情報を必要とする場合に、迅速かつ正確に提供できるようになります。
また、役立つライブラリも指摘するのに役立ちます。Pythonでやろうと思っています。
java - テキスト処理用の Python または Java (テキスト マイニング、情報検索、自然言語処理)
検索、分類/分類、クラスタリングなどの多くのテキスト処理タスクを行う新しいプロジェクトを間もなく開始します。
処理が必要なドキュメントは膨大な量になります。おそらく数百万のドキュメント。初期処理の後、複数の新しいドキュメントで毎日更新できる必要もあります。
これを行うために Python を使用できますか、それとも Python は遅すぎますか? Javaを使用するのが最善ですか?
できれば、最近使っている Python が好きです。さらに、コーディング部分をはるかに速く仕上げることができます。しかし、それはすべて Python の速度に依存します。私は数千のドキュメントしかない小規模なテキスト処理タスクに Python を使用しましたが、どの程度スケールアップするかはわかりません。