“text-mining”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1464 参照

lucene - Lucene エンティティ抽出

エンティティ用語の有限辞書が与えられた場合、Lucene を使用してインテリジェントなタグ付けでエンティティ抽出を行う方法を探しています。現在、私は Lucene を次の目的で使用できます:
- あいまいさのある複雑なフレーズの検索
- 結果の強調表示

ただし、次の方法はわかりません:
-一致したフレーズの正確なオフセットを取得する -一致
ごとにエンティティ固有の注釈を付ける (単にすべてのヒットのタグ)

私は Explain() メソッドを使用してみましたが、これはヒットしたクエリの用語のみを提供し、元のテキスト内のヒットのオフセットは提供しません。

誰かが同様の問題に直面していて、潜在的な解決策を喜んで共有していますか?

助けてくれてありがとう！

2010-11-16T21:50:56.730

0 投票する

2 に答える

726 参照

data-mining - Rapidminer のランタイムプロンプト

私は Rapidminer を使用しており、標準的な一連のタスクを実行する一連のプロセスを作成しました。ここで、ユーザーが開始時にプロセスのパラメーターを動的に設定できるようにしたいと考えています。

たとえば、CSV を作成するときに、スクリプトの開始時、またはプロセス中の他の段階で、プロンプトを介して保存する場所を含む文字列を入力するようにユーザーに促したいと考えています。

これは Rapidminer を介して可能ですか、それともその場で生成して実行するスクリプトを作成する必要がありますか?

data-mining text-mining rapidminer

2010-12-15T12:36:53.600

0 投票する

2 に答える

2374 参照

私は NLP (自然言語処理) への新規参入者です。スタートアッププロジェクトとして、言い換え認識機能 (2 つの類似した文を認識できるシステム) を開発しています。レベル、すなわち、レキシカル、シンタックス、セマンティックレキシカルレベルでは、コサイン類似度、マッチング係数、ジャカード係数などの複数の類似度測定があります.これらの測定には、シェフィールド大学によって開発されたsimMetricsパッケージを使用しています..これは、さまざまな類似性測定のための素晴らしいパッケージです。多くの類似性測定が含まれています。しかし、レーベンシュタイン距離とジャロウィンクラー距離測定の場合、コードは *文字レベルのみです*のみ.文レベルでコードが必要です(つまり、文字単位ではなく単一の単語を単位と見なします)。また、マンハッタン距離のコードはSimMetricsにはありません...必要なコードを開発するための提案を専門家に依頼します(または) 上記の手段の文レベルでのコードを提供してください。

私を助けてくれたあなたの時間と努力に、前もって感謝します。

nlp data-mining text-mining stanford-nlp

2011-01-08T10:19:22.030

0 投票する

2 に答える

4553 参照

pdf - PubMed記事のフルテキストPDF

プロジェクトに取り組んでいる間、PubMedアブストラクトのフルテキスト記事をダウンロードして処理する必要がありますが、ユーザーが一連のPubMed IDを入力し、同じものの無料フルテキスト記事をダウンロードできるようにする実装済みのコードまたはツールはありますか。どんな種類のヘルプやヒントも大歓迎です。

pdf nlp text-mining pubmed

2011-01-14T16:20:52.727

0 投票する

1 に答える

469 参照

java - OpenNLP は「2009 年 1 月 10 日」という形式の日付を識別できませんか?

OpenNLP (Java) は、「2010 年 1 月 10 日」または「2010 年 1 月 10 日」という形式の日付を識別できません。OpenNLP トークナイザーを使用する前に、テキスト内のすべての「,」を空の文字列「」に置き換えました。これは、「2010 年 1 月 10 日」という形式の日付に対して正常に機能します。そこで、「th,」を「,」に置き換えてみましたが、うまくいきませんでした。上記のフォームの日付が OpenNLP で識別されるようにするにはどうすればよいでしょうか?

前もって感謝します

java date text-mining opennlp

2011-01-18T10:14:21.343

0 投票する

6 に答える

4238 参照

php - PHP を使用して、本文中の 3 ～ 8 語の一般的なフレーズを検索する

PHP を使用して、本文内の一般的なフレーズを見つける方法を探しています。PHP でそれができない場合は、これを完了するのに役立つ他の Web 言語に興味があります。

メモリや速度は問題ではありません。

現在、キーワードは簡単に検索できますが、フレーズの検索方法がわかりません。

php data-mining text-mining

2011-01-26T04:37:27.343

0 投票する

1 に答える

2385 参照

java - 単語を対応するカテゴリに分類する方法は?

長い単語リストのテキスト分類を実装する必要があります。いくつかのカテゴリを定義しました。たとえば、「UK」という単語がリストにある場合、「地域」の下に表示されます。単語が「ピザ」の場合、カテゴリ「食品」に分類されます。

単語をさまざまなカテゴリに分類するにはどうすればよいですか? それを行うために利用できるオープンソースツールはありますか?

java nlp classification ontology text-mining

2011-01-30T19:02:24.653

0 投票する

1 に答える

3075 参照

outlook - Outlook メールアーカイブのテキストマイニング

4 年以上の通信を含む一連の大規模な個々の .pst ファイルに対してテキストマイニングを実行することを検討しています。

最初は、ヘッダー情報を抽出してソーシャルネットワークを識別したいと考えていますが、最終的には、キーワードに基づいて電子メールを分類するか、さらなる分析をサポートする構造化された出力を作成したいと考えています。

どこから始めればよいか、誰か提案はありますか？

outlook text-mining

2011-01-31T14:59:57.097

0 投票する

1 に答える

2440 参照

java - OpenNLP で「missing the manifest.properties」を解決する方法は?

トークン化に OpenNLP を使用しようとしています。何が問題なのかわからない。以下は例外です。

java nlp text-mining opennlp

2011-02-01T19:48:36.160

0 投票する

2 に答える

56 参照

logging - 大きなログファイルを減らすためのツール

私は 1 GB 程度の巨大なログファイルを扱っていますが、1 つのセッションしか気にしないのに、多くのユーザーセッションが含まれています。

通常、セッション ID を検索するだけで、関心のあるセッションをカバーするファイルの一般的な領域を絞り込むことができます (2 分以上かかります)。その後、ユーザーセッションで発生したイベントの前後のデータを削除して、その後の検索を高速化したいと考えています (対象領域を絞り込んだため)。

Google Chrome に巨大なログファイルをロードし、関心のある領域をスクロールバーにマーカーで表示する検索ハイライト機能を使用するのが好きですが、200MB を超えるファイルでは実際には機能せず、無関係な部分を削除することもできません。ログを検索して、その後の検索を高速化します。

よくある問題だと思います。そのようなツールを見つけることができれば、時間を大幅に節約できます。

ありがとう。

logging text-mining

2011-02-09T12:21:38.037

問題タブ [text-mining]

lucene - Lucene エンティティ抽出

data-mining - Rapidminer のランタイムプロンプト

nlp - 文レベル類似度を用いた言い換え認識

pdf - PubMed記事のフルテキストPDF

java - OpenNLP は「2009 年 1 月 10 日」という形式の日付を識別できませんか?

php - PHP を使用して、本文中の 3 ～ 8 語の一般的なフレーズを検索する

java - 単語を対応するカテゴリに分類する方法は?

outlook - Outlook メールアーカイブのテキストマイニング

java - OpenNLP で「missing the manifest.properties」を解決する方法は?

logging - 大きなログファイルを減らすためのツール

問題タブ [text-mining]

Reference