問題タブ [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lucene - Lucene エンティティ抽出
エンティティ用語の有限辞書が与えられた場合、Lucene を使用してインテリジェントなタグ付けでエンティティ抽出を行う方法を探しています。現在、私は Lucene を次の目的で使用できます:
- あいまいさのある複雑なフレーズの検索
- 結果の強調表示
ただし、次の方法はわかりません:
-一致したフレーズの正確なオフセットを取得する -一致
ごとにエンティティ固有の注釈を付ける (単にすべてのヒットのタグ)
私は Explain() メソッドを使用してみましたが、これはヒットしたクエリの用語のみを提供し、元のテキスト内のヒットのオフセットは提供しません。
誰かが同様の問題に直面していて、潜在的な解決策を喜んで共有していますか?
助けてくれてありがとう!
data-mining - Rapidminer のランタイム プロンプト
私は Rapidminer を使用しており、標準的な一連のタスクを実行する一連のプロセスを作成しました。ここで、ユーザーが開始時にプロセスのパラメーターを動的に設定できるようにしたいと考えています。
たとえば、CSV を作成するときに、スクリプトの開始時、またはプロセス中の他の段階で、プロンプトを介して保存する場所を含む文字列を入力するようにユーザーに促したいと考えています。
これは Rapidminer を介して可能ですか、それともその場で生成して実行するスクリプトを作成する必要がありますか?
nlp - 文レベル類似度を用いた言い換え認識
私は NLP (自然言語処理) への新規参入者です。スタートアップ プロジェクトとして、言い換え認識機能 (2 つの類似した文を認識できるシステム) を開発しています。レベル、すなわち、レキシカル、シンタックス、セマンティックレキシカルレベルでは、コサイン類似度、マッチング係数、ジャカード係数などの複数の類似度測定があります.これらの測定には、シェフィールド大学によって開発されたsimMetricsパッケージを使用しています..これは、さまざまな類似性測定のための素晴らしいパッケージです。多くの類似性測定が含まれています。しかし、レーベンシュタイン距離とジャロウィンクラー距離測定の場合、コードは *文字レベルのみです*のみ.文レベルでコードが必要です(つまり、文字単位ではなく単一の単語を単位と見なします)。また、マンハッタン距離のコードはSimMetricsにはありません...必要なコードを開発するための提案を専門家に依頼します(または) 上記の手段の文レベルでのコードを提供してください。
私を助けてくれたあなたの時間と努力に、前もって感謝します。
pdf - PubMed記事のフルテキストPDF
プロジェクトに取り組んでいる間、PubMedアブストラクトのフルテキスト記事をダウンロードして処理する必要がありますが、ユーザーが一連のPubMed IDを入力し、同じものの無料フルテキスト記事をダウンロードできるようにする実装済みのコードまたはツールはありますか。どんな種類のヘルプやヒントも大歓迎です。
java - OpenNLP は「2009 年 1 月 10 日」という形式の日付を識別できませんか?
OpenNLP (Java) は、「2010 年 1 月 10 日」または「2010 年 1 月 10 日」という形式の日付を識別できません。OpenNLP トークナイザーを使用する前に、テキスト内のすべての「,」を空の文字列「」に置き換えました。これは、「2010 年 1 月 10 日」という形式の日付に対して正常に機能します。そこで、「th,」を「,」に置き換えてみましたが、うまくいきませんでした。上記のフォームの日付が OpenNLP で識別されるようにするにはどうすればよいでしょうか?
前もって感謝します
php - PHP を使用して、本文中の 3 ~ 8 語の一般的なフレーズを検索する
PHP を使用して、本文内の一般的なフレーズを見つける方法を探しています。PHP でそれができない場合は、これを完了するのに役立つ他の Web 言語に興味があります。
メモリや速度は問題ではありません。
現在、キーワードは簡単に検索できますが、フレーズの検索方法がわかりません。
java - 単語を対応するカテゴリに分類する方法は?
長い単語リストのテキスト分類を実装する必要があります。いくつかのカテゴリを定義しました。たとえば、「UK」という単語がリストにある場合、「地域」の下に表示されます。単語が「ピザ」の場合、カテゴリ「食品」に分類されます。
単語をさまざまなカテゴリに分類するにはどうすればよいですか? それを行うために利用できるオープンソースツールはありますか?
outlook - Outlook メール アーカイブのテキスト マイニング
4 年以上の通信を含む一連の大規模な個々の .pst ファイルに対してテキスト マイニングを実行することを検討しています。
最初は、ヘッダー情報を抽出してソーシャル ネットワークを識別したいと考えていますが、最終的には、キーワードに基づいて電子メールを分類するか、さらなる分析をサポートする構造化された出力を作成したいと考えています。
どこから始めればよいか、誰か提案はありますか?
java - OpenNLP で「missing the manifest.properties」を解決する方法は?
トークン化に OpenNLP を使用しようとしています。何が問題なのかわからない。以下は例外です。
logging - 大きなログ ファイルを減らすためのツール
私は 1 GB 程度の巨大なログ ファイルを扱っていますが、1 つのセッションしか気にしないのに、多くのユーザー セッションが含まれています。
通常、セッション ID を検索するだけで、関心のあるセッションをカバーするファイルの一般的な領域を絞り込むことができます (2 分以上かかります)。その後、ユーザー セッションで発生したイベントの前後のデータを削除して、その後の検索を高速化したいと考えています (対象領域を絞り込んだため)。
Google Chrome に巨大なログ ファイルをロードし、関心のある領域をスクロールバーにマーカーで表示する検索ハイライト機能を使用するのが好きですが、200MB を超えるファイルでは実際には機能せず、無関係な部分を削除することもできません。ログを検索して、その後の検索を高速化します。
よくある問題だと思います。そのようなツールを見つけることができれば、時間を大幅に節約できます。
ありがとう。