問題タブ [text-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
5 に答える
11499 参照

python - 文字列が名前の省略形であるかどうかを確認します

文字列が別の単語の略語であるかどうかを確認するための Python アルゴリズムを開発しようとしています。例えば

  • fckfc kopenhavn単語の最初の文字に一致するため、 に一致します。fhk一致しません。
  • fcofc kopenhavnFC Kopenhavn を FCO と略す人はいないため、一致しないはずです。
  • irlに一致しin real lifeます。
  • ifkに一致しifk goteborgます。
  • aikに一致しallmanna idrottsklubenます。
  • aidに一致しallmanna idrottsklubbenます。これは実際のチーム名の省略形ではありませんが、スウェーデンの省略形がどのように形成されるかについてドメイン固有の知識を適用しない限り、除外するのは難しいと思います。
  • manuに一致しmanchester unitedます。

アルゴリズムの正確なルールを説明するのは難しいですが、私の例が私が求めているものを示していることを願っています.

更新一致する文字を大文字にして文字列を表示するのを間違えました。実際のシナリオでは、すべての文字が小文字であるため、どの文字が大文字であるかを確認するだけでは簡単ではありません。

0 投票する
2 に答える
436 参照

nlp - People、Org、Loc 以外の Lingpipe を使用して一般的なエンティティを抽出できますか?

Lingpipe for NLP を読んだところ、人、場所、組織の名前の言及を識別する機能があることがわかりました。私の質問は、たとえば、テキスト内にソフトウェア プロジェクトについて言及しているドキュメントのトレーニング セットがある場合、このトレーニング セットを使用して名前付きエンティティ認識エンジンをトレーニングできるかということです。トレーニングが完了すると、テキスト ドキュメントのテスト セットをトレーニング済みモデルにフィードできるようになり、そこにあるソフトウェア プロジェクトの言及を識別できるようになります。

この一般的な NER は NER を使用して可能ですか? もしそうなら、フィードするためにどの機能を使用する必要がありますか?

ありがとうアビシェクS

0 投票する
6 に答える
42600 参照

nlp - 感情分析のトレーニング データ

企業ドメインのセンチメントがポジティブ/ネガティブに分類されているドキュメントのコーパスはどこで入手できますか? アナリストやメディアが提供する企業のレビューなど、企業のレビューを提供するドキュメントの大規模なコーパスが必要です。

商品や映画のレビューが載っているコーパスを見つけました。企業のレビューを含む、ビジネスの言語に一致するビジネス ドメインのコーパスはありますか。

0 投票する
1 に答える
468 参照

ruby - Ruby での簡単なキーワード/キー フレーズ分析

特定のハッシュタグを含むツイート内の人気のあるキーワードまたはフレーズの簡単なリストを作成したいと思います。

たとえば、「#justinbieber」ハッシュタグを含むすべてのツイートについて、「and」、「theなど。完璧である必要はありません。意味があるだけです。

テキスト分析を実行するために利用できる Ruby ツールには、どのようなものがありますか? もちろん、分析部分はTwitterに限定する必要はありません。

ほとんどの場合、特定のハッシュタグを使用して定期的にツイートをリクエストして保存し、特定の時間枠内でツイートに分析を適用します。

作業は Heroku の Rails または Sinatra アプリ内で行われますが、分析は rake タスクまたは何らかのスケジュールされたジョブで行われます。ツイートの保存方法はまだ決めていません。

0 投票する
3 に答える
154 参照

algorithm - コンテンツに基づくテキストの優先順位付け

テキストのリストと特定のトピックに興味のある人がいる場合、特定の人に最も関連のあるテキストを選択するアルゴリズムは何ですか?

これは非常に複雑なトピックだと思います。答えとして、テキスト分析、テキスト統計、人工知能などのさまざまな方法論を研究するためのいくつかの方向性を期待しています.

ありがとうございました

0 投票する
1 に答える
868 参照

java - 辞書検索を回避する効率的なLemmatizer

'eat'のような文字列を'eating'、'eats'に変換したい。私は解決策としてレンマタイゼーションを検索して見つけましたが、私が見つけたすべてのレンマタイザーツールはワードリストまたは辞書ルックアップを使用しています。辞書検索を回避し、高効率を提供するレンマタイザーはありますか?ルールに基づくレンマタイザーである可能性があります。はい、私は「ステマー」を探していません。

0 投票する
1 に答える
814 参照

full-text-search - フィールド数を増やさずに lucene を使用した正確なフレーズ検索

フレーズ検索の場合、完全に一致する場合にのみ結果を表示したいと考えています (ストップワードを無視することはありません)。語句以外の検索であれば、単語の原形が一致していても結果を表示しても問題ありません。

現在、standardTokenizer、StopFilter、PorterStemFilter、および LowerCaseFilter を介してデータを渡しています。このため、ユーザーが「パスワード管理」を検索したい場合、検索は「パスワード マネージャー」を含む結果を表示します。

StemFilter を削除すると、語句以外のクエリの語根形を照合できなくなります。ドキュメントの 2 つのフィールドの一部として同じデータをインデックス化する必要があるかどうかを考えていました。

インデックス サイズを 2 倍にすることなく、同じフィールドで異なるインデックス作成と検索戦略で同じ質問をしましたか? . しかし、オフィスの人々は、2 つのフィールドの一部として同じデータをインデックス化することに満足していません。(現在、lucene ドキュメントには約 20 のテキスト フィールドがあります)。TokenFilters を使用して上記の両方のケースをサポートする方法はありますか?

たとえば、StopFilter の場合、入力トークンと ? の両方を発行するように変更します。(無視された単語の場合)同じ位置の増分で。同様に、StemFilter の場合、入力トークンと語幹化されたトークンの両方を同じ位置のインクリメントで発行します。基本的に、入力トークンと出力トークン (無視されたものも含む) は同じ位置にあります。

このアプローチを進めても安全ですか? ここに記載されている要件に直面した人は他にいますか? 私のアプローチで述べたことと同様のことを行うフィルターはすぐに利用できますか?

ありがとう

0 投票する
3 に答える
1017 参照

java - タイトル Java ライブラリで重要な単語を取得する

指定されたテキスト(タイトル)で重要な単語のコレクションを取得するJavaライブラリはありますか?
EDITED:重要とは、文の主なアイデアを定義したものを意味します. ありがとうございました。

0 投票する
1 に答える
102 参照

artificial-intelligence - ウィキペディアの編集をフィルタリングするためのより良いアプローチ

RSSチャネルを介して特定のウィキペディアの記事のニュースを監視している場合、編集のほとんどがスパム、破壊行為、マイナーな編集などであるため、情報をフィルタリングせずに迷惑になります。

私のアプローチは、フィルターを作成することです。寄稿者のニックネームを含まないが、寄稿者のIPアドレスによってのみ識別されるすべての編集を削除することにしました。これは、そのような編集のほとんどがスパムであるためです(ただし、いくつかの良い寄稿があります)。これは正規表現で簡単に行えました。また、下品な表現やその他の一般的なスパムキーワードを含む編集も削除しました。

正規表現、AI、テキスト処理技術などを使用したアルゴリズムまたはヒューリスティックを利用するより良いアプローチを知っていますか?このアプローチは、悪い投稿(マイナーな編集または破壊行為)を検出でき、良い/悪い貢献が何であるかを段階的に学習し、そのデータベースを更新できる必要があります。

ありがとうございました

0 投票する
2 に答える
368 参照

nlp - 分類された感情データのソース?

以前に使用されたことのないいくつかの新しいデータ ソースを使用して、ナイーブ ベイズをトレーニングしようとしています。IMDB レビューの Lee & Pang コーパスと MPQA オピニオン コーパスは既に見ました。次の条件を満たす新しい Web サービスを探しています。

  1. 簡単に分類 - 好き嫌いまたは 5 つ星の評価が必要
  2. すぐに利用できる
  3. 新しい資料に関するもの (最初の 2 つほど重要ではありません)

ここに私が独自に思いついたいくつかのサンプルがあります。

  • Etsy API
  • 腐ったトマト API
  • Yelp API

他の提案は大歓迎です=)