問題タブ [text-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - まだラップされていない単語または単語シーケンスをラップする方法は?
preg_replace を使用して、特定のリストから単語と単語のシーケンスをラップしようとしています。ほとんど機能しますが、機能しないユースケースがいくつかあり、その方法がわかりません。
たとえば、私はこれを行います:
このキーワード リストから:
- ロレム
- イプサム
- 座って
- ヌル
- シード
- セド・エニム
私は次のようになりたい:
-Lorem- -ipsum- dolor -sit amet- , consectetur adipiscing elit. Phasellus rhoncus venenatis orci sed porta. セド ノン ドロール エロス。massa を中断する - 座る amet- nulla egestas facilisis. Cras fringilla、leo ac ullamcorper semper、urna eros pretium lectus、nec rhoncus ligula risus eu velit。Nulla eu dapibus マグナ。Sed vehicula tristique lacinia。Maecenas tincidunt metus at urna consequat nec congue libero iaculis. Nulla facilisi。Phasellus -sed- sem ut risus mattis accumsan eu -sed enim- . Pellentesque 居住者 morbi tristique senectus et netus et malesuada 名声 ac turpis egestas. Suspendisse id est velit, eu cursus quam. Vivamus lacinia euismod pretium。
何か案は?
algorithm - メッセージからインテリジェンスを取得するためのアルゴリズムの選択
私がやろうとしているのは、人々が送信するメッセージと仲間が送信するメッセージを比較することにより、人々に「インテリジェントな」提案を生成するために実装できるアルゴリズムを見つけることです。
たとえば、人物 A が Obj1 について話しているメッセージを人物 B に送信します。人物 C が Obj1 について人物 D にメッセージを送信すると、同じことについて話していることがわかり、人物 A が人物 C と話していることを示唆する可能性があります。
人々が共通して持っている言及をキャプチャするために統計の収集を実装しましたが、これを分析するためにどのアルゴリズムを使用すればよいかわかりません。
助言がありますか?(これが十分に理にかなっていることを願っています)
php - キーワードアナライザー
キーワードの競合を解決するためのアルゴリズムやPHPコードを知りたいです。キーワードは、Webサイトごとおよび複数のWebサイトで複数のサイトで使用できます。そのランキングがどのように計算されるのか知りたいです。
ありがとう
java - 効率的なキーワードの検出/抽出。定義済みの一連のキーワード
文字列から関連性のあるキーワードを効率的に抽出するにはどうすればよいですか? キーワードのリストは事前定義されています。たとえば、バラク・オバマについても言及しているミシェル・オバマに関する記事では、より高い関連性値を取得するキーワードを使用してMichelle Obama
andを抽出したいと考えています (キーワード リストにはとの両方が含まれています)。Barack Obama
Michelle Obama
Michelle Obama
Barack Obama
各キーワードの出現回数を文字列でチェックするのはあまり効率的ではないようです。私のアプリケーションは PHP で開発されていますが、これを効率的に行うことができれば、どの言語でも構いません。
OpenCalais を試しましたが、ほとんどのキーワードが検出されません。Lucene を使用してキーワードを抽出することは可能ですか?
algorithm - 特定のテキストからタグ (キーワード) を自動的に識別する方法は?
Firefox 用のDelicious ツールバーと同じように動作する必要があります。クリックできるタグがリストされています。効果は次のように示されます。
コードは、テキストのキーワードを見つけることができる必要があります。推奨する優れたアルゴリズムまたはオープン ソース プロジェクトはありますか?
この投稿を見つけましたが、私の特定のニーズには少し一般的すぎます。
lucene - Lucene の SpanNearQuery から一致に対応する単語を取得する
SpanNearQuery.getSpans() によって返されるスパンの一致に対応するテキスト内の単語を取得する必要があります。たとえば、テキストが [abcdef] で、クエリ 'b' と 'e' (および十分なスロップ) で SpanNearQueries を使用すると、テキストで一致する 'bcd e' が得られます。では、一致する単語、つまり一連の単語 'bcd e' 自体を最も効率的に取得するにはどうすればよいでしょうか。
ここに私が必要とするもののコード例があります:
ここで、allSpans 内のすべての一致を反復処理し、一致ごとにクエリ間の正確な単語を取得し、その一致に対応するテキストを取得したいと考えています。
間接的な方法の 1 つは、その一致の終了位置と開始位置を取得し、ファイル リーダーを使用してテキスト ドキュメントを読み、位置 'end' と 'start' の間のテキストの文字列を見つけることです。しかし、それはあまり効率的な方法ではないようです。この情報は既に Lucene インデックスに格納されているはずです。
一致するクエリ間の単語を取得するより直接的な方法を知っている人はいますか?
ありがとう。
.net - キーが押されたときにキーワードを見つける
テキスト アナライザーの .net 実装を探しています。テキスト分析は、各文字が入力された後に発生する必要があります。アナライザーはいくつかのキー フレーズを保存し、フレーズの 1 つが入力されるたびにイベントを発生させることができる必要があります。たとえば、検索されたフレーズが「Hello world」の場合、アナライザーは「d」が入力された直後に「123Hello world」でイベントを発生させる必要がありますが、「Helloworld」が入力された場合はイベントを発生させません。
java - MeCab - 日本語の品詞と形態素解析ツールを呼び出す Java ファイルをコンパイルするには?
MeCab (http://mecab.sourceforge.net/#download) を使用して、日本語の文章の単語分割と、すべての単語を品詞でタグ付けしようとしています。http://mecab.sourceforge.net/#install-unixの手順に従って MeCab をインストールしました。150,000 文を処理するシェル スクリプトを書きたくないので (私の Mac OS X ターミナルでは日本語の文字が表示されないため)、既存の Java バインディングを使用しています: http://sourceforge.net/projects/mecab/files /mecab-java/0.98pre3/ . この時点で、指定された test.java ファイルをコンパイルして実行しようとしています。
README は次のとおりです。
コンパイルします: javac test.java. 次に実行します: java -classpath MeCab.jar test -d ../dic. 結果は次のエラーです。
この mecab-java-0.98pre3 ディレクトリの階層がよくわからないので、この test.java を実際にコンパイルして実行する方法がわかりません。アイデアはありますか?ありがとう!
python - Python を使用した textalyser 機能
http://textalyser.net/に似たテキスト分析機能を提供するPythonベースのライブラリはどれですか
java - HTMLページから自動的にテンプレートを作成するには?
Java でプログラムを使用して、特定の Web ページの形式で書式設定されていないテキストをレンダリングする必要があるユースケースがあります。つまり、テキストは、スタイル、段落、箇条書きなどを使用して Web ページのように自動的に書式設定する必要があります。
最初に説明したように、書式設定されていないテキストを分析して、段落、箇条書き、見出しなどの候補を見つける必要があります。このタスクに Lucene アナライザー/トークナイザーを使用します。代替手段はありますか?
2 番目の問題は、書式設定された Web ページを、タイトル、箇条書きなどのさまざまなエンティティのプレース ホルダーを含むある種のテンプレート (速度テンプレートなど) に変換する
ことです。これを行うのに役立つ Java のテキスト分析/テンプレート ライブラリはありますか? できればオープンソース。
Javaでこの種のタスクをより良い方法で行うための他の提案はありますか?
ご協力いただきありがとうございます。