“text-segmentation”の関連問題_Stack Overflow日本語サイト

0 投票する

6 に答える

15194 参照

ruby - 文/文字列の最後の単語を抽出しますか？

長さと内容が異なる文字列の配列があります。

今、私はその単語の長さや文字列の長さを知らなくても、各文字列から最後の単語を抽出する簡単な方法を探しています。

何かのようなもの;

2012-03-02T13:40:18.590

0 投票する

2 に答える

472 参照

algorithm - 単語分割統計的アプローチ

単語分割の問題を解決したい（スペースのない長い文字列から単語を解析する）。somelongwordたとえば、からに単語を抽出します[some, long, word]。

これは、辞書を使用した動的なアプローチによって実現できますが、発生するもう1つの問題は、あいまいさの解析です。つまりorcore=>or coreまたはorc ore（フレーズの意味や品詞は考慮されません）。だから私はいくつかの統計的またはMLアプローチの使用法について考えます。

これを解決するには、列車セットを使用した単純ベイズアルゴリズムとビタビアルゴリズムを使用できることがわかりました。これらのアルゴリズムの単語分割問題への適用に関する情報を教えてください。

UPD：Peter Norvigのコードからのアドバイスを使用して、Clojureにこのメソッドを実装しました

algorithm nlp text-segmentation

2012-03-12T10:37:12.143

0 投票する

3 に答える

1933 参照

python - 単語の分割が可能かどうかの確認

これは、この応答と、ユーザーが投稿した疑似コードアルゴリズムに対するフォローアップの質問です。その質問については、年齢のためにコメントしませんでした。文字列を単語に分割できるかどうかを検証することにのみ関心があります。アルゴリズムは実際に文字列を分割する必要はありません。これは、リンクされた質問からの応答です。

S[1..length(w)] をブールエントリを持つテーブルとします。単語 w[1..i] を分割できる場合、S[i] は true です。次に、S[1] = isWord(w[1]) を設定し、i=2 を length(w) に計算します。

S[i] = (isWord[w[1..i] または {2..i} 内の任意の j: S[j-1] および isWord[j..i])。

このアルゴリズムを単純な python コードに翻訳していますが、正しく理解しているかどうかはわかりません。コード：

関連する質問が 2 つあります。1) このコードは、リンクされたアルゴリズムを Python に適切に変換したものですか? もしそうなら、2) S を取得したので、文字列が単語だけで構成されているかどうかを判断するためにどのように使用すればよいですか? この場合、is_wordは単にリスト内の特定の単語を検索する関数です。まだトライとして実装していません。

更新: 提案された変更を含めるようにコードを更新した後、機能しません。これは更新されたコードです:

Trueこれらの両方に対して返されるはずです。

python algorithm nlp dynamic-programming text-segmentation

2012-04-22T21:49:46.847

0 投票する

3 に答える

1953 参照

java - 段落の最初の文を見つける

基本的に段落を含む文字列があります。改行がある可能性があります。ここで、文字列の最初の文だけを取得したいと思います。やってみようと思った

それはスペースのあるドットです。

問題は、これが。のような行では機能しないことですfirstName. LastName。

.Netを使用しています。これを達成するために利用できる良い方法はありますか？また、Javaにタグを付けて、検索を絞り込むことができるかどうかを確認します。

java .net text-segmentation

2012-05-01T18:22:39.530

0 投票する

8 に答える

13292 参照

php - PHPで段落を文に分解します

私は使用しています

段落を文に分割します。ただし、これは、！などの異なる句読点で終了した文には適用されません。？：;

単一の文字の代わりに配列を区切り文字として使用する方法はありますか？あるいは、さまざまな句読点を使用して分割する別のきちんとした方法はありますか？

私は試した

うまくいけば、それはうまくいきませんでした...

php string explode text-segmentation

2012-05-08T07:09:17.420

0 投票する

2 に答える

17783 参照

python - Pythonで文字列の文を反復する方法は?

string があるとしますtext = "A compiler translates code from a source language"。私は2つのことをしたい：

NLTKライブラリを使用して、各単語とステムを反復処理する必要があります。ステミングの機能はPorterStemmer().stem_word(word). 引数 'word' を渡す必要があります。各単語をステム処理して、ステム処理された文を戻すにはどうすればよいですか?
文字列から特定のストップワードを削除する必要がありtextます。ストップワードを含むリストは、テキストファイルに保存されます (スペース区切り)。

textこれらのストップワードを削除して、きれいな新しい文字列を取得するにはどうすればよいですか?

python text-segmentation

2012-05-08T20:09:12.743

0 投票する

1 に答える

380 参照

ajax - CodeIgniter の URL セグメンテーションが JSON で機能しない

ここに投稿するのは初めてで、投稿を適切にフォーマットする方法がまだわかりませんが、これで終わりです。

したがって、基本的には、php ファイルを直接指定した場合にのみ、コードを機能させることができます。コントローラー内でメソッドを呼び出そうとしても、何も起こらないようです。

私のJavaScript：

私のマークアップ:

私のコントローラー:

それは私が何か間違ったことをした私のコントローラーかもしれません。このコードは、hehelol.php ファイルを作成し、このように直接参照する場合にのみ機能します。

コントローラーを正しく動作させるために何をする必要があるか知っている人はいますか? 助けてください！:)

ajax json codeigniter url text-segmentation

2012-05-11T23:13:51.537

0 投票する

6 に答える

2334 参照

python - 次の段落から最初の文を取得するにはどうすればよいですか?

これは簡単に聞こえるかもしれません。最初に出てくるドット(.)を基準にしようと思ったのですが、略語や略語が出てくるとどうしようもありません。

例 -

サーウィンストンレナードスペンサー-チャーチル、KG、OM、CH、TD、PC、DL、FRS、Hon. RA (1874 年 11 月 30 日 – 1965 年 1 月 24 日) は、第二次世界大戦中の英国の指導者として知られる英国の政治家および政治家でした。彼は戦時中の偉大な指導者の 1 人として広く認められており、2 度首相を務めました。著名な政治家であり雄弁家でもあったチャーチルは、英国陸軍の将校、歴史家、作家、芸術家でもありました。

ここで、最初のドットは Hon. ですが、第二次世界大戦で終わる完全な最初の行が必要です。

それは可能な人ですか？

python nlp text-segmentation

2012-06-18T12:36:05.247

0 投票する

2 に答える

496 参照

objective-c - Objective Cは段落内の文を列挙します

テキストの段落を調べて、一度に 1 つの文を返す列挙子を書きたいと思います。NSStringEnumerationBySentences で stringEnumerate を使用しようとしましたが、単にピリオドを見て失敗します。たとえば、次のテキストブロックがあるとします。

「ジョン・A・ベーナー上院議員は前に進まないことを決めた.彼はまた議会を招集しないことを決めた.ニュースレポーターは言った....」

上記の段落を次の文に分解する関数を希望します。

ジョン・A・ベーナー上院議員は前進しないことを決定した
彼はまた、議会を招集しないことを決定しました（半文なので3番目の文はありません）

文オプションを指定した文字列列挙子は、ピリオドを見て、そのように分解しますが、これは間違っています。

上院議員ジョン A.
ベーナーは前に進まないことを決めた
彼はまた、議会を招集しないことを決定した
新聞記者が言ってたけど…

これでより良い仕事をするために呼び出すことができるライブラリまたは関数はありますか?

ありがとう

objective-c xcode ios4 xcode4 text-segmentation

2012-06-27T18:30:29.523

0 投票する

4 に答える

2708 参照

python - HTML を文章に解析する - 表/リスト/見出しなどを処理する方法は?

自由なテキスト、リスト、表、見出しなどを含む HTML ページを構文解析するにはどうすればよいでしょうか?

たとえば、このウィキペディアのページを見てください。ある/ある:

フリーテキスト: http://en.wikipedia.org/wiki/Neurotransmitter#Discovery
リスト: http://en.wikipedia.org/wiki/Neurotransmitter#Actions
表: http://en.wikipedia.org/wiki/Neurotransmitter#Common_neurotransmitters

Python NLTKをいじった後、これらのさまざまなコーパスアノテーションメソッドをすべてテストしたいと思います ( http://nltk.googlecode.com/svn/trunk/doc/book/ch11.html#deciding-which-layers-から)。 of-annotation-to-include ):

単語のトークン化: 正書法のテキストは、そのトークンを明確に識別しません。従来の正書法版に加えて、トークン化および正規化された版は、非常に便利なリソースになる可能性があります。
文の分割: 第 3 章で見たように、文の分割は思ったより難しい場合があります。したがって、一部のコーパスでは、明示的な注釈を使用して文の分割をマークしています。
段落の分割: 段落やその他の構造要素 (見出し、章など) には、明示的に注釈を付けることができます。
品詞: ドキュメント内の各単語の構文カテゴリ。
構文構造: 文の構成構造を示すツリー構造。
浅いセマンティクス: 名前付きエンティティと相互参照アノテーション、セマンティックロールラベル。
対話と談話: 対話行為のタグ、修辞構造

ドキュメントを文章に分割すると、それは非常に簡単に思えます。しかし、ウィキペディアのページから HTML のようなものを分解するにはどうすればよいでしょうか? 私は HTML/XML パーサーの使用とツリーのトラバースに非常に精通しており、HTML タグを削除してプレーンテキストを取得しようとしましたが、HTML が削除された後に句読点が欠落しているため、NLTK はテーブルセルなどを解析しません。または正しくリストします。

NLP でそのようなものを解析するためのベストプラクティスまたは戦略はありますか? それとも、その個々のページに固有のパーサーを手動で作成する必要がありますか?

正しい方向へのいくつかの指針を探しているだけで、本当にこの NLTK を試してみたい!

python html nlp nltk text-segmentation

2012-06-30T20:20:04.620

問題タブ [text-segmentation]

Reference