問題タブ [text-segmentation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - 文/文字列の最後の単語を抽出しますか?
長さと内容が異なる文字列の配列があります。
今、私はその単語の長さや文字列の長さを知らなくても、各文字列から最後の単語を抽出する簡単な方法を探しています。
何かのようなもの;
algorithm - 単語分割統計的アプローチ
単語分割の問題を解決したい(スペースのない長い文字列から単語を解析する)。somelongword
たとえば、からに単語を抽出します[some, long, word]
。
これは、辞書を使用した動的なアプローチによって実現できますが、発生するもう1つの問題は、あいまいさの解析です。つまりorcore
=>or core
またはorc ore
(フレーズの意味や品詞は考慮されません)。だから私はいくつかの統計的またはMLアプローチの使用法について考えます。
これを解決するには、列車セットを使用した単純ベイズアルゴリズムとビタビアルゴリズムを使用できることがわかりました。これらのアルゴリズムの単語分割問題への適用に関する情報を教えてください。
UPD:Peter Norvigのコードからのアドバイスを使用して、Clojureにこのメソッドを実装しました
python - 単語の分割が可能かどうかの確認
これは、この応答と、ユーザーが投稿した疑似コード アルゴリズムに対するフォローアップの質問です。その質問については、年齢のためにコメントしませんでした。文字列を単語に分割できるかどうかを検証することにのみ関心があります。アルゴリズムは実際に文字列を分割する必要はありません。これは、リンクされた質問からの応答です。
S[1..length(w)] をブール エントリを持つテーブルとします。単語 w[1..i] を分割できる場合、S[i] は true です。次に、S[1] = isWord(w[1]) を設定し、i=2 を length(w) に計算します。
S[i] = (isWord[w[1..i] または {2..i} 内の任意の j: S[j-1] および isWord[j..i])。
このアルゴリズムを単純な python コードに翻訳していますが、正しく理解しているかどうかはわかりません。コード:
関連する質問が 2 つあります。1) このコードは、リンクされたアルゴリズムを Python に適切に変換したものですか? もしそうなら、2) S を取得したので、文字列が単語だけで構成されているかどうかを判断するためにどのように使用すればよいですか? この場合、is_word
は単にリスト内の特定の単語を検索する関数です。まだトライとして実装していません。
更新: 提案された変更を含めるようにコードを更新した後、機能しません。これは更新されたコードです:
True
これらの両方に対して返されるはずです。
java - 段落の最初の文を見つける
基本的に段落を含む文字列があります。改行がある可能性があります。ここで、文字列の最初の文だけを取得したいと思います。やってみようと思った
それはスペースのあるドットです。
問題は、これが。のような行では機能しないことですfirstName. LastName
。
.Netを使用しています。これを達成するために利用できる良い方法はありますか?また、Javaにタグを付けて、検索を絞り込むことができるかどうかを確認します。
php - PHPで段落を文に分解します
私は使用しています
段落を文に分割します。ただし、これは、!などの異なる句読点で終了した文には適用されません。?:;
単一の文字の代わりに配列を区切り文字として使用する方法はありますか?あるいは、さまざまな句読点を使用して分割する別のきちんとした方法はありますか?
私は試した
うまくいけば、それはうまくいきませんでした...
python - Pythonで文字列の文を反復する方法は?
string があるとしますtext = "A compiler translates code from a source language"
。私は2つのことをしたい:
NLTK
ライブラリを使用して、各単語とステムを反復処理する必要があります。ステミングの機能はPorterStemmer().stem_word(word)
. 引数 'word' を渡す必要があります。各単語をステム処理して、ステム処理された文を戻すにはどうすればよいですか?文字列から特定のストップ ワードを削除する必要があり
text
ます。ストップ ワードを含むリストは、テキスト ファイルに保存されます (スペース区切り)。text
これらのストップワードを削除して、きれいな新しい文字列を取得するにはどうすればよいですか?
ajax - CodeIgniter の URL セグメンテーションが JSON で機能しない
ここに投稿するのは初めてで、投稿を適切にフォーマットする方法がまだわかりませんが、これで終わりです。
したがって、基本的には、php ファイルを直接指定した場合にのみ、コードを機能させることができます。コントローラー内でメソッドを呼び出そうとしても、何も起こらないようです。
私のJavaScript:
私のマークアップ:
私のコントローラー:
それは私が何か間違ったことをした私のコントローラーかもしれません。このコードは、hehelol.php ファイルを作成し、このように直接参照する場合にのみ機能します。
コントローラーを正しく動作させるために何をする必要があるか知っている人はいますか? 助けてください!:)
python - 次の段落から最初の文を取得するにはどうすればよいですか?
これは簡単に聞こえるかもしれません。最初に出てくるドット(.)を基準にしようと思ったのですが、略語や略語が出てくるとどうしようもありません。
例 -
サー ウィンストン レナード スペンサー-チャーチル、KG、OM、CH、TD、PC、DL、FRS、Hon. RA (1874 年 11 月 30 日 – 1965 年 1 月 24 日) は、第二次世界大戦中の英国の指導者として知られる英国の政治家および政治家でした。彼は戦時中の偉大な指導者の 1 人として広く認められており、2 度首相を務めました。著名な政治家であり雄弁家でもあったチャーチルは、英国陸軍の将校、歴史家、作家、芸術家でもありました。
ここで、最初のドットは Hon. ですが、第二次世界大戦で終わる完全な最初の行が必要です。
それは可能な人ですか?
objective-c - Objective Cは段落内の文を列挙します
テキストの段落を調べて、一度に 1 つの文を返す列挙子を書きたいと思います。NSStringEnumerationBySentences で stringEnumerate を使用しようとしましたが、単にピリオドを見て失敗します。たとえば、次のテキスト ブロックがあるとします。
「ジョン・A・ベーナー上院議員は前に進まないことを決めた.彼はまた議会を招集しないことを決めた.ニュースレポーターは言った....」
上記の段落を次の文に分解する関数を希望します。
ジョン・A・ベーナー上院議員は前進しないことを決定した
彼はまた、議会を招集しないことを決定しました(半文なので3番目の文はありません)
文オプションを指定した文字列列挙子は、ピリオドを見て、そのように分解しますが、これは間違っています。
上院議員ジョン A.
ベーナーは前に進まないことを決めた
彼はまた、議会を招集しないことを決定した
新聞記者が言ってたけど…
これでより良い仕事をするために呼び出すことができるライブラリまたは関数はありますか?
ありがとう
python - HTML を文章に解析する - 表/リスト/見出しなどを処理する方法は?
自由なテキスト、リスト、表、見出しなどを含む HTML ページを構文解析するにはどうすればよいでしょうか?
たとえば、このウィキペディアのページを見てください。ある/ある:
- フリーテキスト: http://en.wikipedia.org/wiki/Neurotransmitter#Discovery
- リスト: http://en.wikipedia.org/wiki/Neurotransmitter#Actions
- 表: http://en.wikipedia.org/wiki/Neurotransmitter#Common_neurotransmitters
Python NLTKをいじった後、これらのさまざまなコーパス アノテーション メソッドをすべてテストしたいと思います ( http://nltk.googlecode.com/svn/trunk/doc/book/ch11.html#deciding-which-layers-から)。 of-annotation-to-include ):
- 単語のトークン化: 正書法のテキストは、そのトークンを明確に識別しません。従来の正書法版に加えて、トークン化および正規化された版は、非常に便利なリソースになる可能性があります。
- 文の分割: 第 3 章で見たように、文の分割は思ったより難しい場合があります。したがって、一部のコーパスでは、明示的な注釈を使用して文の分割をマークしています。
- 段落の分割: 段落やその他の構造要素 (見出し、章など) には、明示的に注釈を付けることができます。
- 品詞: ドキュメント内の各単語の構文カテゴリ。
- 構文構造: 文の構成構造を示すツリー構造。
- 浅いセマンティクス: 名前付きエンティティと相互参照アノテーション、セマンティック ロール ラベル。
- 対話と談話: 対話行為のタグ、修辞構造
ドキュメントを文章に分割すると、それは非常に簡単に思えます。しかし、ウィキペディアのページから HTML のようなものを分解するにはどうすればよいでしょうか? 私は HTML/XML パーサーの使用とツリーのトラバースに非常に精通しており、HTML タグを削除してプレーン テキストを取得しようとしましたが、HTML が削除された後に句読点が欠落しているため、NLTK はテーブル セルなどを解析しません。または正しくリストします。
NLP でそのようなものを解析するためのベスト プラクティスまたは戦略はありますか? それとも、その個々のページに固有のパーサーを手動で作成する必要がありますか?
正しい方向へのいくつかの指針を探しているだけで、本当にこの NLTK を試してみたい!