“text-extraction”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

3542 参照

ruby - Rubyを使用してテキストから日付を解析する

Rubyを使用して非構造化テキストから日付を抽出する方法を理解しようとしています。

たとえば、この文字列から日付を解析したいと思います。「2010年2月1日午前0時（EST）以降に開始されたアプリケーションは考慮されません。」

助言がありますか？

2010-02-17T00:34:16.013

0 投票する

4 に答える

62455 参照

nlp - How to extract common / significant phrases from a series of text entries

I have a series of text items- raw HTML from a MySQL database. I want to find the most common phrases in these entries (not the single most common phrase, and ideally, not enforcing word-for-word matching).

My example is any review on Yelp.com, that shows 3 snippets from hundreds of reviews of a given restaurant, in the format:

"Try the hamburger" (in 44 reviews)

e.g., the "Review Highlights" section of this page:

http://www.yelp.com/biz/sushi-gen-los-angeles/

I have NLTK installed and I've played around with it a bit, but am honestly overwhelmed by the options. This seems like a rather common problem and I haven't been able to find a straightforward solution by searching here.

nlp text-extraction nltk text-analysis

2010-03-16T08:42:38.257

0 投票する

1 に答える

146 参照

windows - ウィンドウの内容の抽出

これがテキストに基づいている場合、または少なくともそのウィンドウに関連付けられているファイルパスに基づいている場合は、ウィンドウのコンテンツを抽出する必要があります。1. win32api 2. サードパーティライブラリ 3. ラッパークラス

しかし、私は解決策に満足していません。では、これをクリーンな方法で行う方法はありますか?

windows screen-scraping text-extraction

2010-03-17T01:17:44.013

0 投票する

5 に答える

547 参照

python - Pythonで文字列を抽出する

基本的に、テキストファイルから文字列「AAA」、「BBB」、「CCC」、「DDD」を抽出したい...

私がしたい場合のようなものが欲しい:-

データ = foo("file.txt")

私は得る:-

データ = ['AAA','BBB','CCC','DDD']

可能な限り最善の方法は何ですか？私のファイルは大きくない...

基本的に、 HTMLでこのように見えるこのファイルから「残りのアップロードデータ転送」を抽出したい

python string text-extraction

2010-03-17T17:38:02.647

0 投票する

0 に答える

254 参照

email - 「メールで返信」スクリプトはありますか?

Posterous を使用すると、無数のオブジェクトを電子メールで投稿できます。ユーザーが送信したメールに返信できるようにしたいと考えており、コンテンツを抽出してどこかで使用しています。

それを行う最も効果的な方法は何ですか？

email text-extraction

2010-03-26T07:11:40.307

0 投票する

1 に答える

77 参照

javascript - ChromeのJavaScriptダイアログからメッセージを抽出する方法はありますか？

Chromeでテストを自動化するための拡張機能に取り組んでいますが、JavaScriptダイアログであいまいな問題が発生しました。ダイアログに表示されるメッセージは、簡単に取得/コピーできません。GetWindowText関数とInternalGetWindowText関数を使用しましたが、実際のメッセージ自体ではなく、ダイアログのタイトルとボタンからのテキストのみを返します。

フォームからテキストを抽出するプログラムも調べましたが、うまくいきませんでした。では、ChromeでこれらのJavaScriptダイアログからテキストを取得する方法を知っている人はいますか？

javascript google-chrome-extension text-extraction automated-tests

2010-03-31T20:37:13.040

0 投票する

2 に答える

193 参照

python - ％区切りタグを抽出するにはどうすればよいですか

ファイルからを取得して、Pythonで%tagname%のみ辞書にコピーしたいと思います。tagname

python text-extraction

2010-04-19T05:53:54.717

0 投票する

2 に答える

13859 参照

c++ - Poppler（C ++）を使用してPDFからテキストを抽出する

私はPopplerとその（不足している）ドキュメントを理解しようとしています。

私がやりたいのは非常に単純なことです。PDFファイルを開いてその中のテキストを読みます。次に、テキストを処理しますが、ここではそれほど重要ではありません。

だから...私はpoppler_page_get_text関数を見ました、そしてそれは一種の働きをします、しかし私は選択長方形を指定しなければなりません、それはあまり便利ではありません。PDFテキストを順番に（おそらく1行ずつ）出力する非常に単純な関数はありませんか？

c++pdf text-extraction poppler

2010-04-28T18:31:41.300

0 投票する

2 に答える

4476 参照

twitter - 小さなテキストコンテンツ（ツイートなど）からのタグの生成

私はすでに同様の質問をしましたが、私には大きな制約があることに気づきました。タグ（キーワード）を生成するためにユーザーツイートなどの小さなテキストセットに取り組んでいます。

そして、受け入れられた提案（ポイントごとの相互情報アルゴリズム）は、より大きなドキュメントで機能することを意図しているようです。

この制約（小さなテキストセットでの作業）を使用して、タグを生成するにはどうすればよいですか？

よろしく

twitter nlp text-extraction nltk text-analysis

2010-05-04T09:20:59.540

0 投票する

4 に答える

3295 参照

text-extraction - Adobe InDesign ファイルへのアクセス

次の問題の指示が必要です。

多くの InDesign ファイルがあり、ファイルの異なるバージョン間で特定の段落またはテキストブロックが変更されたかどうかを追跡するプロセスをセットアップする必要があります。テキストブロックが変更された場合、そのテキストブロックを「ポータブル」形式 (html、pdf、txt) で抽出したいと考えています。

それを行うアドビ製品はありますか？
InDesign ファイルにアクセスするためのパブリック API はありますか?
InDesign を html などにエクスポートする可能性はありますか?

text-extraction adobe-indesign

2010-05-05T12:54:33.483

問題タブ [text-extraction]

Reference