問題タブ [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
3542 参照

ruby - Rubyを使用してテキストから日付を解析する

Rubyを使用して非構造化テキストから日付を抽出する方法を理解しようとしています。

たとえば、この文字列から日付を解析したいと思います。「2010年2月1日午前0時(EST)以降に開始されたアプリケーションは考慮されません。」

助言がありますか?

0 投票する
4 に答える
62455 参照

nlp - How to extract common / significant phrases from a series of text entries

I have a series of text items- raw HTML from a MySQL database. I want to find the most common phrases in these entries (not the single most common phrase, and ideally, not enforcing word-for-word matching).

My example is any review on Yelp.com, that shows 3 snippets from hundreds of reviews of a given restaurant, in the format:

"Try the hamburger" (in 44 reviews)

e.g., the "Review Highlights" section of this page:

http://www.yelp.com/biz/sushi-gen-los-angeles/

I have NLTK installed and I've played around with it a bit, but am honestly overwhelmed by the options. This seems like a rather common problem and I haven't been able to find a straightforward solution by searching here.

0 投票する
1 に答える
146 参照

windows - ウィンドウの内容の抽出

これがテキストに基づいている場合、または少なくともそのウィンドウに関連付けられているファイル パスに基づいている場合は、ウィンドウのコンテンツを抽出する必要があります。1. win32api 2. サードパーティ ライブラリ 3. ラッパー クラス

しかし、私は解決策に満足していません。では、これをクリーンな方法で行う方法はありますか?

0 投票する
5 に答える
547 参照

python - Pythonで文字列を抽出する

基本的に、テキストファイルから文字列「AAA」、「BBB」、「CCC」、「DDD」を抽出したい...

私がしたい場合のようなものが欲しい:-

データ = foo("file.txt")

私は得る:-

データ = ['AAA','BBB','CCC','DDD']

可能な限り最善の方法は何ですか?私のファイルは大きくない...

基本的に、 HTMLでこのように見えるこのファイルから「残りのアップロードデータ転送」を抽出したい

0 投票する
0 に答える
254 参照

email - 「メールで返信」スクリプトはありますか?

Posterous を使用すると、無数のオブジェクトを電子メールで投稿できます。ユーザーが送信したメールに返信できるようにしたいと考えており、コンテンツを抽出してどこかで使用しています。

それを行う最も効果的な方法は何ですか?

0 投票する
1 に答える
77 参照

javascript - ChromeのJavaScriptダイアログからメッセージを抽出する方法はありますか?

Chromeでテストを自動化するための拡張機能に取り組んでいますが、JavaScriptダイアログであいまいな問題が発生しました。ダイアログに表示されるメッセージは、簡単に取得/コピーできません。GetWindowText関数とInternalGetWindowText関数を使用しましたが、実際のメッセージ自体ではなく、ダイアログのタイトルとボタンからのテキストのみを返します。

フォームからテキストを抽出するプログラムも調べましたが、うまくいきませんでした。では、ChromeでこれらのJavaScriptダイアログからテキストを取得する方法を知っている人はいますか?

0 投票する
2 に答える
193 参照

python - %区切りタグを抽出するにはどうすればよいですか

ファイルからを取得して、Pythonで%tagname%のみ辞書にコピーしたいと思います。tagname

0 投票する
2 に答える
13859 参照

c++ - Poppler(C ++)を使用してPDFからテキストを抽出する

私はPopplerとその(不足している)ドキュメントを理解しようとしています。

私がやりたいのは非常に単純なことです。PDFファイルを開いてその中のテキストを読みます。次に、テキストを処理しますが、ここではそれほど重要ではありません。

だから...私はpoppler_page_get_text関数を見ました、そしてそれは一種の働きをします、しかし私は選択長方形を指定しなければなりません、それはあまり便利ではありません。PDFテキストを順番に(おそらく1行ずつ)出力する非常に単純な関数はありませんか?

0 投票する
2 に答える
4476 参照

twitter - 小さなテキストコンテンツ(ツイートなど)からのタグの生成

私はすでに同様の質問をしましたが、私には大きな制約があることに気づきました。タグ(キーワード)を生成するためにユーザーツイートなどの小さなテキストセットに取り組んでいます。

そして、受け入れられた提案(ポイントごとの相互情報アルゴリズム)は、より大きなドキュメントで機能することを意図しているようです。

この制約(小さなテキストセットでの作業)を使用して、タグを生成するにはどうすればよいですか?

よろしく

0 投票する
4 に答える
3295 参照

text-extraction - Adobe InDesign ファイルへのアクセス

次の問題の指示が必要です。

多くの InDesign ファイルがあり、ファイルの異なるバージョン間で特定の段落またはテキスト ブロックが変更されたかどうかを追跡するプロセスをセットアップする必要があります。テキスト ブロックが変更された場合、そのテキスト ブロックを「ポータブル」形式 (html、pdf、txt) で抽出したいと考えています。

  1. それを行うアドビ製品はありますか?
  2. InDesign ファイルにアクセスするためのパブリック API はありますか?
  3. InDesign を html などにエクスポートする可能性はありますか?