問題タブ [text-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - Rubyを使用してテキストから日付を解析する
Rubyを使用して非構造化テキストから日付を抽出する方法を理解しようとしています。
たとえば、この文字列から日付を解析したいと思います。「2010年2月1日午前0時(EST)以降に開始されたアプリケーションは考慮されません。」
助言がありますか?
nlp - How to extract common / significant phrases from a series of text entries
I have a series of text items- raw HTML from a MySQL database. I want to find the most common phrases in these entries (not the single most common phrase, and ideally, not enforcing word-for-word matching).
My example is any review on Yelp.com, that shows 3 snippets from hundreds of reviews of a given restaurant, in the format:
"Try the hamburger" (in 44 reviews)
e.g., the "Review Highlights" section of this page:
http://www.yelp.com/biz/sushi-gen-los-angeles/
I have NLTK installed and I've played around with it a bit, but am honestly overwhelmed by the options. This seems like a rather common problem and I haven't been able to find a straightforward solution by searching here.
windows - ウィンドウの内容の抽出
これがテキストに基づいている場合、または少なくともそのウィンドウに関連付けられているファイル パスに基づいている場合は、ウィンドウのコンテンツを抽出する必要があります。1. win32api 2. サードパーティ ライブラリ 3. ラッパー クラス
しかし、私は解決策に満足していません。では、これをクリーンな方法で行う方法はありますか?
email - 「メールで返信」スクリプトはありますか?
Posterous を使用すると、無数のオブジェクトを電子メールで投稿できます。ユーザーが送信したメールに返信できるようにしたいと考えており、コンテンツを抽出してどこかで使用しています。
それを行う最も効果的な方法は何ですか?
javascript - ChromeのJavaScriptダイアログからメッセージを抽出する方法はありますか?
Chromeでテストを自動化するための拡張機能に取り組んでいますが、JavaScriptダイアログであいまいな問題が発生しました。ダイアログに表示されるメッセージは、簡単に取得/コピーできません。GetWindowText関数とInternalGetWindowText関数を使用しましたが、実際のメッセージ自体ではなく、ダイアログのタイトルとボタンからのテキストのみを返します。
フォームからテキストを抽出するプログラムも調べましたが、うまくいきませんでした。では、ChromeでこれらのJavaScriptダイアログからテキストを取得する方法を知っている人はいますか?
python - %区切りタグを抽出するにはどうすればよいですか
ファイルからを取得して、Pythonで%tagname%
のみ辞書にコピーしたいと思います。tagname
c++ - Poppler(C ++)を使用してPDFからテキストを抽出する
私はPopplerとその(不足している)ドキュメントを理解しようとしています。
私がやりたいのは非常に単純なことです。PDFファイルを開いてその中のテキストを読みます。次に、テキストを処理しますが、ここではそれほど重要ではありません。
だから...私はpoppler_page_get_text
関数を見ました、そしてそれは一種の働きをします、しかし私は選択長方形を指定しなければなりません、それはあまり便利ではありません。PDFテキストを順番に(おそらく1行ずつ)出力する非常に単純な関数はありませんか?
twitter - 小さなテキストコンテンツ(ツイートなど)からのタグの生成
私はすでに同様の質問をしましたが、私には大きな制約があることに気づきました。タグ(キーワード)を生成するためにユーザーツイートなどの小さなテキストセットに取り組んでいます。
そして、受け入れられた提案(ポイントごとの相互情報アルゴリズム)は、より大きなドキュメントで機能することを意図しているようです。
この制約(小さなテキストセットでの作業)を使用して、タグを生成するにはどうすればよいですか?
よろしく
text-extraction - Adobe InDesign ファイルへのアクセス
次の問題の指示が必要です。
多くの InDesign ファイルがあり、ファイルの異なるバージョン間で特定の段落またはテキスト ブロックが変更されたかどうかを追跡するプロセスをセットアップする必要があります。テキスト ブロックが変更された場合、そのテキスト ブロックを「ポータブル」形式 (html、pdf、txt) で抽出したいと考えています。
- それを行うアドビ製品はありますか?
- InDesign ファイルにアクセスするためのパブリック API はありますか?
- InDesign を html などにエクスポートする可能性はありますか?