問題タブ [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1648 参照

java - バイナリファイル抽出ライブラリからの一般的なプレーンテキスト

私は、汎用の特殊化されていないプレーンテキストファイルエクストラクタを求めています。

まず、人々がApache Tikaを見ると叫ぶ前に、私の回答は、Office、BMPなどの一般的なバイナリファイル形式のみをサポートしているということです。

問題に戻る-多くのバイナリファイルにはテキスト文字列が埋め込まれているので、バイナリバイトノイズなしで抽出したいと思います。これは、exeなどで単純なテキスト文字列シーケンスを検索でき、結果がASCII単語のみを保持することを意味します。グーグルを試しましたが、これを行うものは見つかりませんでした。私の基本的な考え方は、ファイルがTIKAによって処理されない場合、この単純なバイナリファイルハンドラーがこれらのテキスト文字列を見つけるために最善を尽くすということです。

0 投票する
1 に答える
1252 参照

python - テキストからリンクを抽出するためにPythonで可読性(テキスト抽出アルゴリズム)とカスタムアルゴリズムを使用する方法はありますか?

テキストからリンクを抽出するためにPythonで可読性(テキスト抽出アルゴリズム)とカスタムアルゴリズムを使用する方法はありますか?

テキストの本文にあるリンクを抽出する方法を見つけたいと思います。

1.) Python で可読性を使用しています https://github.com/gfxmonk/python-readability

2.) 記事の実際の本文にあるリンクを抽出するために、抽出したテキストを元の html テキストと何らかの方法で比較したいと考えています。

0 投票する
2 に答える
3413 参照

pdf - PDFBox テキスト抽出で「長い」スペースを保持する

PDFBoxを使用してPDFからテキストを抽出しています。PDFには表形式の構造があり、これは非常に単純で、列も互いに非常に広い間隔で配置されています

これは非常にうまく機能しますが、すべての種類の水平スペースが単一のスペース文字に変換されるため、列を区別できなくなります (列内の単語内のスペースは、列間のスペースのように見えます)。

一般的な解決策は非常に難しいことを理解していますが、この場合、列が非常に離れているため、「長いスペース」と「単語間のスペース」を簡単に区別するだけで十分です。

PDFBox に、x インチを超える水平方向の空白を単一のスペース以外のものに変えるように指示する方法はありますか? 比例アプローチ (x インチが y スペースになる) も機能します。

pdftotext C ライブラリ/ツールには、レイアウトを保持しようとする「-layout」スイッチがあります。基本的に、PDFBoxでそれをエミュレートできれば完璧です。

0 投票する
14 に答える
853350 参照

java - 正規表現を使用して部分文字列を抽出する方法

文字という2つの一重引用符が含まれる文字列があります'。一重引用符の間に、必要なデータがあります。

次のテキストから「必要なデータ」を抽出するための正規表現を作成するにはどうすればよいですか?

0 投票する
1 に答える
7039 参照

iphone - NSRegularExpression によるテキスト抽出

与えられたNSString *test = @"...href="/functions?q=KEYWORD\x26amp...";

NSRegularExpression を使用して文字列から単語KEYWORDを抽出するにはどうすればよいですか?
iOS SDK 4.2 で次の NSRegularExpression を試しましたが、テキストが見つかりません。次のコードは問題ないように見えますか?

0 投票する
1 に答える
559 参照

php - PHPで座標を取得するためのGoogleマップの質問

これはphpにあります。配列に次の変数があります

配列、爆発、および str_replace を使用して、-58.3731613、-34.6084175 を 2 つの変数に取得していますが、これを行う簡単な方法はありますか?

私がやったことは機能していましたが、どうやらグーグルが何かを変更したようです。なぜなら、1か月前とは異なる結果になったからです。質問は....グーグルが何かを変更した理由を誰か知っていますか?

すべてに感謝

念のため、以前は機能していた古いコード:

0 投票する
1 に答える
753 参照

algorithm - 利用可能な用語のリストによる用語抽出

用語抽出アルゴリズム/サービスを探しています。これは編集者への単なる提案であるため、抽出された用語は不完全である可能性があります。したがって、テキストを使用可能な用語のリストと比較する必要があり、このリスト以外の用語を提案することはありません。

タスクは簡単に思えます。用語ごとに、テキストに表示される数を数え、上位の用語をフィルタリングします。しかし、ここに数万の用語のリストがあります。このタスクは不可能のように見えます。それを行うサービスまたはアルゴリズムを知っていますか?

もう1つの詳細は、用語抽出サービス(リストに基づいてそれらの用語をフィルタリングする)には非常に満足していますが、これは英語以外の言語であり、ほとんどの単語は複合語であるため、有用なサービスがわかりません。

ありがとう。

編集:例

HômthứHai31/1/2011、EricssonchobiếtđãtrìnhdiễnmạngHSPA(高速パケットアクセス)vớitốcđộtảixuốnglênđến168Mbit/giây Buổitrìnhdiễnsửdụngmộtnguyênmẫuthiếtbịngườitiêudùngvàthiếtbịmạngthươngmại、vỡ

Đểđạttốcđộ168Mbit/giây、Ericssonđãsửdụngmộtsốthủthuậtvôtuyến、baogồmcôngnghệanMI MIMOsửdụngnhiềuantentạitrạmgốcvàtrênthiếtbịđểtăngtốcđộ。

Theo Ericsson、cũngsẽcómộtbuổitrìnhdiễnnhưvậyđượctiếnhànhtạitriểnlãmMobileWorldCongresssắptớiở

そして、提案リストは次のようになります:Ericsson、trìnhdiễn、HSPA、anten(とりわけ)

0 投票する
1 に答える
13762 参照

c# - c# を使用して画像内のテキスト (データ) を読み取る

C# を使用して画像内のテキスト (数字と文字) を読み取る方法はありますか? これは可能ですか?これを行う最善の方法は何ですか?

ありがとう!

0 投票する
1 に答える
215 参照

perl - 電子メールから現在のレベルのコンテンツを抽出する CPAN モジュールはありますか

電子メールのプレーン テキスト コンポーネントからコンテンツの即時レベルを抽出する (つまり、引用されたコンテンツと署名ブロックを破棄する) ための最善の試みを行うモジュールを探しています。

私たちはすでにいくつかのコードを持っているので、それを実行する既存のモジュールがない場合は、新しいモジュールの名前のアイデアも歓迎されます (Text::ExtractImmediateLevelOfContentFromEmail少し扱いに​​くいようです)。

0 投票する
1 に答える
1117 参照

c# - ルールを追加し、C#.netを使用してPDFからテキストを抽出します

このアプリケーションと同様の機能を備えたPDFテキスト抽出ツール(A-PDF Data Extractor)を構築したいhttp://www.a-pdf.com/data-extractor/index.htm

私はこれをc#.netで行うことを計画しているので、このアプリケーション(dllまたはexe)を参照して、このアプリの購入に似た独自のインターフェイスを構築したいと思います。しかし、それは私に参照を追加させません。

これどうやってするの ?私のc#デスクトップアプリケーション内で別のアプリケーションを実行する方法はありますか?

より良いオプションがあれば私に知らせてください

どんな助けでもありがたいです!