“text-extraction”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1319 参照

flash - SWFファイルのOCR。可能です？

SWFファイルからテキストを抽出する必要があります。可能です？それができるライブラリはありますか？

はいの場合、どのプログラミング言語で？

2011-02-21T22:56:34.327

0 投票する

8 に答える

259368 参照

regex - grep、regex、または perl を使用してパターンに従って文字列を抽出する方法

次のようなファイルがあります。

に続く引用符内name=、つまり、content_analyzer、content_analyzer2およびを抽出する必要がありcontent_analyzer_itemsます。

Linux ボックスでこれを行っているので、sed、perl、grep、または bash を使用したソリューションで問題ありません。

regex perl sed html-parsing text-extraction

2011-02-22T16:34:07.290

0 投票する

2 に答える

282 参照

java - Java での電子メールの自動抽出

Java を使用して、テキストファイル内の潜在的な電子メールアドレスをスキャンするにはどうすればよいですか?

java text-extraction email-address

2011-03-04T07:22:59.310

0 投票する

2 に答える

641 参照

.rtf形式のセルビア語英語の単語があり、このドキュメントから抽出してデータ構造に入れる必要があります。私はデータベースを操作することを知っていますが、それがこの状況に適しているかどうかはわかりません。たとえば、私はイタリック体の単語を持っていて、これをデータベースに入れる方法がわかりません（多分中に入れる）タグ？）。フォーマットされたテキスト（太字と斜体）を格納するための他のデータ構造はありますか？

java database data-structures text-extraction

2011-03-05T01:13:13.707

0 投票する

1 に答える

956 参照

tex - Tika を使用して .tex ファイルからテキストを抽出する

.texApache Tika を使用してファイルからテキストを抽出するにはどうすればよいですか? サンプルファイルはhttp://www.tug.org/texshowcase/EulerGibbsDuhem.texにあります。

Tika はコンテンツタイプを正しく検出できますが、application/x-texそこから何も抽出しません。

コマンドを試してみました

また、次のコードスニペット:

tex text-extraction apache-tika

2011-03-15T07:01:14.860

0 投票する

3 に答える

18901 参照

regex - RegExを使用してHTMLから値を抽出するには?

次の HTML があるとします。

<span>要素内の値を取得したいと思います。要素のclass属性の値も取得したいと思います。<span>

<span>理想的には、関数を介して HTML を実行し、抽出されたエンティティの辞書を取得することができます (上記で定義した解析に基づく)。

上記のコードは、より大きなソース HTML ファイルからのスニペットであり、XML パーサーに対応していません。そこで、関心のある情報を抽出するのに役立つ可能性のある正規表現を探しています。

regex html-content-extraction text-extraction

2011-03-16T15:22:45.473

0 投票する

3 に答える

2455 参照

regex - C ライクな言語で一致する中かっこの間のテキストブロックを抽出するのに役立ちます

GraphViz ドット言語で記述された HDF5 ファイル形式用に作成したドキュメントがいくつかあります。(これは、中括弧がたくさんある C に似た言語です。) このマスターファイルには、次のような多数の要素が含まれています。

clustername に基づいてこのテキストブロックを抽出したいと考えています。(すべてを含む超大規模なグラフではなく、これらのサブグラフのグラフを個別に作成したいと考えています。各サブグラフクラスタは、HDF5 外部ソフトリンクを介して接続された個別の HDF5 ファイルです。)

この目的のテキストの塊を抽出する方法があるはずです (特定のテキストパターンの後の最初の { と終了 } を複数の行にまたがって一致させる演習)。これは、普及しているため、比較的一般的なタスクのようです。 C および C に似た言語。

私の考えでは、これを達成するための最有力候補のツールは次のとおりです。

おかしい

パイソン

gvpr - graphviz で提供されるグラフストリームエディター (ただし、これは他の人にとっては役に立ちません。同じ質問をしている C プログラマーや、Web 上にいくつかの例が存在し、構文がわかりにくいと言う)

シード

現在、マスターファイルを維持し、Mx ediff-regions-linewise を使用して Emacs の各派生ファイルを更新しますが、自動化された (Make を使用してドキュメントファイルを作成できるようにするため) 派生ファイルを生成する堅牢な方法が必要です。私がささやかな経験を持っている上記の唯一のツールはsedですが、パターンが複雑で複数行にまたがっているため、awk や python のようなツールがこのタスクにより適していると思います。

実際、私は awk で参照カウントに似た手法を試しましたが、awk のより微妙な動作のいくつかを理解するのに問題があり、過去に awk 1 ライナーしか実際に使用していませんでした。

ご協力いただきありがとうございます。-Z

regex graphviz text-extraction

2011-03-30T20:25:07.153

0 投票する

1 に答える

3319 参照

java - 不明なコンテンツタイプのドキュメントからテキストを抽出する

application/octet-streamApache Tika内に型のパーサーはありますか？解析できないストリームだと思います。

ODSドキュメント、MSドキュメント、PDFファイルを解析するだけです。new Tika( ).parseToString(file); それで十分のようです。しかし、コンテンツタイプが検出されない場合に何が起こるか理解できません->application/octet-streamがデフォルトです。それらのタイプの1つであるドキュメントからテキストを抽出する機会がありますが、contentType検出器がそれらのタイプを検出しなかった場合。

サポートされている形式ではないことをユーザーに通知する代わりに、他に何を試す必要がありますか。

それとも、結果として得られるapplication/octet-streamコンテンツタイプは、これを読み取ることができないシグナルですか？または「これに対処する方法を自分で理解する必要があります」？

java content-type text-extraction apache-tika

2011-03-31T23:22:29.150

0 投票する

7 に答える

76827 参照

unix - .doc & .docx ファイルからプレーンテキストだけを抽出するには?

またはからプレーンテキストのみを抽出するために推奨できることを知っている人はいます.docか.docx?

私はこれを見つけました- 他の提案があったかどうか疑問に思いましたか?

unix extract docx doc text-extraction

2011-04-15T03:12:57.213

0 投票する

2 に答える

1031 参照

parsing - Web ページからのデータの抽出

Web ページからデータを抽出する必要がある学校のプロジェクトを行っています。正確には、html/text データから人間が読めるコンテンツを抽出するためのライブラリまたはオープンソースプログラムが必要です。テキストコンテンツをレンダリングする Web ブラウザのようなもの。

HTML を正規表現で解析することは、HTML からテキストを抽出するための最悪の方法であることはわかっています。

追加情報:

テキスト文書間の類似性を計算するために必要です。

どんな助けでも大歓迎です。ありがとう

parsing html-parsing html-content-extraction text-extraction

2011-04-19T02:32:49.317

問題タブ [text-extraction]

flash - SWFファイルのOCR。可能です？

regex - grep、regex、または perl を使用してパターンに従って文字列を抽出する方法

java - Java での電子メールの自動抽出

java - 辞書のデータ構造

tex - Tika を使用して .tex ファイルからテキストを抽出する

regex - RegExを使用してHTMLから値を抽出するには?

regex - C ライクな言語で一致する中かっこの間のテキストブロックを抽出するのに役立ちます

java - 不明なコンテンツタイプのドキュメントからテキストを抽出する

unix - .doc & .docx ファイルからプレーンテキストだけを抽出するには?

parsing - Web ページからのデータの抽出

問題タブ [text-extraction]

Reference