問題タブ [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1319 参照

flash - SWFファイルのOCR。可能です?

SWFファイルからテキストを抽出する必要があります。可能です?それができるライブラリはありますか?

はいの場合、どのプログラミング言語で?

0 投票する
8 に答える
259368 参照

regex - grep、regex、または perl を使用してパターンに従って文字列を抽出する方法

次のようなファイルがあります。

に続く引用符内name=、つまり 、content_analyzercontent_analyzer2およびを抽出する必要がありcontent_analyzer_itemsます。

Linux ボックスでこれを行っているので、sed、perl、grep、または bash を使用したソリューションで問題ありません。

0 投票する
2 に答える
282 参照

java - Java での電子メールの自動抽出

Java を使用して、テキスト ファイル内の潜在的な電子メール アドレスをスキャンするにはどうすればよいですか?

0 投票する
2 に答える
641 参照

java - 辞書のデータ構造

.rtf形式のセルビア語英語の単語があり、このドキュメントから抽出してデータ構造に入れる必要があります。私はデータベースを操作することを知っていますが、それがこの状況に適しているかどうかはわかりません。たとえば、私はイタリック体の単語を持っていて、これをデータベースに入れる方法がわかりません(多分中に入れる)タグ?)。フォーマットされたテキスト(太字と斜体)を格納するための他のデータ構造はありますか?

0 投票する
1 に答える
956 参照

tex - Tika を使用して .tex ファイルからテキストを抽出する

.texApache Tika を使用してファイルからテキストを抽出するにはどうすればよいですか? サンプル ファイルはhttp://www.tug.org/texshowcase/EulerGibbsDuhem.texにあります。

Tika はコンテンツ タイプを正しく検出できますが、application/x-texそこから何も抽出しません。

コマンドを試してみました

また、次のコード スニペット:

0 投票する
3 に答える
18901 参照

regex - RegExを使用してHTMLから値を抽出するには?

次の HTML があるとします。

<span>要素内の値を取得したいと思います。要素のclass属性の値も取得したいと思います。<span>

<span>理想的には、関数を介して HTML を実行し、抽出されたエンティティの辞書を取得することができます (上記で定義した解析に基づく)。

上記のコードは、より大きなソース HTML ファイルからのスニペットであり、XML パーサーに対応していません。そこで、関心のある情報を抽出するのに役立つ可能性のある正規表現を探しています。

0 投票する
3 に答える
2455 参照

regex - C ライクな言語で一致する中かっこの間のテキスト ブロックを抽出するのに役立ちます

GraphViz ドット言語で記述された HDF5 ファイル形式用に作成したドキュメントがいくつかあります。(これは、中括弧がたくさんある C に似た言語です。) このマスター ファイルには、次のような多数の要素が含まれています。

clustername に基づいてこのテキスト ブロックを抽出したいと考えています。(すべてを含む超大規模なグラフではなく、これらのサブグラフのグラフを個別に作成したいと考えています。各サブグラフ クラスタは、HDF5 外部ソフトリンクを介して接続された個別の HDF5 ファイルです。)

この目的のテキストの塊を抽出する方法があるはずです (特定のテキスト パターンの後の最初の { と終了 } を複数の行にまたがって一致させる演習)。これは、普及しているため、比較的一般的なタスクのようです。 C および C に似た言語。

私の考えでは、これを達成するための最有力候補のツールは次のとおりです。

おかしい

パイソン

gvpr - graphviz で提供されるグラフ ストリーム エディター (ただし、これは他の人にとっては役に立ちません。同じ質問をしている C プログラマーや、Web 上にいくつかの例が存在し、構文がわかりにくいと言う)

シード

現在、マスター ファイルを維持し、Mx ediff-regions-linewise を使用して Emacs の各派生ファイルを更新しますが、自動化された (Make を使用してドキュメント ファイルを作成できるようにするため) 派生ファイルを生成する堅牢な方法が必要です。私がささやかな経験を持っている上記の唯一のツールはsedですが、パターンが複雑で複数行にまたがっているため、awk や python のようなツールがこのタスクにより適していると思います。

実際、私は awk で参照カウントに似た手法を試しましたが、awk のより微妙な動作のいくつかを理解するのに問題があり、過去に awk 1 ライナーしか実際に使用していませんでした。

ご協力いただきありがとうございます。-Z

0 投票する
1 に答える
3319 参照

java - 不明なコンテンツタイプのドキュメントからテキストを抽出する

application/octet-streamApache Tika内に型のパーサーはありますか?解析できないストリームだと思います。

ODSドキュメント、MSドキュメント、PDFファイルを解析するだけです。new Tika( ).parseToString(file); それで十分のよう です。しかし、コンテンツタイプが検出されない場合に何が起こるか理解できません->application/octet-streamがデフォルトです。それらのタイプの1つであるドキュメントからテキストを抽出する機会がありますが、contentType検出器がそれらのタイプを検出しなかった場合。

サポートされている形式ではないことをユーザーに通知する代わりに、他に何を試す必要がありますか。

それとも、結果として得られるapplication/octet-streamコンテンツタイプは、これを読み取ることができないシグナルですか?または「これに対処する方法を自分で理解する必要があります」?

0 投票する
7 に答える
76827 参照

unix - .doc & .docx ファイルからプレーンテキストだけを抽出するには?

またはからプレーンテキストのみを抽出するために推奨できることを知っている人はいます.doc.docx?

私はこれを見つけまし- 他の提案があったかどうか疑問に思いましたか?

0 投票する
2 に答える
1031 参照

parsing - Web ページからのデータの抽出

Web ページからデータを抽出する必要がある学校のプロジェクトを行っています。正確には、html/text データから人間が読めるコンテンツを抽出するためのライブラリまたはオープンソース プログラムが必要です。テキスト コンテンツをレンダリングする Web ブラウザのようなもの。

HTML を正規表現で解析することは、HTML からテキストを抽出するための最悪の方法であることはわかっています。

追加情報:

テキスト文書間の類似性を計算するために必要です。

どんな助けでも大歓迎です。ありがとう