問題タブ [text-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
flash - SWFファイルのOCR。可能です?
SWFファイルからテキストを抽出する必要があります。可能です?それができるライブラリはありますか?
はいの場合、どのプログラミング言語で?
regex - grep、regex、または perl を使用してパターンに従って文字列を抽出する方法
次のようなファイルがあります。
に続く引用符内name=
、つまり 、content_analyzer
、content_analyzer2
およびを抽出する必要がありcontent_analyzer_items
ます。
Linux ボックスでこれを行っているので、sed、perl、grep、または bash を使用したソリューションで問題ありません。
java - Java での電子メールの自動抽出
Java を使用して、テキスト ファイル内の潜在的な電子メール アドレスをスキャンするにはどうすればよいですか?
java - 辞書のデータ構造
.rtf形式のセルビア語英語の単語があり、このドキュメントから抽出してデータ構造に入れる必要があります。私はデータベースを操作することを知っていますが、それがこの状況に適しているかどうかはわかりません。たとえば、私はイタリック体の単語を持っていて、これをデータベースに入れる方法がわかりません(多分中に入れる)タグ?)。フォーマットされたテキスト(太字と斜体)を格納するための他のデータ構造はありますか?
tex - Tika を使用して .tex ファイルからテキストを抽出する
.tex
Apache Tika を使用してファイルからテキストを抽出するにはどうすればよいですか? サンプル ファイルはhttp://www.tug.org/texshowcase/EulerGibbsDuhem.texにあります。
Tika はコンテンツ タイプを正しく検出できますが、application/x-tex
そこから何も抽出しません。
コマンドを試してみました
また、次のコード スニペット:
regex - RegExを使用してHTMLから値を抽出するには?
次の HTML があるとします。
<span>
要素内の値を取得したいと思います。要素のclass
属性の値も取得したいと思います。<span>
<span>
理想的には、関数を介して HTML を実行し、抽出されたエンティティの辞書を取得することができます (上記で定義した解析に基づく)。
上記のコードは、より大きなソース HTML ファイルからのスニペットであり、XML パーサーに対応していません。そこで、関心のある情報を抽出するのに役立つ可能性のある正規表現を探しています。
regex - C ライクな言語で一致する中かっこの間のテキスト ブロックを抽出するのに役立ちます
GraphViz ドット言語で記述された HDF5 ファイル形式用に作成したドキュメントがいくつかあります。(これは、中括弧がたくさんある C に似た言語です。) このマスター ファイルには、次のような多数の要素が含まれています。
clustername に基づいてこのテキスト ブロックを抽出したいと考えています。(すべてを含む超大規模なグラフではなく、これらのサブグラフのグラフを個別に作成したいと考えています。各サブグラフ クラスタは、HDF5 外部ソフトリンクを介して接続された個別の HDF5 ファイルです。)
この目的のテキストの塊を抽出する方法があるはずです (特定のテキスト パターンの後の最初の { と終了 } を複数の行にまたがって一致させる演習)。これは、普及しているため、比較的一般的なタスクのようです。 C および C に似た言語。
私の考えでは、これを達成するための最有力候補のツールは次のとおりです。
おかしい
パイソン
gvpr - graphviz で提供されるグラフ ストリーム エディター (ただし、これは他の人にとっては役に立ちません。同じ質問をしている C プログラマーや、Web 上にいくつかの例が存在し、構文がわかりにくいと言う)
シード
現在、マスター ファイルを維持し、Mx ediff-regions-linewise を使用して Emacs の各派生ファイルを更新しますが、自動化された (Make を使用してドキュメント ファイルを作成できるようにするため) 派生ファイルを生成する堅牢な方法が必要です。私がささやかな経験を持っている上記の唯一のツールはsedですが、パターンが複雑で複数行にまたがっているため、awk や python のようなツールがこのタスクにより適していると思います。
実際、私は awk で参照カウントに似た手法を試しましたが、awk のより微妙な動作のいくつかを理解するのに問題があり、過去に awk 1 ライナーしか実際に使用していませんでした。
ご協力いただきありがとうございます。-Z
java - 不明なコンテンツタイプのドキュメントからテキストを抽出する
application/octet-stream
Apache Tika内に型のパーサーはありますか?解析できないストリームだと思います。
ODSドキュメント、MSドキュメント、PDFファイルを解析するだけです。new Tika( ).parseToString(file);
それで十分のよう です。しかし、コンテンツタイプが検出されない場合に何が起こるか理解できません->application/octet-stream
がデフォルトです。それらのタイプの1つであるドキュメントからテキストを抽出する機会がありますが、contentType検出器がそれらのタイプを検出しなかった場合。
サポートされている形式ではないことをユーザーに通知する代わりに、他に何を試す必要がありますか。
それとも、結果として得られるapplication/octet-stream
コンテンツタイプは、これを読み取ることができないシグナルですか?または「これに対処する方法を自分で理解する必要があります」?
unix - .doc & .docx ファイルからプレーンテキストだけを抽出するには?
またはからプレーンテキストのみを抽出するために推奨できることを知っている人はいます.doc
か.docx
?
私はこれを見つけました- 他の提案があったかどうか疑問に思いましたか?
parsing - Web ページからのデータの抽出
Web ページからデータを抽出する必要がある学校のプロジェクトを行っています。正確には、html/text データから人間が読めるコンテンツを抽出するためのライブラリまたはオープンソース プログラムが必要です。テキスト コンテンツをレンダリングする Web ブラウザのようなもの。
HTML を正規表現で解析することは、HTML からテキストを抽出するための最悪の方法であることはわかっています。
追加情報:
テキスト文書間の類似性を計算するために必要です。
どんな助けでも大歓迎です。ありがとう