問題タブ [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
393 参照

sql - SQLクエリから情報を抽出するための正規表現

私はREGEXが初めてなので、以下のことを解決できません。

そして、私がそれを学ぶことができるように、いくつかのパーサー関連のリンクを共有してください。

SQL ステートメントの下の int を解決する際に問題に直面しています。前の INPUT にさらに行が追加されました。

これを解決するのを手伝ってください。

出力:

0 投票する
15 に答える
283008 参照

pdf - PDFからテキストを抽出する方法は?

PDFからテキストと画像を抽出するためのライブラリ/APIを推奨できる人はいますか?ドキュメントの既知の領域に含まれているテキストを取得できる必要があるため、APIはページ上の各要素の位置情報を提供する必要があります。

xmlそのデータをまたはjsonフォーマットで出力したいと思います。現在、かなり良いように見えるPdfTextStreamを調べていますが、他の人々の経験や提案を聞きたいと思います。

プログラムでPDFからテキストを抽出するための代替手段(商用または無料)はありますか?

0 投票する
2 に答える
4513 参照

java - PDFからのテキストの抽出: PDFLib vs PDF抽出 vs pdf2xml

PDF からテキストを抽出するためのライブラリ (可能であれば Java または PHP で利用可能) を探しています。次のような多くのソフトウェアが利用可能です。

どのツールを選択しますか? それらについてどう思いますか?

ご親切にありがとうございました。

0 投票する
3 に答える
374 参照

c# - =の後にリンクを抽出するc#正規表現

より良いタイトルが見つかりませんでしたが、以下のサンプルからリンクを抽出するには正規表現が必要です。

正規表現が最良の方法であると仮定します。

ありがとう

0 投票する
6 に答える
34044 参照

java - iTextを使用してPDFファイルからテキストの列を抽出します

iTextを使用してPDFファイルからテキストを抽出する必要があります。

問題は次のとおりです。一部のPDFファイルには2つの列が含まれており、テキストを抽出すると、結果として列がマージされたテキストファイルが表示されます(つまり、同じ行の両方の列からのテキスト)

これはコードです:

仕事を手伝ってくれませんか。

0 投票する
4 に答える
204 参照

python - カテゴリの下の行を抽出し、別のカテゴリに達すると停止します

映画のジャンルのテキスト ファイルがあり、各ジャンルのお気に入りの映画が含まれているとします。

【カテゴリ】ホラー:

  1. 映画
  2. 映画
  3. 映画

【カテゴリ】コメディ:

  1. 映画

[カテゴリ] アクション:

  1. 映画
  2. 映画

特定の [カテゴリ] * の下にあるすべての映画のタイトルを抽出してパッケージ化し、別のカテゴリに影響を与えずに配列にパッケージ化する関数を作成するにはどうすればよいでしょうか?

0 投票する
1 に答える
763 参照

php - DBpedia 情報抽出フレームワーク

ウィキペディアのデータ抽出を使用したことがある人はいますか? 仕事で使う必要があります。

Web ページから情報を抽出するための他のツールを教えてください。

ありがとう!

0 投票する
1 に答える
1233 参照

c# - テキストと画像を含む PDF ファイルの解析中に「予期しない色空間 /R11」が発生する

System.ArgumentException はユーザー コードによって処理されませんでした Message=Unexpected color space /R11 Source=itextsharp StackTrace: iTextSharp.text.pdf.parser.InlineImageUtils.ComputeBytesPerRow(PdfDictionary imageDictionary) iTextSharp.text.pdf.parser.InlineImageUtils.ParseUnfilteredSamples(PdfDictionary imageDictionary, PdfContentParser ps) iTextSharp.text.pdf.parser.InlineImageUtils.ParseInlineImageSamples(PdfDictionary imageDictionary, PdfContentParser ps) at iTextSharp.text.pdf.parser.InlineImageUtils .ParseInlineImage(PdfContentParser ps) の iTextSharp.text.pdf.parser.PdfContentStreamProcessor.ProcessContent(Byte[] contentBytes、PdfDictionary リソース) の iTextSharp.text.pdf.parser。PdfReaderContentParser.ProcessContent[E](Int32 pageNumber、E renderListener) iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage (PdfReader リーダー、Int32 pageNumber、ITextExtractionStrategy 戦略) で iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(PdfReader リーダー) d:\QC\Backup\NRK\Current\QConform nrk - 2010\PDF\PdfToText.aspx.cs:line 29 at PDF_PdfToText.Page_Load(Object sender, EventArgs e) in d:\QC\Backup\NRK\Current\QConform nrk - 2010\PDF\PdfToText.aspx.cs:System.Web.Util.CalliHelper.EventArgFunctionCaller(IntPtr fp, Object o, Object t, EventArgs e) System.Web.Util.CalliEventHandlerDelegateProxy.Callback (オブジェクト送信者、EventArgs e) で System.Web.UI.Control。System.Web.UI.Page.ProcessRequestMain の System.Web.UI.Control.LoadRecursive() での OnLoad(EventArgs e) (ブール値の includeStagesBeforeAsyncPoint、ブール値の includeStagesAfterAsyncPoint) InnerException:

0 投票する
4 に答える
4962 参照

c# - TDを使用してTRのみを抽出するための正規表現

おはようございます

1つ以上のテーブルセル(TD)が必要なテーブル行(TR)を取得しようとしています。

この文字列を持っている

取得したい:

ネストされたTDを持つ1つ以上のTRを抽出するための最良のパターンは何でしょうか?

0 投票する
3 に答える
188 参照

html - HTML を削除するが、ブロック/インライン構造を保持する

HTML をプレーン テキストに変換したいが、最小限の構造を保持したい。

  • <script> や <style> など、ブラウザーのみが表示する必要があるものを含むすべてのセクションを完全に削除します。
  • すべてのブロック タグを <div> に変換し、すべてのインライン タグを <span> に変換する、空白を残さずにインラインを完全に削除し、ブロック レベルで区切られたものを 2 つの改行のある段落に変換します。

このアイデアは、ランダムな Web ページを自然言語テキスト処理に適したものに変えることであり、単純にマークアップを削除したり、単語を人為的に分割したり、無関係なブロックを文のように見せたりすることでアーティファクトが残ることはありません。

任意のプログラミング言語の任意のバイナリ、ライブラリ、またはソースで問題ありません。

ブロック、インライン、および上記の <script> と <style> のような要素の完全なリストを備えた、できれば機械で読み取り可能な標準ソースはありますか?