問題タブ [text-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - SQLクエリから情報を抽出するための正規表現
私はREGEXが初めてなので、以下のことを解決できません。
そして、私がそれを学ぶことができるように、いくつかのパーサー関連のリンクを共有してください。
SQL ステートメントの下の int を解決する際に問題に直面しています。前の INPUT にさらに行が追加されました。
これを解決するのを手伝ってください。
出力:
pdf - PDFからテキストを抽出する方法は?
PDFからテキストと画像を抽出するためのライブラリ/APIを推奨できる人はいますか?ドキュメントの既知の領域に含まれているテキストを取得できる必要があるため、APIはページ上の各要素の位置情報を提供する必要があります。
xml
そのデータをまたはjson
フォーマットで出力したいと思います。現在、かなり良いように見えるPdfTextStreamを調べていますが、他の人々の経験や提案を聞きたいと思います。
プログラムでPDFからテキストを抽出するための代替手段(商用または無料)はありますか?
java - PDFからのテキストの抽出: PDFLib vs PDF抽出 vs pdf2xml
PDF からテキストを抽出するためのライブラリ (可能であれば Java または PHP で利用可能) を探しています。次のような多くのソフトウェアが利用可能です。
3-Heights™ PDF 抽出http://www.pdf-tools.com/pdf/pdf-extract-content-metadata-text.aspx
PDFlib TET – テキスト抽出ツールキットhttp://www.pdflib.com/products/tet/
どのツールを選択しますか? それらについてどう思いますか?
ご親切にありがとうございました。
c# - =の後にリンクを抽出するc#正規表現
より良いタイトルが見つかりませんでしたが、以下のサンプルからリンクを抽出するには正規表現が必要です。
正規表現が最良の方法であると仮定します。
ありがとう
java - iTextを使用してPDFファイルからテキストの列を抽出します
iTextを使用してPDFファイルからテキストを抽出する必要があります。
問題は次のとおりです。一部のPDFファイルには2つの列が含まれており、テキストを抽出すると、結果として列がマージされたテキストファイルが表示されます(つまり、同じ行の両方の列からのテキスト)
これはコードです:
仕事を手伝ってくれませんか。
python - カテゴリの下の行を抽出し、別のカテゴリに達すると停止します
映画のジャンルのテキスト ファイルがあり、各ジャンルのお気に入りの映画が含まれているとします。
【カテゴリ】ホラー:
- 映画
- 映画
- 映画
【カテゴリ】コメディ:
- 映画
[カテゴリ] アクション:
- 映画
- 映画
特定の [カテゴリ] * の下にあるすべての映画のタイトルを抽出してパッケージ化し、別のカテゴリに影響を与えずに配列にパッケージ化する関数を作成するにはどうすればよいでしょうか?
php - DBpedia 情報抽出フレームワーク
ウィキペディアのデータ抽出を使用したことがある人はいますか? 仕事で使う必要があります。
Web ページから情報を抽出するための他のツールを教えてください。
ありがとう!
c# - テキストと画像を含む PDF ファイルの解析中に「予期しない色空間 /R11」が発生する
System.ArgumentException はユーザー コードによって処理されませんでした Message=Unexpected color space /R11 Source=itextsharp StackTrace: iTextSharp.text.pdf.parser.InlineImageUtils.ComputeBytesPerRow(PdfDictionary imageDictionary) iTextSharp.text.pdf.parser.InlineImageUtils.ParseUnfilteredSamples(PdfDictionary imageDictionary, PdfContentParser ps) iTextSharp.text.pdf.parser.InlineImageUtils.ParseInlineImageSamples(PdfDictionary imageDictionary, PdfContentParser ps) at iTextSharp.text.pdf.parser.InlineImageUtils .ParseInlineImage(PdfContentParser ps) の iTextSharp.text.pdf.parser.PdfContentStreamProcessor.ProcessContent(Byte[] contentBytes、PdfDictionary リソース) の iTextSharp.text.pdf.parser。PdfReaderContentParser.ProcessContent[E](Int32 pageNumber、E renderListener) iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage (PdfReader リーダー、Int32 pageNumber、ITextExtractionStrategy 戦略) で iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(PdfReader リーダー) d:\QC\Backup\NRK\Current\QConform nrk - 2010\PDF\PdfToText.aspx.cs:line 29 at PDF_PdfToText.Page_Load(Object sender, EventArgs e) in d:\QC\Backup\NRK\Current\QConform nrk - 2010\PDF\PdfToText.aspx.cs:System.Web.Util.CalliHelper.EventArgFunctionCaller(IntPtr fp, Object o, Object t, EventArgs e) System.Web.Util.CalliEventHandlerDelegateProxy.Callback (オブジェクト送信者、EventArgs e) で System.Web.UI.Control。System.Web.UI.Page.ProcessRequestMain の System.Web.UI.Control.LoadRecursive() での OnLoad(EventArgs e) (ブール値の includeStagesBeforeAsyncPoint、ブール値の includeStagesAfterAsyncPoint) InnerException:
c# - TDを使用してTRのみを抽出するための正規表現
おはようございます
1つ以上のテーブルセル(TD)が必要なテーブル行(TR)を取得しようとしています。
この文字列を持っている
取得したい:
ネストされたTDを持つ1つ以上のTRを抽出するための最良のパターンは何でしょうか?
html - HTML を削除するが、ブロック/インライン構造を保持する
HTML をプレーン テキストに変換したいが、最小限の構造を保持したい。
- <script> や <style> など、ブラウザーのみが表示する必要があるものを含むすべてのセクションを完全に削除します。
- すべてのブロック タグを <div> に変換し、すべてのインライン タグを <span> に変換するか、空白を残さずにインラインを完全に削除し、ブロック レベルで区切られたものを 2 つの改行のある段落に変換します。
このアイデアは、ランダムな Web ページを自然言語テキスト処理に適したものに変えることであり、単純にマークアップを削除したり、単語を人為的に分割したり、無関係なブロックを文のように見せたりすることでアーティファクトが残ることはありません。
任意のプログラミング言語の任意のバイナリ、ライブラリ、またはソースで問題ありません。
ブロック、インライン、および上記の <script> と <style> のような要素の完全なリストを備えた、できれば機械で読み取り可能な標準ソースはありますか?