問題タブ [text-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
asp.net - クエリ文字列の式を作成したいのですが、これは難しいです。
asp.net の検索アプリケーションのクエリ文字列からいくつかのキーワードを抽出したいと考えています。
最初にURL文字列をデコードしたので、プレーンテキストです
そもそもこれはあるが、キーワードグループを追加したい
私はこれを取得します?q=ハーバーランディングデンタル&
純粋な言葉のために何かを切り取りたいのですが、それが可能かどうかはわかりません
チェックしたいクエリ文字列値フィールドの長いリストもあります
java - 元の内容の pdf ファイルを読む
フォントのような元のコンテンツを含むpdfファイルを読みたい(一部のフォントサイズが小さく、一部のフォントサイズが大きい可能性があります)および段落と表がある場合。
どのようにそれが可能です。
助けてください。
text - 非構造化テキスト ファイルから人口統計情報と連絡先情報を抽出する
非構造化ドキュメントの大規模なプールから特定のアイテムを抽出しようとしています。これらのドキュメントは、ユーザーによってさまざまな方法でフォーマットされた 1 ~ 5 ページのテキストである可能性がありますが、ほとんどの場合、少なくとも次のものが含まれます。
- 名前
- 住所(物理)
- 電子メールアドレス
- 電話番号
- ウェブサイトのURL
ドキュメントからこれらの要素を抽出して、その情報をリレーショナル データベースにロードし、これらのレコードを連絡先として処理できるセマンティック パーサーを探しています。
私が探した他のサービスは、他の目的には価値がありますが、この特定のニーズに対応していません。
考え、提案、または手がかりはありますか?
string - フォーマットされていない文字列からのデータの抽出
特定の部分を抽出して、それを素敵なスプレッドシート形式に入れたいと思っています。重要な部分は、住所、病棟番号、平方フィート、および価格です。私はPHP(初心者)で本当に複雑なことをしようとしていましたが、もっと簡単な方法があるかもしれないと思いました.
データは次のようになります。
javascript - JSでレンダリングされたページからすべてのテキストを取得する方法はありますか?
Javascriptを使用してページ内のすべてのテキストを取得する(ユーザーにとって目立たない)方法はありますか?HTMLを取得したり、解析したり、すべてのタグを削除したりすることはできますが、既にレンダリングされたページからテキストを取得する方法があるかどうか疑問に思っています。
明確にするために、私は選択範囲からテキストを取得したくはありません。ページ全体が必要です。
ありがとうございました!
php - ファイルパス文字列から拡張子の付いたファイル名を抽出します
ファイルパス文字列の末尾からファイル名を取得しようとしています。
ファイル名を取得できるようにしたいのですが、これには、最後のスラッシュ以降のすべてをサブストリングとして取得する必要があると思います。誰かがこれを行う方法を手伝ってくれるのはPHPですか?次のような単純な関数:
python - Pythonを使用してHTMLから読み取り可能なテキストを抽出しますか?
html2text、BeautifulSoupなどのutilsについては知っていますが、問題は、javascriptも抽出してテキストに追加するため、それらを分離するのが難しいことです。
または、
これらは両方とも、ページ上のすべてのJavaScriptも抽出しますが、これは望ましくありません。
ブラウザからコピーできる読みやすいテキストを抽出したかっただけです。
java - Java テキスト抽出とデータ構造設計
Open Office 3.0 ドキュメント形式のテーブルの膨大なデータ セットがあります。
同様に、n個のテーブルがあります。これらのテーブルはすべてファジー集合メンバーシップ関数です。簡単に言えば、入力データを処理する必要がある計算モデルです。行サイズと列が異なるテーブルが多数ありますサイズ 3/4 .これらのデータは、ロードされると変更されません。
例: -20 から 90 の範囲の x の値を取得した場合、最初のルール (上記のルール) を適用します。 0 と 1 の間の対応する値を見つける必要があります。
私の最初の質問は、テーブルからすべてのデータをドキュメント形式で抽出して、Java プログラムで使用できるようにする方法です。私は少し Python を知っており、そのような場合に Python が役立つことを知っています。私のJavaプログラム。
第二に、そのようなシナリオで使用する必要がある最良のデータ構造は何でしょうか。
注:私はデータベースを使用していません。そのため、プログラムに簡単にロードできるように、テーブルをxmlまたはその他の形式で保持したいと思います。また、適切なデータ構造を作成してシリアル化することも考えています。ファイルを解析してデータ構造を再作成する代わりに、必要なときにいつでもそれらをロードできます。コメントを投稿してください。
c# - PDF のネストされたテーブルからデータを抽出する
Word または Excel ファイルから作成された PDF ファイルがいくつかあります。
表にある情報を取得する必要があります。
ドキュメント内のテキストは画像ではないため、pdfbox などのツールを使用してテキストを抽出できます。
テーブルの境界線がどこにあるのかわからないため、テキストがテーブルのどのセルに属しているかを知る方法がありません。
私は abby や solid pdf コンバーターなどのいくつかのデスクトップ ツールを試してみましたが、それらはファイルを素敵な Word ドキュメントに変換できますが、C# でプログラム的にこれを実行できるようにしたいので、これは私のニーズには合いません。
一部のテーブルにはネストされたテーブルがあり、これが少し難しいと思います。
私はあなたの助けに感謝します
c++ - 文字列の最後にあるごみ文字?
こんにちは、私は文字列を読んで、各単語を分割し、名前の電子メールと電話番号に分類しています。文字列を使用しますjoe bloggs joeblog@live.com 12345
。しかし、すべてを分解すると、名前、電子メール、電話番号を保持する個々の分離変数の末尾にゴミ文字が表示されます。理由がわかりません。
テストファイル
これが私のgetname関数です。クラスが大きすぎてスクロールできません:)
つまり、lineProcessという関数を使用して、引数文字列に電子メール、電話、名前が含まれているかどうかを確認します。numberofNames関数は、それに応じて動作できるように、名前の数を示します。
文字列から名前だけをコピーするために使用する必要がありました。char name_temp
これにより、名前だけを抽出して、string
という名前の変数に割り当てることができますglob_name
。それは私が必要とするすべてをコピーします、しかしそれは私にそれぞれの抽出された文字列の後にそのゴミを与えます。
何か案が?。
編集済み