問題タブ [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
525 参照

java - 画像内のテキストから単語の画像を作成する

画像内のテキストを分割して単語ごとに小さな画像を作成できるライブラリ(Javaが望ましいですが、私は何でも調べます)を知っている人はいますか?私はGOCRtesseractをテストしましたが、テキストを書き写すつもりはありません。手書きのメモや機能が不十分なタイプライターなど、多くの場合、テキストは人間が書き写す必要があります。ほとんどのテキストがスペイン語であるという事実も、OCRをより困難にします。stackoverflowアーカイブを検索しましたが、何も見つかりませんでした。私の質問の目的は、大学に何十万もの本当に古い手書きのメモがあることです。それらを単語ごとに小さな画像に分割できれば、それらを転写して翻訳してみることができます。

0 投票する
4 に答える
1691 参照

python - Python を使用して x 行ごとにファイルのチャンクを処理する

私がここでやろうとしているのは、ファイルDATA.txtから行間隔yごとにz行を読み取り、その行のチャックで関数findを実行することです。つまり、最初のy行をスキップしたい。次のz行を読み込みます。読み込んだ行で関数findを実行します。次のy行をスキップします。ファイルの長さだけ繰り返します ( sys.argv[1]に渡されます)。

私がここに持っているものは、可変の空白行の負荷を与えてくれますが、その理由はわかりません. 必要に応じて関数findを提供できますが、この方法の方が簡単だと思います。

誰かがまったく異なる方法を提案したい場合は、何が起こっているのかを理解している限り、既存のコードを修正するのと同じくらい幸せです.

編集:いくつかの括弧がありませんでしたが、それらを追加しても問題は解決しませんでした。

0 投票する
2 に答える
64 参照

iphone - NSStrings-基本用語の抽出

私は2つのNSStringを持っていますが、用語抽出の基本的な形式として、両方に共通する単語を見つけたいと思います...

これについてどうやって行くのかアイデアはありますか?

ロイ

0 投票する
2 に答える
82 参照

python - 式の抽出

式があり、Python2.6で抽出したいと思います。次に例を示します。

これは次のようになります。

リストが必要です。手を貸してください。ありがとう。

0 投票する
2 に答える
1821 参照

indexing - 検索インデックス用に InDesign (.indd) ファイルを解析する

どなたか、次のことを手伝っていただけませんか。

InDesign ドキュメントが大量にあるので、それらをテキストごとに検索できるようにする必要があります。これらのファイルを開いて PDF を作成し、検索するリソースがありません。つまり、テキスト コンテキストを抽出してインデックスを作成するか、ファイル自体に直接インデックスを作成できるようにしたいと考えています。

最後に、さらに処理するために、コンテンツまたはインデックスを SOLR エンジンに提示します。これはすべて、php/apache/mysql 環境で行う必要があります。

あなたの洞察は非常に高く評価されています。

0 投票する
1 に答える
4091 参照

c# - 特定の文字列で始まる行のみをテキストファイルから読み取り、TextBox形式で表示します。(C#)

.txtファイルから特定の情報を読み取り、c#フォームアプリケーションのa内の特定の行を表示しTextBoxたい思います。ファイルテンプレートは次の.txtようになります。

info1:ここにいくつかの文字...

info2:ここにいくつかの文字...

info3:いくつかの文字

追加情報:info3と同様の行数は固定されていません。

必要な機能はTextBox、最初の列に対応する番号のグループ(001など)を挿入し、別のテキストボックスにファイルのヘッダー情報、列のタイトル、その後にのみを表示することです。導入された番号で始まる行(他を除く)。そのための良い解決策はどのようになりますか?
ありがとう。

0 投票する
3 に答える
1180 参照

vim - Vimの「<」と「>」の間の文字を除くすべてを削除します-Gmailの「宛先」フィールドからメールアドレスを抽出します

メールアドレスのカンマ区切りのリストがあり、実際の各アドレスの前に連絡先の名前(Gmailから)が付いています。次に例を示します。

に変換します:

背景情報:連絡先のリストをwebex招待状に貼り付けようとしています。これは、電子メールアドレスのみを受け入れることができます。

Vimでの正規表現の一致を除くすべてを削除しますが、この場合、すべてのメールアドレスが1行になります。

0 投票する
1 に答える
589 参照

javascript - Web ページからフィードを抽出する

このページに関連付けられているすべてのフィード (RSS、atom など) を抽出するコード スニペット (ここでは言語は重要ではありません) を探しています。

したがってURL、入力は出力list of channelsです。

重要なのは完全性です。つまり、ページに何らかの情報チャネルが関連付けられている場合は、ページが見つかるはずです。

私はできれば、HTML コードで何を見つけるべきか、完全性をカバーするためにどこを見つけるべきかを尋ねています。

ありがとうございました

0 投票する
2 に答える
169 参照

java - 文字列からのエンティティの抽出と削除

私がやりたいのは、特定の文字列から部分文字列を抽出することです。

例えば

のような余分な単語を削除したい

すべての「余分な文字列」を含むハッシュテーブルがある場合

特定の文字列から余分な文字列を削除する最良の方法は何ですか?

最初は正規表現を使用しましたが、役に立ちませんでした。また、アーティスト名(ehonest)にいくつかのエンティティ抽出を使用しましたが、アーティスト専用です

問題は、曲に余分な文字列が含まれている場合、含まれている余分な文字列も削除されることです。

みんなお願いします、何か助けや提案はありますか?

ありがとう

0 投票する
2 に答える
3350 参照

csv - 複数のテキスト ファイルから特定の行のデータを抽出して、単一の csv ファイルに変換する

まず、私のコーディング能力の低さをお詫びします。ただし、フォーラムを読んでクラックを与えるのに数時間を費やしたので、次の問題について何か助けていただければ幸いです。

3 つのテキスト ファイルがあり、そこからファイル名、データの 3 行目、5 行目、7 行目を取得し、次のように 1 つの CSV にポップします。

シンプル、え?そうではありません。コーディングの「スキル」が不足しているため、あなたの助けが必要です。これが私がこれまでに持っているものです:

最初のバッチ ファイル (go.bat):

次に手動コマンド ライン エントリ:

ご覧のとおり、1 行のテキストに対してこれを実行しましたが、出力の最後に 3 行目と 5 行目を追加する方法がわかりません。また、ディレクトリ内のすべてのテキスト ファイルに対してこれを実行できるように、適切なコマンド ライン エントリが必要です。私は次のことを試しましたが、何かが欠けているようです:

体の助けはありますか?

どうもありがとう!ジェームズ