“text-processing”の関連問題_Stack Overflow日本語サイト

0 投票する

7 に答える

1744 参照

python - 列 A から列 B までのすべての文字を 1 行で読み取る方法

10000行のファイルがあり、それらすべてが次の構造を持っている場合、Pythonでそれは可能ですか:

1、2、xvfrt ert5a fsfs4 df f fdfd56、234

または同様に、文字列全体を読み取り、7 列目から 17 列目までのすべての文字 (スペースを含む) を別の文字列に格納すると、新しい文字列は次のようになります。

"xvfrt ert5a" ?

どうもありがとう

python text-processing

2009-11-10T18:13:41.350

0 投票する

7 に答える

17532 参照

regex - 特定の文字で始まらないすべての行を削除するにはどうすればよいですか?

「+」または「-」で始まらないすべての行を削除する正規表現を見つける必要があります。

大きな差分ファイルの紙のコピーを印刷したいのですが、実際の差分の前後に 5 行ほど表示されます。

2009-11-12T20:47:40.083

0 投票する

4 に答える

1780 参照

php - フォルダー内のすべてのファイルの単語数を取得する

フォルダー内のすべてのファイルの単語数を見つける必要があります。

これが私がこれまでに思いついたコードです：

これは単一のファイル内の単語をカウントしますが、特定のフォルダー内のすべてのファイルの単語をカウントするにはどうすればよいですか?

php file text-processing

2009-11-20T05:00:25.283

0 投票する

8 に答える

477 参照

xml - 大きなファイルを2つの別々のファイルにフィルタリングするにはどうすればよいですか？

次のように構成された巨大なファイル（500 MB）があります。

これを新しい形式に変換したいと思います。s1は各s1が改行された新しいファイルに移動し、s2は各s2が独自の行にある新しいファイルに移動します。

Perlはここに行く方法ですか？もしそうなら、誰かが私にこれを達成する方法を教えてもらえますか？

xml perl search text-processing

2009-11-23T10:15:09.563

0 投票する

4 に答える

702 参照

text-processing - 一般的なテキストの読み方

私はいくつかの一般的なテキストを読む必要があるプロジェクトに取り組んでいます...私は一般的なテキストを読むことができ、それを.csvファイルに変換することもできるので、任意のAPIを探しています... Windows OS 上の Java...

- - - - - - - - - - - - - もっと詳しく - - - - - - - - - - - -------------------------------------------------- --------------- 明確にさせてください:

私はpdf文書を持っていると仮定します。Print to Generic text printer オプションを使用して、その形式のファイルを取得する予定です。最後に、この Generic Text Format ファイルをプログラムで読み取れるようにする API を使用する予定です。この汎用テキストファイルからテキストを抽出するつもりです。

したがって、どのファイル (.doc/.pdf/.xls など) でも、印刷オプションを使用して Generic Text Format ファイルを作成するつもりです。次に、コードを実行してそれらのファイルを読み取り、いくつかの情報を抽出します。

PS: 標準フィールドを含むステータスレポートフォームがあるとします。Ok。ただし、.pdf で提出する人もいれば、.doc で提出する人も、テキスト形式で提出する人もいます。ただし、すべてのドキュメントには同じフィールドが含まれていますが、おそらくレイアウトが異なります。

今、私は汎用的なソリューションを探しています。これにより、すべてのファイルの種類を汎用のテキストファイル形式に変換し、いくつかのロジックを適用してステータスレポートフィールドを抽出することができます。

text-processing

2009-11-27T12:27:36.093

0 投票する

2 に答える

92 参照

artificial-intelligence - テキストから概要を抽出できる OSS は?

テキストを要約に圧縮できる OSS はありますか?

私の目標は、章のあらすじを自動的に作成するか、少なくとも 1 つの提案を行うことができる SciFi 小説用のエディターを構築することです。

artificial-intelligence nlp text-processing

2009-12-09T08:40:30.560

0 投票する

1 に答える

368 参照

php - ツリー形式での ZipArchive() の出力

PHPを使用すると、次のファイルのリストが得られます。

zipファイルに入っているということです。

ファイルリストは次のとおりです。

ドキュメント/
docs/INSTALL.html
docs/auth_api.html
docs/corners_right.gif
docs/corners_right.png
docs/COPYING
docs/corners_left.png
docs/bg_header.gif
docs/CHANGELOG.html
docs/coding-guidelines.html
docs/hook_system.html
docs/FAQ.html
docs/site_logo.gif
ドキュメント/著者
docs/README.html
docs/corners_left.gif
docs/stylesheet.css
docs/新しいフォルダー/
docs/New Folder/New Text Document.txt
docs/新しいフォルダー/新しいフォルダー/

各ファイルパスからディレクトリ名を切り取り、サブカテゴリにする方法が必要です。

したがって、出力は次のようになります。

不可能ではないことを願っています

php tree text-processing

2009-12-09T09:54:08.583

0 投票する

4 に答える

910 参照

ruby - Ruby: テキストファイルから行の折り返しを選択的に削除するにはどうすればよいですか?

次のテキストを編集して、すべての行が Dealer: で始まるようにします。これは、折り返し/改行がないことを意味します。System で始まる行については、折り返しで問題ありません。

ruby でのソリューションはどのようなものになるでしょうか? ありがとう

これは .txt ファイルにあります

ディーラー: 残り 5 秒のアクションディーラー
: hitman2714 がポットを獲得 (9)
ディーラー: ハンド #1684326626D
ディーラー: Guitou699 のアクションの残り 5 秒ディーラー: Guit¤u699 のアクションの残り 5 秒ディーラー: baj Hasan のアクションの残り 5 秒ディーラー : baj Hasan がタイムアウトしましたディーラー: hitman2714 は残り 5 秒で行動しますディーラー: hitman2714 はタイムアウトしましたシステム: 毎晩 $10,000 の保証が 20 分後に開始されますディーラー: ディーラー: ハンド #1684326626D ディーラー: Perspextive が 25 のビッグブラインドをポスト

望ましい出力:

ディーラー: 残り 5 秒のアクション
ディーラー: hitman2714 がポットを獲得 (9)
ディーラー: ハンド #1684326626D
ディーラー: Guitou699 のアクションの残り 5 秒ディーラー: Guit¤u699 のアクションの残り 5 秒
ディーラー
: baj Hasan のアクションの残り 5 秒
ディーラー: baj Hasan がタイムアウトしました
ディーラー: hitman2714 は残り 5 秒で行動し
ますディーラー: hitman2714 はタイムアウトしました
システム: 毎晩 $10,000 の保証
が 20 分後に開始されます
ディーラー: ディーラー: ハンド #1684326626D
ディーラー: Perspextive が 25 のビッグブラインドをポスト

ruby text-processing

2009-12-16T10:57:31.747

0 投票する

2 に答える

1911 参照

algorithm - テキストから重要な文を抽出する

頻度パラメータなどを使ってテキストから重要な文を抽出する効果的な方法を知っていますか？それは「ステミング」（同様の文も検索）も実行できますか？

ソフトウェアの実装もあるのかな？

どうもありがとう

algorithm text-processing text-parsing stemming

2009-12-20T18:13:55.433

0 投票する

3 に答える

335 参照

string - 統計のためにユーザーエージェント文字列を自動トークン化しますか?

私たちは、ウェブサイトでユーザーエージェント文字列を追跡しています。それらについて統計を取り、IE6 ユーザーが何人いるか (何を対象に開発する必要があるかがわかります)、またモバイルユーザーが何人いるかを確認したいと思います。

したがって、次のようなログ全体があります。

そして理想的には、すべての「意味のある」文字列を表示するのは非常にきれいです。これは、特定の長さよりも長い文字列を意味するだけです。たとえばFunWebProducts、または.NET CLR、または.NET CLR 1.0.3705-- が含まれているエントリの数を確認したい場合がありますが、セミコロンが含まれているエントリの数は確認したくありません。したがって、必ずしも一意の文字列を探しているわけではありませんが、すべての文字列、さらにはサブセットも探しています。Mozillaしたがって、これにはとのカウントが含まれていることがわかっているので、すべてののカウントを確認したいと思いMozilla/5.0ますMozilla/4.0。このためのネストされた表示があり、最短の文字列から開始して下に向かっていくとよいでしょう。おそらく次のようなもの

これはコンピュータサイエンスの宿題のように思えます。これは何と呼ばれるでしょうか？このようなものはそこに存在しますか、それとも私が独自に作成しますか?

string substring user-agent tokenize text-processing

2009-12-22T18:24:00.537

問題タブ [text-processing]

Reference