問題タブ [text-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 列 A から列 B までのすべての文字を 1 行で読み取る方法
10000行のファイルがあり、それらすべてが次の構造を持っている場合、Pythonでそれは可能ですか:
1、2、xvfrt ert5a fsfs4 df f fdfd56、234
または同様に、文字列全体を読み取り、7 列目から 17 列目までのすべての文字 (スペースを含む) を別の文字列に格納すると、新しい文字列は次のようになります。
"xvfrt ert5a" ?
どうもありがとう
regex - 特定の文字で始まらないすべての行を削除するにはどうすればよいですか?
「+」または「-」で始まらないすべての行を削除する正規表現を見つける必要があります。
大きな差分ファイルの紙のコピーを印刷したいのですが、実際の差分の前後に 5 行ほど表示されます。
php - フォルダー内のすべてのファイルの単語数を取得する
フォルダー内のすべてのファイルの単語数を見つける必要があります。
これが私がこれまでに思いついたコードです:
これは単一のファイル内の単語をカウントしますが、特定のフォルダー内のすべてのファイルの単語をカウントするにはどうすればよいですか?
xml - 大きなファイルを2つの別々のファイルにフィルタリングするにはどうすればよいですか?
次のように構成された巨大なファイル(500 MB)があります。
これを新しい形式に変換したいと思います。s1は各s1が改行された新しいファイルに移動し、s2は各s2が独自の行にある新しいファイルに移動します。
Perlはここに行く方法ですか?もしそうなら、誰かが私にこれを達成する方法を教えてもらえますか?
text-processing - 一般的なテキストの読み方
私はいくつかの一般的なテキストを読む必要があるプロジェクトに取り組んでいます...私は一般的なテキストを読むことができ、それを.csvファイルに変換することもできるので、任意のAPIを探しています... Windows OS 上の Java...
- - - - - - - - - - - - - もっと詳しく - - - - - - - - - - - -------------------------------------------------- --------------- 明確にさせてください:
私はpdf文書を持っていると仮定します。Print to Generic text printer オプションを使用して、その形式のファイルを取得する予定です。最後に、この Generic Text Format ファイルをプログラムで読み取れるようにする API を使用する予定です。この汎用テキスト ファイルからテキストを抽出するつもりです。
したがって、どのファイル (.doc/.pdf/.xls など) でも、印刷オプションを使用して Generic Text Format ファイルを作成するつもりです。次に、コードを実行してそれらのファイルを読み取り、いくつかの情報を抽出します。
PS: 標準フィールドを含むステータス レポート フォームがあるとします。Ok。ただし、.pdf で提出する人もいれば、.doc で提出する人も、テキスト形式で提出する人もいます。ただし、すべてのドキュメントには同じフィールドが含まれていますが、おそらくレイアウトが異なります。
今、私は汎用的なソリューションを探しています。これにより、すべてのファイルの種類を汎用のテキスト ファイル形式に変換し、いくつかのロジックを適用してステータス レポート フィールドを抽出することができます。
artificial-intelligence - テキストから概要を抽出できる OSS は?
テキストを要約に圧縮できる OSS はありますか?
私の目標は、章のあらすじを自動的に作成するか、少なくとも 1 つの提案を行うことができる SciFi 小説用のエディターを構築することです。
php - ツリー形式での ZipArchive() の出力
PHPを使用すると、次のファイルのリストが得られます。
zipファイルに入っているということです。
ファイルリストは次のとおりです。
- ドキュメント/
- docs/INSTALL.html
- docs/auth_api.html
- docs/corners_right.gif
- docs/corners_right.png
- docs/COPYING
- docs/corners_left.png
- docs/bg_header.gif
- docs/CHANGELOG.html
- docs/coding-guidelines.html
- docs/hook_system.html
- docs/FAQ.html
- docs/site_logo.gif
- ドキュメント/著者
- docs/README.html
- docs/corners_left.gif
- docs/stylesheet.css
- docs/新しいフォルダー/
- docs/New Folder/New Text Document.txt
- docs/新しいフォルダー/新しいフォルダー/
各ファイル パスからディレクトリ名を切り取り、サブカテゴリにする方法が必要です。
したがって、出力は次のようになります。
不可能ではないことを願っています
ruby - Ruby: テキスト ファイルから行の折り返しを選択的に削除するにはどうすればよいですか?
次のテキストを編集して、すべての行が Dealer: で始まるようにします。これは、折り返し/改行がないことを意味します。System で始まる行については、折り返しで問題ありません。
ruby でのソリューションはどのようなものになるでしょうか? ありがとう
これは .txt ファイルにあります
ディーラー: 残り 5 秒のアクション
ディーラー
: hitman2714 がポットを獲得 (9)
ディーラー: ハンド #1684326626D
ディーラー: Guitou699 のアクションの残り 5 秒 ディーラー: Guit¤u699 のアクション
の残り 5 秒
ディーラー: baj Hasan のアクションの残り 5 秒
ディーラー
: baj Hasan がタイムアウトしました
ディーラー: hitman2714 は残り 5 秒
で行動
します ディーラー: hitman2714 はタイムアウトしました
システム: 毎晩 $10,000 の保証
が 20 分後に開始されます
ディーラー: ディーラー: ハンド #1684326626D
ディーラー: Perspextive が 25 のビッグ
ブラインドをポスト
望ましい出力:
ディーラー: 残り 5 秒のアクション
ディーラー: hitman2714 がポットを獲得 (9)
ディーラー: ハンド #1684326626D
ディーラー: Guitou699 のアクションの残り 5 秒 ディーラー: Guit¤u699 のアクションの残り 5 秒
ディーラー
: baj Hasan のアクションの残り 5 秒
ディーラー: baj Hasan がタイムアウトしました
ディーラー: hitman2714 は残り 5 秒で行動し
ます ディーラー: hitman2714 はタイムアウトしました
システム: 毎晩 $10,000 の保証
が 20 分後に開始されます
ディーラー: ディーラー: ハンド #1684326626D
ディーラー: Perspextive が 25 のビッグブラインドをポスト
algorithm - テキストから重要な文を抽出する
頻度パラメータなどを使ってテキストから重要な文を抽出する効果的な方法を知っていますか?それは「ステミング」(同様の文も検索)も実行できますか?
ソフトウェアの実装もあるのかな?
どうもありがとう
string - 統計のためにユーザーエージェント文字列を自動トークン化しますか?
私たちは、ウェブサイトでユーザー エージェント文字列を追跡しています。それらについて統計を取り、IE6 ユーザーが何人いるか (何を対象に開発する必要があるかがわかります)、またモバイル ユーザーが何人いるかを確認したいと思います。
したがって、次のようなログ全体があります。
そして理想的には、すべての「意味のある」文字列を表示するのは非常にきれいです。これは、特定の長さよりも長い文字列を意味するだけです。たとえばFunWebProducts
、または.NET CLR
、または.NET CLR 1.0.3705
-- が含まれているエントリの数を確認したい場合がありますが、セミコロンが含まれているエントリの数は確認したくありません。したがって、必ずしも一意の文字列を探しているわけではありませんが、すべての文字列、さらにはサブセットも探しています。Mozilla
したがって、これには と のカウントが含まれていることがわかっているので、すべての のカウントを確認したいと思いMozilla/5.0
ますMozilla/4.0
。このためのネストされた表示があり、最短の文字列から開始して下に向かっていくとよいでしょう。おそらく次のようなもの
これはコンピュータ サイエンスの宿題のように思えます。これは何と呼ばれるでしょうか?このようなものはそこに存在しますか、それとも私が独自に作成しますか?