問題タブ [text-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
1284 参照

ruby - ありふれたテキスト処理/開発のためのSedまたはRuby-生産性ツールの作成

Sedを学びたいです。私がそれを十分に活用できるように、良い参考文献を教えてください。

私はそれを学び、do-once-then-forgetタイプの管理ツールや開発ツールのようなタスクをもっと実行することを望んでいます。したがって、このタイプのコードを作成するときは、パフォーマンス、モジュール性、オブジェクト指向性などはあまり気にしません。Sedを学ぶのは良い考えだと思いますか?それとも私はRubyを学ぶべきですか?私の主な関心事はスクリプトの簡潔さですが、それを完全に曖昧に見えるコードにするほどではありません。

ありがとうAjay

0 投票する
1 に答える
143 参照

c# - What is the best way to select a text portion to cut based on keywords?

When you search something in Stackoverflow it cuts the portion of the question description that best matches your criteria and after that it marks the criteria words.

I wonder the best way to do this manually in C#, meaning without the help of a full-text search engine.

The main problem is how to select the best text portion in a fast way?

What I did so far is:

  1. I obtain the space indexes of the text. This allows me to know where the words begin so that I can start my substring tests from them.
  2. From each of the space indexes, I get 300 characters ahead and test how many occurrences of the keywords I find.
  3. I assume that the 300 characters long portion that has the most occurrences is the best so I cut it from the original text.

Is this a good approach? Is there a faster way? Is counting the number of occurrences the best way to find the most relevant portion?

0 投票する
1 に答える
344 参照

text-processing - 分散チェックサムはどのように機能しますか?

Vipul のカミソリ、Pyzor、DCC などの分散チェックサム アプリケーションがどのように機能するかについての情報を探しています。プログラムでこのような分散チェックサム機能を使用できるという同様の要件があります。

そのため、分散チェックサムの背後にあるアルゴリズムを説明するドキュメントを探しています。

よろしく、

ラジ

0 投票する
5 に答える
711 参照

python - 非フラット ファイルからのテキストの処理 (あたかもフラット ファイルであるかのように情報を抽出するため)

次の表で表すことができるコンピューター シミュレーションによって生成された経時的なデータ セットがあります (「var」は変数です)。

ただし、生成されたファイルは、次のような形式でデータ ファイルを書き込みます。

(python) スクリプトを使用してこの出力データをフラット テキスト ファイルに処理し、R、python、SQL、または awk/grep にインポートして情報を抽出できるようにしました。単一のクエリ (データがテーブルに変換された後の SQL 表記) を以下に示します。

これらのデータ ファイルはそれぞれ最大 100 MB になる可能性があり (私は何百ものファイルを持っています)、フラット テキスト ファイルの作成には時間がかかり、冗長な情報で追加のハード ドライブ領域を占有するため、より効率的なソリューションがあるのではないかと考えています。理想的には、余分なフラット テキスト ファイルを作成せずに、元のデータ セットを直接操作して、必要な情報を抽出することです...そのようなタスクのためのより簡単な awk/perl ソリューションはありますか? 私は Python でのテキスト処理にはかなり精通していますが、awk のスキルは初歩的で、perl の実用的な知識はありません。これらまたは他のドメイン固有のツールがより良いソリューションを提供できるかどうか疑問に思います。

ありがとう!

追記: うわー、みんなありがとう!みんなの答えを選べなくてごめんなさい @FM: ありがとう。私の Python スクリプトは、フィルター処理のステップを除いたコードに似ています。しかし、あなたの組織はクリーンです。@PP: 私はすでに grep に習熟していると思っていましたが、明らかにそうではありません! これは非常に役に立ちます...しかし、「時間」を出力に混在させると、greppingが難しくなると思います(私の例では、可能な抽出シナリオとして含めることができませんでした!それは私の悪いことです)。@ Ghostdog74: これは素晴らしいことです...しかし、「subjectA」を取得するために行を変更するのは簡単ではありませんでした. @weismat: よく言われます。@S.Lott:これは非常にエレガントで柔軟です-私はpython(ic)ソリューションを求めていませんでしたが、これは解析、フィルター、

繰り返しますが、私は皆さんに感謝しています - どうもありがとう。

0 投票する
5 に答える
12182 参照

scripting - 別の列の値に基づいて列の値を合計するにはどうすればよいですか?

次のテキストファイルがあります。

個々の値を合計して結果として表示する出力が必要です。たとえば、ファイル内のすべての ABC 値の合計は (50 + 30 = 80) であり、DEF は (100 + 70 = 170) です。したがって、出力はすべての一意の最初の列名を次のように合計する必要があります-

どんな助けでも大歓迎です。

ありがとう

0 投票する
6 に答える
2121 参照

python - csv ファイルまたは Python を編集するための Sed スクリプト

私たちのプロジェクトでは、csv ファイルを postgres にインポートする必要があります。複数の種類のファイルがあり、列数が少ないファイルもあれば、列がすべて含まれているファイルもあるため、ファイルの長さが変わります。

このファイルを postgres にすばやくインポートする方法が必要です。処理の速度要件が非常に高いため、postgres の COPY FROM を使用したいと考えています (それぞれ 20K ファイル サイズで毎分約 150 ファイル)。

ファイルの列番号は固定されていないため、postgres プロシージャに渡す前にファイルを前処理する必要があります。前処理は、ファイルにない列の csv にカンマを追加するだけです。

ファイルを前処理するには、python を使用するか、Sed を使用するかの 2 つのオプションがあります。

私の最初の質問は、ファイルを前処理する最速の方法は何ですか?

2番目の質問は、sedを使用する場合、4番目、5番目のコンマフィールドの後にどのようにコンマを挿入しますか?
たとえば、ファイルに 1,23,56,we,89,2009-12-06 のようなエントリがあり、次のような最終出力でファイルを編集する必要がある場合: 1,23,56,we,,89,,2009-12-06

0 投票する
9 に答える
109778 参照

python - Pythonの助けを借りてファイル内のすべての空白行を削除するにはどうすればよいですか?

たとえば、次のようなファイルがあります。

その結果、次のことを取得する必要があります。

Pythonのみを使用してください

0 投票する
2 に答える
291 参照

sed - sed: ある場所のキャラクターをトッパーする

これ

これを変換します

これに

、などに変更Algorithmしたい。2 番目のセグメント ( ) の最初の文字を小文字に変換するにはどうすればよいですか?algorithmPublicKeypublicKey\2

アップデート

sed "s/public \(.*\) get\([A-Z]\)\(.*\)()/\1 \2\3/g"「私の手紙」を として選択します\2が、その前に a を置く\Lと変形しすぎます ( を含む\3)

0 投票する
3 に答える
1065 参照

perl - bash: テキスト ファイルから連続する行を除外します

多くのファイルから段落の各インスタンスを削除したい。私は段落を一連の行と呼びます。

例えば:

問題は、それらがグループとして表示されたときにのみ削除したいということです。たとえば、

独で表示されます 削除したくありません。

0 投票する
5 に答える
4654 参照

unix - Unix のログ パーサー/アナライザー

ログ ファイルを解析/分析するために Unix でよく使われているツールは何ですか? 数えたり、ユニークなものを見つけたり、特定のパターンを持つ特定の行を選択/コピーしたりします。いくつかのツールまたはキーワードを教えてください。以前にも同様の質問があったに違いないと思いますが、キーワードについてはわかりません。ありがとう。