問題タブ [text-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
2683 参照

python - zipファイルで正規表現を照合するためのPythonモジュールはありますか

100万を超えるテキストファイルを40のzipファイルに圧縮しています。私はまた電話の約500のモデル名のリストを持っています。特定のモデルがテキストファイルで言及された回数を知りたいです。

解凍せずにファイルの正規表現一致を実行できるPythonモジュールはありますか?解凍せずにこの問題を解決する簡単な方法はありますか?

0 投票する
7 に答える
3510 参照

java - GoFデザインパターンを使用して高速ワードプロセッサを実際に構築できますか?

Gang of Fourのデザインパターンでは、少なくともいくつかのパターン、特にコンポジットとフライ級の例としてワードプロセッサを使用しています。

CまたはC++を使用する以外に、これらのパターンとそれに伴うオブジェクト指向のオーバーヘッドを実際に使用して、高性能のフル機能のワードプロセッサを作成できますか?

EclipseがJavaで書かれていることは知っていますが、あまり使用していないので、C++ベースのテキスト編集システムを備えたVisualStudioのように高速なのか洗練されているのかわかりません。


例としてC++とJavaのみを使用しました。問題は、ワードプロセッサやゲームなどのアプリケーションのように、メモリ内のオブジェクトを多数持つことのオーバーヘッドと関係があります。

デザインパターンは、パフォーマンスに何らかの打撃を与える可能性がある場合に通常指摘しますが、節約を犠牲にして抽象化を促進します。ワードプロセッサ、特にゲームは、金属にできるだけ近づけることで最大のメリットが得られます。

C ++で書かれていない高速なオブジェクト指向のワードプロセッサやテキストエディタを知っている人がいるかどうか、そしてパターンを使用してそれらを構築するのか、それとも多くの抽象化を放棄するのか、疑問に思っていました。

0 投票する
25 に答える
572265 参照

unix - Unixでテキストファイルから所定の範囲の行を抽出するにはどうすればよいですか?

いくつかのデータベースに相当するデータを含む ~23000 行の SQL ダンプがあります。このファイルの特定のセクション (つまり、1 つのデータベースのデータ) を抽出して、新しいファイルに配置する必要があります。必要なデータの開始行番号と終了行番号の両方を知っています。

ファイルから 16224 行と 16482 行の間のすべての行を抽出し、それらを新しいファイルにリダイレクトする Unix コマンド (または一連のコマンド) を知っている人はいますか?

0 投票する
24 に答える
32408 参照

awk - AWKを学ぶ理由はまだありますか?

私は問題に対して適切な解決策を使用するのが好きなので、昔ながらのツールでさえ、常に新しいツールを学んでいます。

それでも、それらのいくつかを学ぶ理由はまだあるのだろうか。awkたとえば、私にとっては興味深いものですが、単純なテキスト処理の場合は、、、などを使用できますが、grep複雑なテキスト処理の場合はPythonを使用します。cutsed

だからといって、それが強力で便利なツールではないという意味ではありません。しかし、新しいツールを学ぶには時間とエネルギーがかかるので、それだけの価値はありますか?

0 投票する
7 に答える
6588 参照

algorithm - 日本語ソースから英訳単語数を推定するアルゴリズム

私は、日本語からの翻訳が英単語の数になると見積もる方法を考え出そうとしています. 日本語には、漢字ひらがなカタカナの 3 つの主なスクリプトがあり、それぞれの文字と単語の平均比率が異なります (漢字が最も低く、カタカナが最も高い)。

例:

  • computer: コンピュータ (カタカナ - 6 文字); 計算機(漢字:3文字)
  • クジラ: くじら (ひらがな -- 3 文字); 鯨(漢字:1文字)

データとして、私は日本語の単語とその英訳の大規模な用語集と、一致する日本語の原文文書とその英訳のかなり大きなコーパスを持っています。ソーステキストの漢字、ひらがな、カタカナの文字数を数え、これが英単語の数になる可能性を見積もる式を考え出したい.

0 投票する
24 に答える
428112 参照

command-line - How to use sed to replace only the first occurrence in a file?

I would like to update a large number of C++ source files with an extra include directive before any existing #includes. For this sort of task, I normally use a small bash script with sed to re-write the file.

How do I get sed to replace just the first occurrence of a string in a file rather than replacing every occurrence?

If I use

#xA;

it replaces all #includes.

Alternative suggestions to achieve the same thing are also welcome.

0 投票する
3 に答える
6917 参照

unix - 一致が見つかるまでファイル行をスキップし、残りを出力します

これを行うための簡単なスクリプトを作成することはできますが、unix に慣れるための進行中の探求の中で、代わりに組み込みコマンドを使用して効率的な方法を学びたいと考えています。

可変数のヘッダー行を持つ非常に大きなファイルを処理する必要があります。最後のヘッダー行は、テキスト「LastHeaderLine」で構成されます。この行以降をすべて出力したい。(偽陽性の一致については心配していません。)

0 投票する
3 に答える
34689 参照

matlab - テキスト値を ASCII ファイルから matlab 変数に読み込む

次のファイルを検討してください

数値をマトリックスにロードし、列のタイトルを次と同等の変数にロードしたいと思います。

名前と番号を 2 つのファイルに分割してもかまいませんが、matlab コード ファイルを準備してそれらを評価することはオプションではありません。

任意の数の変数 (列) が存在できることに注意してください。

0 投票する
5 に答える
918 参照

text-processing - 重複するURLをカウントし、可能な限り最速の方法

私はまだこの膨大なURLのリストを扱っています、私が受けたすべての助けは素晴らしかったです。

現時点では、次のようなリストがあります(ただし、17000のURL)。

http://www.example.com/page?CONTENT\_ITEM\_ID=1
http://www.example.com/page?CONTENT\_ITEM\_ID=3
http://www.example.com/page? CONTENT \ _ITEM \ _ID = 2
http://www.example.com/page?CONTENT\_ITEM\_ID=1
http://www.example.com/page?CONTENT\_ITEM\_ID=2
http:// www .example.com / page?CONTENT \ _ITEM \ _ID = 3
http://www.example.com/page?CONTENT\_ITEM\_ID=3

いくつかの方法、awkなどで問題なく重複を除外で​​きます。私が本当に探しているのは、重複するURLを取得すると同時に、リストにURLが存在する回数をカウントして印刷することです。パイプ区切り文字のあるURLの横のカウント。リストを処理すると、次のようになります。

url | カウント

http://www.example.com/page?CONTENT\_ITEM\_ID=1 | 2
http://www.example.com/page?CONTENT\_ITEM\_ID=2 | 2
http://www.example.com/page?CONTENT\_ITEM\_ID=3 | 3

これを達成するための最速の方法はどの方法ですか?

0 投票する
3 に答える
585 参照

language-agnostic - テキスト内の単語の自動スペル チェック

[編集] 要するに: どのように自動スペル チェッカーを書きますか? これは、チェッカーが既知の適切な情報源 (辞書) から単語のリストを作成し、十分に頻繁に使用される新しい単語を自動的に追加するというものです。しばらく使われていない言葉は、段階的に廃止されるべきです。そのため、"Mungrohyperofier" を含むシーンの一部を削除すると、チェッカーはしばらくそれを記憶し、別のシーンで "Mung<Ctrl+Space>" と入力すると、再び提供されるはずです。私がその言葉を数日間使わなければ、忘れてしまうはずです。

同時に、辞書にタイプミスを追加することは避けたい.[/EDIT]

SF ストーリー用のテキスト エディターを書きたいと思っています。エディターは、現在のストーリーのどこかで使用されている単語の単語補完を提供する必要があります。編集用にストーリーの 1 つのシーンのみを提供します (そのため、シーンを簡単に移動できます)。

これは、次の 3 つのセットがあることを意味します。

  1. 他のすべてのシーンのすべての単語のセット
  2. 編集を開始する前の現在のシーンの単語のセット
  3. 現在のエディタ内の単語のセット

毎回最初からリストを作成するにはコストがかかりすぎるため、セットをどこかに保存する必要があります。そのためには、1行に1語の単純なプレーンテキストファイルで十分だと思います。

ユーザーがシーンを編集すると、次のような状況になります。

  1. 彼女は単語を削除します。この単語は、現在のシーンの他の場所では使用されていません。
  2. 彼女は新しい単語をタイプする
  3. 彼女はすでに存在する単語を入力します
  4. 彼女はすでに存在する単語を入力するが、タイプミスをする
  5. 彼女はセット #2 にある単語のタイプミスを修正します。
  6. 彼女はセット #1 にある単語のタイプミスを修正します (つまり、タイプミスは他の場所にもあります)。
  7. 彼女は、もう一度使う予定の単語を削除します。ただし、削除後、その単語はセット #1 と #3 にはありません。

明らかな戦略は、シーンを保存するときに単語セットを再構築し、シーンごとの単語リスト ファイルからセット #1 を構築することです。

私の質問は次のとおりです。もはやどこでも使用されていないが、タイプミスを段階的に減らすことができる単語を保持するための巧妙な戦略はありますか? 可能であれば、この戦略は、ユーザーが何が起こっているかに気付かずにバックグラウンドで機能する必要があります (つまり、マウスをつかんでメニューから「単語を辞書に追加」を選択する必要がないようにしたい)。

[編集]悲しみからのコメントに基づく