問題タブ [text-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1680 参照

ruby - Ruby 1.9 の Unicode 文字列

File.read()Unicode 文字を含むファイル ( ) を読み取る Ruby スクリプトを作成しましたが、コマンド ラインから正常に動作します。

ただし、Automator ワークフロー (Mac OS X) に入れようとすると、このエラーが発生します。

そのため、Automator から実行すると、split は突然非 ASCII 文字を好まなくなります。私が知る限り、どちらも同じバージョンの Ruby から実行されています (バージョン番号は同じです)。

なぜ彼らが違う振る舞いをしているのかについてはあまり心配していませんが(誰かが知っているなら、それは素晴らしいことです)、分割が非ASCII文字を受け入れるようにする解決策が欲しいです。

それが役立つ場合は、1 文字のテキストを 2 つの部分に分割する必要があるため、C のトークナイザーに似たものが機能する場合は、それを使用できます。

0 投票する
5 に答える
441 参照

text-processing - タームクラスタリングライブラリ?

クラスタリングという用語を使用するオープンソースの無料ライブラリを知っている人はいますか?

ありがとう、ヤニフ

0 投票する
3 に答える
167 参照

python - ロジックに基づいて行を削除する

そのようなデータを含む複数のレコードがあるファイルがあります

F00DY4302B8JRQ ランク=0000030 x=800.0 y=1412.0 長さ=89

ここで、長さ <= 50 が見つかった場合は、この行とファイル内の次の行を削除して別のファイルに書き込む行を検索します。

みんな、ありがとう

0 投票する
6 に答える
13272 参照

php - PHP でテキスト ファイルを分割する

PHPを使用して、大きなテキストファイルを文字数ごとに個別のファイルに分割するにはどうすればよいですか? したがって、10,000 文字ごとに分割された 10,000 文字のファイルは、10 個のファイルに分割されます。また、ピリオドが見つかった後にのみ分割できますか?

ありがとう。

更新 1:私は zombats コードが好きで、いくつかのエラーを削除して次のように思いつきましたが、完全停止後にのみ分割する方法を知っている人はいますか?

更新 2: zombats の提案を受けて、コードを以下のように変更したところ、動作するようです -

0 投票する
6 に答える
243 参照

algorithm - テキストの追加と削除のリストを最適化する

次のように、テキストの追加と削除の位置を含むリストがあります。

より明確にするために、これはこれらの操作が行うことです:

アクションの数は、次のように減らすことができます。

または:

これらのアクションはデータベースに保存され、これを最適化するには、同じ結果を得るために実行するアクションの数を減らすにはどうすればよいですか? O(n*n) より速い方法はありますか?

これらのアクションは時系列であることに注意してください。アクションの順序を変更すると、別の結果が得られます。

0 投票する
18 に答える
449070 参照

linux - 各行の先頭にプレフィックス文字列を追加します

以下のようなファイルがあります。

そして、私は取得したい:

Ruby スクリプトを作成することもできますが、その必要がない方がよいでしょう。

prefixが含まれます//opt/workdir/たとえば、パスです。

0 投票する
7 に答える
1956 参照

linux - sed/awkを使用してテキスト列を賢く変更する

次のような3つの列(タブ区切り)の入力データがあります。

sed / awkを使用して、次のような4列のデータに変更するにはどうすればよいですか。

原則として、元の「mrna」文字列を2つの部分に分割したいと思います。

0 投票する
2 に答える
276 参照

sql - MySQL 切り捨てコマンド - Unicode 文字

現在、MySQL のテーブルに格納されている値を調整しようとしています。格納される値には、一連の Unicode 文字が含まれます。40バイト相当のストレージに切り詰める必要がありますが、試してみると:

MySQL は非常に役に立ち、 40バイトではなく40文字を保持します。これを回避する方法はありますか?

よろしくお願いします。

外王神

0 投票する
5 に答える
9063 参照

shell - コマンド ラインからファイル内のすべての GUID を新しい GUID に置き換える

文字列が多数出現するファイルがありGuid="GUID HERE"(GUID HEREは出現ごとに一意の GUID です)、既存のすべての GUID を新しい一意の GUID に置き換えたいと考えています。

これは Windows 開発マシン上にあるため、一意の GUID を生成できuuidgen.exeます (実行するたびに stdout に GUID を生成します)。私はsed利用可能です(しかし、awk奇妙なことに十分ではありません)。

sed私は基本的に、コマンド ライン プログラムの出力を置換式の置換テキストとして使用できるかどうか (可能であればその方法) を理解しようとしています。部。使用する必要はありません-クレイジーな-fuや他のプログラムsedなど、別の方法があればそれも機能します-しかし、* nixプログラムの最小限のセットを利用するソリューションを好みますvim私は実際には* nixマシンを使用していないためです。

明確にするために、次のようなファイルがある場合:

私はそれがこれになることを望みます:

もちろん、A、B、C、D は実際の G​​UID です。

(たとえば、xargsこれに似たものに使用されているのを見てきましたが、これを実行する必要があるマシンでも利用できません。それが本当に唯一の方法である場合はインストールできますが、私はしたくありません)