問題タブ [text-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - Ruby 1.9 の Unicode 文字列
File.read()
Unicode 文字を含むファイル ( ) を読み取る Ruby スクリプトを作成しましたが、コマンド ラインから正常に動作します。
ただし、Automator ワークフロー (Mac OS X) に入れようとすると、このエラーが発生します。
そのため、Automator から実行すると、split は突然非 ASCII 文字を好まなくなります。私が知る限り、どちらも同じバージョンの Ruby から実行されています (バージョン番号は同じです)。
なぜ彼らが違う振る舞いをしているのかについてはあまり心配していませんが(誰かが知っているなら、それは素晴らしいことです)、分割が非ASCII文字を受け入れるようにする解決策が欲しいです。
それが役立つ場合は、1 文字のテキストを 2 つの部分に分割する必要があるため、C のトークナイザーに似たものが機能する場合は、それを使用できます。
text-processing - タームクラスタリングライブラリ?
クラスタリングという用語を使用するオープンソースの無料ライブラリを知っている人はいますか?
ありがとう、ヤニフ
python - ロジックに基づいて行を削除する
そのようなデータを含む複数のレコードがあるファイルがあります
F00DY4302B8JRQ ランク=0000030 x=800.0 y=1412.0 長さ=89
ここで、長さ <= 50 が見つかった場合は、この行とファイル内の次の行を削除して別のファイルに書き込む行を検索します。
みんな、ありがとう
php - PHP でテキスト ファイルを分割する
PHPを使用して、大きなテキストファイルを文字数ごとに個別のファイルに分割するにはどうすればよいですか? したがって、10,000 文字ごとに分割された 10,000 文字のファイルは、10 個のファイルに分割されます。また、ピリオドが見つかった後にのみ分割できますか?
ありがとう。
更新 1:私は zombats コードが好きで、いくつかのエラーを削除して次のように思いつきましたが、完全停止後にのみ分割する方法を知っている人はいますか?
更新 2: zombats の提案を受けて、コードを以下のように変更したところ、動作するようです -
algorithm - テキストの追加と削除のリストを最適化する
次のように、テキストの追加と削除の位置を含むリストがあります。
より明確にするために、これはこれらの操作が行うことです:
アクションの数は、次のように減らすことができます。
または:
これらのアクションはデータベースに保存され、これを最適化するには、同じ結果を得るために実行するアクションの数を減らすにはどうすればよいですか? O(n*n) より速い方法はありますか?
これらのアクションは時系列であることに注意してください。アクションの順序を変更すると、別の結果が得られます。
linux - 各行の先頭にプレフィックス文字列を追加します
以下のようなファイルがあります。
そして、私は取得したい:
Ruby スクリプトを作成することもできますが、その必要がない方がよいでしょう。
prefix
が含まれます/
。/opt/workdir/
たとえば、パスです。
linux - sed/awkを使用してテキスト列を賢く変更する
次のような3つの列(タブ区切り)の入力データがあります。
sed / awkを使用して、次のような4列のデータに変更するにはどうすればよいですか。
原則として、元の「mrna」文字列を2つの部分に分割したいと思います。
sql - MySQL 切り捨てコマンド - Unicode 文字
現在、MySQL のテーブルに格納されている値を調整しようとしています。格納される値には、一連の Unicode 文字が含まれます。40バイト相当のストレージに切り詰める必要がありますが、試してみると:
MySQL は非常に役に立ち、 40バイトではなく40文字を保持します。これを回避する方法はありますか?
よろしくお願いします。
外王神
shell - コマンド ラインからファイル内のすべての GUID を新しい GUID に置き換える
文字列が多数出現するファイルがありGuid="GUID HERE"
(GUID HERE
は出現ごとに一意の GUID です)、既存のすべての GUID を新しい一意の GUID に置き換えたいと考えています。
これは Windows 開発マシン上にあるため、一意の GUID を生成できuuidgen.exe
ます (実行するたびに stdout に GUID を生成します)。私はsed
利用可能です(しかし、awk
奇妙なことに十分ではありません)。
sed
私は基本的に、コマンド ライン プログラムの出力を置換式の置換テキストとして使用できるかどうか (可能であればその方法) を理解しようとしています。部。使用する必要はありません-クレイジーな-fuや他のプログラムsed
など、別の方法があればそれも機能します-しかし、* nixプログラムの最小限のセットを利用するソリューションを好みますvim
私は実際には* nixマシンを使用していないためです。
明確にするために、次のようなファイルがある場合:
私はそれがこれになることを望みます:
もちろん、A、B、C、D は実際の GUID です。
(たとえば、xargs
これに似たものに使用されているのを見てきましたが、これを実行する必要があるマシンでも利用できません。それが本当に唯一の方法である場合はインストールできますが、私はしたくありません)