問題タブ [text-manipulation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - テキストファイルでいくつかの単語を大文字にする方法は?
通常の文章を含むテキストファイルがあります。実際、そのファイルを入力している間急いでいたので、文の最初の単語の最初の文字を大文字にしました (英語の文法に従って)。
しかし今は、各単語の最初の文字を大文字にしたほうがよいと思います。何かのようなもの:
この文の各単語は大文字で表記されています
上記の文で注意すべき点は、is ofとisは大文字ではありませんが、実際には3文字以下の単語をエスケープしたいと考えています。
私は何をすべきか?
sed - sed - 一致する行とその後の x 行にコメントを付ける
sed を使用して、一致する行とそれに続く 4 行にコメントを付ける方法について助けが必要です。テキストファイルで。
私のテキストファイルは次のようなものです:
テキスト '[myprocess' を含むすべての行とそれに続く 4 行の前に # を付けたいと思います。
これについてご協力いただきありがとうございます。
mysql - 「The」を含む文字列のテキスト操作
このようなデータを含むMySQLデータベースにテーブルがあります。
先頭の「The」を除いたアルファベット順に表示したい。これが私が思いついたものです。
この解決策は少し不格好に思えますが、もっとエレガントな答えはありますか?
replace - テキスト操作:sedで特定の行を除外する方法
currelty<
すべてのコンテンツのすべてを次のsed
コマンドに置き換えます
しかし今、私は<title>
正確に含む行を除外する必要があります私はとの間のテキストを除外する必要があり<title>
ます</title>
例えば。次の行は私のコマンドと一致しますが、この行は除外する必要があります...
どうすればsedで解決できますか?cygwinでsedを使用しています
string - パーセントエンコードされたURI文字列の漢字をUTF-8の漢字に変換しますか?
わかりました。これを正しく表現しているかどうかはわかりませんが、次の形式のURLが表示されます。
http://zh.wikipedia.org/wiki/%E5%A4%A9%E6%96%87%E5%AD%B8
しかし、私はそれを次のように漢字に変換したいと思います:
http://zh.wikipedia.org/wiki/天文學</p>
それをバッチ処理するのに適した言語は何ですか?変換を行うための既存の関数はありますか、それとも文字列操作に依存する必要がありますか?変換するには、ルックアップテーブルへの何らかの呼び出しが必要なようです。
それらは同じものですが、表示方法が異なります。%#ではなく、読みやすい文字でそれが好きです。
python - Pythonを使用した不明なエンコードされた繁体字中国語の文字列のデコード
こんにちは私は繁体字中国語のウェブサイトを持っています、そして私がサイト統計をチェックするとき、それはウェブサイトの検索用語がå%8f°å%8d%97 親å%90é¤%90廳
明らかに私には意味がないということを教えてくれます。私の質問は、このエンコーディングは何と呼ばれていますか?そして、Pythonを使用してこの文字列をデコードする方法はありますか?ありがとうございました。
vim - VIMを使用して余分な改行を挿入する
連続したテキストのインタビュー記録があります。時々、話している人の名前が書かれています(Aron:、Kalle:、Tomas:など)。コロン(:)(指定した名前)が後に続くすべての名前の前に改行を挿入したいと思います。
これをVIMでスクリプト化して、コマンドを実行したときにテキストファイル全体を調べて、余分な改行を挿入するにはどうすればよいですか?
言い換えれば、私はこれを回したいと思います:
の中へ:
perl - Perlでテキスト文字列が発生する回数をカウントするにはどうすればよいですか?
テキスト文字列の出現回数をカウントしようとしています。
以下の私のPerlコードは、特定の種類のファイルが見つかったときにステートメント(テキスト文字列)を出力し、文字列を出力する回数をカウントする必要があります。
私はperlを学ぼうとしているだけで、プログラマーではありません。ですから、答えを説明してください。
挿入、並べ替え、マージはしたくありません。数えるだけです。
nlp - テキストを特定の長さ、完全な文にトリミングする方法は?
不明なテキストを特定の長さにトリミングするためのソリューションを探しています。完全な文のみを保持します。
だから、このようなテキスト
に変換する必要があります
文字数制限は 50、40 (および --find-next-sentence-ending では 20)。
私は多くのSOの質問を読みました-答えのほとんどはバリエーションでした
しかし、上記の文などでは明らかに失敗します。スタンフォード テキスト パーサーまたは OpenNLP の使用を提案する人もいます。それらは本当にクールですが、通常のアプリケーションでは使用できません。テキストをトリミングするためだけに、Ruby/PHP サーバーに Java をインストールすることはありません。したがって、言語にとらわれず、表示される典型的なケースを処理できる、80/20 のソリューションを探しています。
これよりも問題のある文は考えられませんでした(次の文の先頭に日付、非ドットの文末、非ASCII文字が含まれ、「制限」文の途中に非終了のドットが含まれています)。
また、フォークして遊ぶための GIST (https://gist.github.com/4051035) も作成しました。フォークすると、ユーザーはこの問題のさまざまな解決策にクリックスルーできることが保証されるので、それを使用してください ;)この質問をコミュニティ ウィキにしますが、質問に対しては機能しないようです - 回答に対してのみです。したがって、コメントに提案/関連するSOの質問を追加してください。ありがとう。
regex - テキストファイルの最初のスペースの後の各行のすべての文字を削除するにはどうすればよいですか?
ファイル名を抽出する必要がある大きなログファイルがあります。
ファイルは次のようになります。
次のようなファイル名を抽出する必要があります。
私の最初の戦略は、すべて/path/to/
を''で検索/置換することだと思います。しかし、スペースの後のすべての文字を削除する方法が行き詰まっています。
手伝ってくれますか?