問題タブ [punctuation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 句読点を含めながら句読点の後に文字列を分割する
正規表現を使用して、単語の文字列を単語のリストに分割しようとしています。私はまだ正規表現の初心者です。
私はnltk.regex_tokenizeを使用しています。これは、近い結果をもたらしますが、私が望むものとはまったく異なります。
これは私がこれまでに持っているものです:
次のような出力が必要です。
「絵文字」の回避策があるので、私が最も懸念しているのは引用符です。
r - R のアポストロフィを除くすべての句読点を削除します
R の gsub を使用して、アポストロフィを除くすべての句読点をテキストから削除したいと思います。私は正規表現にかなり慣れていませんが、学んでいます。
例:
現在の出力 (don't にアポストロフィなし)
希望する出力 (アポストロフィーはそのままにしておきたい)
c - Cでsscanfを使用して空白を含む文字列を読み取るときに句読点がエラーを引き起こす
更新:文字列をで適切に初期化char string[sizeof buffer - 1]
することでクラッシュの問題は解決しましたが、複数の句読点があることがそれと何の関係があるのかについてはまだ興味があります!
「テキスト」の形式でファイルから文字列を読み取ろうとしています。sscanf
これまでのところ、パターンでの使用\"%[^\"]\"
は完璧に機能しましたが、文字列に句読点を追加し始めるとすぐに、プログラムがクラッシュし始めました。
エラーは、句読点が何であるか、またはマークの位置に関係なく、複数の句読点が使用されている場合にのみ発生するようです。また、ファイル内の句読点のある行の位置に関係なく発生します(つまり、最後の行に句読点がない場合でも、エラーが発生します)。
とにかく、以下は私がこれまでに持っているコードです:
以下は私が試したいくつかのデータです。「失敗」とマークされている場合、プログラムはコンパイルされ、すべてが実行され、終了する直前にクラッシュします。
%d \"%[^\"]\" \"%[^\"]\"
この問題が解決され、このエラーが発生する前にパターンを使用してデータを正常に読み取っていた場合は、より複雑なパターンを使用する予定です。回答をよろしくお願いします。
zend-framework - Zend_Translate を使用して句読点を処理する
現在、私が取り組んでいるプロジェクトに Zend_Translate を適用しようとしています。通常のテキストは問題なく機能しますが、フォームの翻訳で問題が発生しました。
変換アダプターは、Zend_Translate をキーとして使用して、Zend_Registry に登録されます。これは、フォームを表示する前に翻訳を行う必要がある場合を除いて、ほとんどの場合うまく機能します。
コード例:
対応する翻訳元ファイルで「Bedrijfsgegevens」が翻訳されているとすると、上の行は「Bedrijfsgegevens:」として出力され、下の行は「ビジネス情報」が出力されます。
私の知る限り、これを解決するには3つの方法があります。これは、格納されている Zend_Translate_Adapter をコロンで連結する前に呼び出すことで解決できますが、不要なコードが大量に発生します。もう 1 つのオプションは、翻訳ファイルに句読点を組み込むことですが、これは、句読点の種類ごとに翻訳が必要であることを意味します。3 番目のオプションは、単に凡例からコロンを削除することですが、それは私が探しているものではありません。
私の質問: Zend_Translate に句読点を無視するように指示する方法はありますか?
python - Python 正規表現句読点認識
私はこれに困惑しています。私は正規表現を学んでいるだけで、句読点が返されない理由がわかりません。
以下は、正規表現が解析しているテキスト ファイルの一部です。
APRIL/NNPは/VBZは/DT残酷/JJ月/NN、/、繁殖/VBG Lilacs/NNPアウト/RBの/INは/DTデッド/JJランド/NN
角かっこで「\、」を使用すると「、」を返すことができると思いましたが、機能していません。
どんな助けでも大歓迎です。
parsing - すべての国際的な終止符の句読点の文字コレクションはありますか?
utf-8文字列を「一口サイズ」のセグメントに解析しようとしています。たとえば、テキストを「文」に分解したいと思います。
すべての言語の文の終わりに対応する文字(または正規表現)の包括的なコレクションはありますか?ラテン語の時代、感嘆符と疑問符、中国と日本の終止符などをキャプチャするものを探しています。
上記のようなものですが、コンマに相当するものも素晴らしいでしょう。
r - アポストロフィを含む .csv ファイルを R に読み込むには?
アポストロフィを含む .txt または .csv ファイルを R に読み取らせるのに苦労しています。
私のコラムには、「顧客のニーズに応える」や「保安官代理」などの説明文が含まれているものがあります。私のファイルは Excel で正しく開きます (つまり、すべてのデータが正しいセルに表示されます。3 つの列と約 8000 行があり、欠損データはありません)。しかし、R にファイルの読み取りを要求すると、次のようになります。
(行 520 は、アポストロフィを含む最初の行です。)
.txt または .csv ファイルにアクセスしてすべてのアポストロフィを手動で削除すると、R はファイルを正しく読み取ります。ただし、できればアポストロフィを付けたままにします。
私はRが初めてで、どんな助けにも感謝します。
python - Pythonで印刷した後、2つの変数の間にスペースを追加するにはどうすればよいですか?
私はPythonにかなり慣れていないので、いくつかの簡単なコードを試してみています。ただし、プラクティスの1つでは、私のコードは左側にインチ単位の数値を表示し、右側に数値の変換を表示することになっています。
出力を間にスペースを空けて印刷したい。
これを行う方法がわかりません。私はどこでも検索しましたが、私が見つけることができるのは、スペースを取り除こうとしている人々だけです。誰かが私を正しい方向に導くことができれば、私は感謝するでしょう。
ああ、私は3.xではなくPython2.7を使用していることに気づきました。これが重要かどうかわからない。
html - 私のラインの始めに罰が置かれ始めています
したがって、これは単純な間違いである可能性があり、コードが非常に長いため、コード全体を投稿することはできません。しかし、長い話は短い。
入力すると
これが結果です
これは私が台無しにしている単純なものだと確信しています。
助言がありますか?また、本当に奇妙なことは、省略記号の後に文字を追加すると、句読点が修正されることです。
unicode - Unicode 一般カテゴリの GC=Mark と GC=Punctuation の違いは何ですか?
いくつかの概念を理解するのに苦労しています。Unicode 仕様には、 general categoryというプロパティがあります。
OK 文字 (通常の文字; GC=L
)、数字 (数字の 0 ~ 9 などの数値を持つその他の文字; GC=N
)、セパレータ (区切り記号; ) のそれぞれが何であるかを理解しましたGC=Z
。GC=S
しかし、記号 ( )、句読点 ( GC=P
)、マーク ( )を区別するのは非常に困難GC=M
です。
それらのリストを調べましたが、概念的な違いは見つかりませんでした。そして、このドキュメントはあまり役に立ちません。これらすべての違いは何ですか?