問題タブ [cp1251]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - UTF-8 記号と cp1251 サイト
cp1251 文字セットで作成された古いサイトがたくさんあります。ユーザー入力用の非 cp1251 シンボルのサポートを実装することで、その機能を強化するように依頼されました。すべてを utf-8 に変換するには少し遅すぎます。古い文字セットに依存している文書化されていない古いものがたくさんあるためです。そのため、すべての「非標準」シンボルを HTML エンティティに変換するというアイデアを思いつきました。このタスクのために私が書いたクラスがあります。UTF-8 を cp1251 に加えて HTML エンティティに、またはその逆に変換します。あなたはそれについてどう思いますか?これを入力に適用すると、どのような問題が発生する可能性がありますか? または何か良い方法はありますか?
python - BeautifulSoup を使用してさまざまな Unicode ファイルを解析する
コーデックを含むこの特定の HTML ページがあります
BeautifulSoup を使用してこの特定のファイルを解析しようとすると、常に NULL オブジェクトが返されます。次を使用して変換できます。
今では正常に動作しています。しかし、私のコレクションには、UTF-8とwindows-1251の両方の文字セット タイプで構成されるページがあります。それで、特定の HTML ページの文字セットを決定し、それが windows-1251 形式の場合はそれに応じて変換する手順を知りたいと思いました。
私はこれを見つけました:
しかし、そのためには「スープ」にロードする必要があります。しかし、「None type object」を返すだけです。どんな助けでも大歓迎です。
私はPython 2.7を使用しています
編集:
これが私が実際に言おうとしていることの例です:
これは私のコードです:
持っているページ
ページのタイトルを正しく表示します。
ページに
出力は
AttributeError: 'NoneType' オブジェクトには属性 'head' がありません
これで、上記のコーデック ライブラリを使用してこれを修正できます。私が見つけようとしているのは、エンコーディングを適用できるようにする方法です。
これらは、特定の情報をクロールして収集しようとしている 2 つのサイトです。
php - Iconv バイト長
CP1251 から UTF-8 に文字列を変換するために iconv を使用しています 問題は、変換前の文字列の長さが 8 バイトの後に 4 バイトになることです。
変換後、長さが制限されている Apple サーバーにメッセージを送信します。
変換して同じ長さを維持するにはどうすればよいですか?
apache - windows-1251 ではなく UTF-8 でページを表示するブラウザー
私は Web サイトを持っています。HTML のみが含まれており、キリル記号がたくさんあります。ブラウザは、本来あるべきように、Windows-1251 ではなく UTF-8 エンコーディングを設定しています。したがって、英字は問題なく表示されますが、キリル文字はすべて ���� のようになります。
これが私のセットアップです:
RHEL 6.3 (2.6.32-279.el6.x86_64)
Apache/2.2.15 (Unix)
ここに私の.htaccessファイルがあります:
ページの最初の行:
ペーストビンにアクセスできない人のためのペーストビンまたはphpfiddleのサンプルページ
したがって、文字セットはどこにでも設定されており、ブラウザのエンコーディングを手動で windows-1251 に変更すると、問題なく表示されますが、自動検出によって utf-8 が設定され、理由がわかりません。
それが役立つ場合 - サイトは以前は Sun OS 5.10 でホストされていました。
助けてくれてありがとう。
java - Base64 文字列から Windows1251 (キリル記号)
電子メールの添付ファイル (ラテン記号とキリル記号を含む Windows-1251 エンコーディングの単純なテキスト ファイル) を文字列に変換するのに問題があります。つまり、キリル文字の変換に問題があります。次のようなbase64でエンコードされた文字列として添付ファイルを取得しました。
それで、デコードしようとすると、「?」が表示されました。キリル文字の代わりに。
「?」の代わりに正しいキリル文字 (ロシア語) 記号を取得するにはどうすればよいですか?
私はすでにすべてのエンコーディングでこのコードを試しましたが、正しいロシア語の記号を取得するのに役立つものは何もありません.
よろしくお願いします。
mysql - cp1251 エンコーディングを使用した VARCHAR フィールドの大文字と小文字を区別する LIKE
という名前の VARCHAR(250) cp1251_general_ci フィールドを持つ InnoDB テーブルがありますcomment
。
このフィールドで検索しようとしています。
期待どおりに動作しますが、大文字と小文字は区別されません。
私はBINARY
のように使用しようとしました
空の結果を返します。
私はCOLLATE
のように使用しようとしました
エラーを返します
検索で大文字と小文字を区別する方法は? クエリが機能しなかった理由の説明によって回答が補完されれば幸いです。
java - Java での XML エンコーディングに関する問題
XML エンコーディングに問題があります。cp1251エンコーディングを使用してlocalhostでXMLを作成したときはすべてクールです
が、モジュールをサーバーにデプロイすると、xmlファイルに「ФайлПФР」のような誤った記号が含まれます
どうすれば修正できますか?