問題タブ [unicode-string]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
3463 参照

python - Python-BeautifulSouphtml解析ハンドルgbkエンコーディングが不十分-中国語のウェブスクレイピングの問題

私は次のスクリプトをいじくり回しています。

次の出力で:

印刷t

¡¡¡¡ÐÅϢͨ

印刷h

  信息通</p>

t

u'\ xa1 \ xa1 \ xa1 \ xa1 \ xd0 \ xc5 \ xcf \ xa2 \ xcd \ xa8'

h

u'\ u3000 \ u3000 \ u4fe1 \ u606f \ u901a'

h.encode('gbk')

'\ xa1 \ xa1 \ xa1 \ xa1 \ xd0 \ xc5 \ xcf \ xa2 \ xcd \ xa8'

簡単に言えば、このhtmlをBeautifulSoupに渡すと、gbkでエンコードされたテキストを受け取り、最初にデコードする必要があることを認識せずに、Unicodeであると見なします。「h」と「t」は同じである必要がありますが、hは私がhtmlファイルからテキストを取得して手動で変換するだけなのでです。

この問題を解決するにはどうすればよいですか?

一番

ウィートン

0 投票する
1 に答える
3145 参照

delphi - Firebird (Delphi、UniDAC、UniSQL、INSERT、パラメータ) への挿入時の「不正な文字列」例外

Delphi 2010、UniDAC コンポーネント、Firebird 2.5 SuperServer を使用。データベースの文字セットは ISO_8559_1 (私の Windows のデフォルト) です。

Access データベースから同一のテーブル構造を持つ Firebird データベースにデータを転送するためのデータ転送アプリケーションを作成しています。ADOQuery コンポーネントを使用してソース テーブルからすべての行を選択し、そのレコードセットをループして、パラメーターを含む INSERT ステートメントで UniSQL コンポーネントを使用し、対応するソース データセット フィールド値からパラメーター値を割り当てています。

挿入コマンドを実行すると、「不正な文字列」例外がスローされます。立ち往生しており、問題を解決するために助けが必要です。

コードは次のとおりです。

ティア、スティーヴル

0 投票する
2 に答える
213 参照

java - Unicode アクセスの問題

Java の世界の新しい蜂です。1 つのフォルダーから 1 つの PDF ファイルにアクセスして別のフォルダーに保存できるシンプルな Java プログラムが必要です。ファイル名はこのようなものです。このファイルを読み取って同じ名前の別のフォルダに保存するにはどうすればよいですか。これは私にとって非常に緊急の要件です。誰かがこのことを知っている場合は、コードを送ってください。よろしくお願いします。

0 投票する
1 に答える
399 参照

python - レンダリングされたテンプレートで Unicode 文字列を削除する

このアドレスで json のようなオブジェクトを返そうとしています:

http://ntt.vipserv.org/data/shows

しかし、結果として私は得ています:

{'1': {'url': u'http://www.rte.ie/tv/crimecall/', '画像': u'http://img.rasset.ie/0002c8d0-250.jpg' , 'id': u'2', 'name': u'Crimecall'}}

Unicode 文字列を取り除く方法は?

私のコード:

0 投票する
1 に答える
683 参照

boost - C++Builder UnicodeString とブースト文字列の間で変換する方法は?

ファイルシステムの一部でファイルを検索するアプリケーションがあります。ユーザーは編集ボックスにファイルの名前を入力することになっているので、その値をUnicodeString変数に割り当てます。どのように変換できboost::filesystem::pathますか?

0 投票する
1 に答える
2088 参照

php - Unicode 文字変換エンコード

こんにちは php で xml ファイルをインポートする必要があることがよくありますが、このファイルにはいくつかの奇妙な文字が含まれています。この文字をそれぞれの実際の文字 (例: \u2022-> •) に変換する関数が php にありますか?

0 投票する
2 に答える
10530 参照

delphi - Delphi XE で UnicodeString を PAnsiChar に変換する

Delphi XE では、この関数を含むBASS オーディオ ライブラリを使用しています。

'url' パラメーターは PAnsiChar 型なので、私のコードでは次のようにキャストします。

コンパイラは、次の行に警告を発します: 「PAnsiChar への文字列のタイプキャストが疑わしい」。警告を排除しようとして、推奨される方法は二重キャストを使用することであることがわかりました。

これにより警告はなくなりますが、BASS 関数はエラー コード 2 (「ファイルを開けません」) を返すようになりました。これは、受け取った URL 文字列が壊れていることを示しています。Bass DLL が実際に何を受け取るかはわかりませんが、デバッガーでブレークポイントを使用すると、文字列は問題ないように見えます。

この時点で文字列 s は問題ないように見えますが、渡すと BASS 関数が失敗します。私の最初のコード: PAnsiChar( url ) は BASS でうまく動作しますが、警告を出します。

では、警告なしで UnicodeString から PAnsiChar に取得する正しい方法は何ですか?

0 投票する
3 に答える
10524 参照

python - Python urllib.request および utf8 デコードに関する質問

Web ページを取得して HTML ファイルを Web ブラウザに表示する (プロキシのように動作する) 簡単な Python CGI スクリプトを作成しています。スクリプトは次のとおりです。

このスクリプトは、コマンド ラインから実行すると問題なく動作しますが、Web ブラウザーで表示すると、空白のページが表示されます。Apache の error_log に表示されるエラーは次のとおりです。

0 投票する
2 に答える
3883 参照

delphi - nullで終了するメモリストリームをUnicode文字列に変換する

Delphi XEでは、クリップボードからCF_UNICODETEXTデータをキャプチャしています。結果は、2つのヌルバイトで終了するストリームです。クリップボードにコピーされた実際の文字列を取得するには、nullを取り除く必要があります。

この似たような質問には、TMemoryStreamからDelphiのUnicode文字列に変換するための優れた方法が含まれています。

ただし、私の場合、これにより、末尾のnullを含む文字列が生成されます。サイズを制限することでそれを修正できます:

...しかし、これは醜い、「特別な場合」に感じます。これをコード化するためのよりクリーンな方法があるのではないかと思います。そうすれば、後でコードを見る人(私!)がすぐに「なぜ末尾の文字がストリームから削除されるのですか?」

編集:質問を先取りする1つの方法は、コメントを追加することです。しかし、それ以外は?

0 投票する
2 に答える
4170 参照

delphi - 固定長の Delphi 文字列でワ​​イド文字を使用するにはどうすればよいですか?

Delphi 2010 では (おそらく D2009 でも)、デフォルトの文字列型は UnicodeString です。

ただし、宣言すると...

...最初の文字列sはUnicodeStringとして宣言されていますが、2 番目の文字列ssはAnsiStringとして宣言されています!

これを確認できます:SizeOf(s[1]);サイズ 2 と を返しSizeOf(ss[1])ます。サイズ 1 を返します。

宣言したら…

... ssも UnicodeString 型であることを望みます。

  1. 両方の文字列が UnicodeString 型であることを Delphi 2010 に伝えるにはどうすればよいですか?
  2. ssが 4 つの WideChar を保持していることを他にどのように宣言できますか? WideString[4]コンパイラは型宣言orを受け入れませんUnicodeString[4]
  3. 同じ型名stringに対する 2つの異なるコンパイラ宣言の目的は何ですか?