問題タブ [iconv]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2141 参照

gcc - libiconv solaris-sparc/opteron 64 ビット

私は 64 ビットの solaris - sparc と opteron システムを持っています。/usr/local/lib の下に、両方のシステムの libiconv.so が表示されます。libiconv.so で file コマンドを実行すると、次の出力が得られます。

sparc と opteron の両方のシステムで、既存の 32 ビットに影響を与えずに 64 ビットの libiconv をビルドするにはどうすればよいですか? その理由は、libiconv の既存のバージョンを認識していないからです。

0 投票する
0 に答える
968 参照

php - Zend Lucene は、別のサーバーではなく、同じコードで UTF-8 のインデックスを作成します

Zend Search Lucene で構築されたカスタム検索エンジンがあります。このプログラムは、世界中のソースから多くの言語 (現在 11) でデータのフィードを取得することになっています。すべてが UTF-8 でエンコードされていることを確認するために、見つけたすべての方法に従いました。私の Lucene インデックスには、特殊文字を含む可能性のある 4 つのフィールドがありますが、主にタイトルと説明のフィールドを扱っており、現時点ではうまく機能していません。

私のローカル マシンでは、開発とテストのために XAMPP を実行しています。コードはここで完全に機能しています。英語、スペイン語、中国語、ロシア語などのコンテンツを問題なくインデックスに登録できます。Luke を使用して、結果のインデックスを調べることができます。

同じコードを持つライブ サーバーでは (確実に削除して再アップロードしようとしました)、結果のインデックスは特殊文字で失敗します。つまり、中国語とロシア語はどの文字にも索引を付けません。スペイン語のコンテンツでは、アクセント付きの最初の文字がある場所でカットされます。おそらく最初のマルチバイト文字がストレージを殺してしまうようです。ただし、ドキュメントは引き続きインデックスに保存されます。特殊文字のないその他のフィールドは正しく保存されます。

コードは次のようになります (例として単純化)。

繰り返しますが、このコードと Zend ライブラリは、両方の環境で同じです。ローカル インスタンスにより、異なるアナライザーを使用しなくても、これらすべての言語が同じインデックスに共存できるインデックスが正常に作成されます。

サーバー設定の比較は次のとおりです。

  • ローカル
    • アパッチのバージョン: 2.2.6
    • PHP バージョン: 5.2.4
    • Apache モジュールとして実行される PHP
  • ライブ
    • アパッチのバージョン: 2.2.17
    • PHP バージョン: 5.3.6
    • FastCGI として実行される PHP

両方のサーバーで mbstring マルチバイト サポートが有効になっています。他に何を見ればいいのかわかりません。CGI 対モジュール オプションはこれに影響しますか? 比較する必要がある他の設定はありますか?

0 投票する
1 に答える
778 参照

ruby - Ruby で Watir を使用して text_field を入力する際のエンコードの問題

Watir を使用して、以前に別のプログラムでスクレイピングした html コードを text_field に入力しています。

私が転送しているウェブサイトのコンテンツの言語はドイツ語であるため、英語のアルファベットには存在しない特殊文字が含まれています。

これらの文字は html ファイルでは正しく表示されますが、Joomla インストールの text_field に転送すると (このプログラムで Web サイトを Joomla に転送しています)、特殊文字が正しく表示されません。

ユーザーの大きな助けの結果として、以前の問題を解決することができ、現在、次の方法でコンテンツを転送しています:

その結果、特殊文字は次のように表示されました。

ユーザーは、私が使用しているコードページとエンコードの問題に関係があると推測しました。DOS: chcp を実行すると、850 が出力されました。

問題を解決するための彼の試みは次のとおりでした。

残念ながら、これで問題は解決せず、特殊文字は次のように表示されます: \x81ber = über vergi\xE1t = vergißt 改行は \n のように表示されます。

次のコードを使用して、Mechanize でページをスクレイピングしました。

私はここでプログラミングの経験が少しあるボランティアです。来週までにこのプログラムを実行できない場合 (このエンコードの問題だけが本当に私を止めているのです)、コピーと貼り付けを使用して 100 ページを手動で転送する必要があります :/

時間と労力を割いていただき、ありがとうございます。:-)

セバスチャン

0 投票する
4 に答える
1482 参照

php - PHP iconv_strlen()は質問を意味します

次の文章は私たちダミーにとって簡単な言葉で何を意味するのだろうかと思っていました。

そして、バイトシーケンスとは何ですか?そして、1バイトに何文字ありますか?

iconv_strlen() counts the occurrences of characters in the given byte sequence str on the basis of the specified character set, the result of which is not necessarily identical to the length of the string in byte.

0 投票する
1 に答える
2426 参照

php - iconv を使用して、マルチバイトのスマート クォートを拡張 ASCII スマート クォートに変換できますか?

マルチバイトのスマート クォート文字を含む UTF-8 コンテンツがあります。このコードは、これらの文字を ASCII ストレート クォーテーション (ASCII コード 34) に簡単に変換できることがわかりました。

また

ただし、これらを拡張 ASCII スマート クォート (Latin 1 エンコーディングの ASCII コード 147 および 148) に変換したいと思います。誰もこれを行う方法を知っていますか?

0 投票する
1 に答える
346 参照

php - PHPのiconv_strlen関数の表示の問題

0 投票する
1 に答える
15140 参照

centos - CentOS 5.6 に iconv-devel をインストールするには?

CentOS 5.6にrvmをインストールして実行した後rvm notes

ただしiconv-devel、見つかりません:

どうすればインストールできますか?

0 投票する
2 に答える
2554 参照

ruby - Ruby 1.8 Iconv UTF-16 から UTF-8 への変換が「\000」で失敗する (Iconv::InvalidCharacter)

Windows マシンで生成された集計データのテキスト ファイルの処理に問題があります。私はRuby 1.8で作業しています。次の例では、ファイルの 2 行目を処理するときにエラー ("\000" (Iconv::InvalidCharacter)) が発生します。最初の行は正しく変換されます。

奇妙なことに、ファイルの最初の行を問題なく読み取って変換します。Iconv コンストラクターに //IGNORE フラグがあります。これは、この種のエラーを抑制するためのものだと思いました。

しばらくサークルに入っています。アドバイスをいただければ幸いです。

ありがとう!

編集: Hobbs ソリューションはこれを修正します。ありがとうございました。コードを次のように変更するだけです。

ここで必要なのは、どの get セパレーターを使用するかを自動的に決定する方法を見つけることだけです。

0 投票する
2 に答える
1991 参照

java - Java アプリケーション内で iconv を実行する

大きな csv ファイルを gb2312 エンコーディングから UTF-8 エンコーディングに変換したいと考えています。使用したコードは次のとおりです。

問題は、 process.waitFor() メソッドが終了しないことです。コマンドラインから呼び出して引数を与えないように、iconvが私の入力を待っているようです。しかし、ターミナルの別のセッションから。正しいパラメーターで実行されている iconv を確認できます。

コマンド「iconv -c -f gb2312 -t utf-8 20110525.csv > 20110525.utf8.csv」は、ターミナルから手動で入力すると正しく機能します。しかし、Javaから呼び出すとうまくいきません。

私がiconvを呼び出す2つの方法の開始ディレクトリには、同じ開始ディレクトリがあります。

0 投票する
1 に答える
168 参照

ruby-on-rails - 米国以外のテキストをRuby(Unicode)で表示するにはどうすればよいですか?

Unicodeベトナム文字セットとしてエンコードされたデータベースからのテキストを表示します。ただし、正しく表示されません。

こちらの問題をご覧ください