“text”の関連問題_Stack Overflow日本語サイト

0 投票する

5 に答える

12462 参照

bash - コマンドラインからテキストを 7 ビット ASCII に変換する

私はOS X 10.5.5を使用しています（ただし、それほど問題ではないと思います）

二重引用符、省略記号 ("...") などの派手な文字を 1 文字に含む一連のテキストファイルがあります。

これらのファイルを、できれば文字の意味を失うことなく、古き良きプレーンな 7 ビット ASCII に変換する必要があります (つまり、これらの省略記号を 3 つのピリオドに変換し、逆引用符を通常の "s などに変換します)。

それを行うには、スマートなコマンドライン (bash) ツール/スクリプトをアドバイスしてください。

Alexander Gladysh

2008-10-17T15:54:14.607

0 投票する

5 に答える

22946 参照

unicode - テキストがボックスとして表示されるとはどういう意味ですか？

（たとえば）Windows GDIを使用してプログラムにテキストを表示しようとしていますが、Unicode文字の一部がボックスとして表示されますか？何が起こってる？

参照：テキストが疑問符として表示されるとはどういう意味ですか？

unicode text fonts

1800 INFORMATION

2008-10-20T00:43:59.170

0 投票する

3 に答える

21290 参照

unicode - テキストが疑問符として表示されるとはどういう意味ですか？

（たとえば）Windows GDIを使用してプログラムにテキストを表示しようとしていますが、Unicode文字の一部が疑問符として表示されますか？何が起こってる？

参照：テキストがボックスとして表示されるとはどういう意味ですか？

unicode text fonts

1800 INFORMATION

2008-10-20T00:49:05.463

0 投票する

7 に答える

10612 参照

algorithm - テキスト分析用のアルゴリズムまたはライブラリ。具体的には、主要な単語、テキスト全体のフレーズ、およびテキストのコレクションです。

私は、テキストのページとテキストのページのコレクションを分析して支配的な単語を判断する必要があるプロジェクトに取り組んでいます。私のために面倒な作業を処理するライブラリ (C# または Java を優先) があるかどうかを知りたいです。そうでない場合、以下の私の目標を達成するアルゴリズムまたは倍数はありますか。

私がやりたいことは、Web で見つけた URL や RSS フィードから作成されたワードクラウドに似ていますが、視覚化は必要ありません。それらは、大統領候補のスピーチを分析して、テーマや最も使用されている言葉が何であるかを確認するために常に使用されます.

複雑なのは、何千もの短いドキュメントに対してこれを行う必要があり、次にこれらのドキュメントのコレクションまたはカテゴリに対して行う必要があることです。

私の最初の計画は、ドキュメントを解析してから、一般的な単語 (of、the、he、she など) をフィルター処理することでした。次に、残りの単語がテキスト (およびコレクション/カテゴリ全体) に表示される回数を数えます。

問題は、将来、ステミング、複数形などを処理したいということです。また、重要なフレーズを識別する方法があるかどうかも確認したいと思います。(単語の数ではなく、フレーズの数は 2 ～ 3 語をまとめたものです)

役立つ戦略、ライブラリ、またはアルゴリズムに関するガイダンスをいただければ幸いです。

algorithm text nlp analysis lexical-analysis

Michael Julson

2008-10-20T22:38:22.947

0 投票する

6 に答える

198492 参照

string - Excel で時間フィールドを文字列に変換する

私は時間でいっぱいのExcelシートを持っています。

1:00:15 のようにフォーマットされています。

ただし、セルの形式をテキストに変更すると、基になる時間の数値表現に変更されます: 0.041840278

セルをテキストセルに変換するにはどうすればよいですか?

string excel text time formatting

Gareth Simpson

2008-10-21T03:18:04.227

0 投票する

12 に答える

167036 参照

html - HTML のソフトハイフン ( vs. )

Web ページのソフトハイフンの問題をどのように解決しますか? テキストには、ハイフンで改行したい長い単語がある場合があります。ただし、単語全体が同じ行にある場合は、ハイフンを表示したくありません。

このページのコメントによると<wbr>、非標準の「Netscape によって発明されたタグスープ」です。 標準準拠にも問題があるようです。すべてのブラウザで機能するソリューションを入手する方法はないようです。

ソフトハイフンの処理方法はどれですか?なぜそれを選択したのですか? 推奨されるソリューションまたはベストプラクティスはありますか?

関連する SO ディスカッションはこちらを参照してください。

html text soft-hyphen wbr

2008-10-22T16:00:44.513

0 投票する

7 に答える

2798 参照

そのため、テキストを抽出する必要がある PDF ファイルの膨大なコレクションがあります。ファイルは暗号化されていますが、パスワードは知っています。テキストを抽出するプロセスを自動化する方法を探しています。

Acrobat Professional でファイルを手動で開き、パスワードを入力してセキュリティを解除し、.txt ファイルとして保存できます。しかし、600 ファイルのバッチ処理でそれを自動化する方法はありません。

これに役立つツールを探しています。私は Perl が得意なので、CPAN のさまざまな PDF 処理モジュールを試しましたが、暗号化されたドキュメントを読み取ることができません。誰にもこれに対する解決策はありますか？

pdf text encryption

moo

2008-10-24T10:14:00.500

0 投票する

3 に答える

1625 参照

macos - OS X ファイルの複製は、デフォルトでテキストエンコーディングを変換します

ワークスペース内のすべての PHP ファイルは、Unicode (UTF-8、BOM なし) でエンコードされています。新しいスクリプトのベースとして使用するために、既存のソースファイルを複製することがよくあります。必ず (Path Finder または元の Finder を使用して)、OS X は複製ファイルのエンコーディングをWestern (Mac OS Roman)に変換します。

テキストファイルを複製するときに、OS X を動作させ、テキストエンコーディングを変換しないようにする方法はありますか? または、拡張子が .php のすべてのファイルに対して、デフォルトで特定のテキストエンコーディング (Western 以外!) を使用するようにしますか?

macos text encoding utf-8

Gilles

2008-10-24T13:54:32.633

0 投票する

1 に答える

2007 参照

text - あいまいさのある重複テキストを検出する方法

少し前に、Text::DeDupeを使用して小さなスクリプトを作成し、ブログ投稿の重複を目にする前に削除しました。

実装の基になっている Web の構文クラスタリングに関する論文を読んだ後、重複するドキュメント (たとえば、全文ではなくブログの抜粋、引用など) を見つけられるようになりたいと思っています。

C、C++、または perl で、自分で作成する前に試すことができる他の実装を知っていますか?

text diff duplicates duplicate-data duplication

dpavlin

2008-10-24T15:46:14.530

0 投票する

2 に答える

2445 参照

c# - 選択したテキストを Web ブラウザーコントロールから取得する

これが私がやろうとしていることです:

Web ブラウザーコントロールを使用してプルアップした Web ページからテキストを選択します。このテキストがまだ選択されている間にボタンをクリックすると、ユーザーによって強調表示されたテキストを表示するメッセージボックスがポップアップ表示されます。この機能を wpf アプリケーションで動作させるにはどうすればよいですか?

mshtml を使用して正しい軌道に乗っていると思いますが、次のようなエラーが表示されます。

COM コンポーネントへの呼び出しからエラー HRESULT E_FAIL が返されました。

このエラーは、タイトルを変更するなど、ドキュメントで小さなことをしようとしても発生します。

コードは以下のとおりです。

c#wpf text webbrowser-control selected

DevelopThis

2008-10-26T07:00:20.633

問題タブ [text]

bash - コマンドラインからテキストを 7 ビット ASCII に変換する

unicode - テキストがボックスとして表示されるとはどういう意味ですか？

unicode - テキストが疑問符として表示されるとはどういう意味ですか？

algorithm - テキスト分析用のアルゴリズムまたはライブラリ。具体的には、主要な単語、テキスト全体のフレーズ、およびテキストのコレクションです。

string - Excel で時間フィールドを文字列に変換する

html - HTML のソフトハイフン ( vs. )

pdf - 複数の PDF ファイルのパスワードを削除する

macos - OS X ファイルの複製は、デフォルトでテキストエンコーディングを変換します

text - あいまいさのある重複テキストを検出する方法

c# - 選択したテキストを Web ブラウザーコントロールから取得する

問題タブ [text]

Reference