問題タブ [text]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bash - コマンドラインからテキストを 7 ビット ASCII に変換する
私はOS X 10.5.5を使用しています(ただし、それほど問題ではないと思います)
二重引用符、省略記号 ("...") などの派手な文字を 1 文字に含む一連のテキスト ファイルがあります。
これらのファイルを、できれば文字の意味を失うことなく、古き良きプレーンな 7 ビット ASCII に変換する必要があります (つまり、これらの省略記号を 3 つのピリオドに変換し、逆引用符を通常の "s などに変換します)。
それを行うには、スマートなコマンドライン (bash) ツール/スクリプトをアドバイスしてください。
unicode - テキストがボックスとして表示されるとはどういう意味ですか?
(たとえば)Windows GDIを使用してプログラムにテキストを表示しようとしていますが、Unicode文字の一部がボックスとして表示されますか?何が起こってる?
unicode - テキストが疑問符として表示されるとはどういう意味ですか?
(たとえば)Windows GDIを使用してプログラムにテキストを表示しようとしていますが、Unicode文字の一部が疑問符として表示されますか?何が起こってる?
algorithm - テキスト分析用のアルゴリズムまたはライブラリ。具体的には、主要な単語、テキスト全体のフレーズ、およびテキストのコレクションです。
私は、テキストのページとテキストのページのコレクションを分析して支配的な単語を判断する必要があるプロジェクトに取り組んでいます。私のために面倒な作業を処理するライブラリ (C# または Java を優先) があるかどうかを知りたいです。そうでない場合、以下の私の目標を達成するアルゴリズムまたは倍数はありますか。
私がやりたいことは、Web で見つけた URL や RSS フィードから作成されたワード クラウドに似ていますが、視覚化は必要ありません。それらは、大統領候補のスピーチを分析して、テーマや最も使用されている言葉が何であるかを確認するために常に使用されます.
複雑なのは、何千もの短いドキュメントに対してこれを行う必要があり、次にこれらのドキュメントのコレクションまたはカテゴリに対して行う必要があることです。
私の最初の計画は、ドキュメントを解析してから、一般的な単語 (of、the、he、she など) をフィルター処理することでした。次に、残りの単語がテキスト (およびコレクション/カテゴリ全体) に表示される回数を数えます。
問題は、将来、ステミング、複数形などを処理したいということです。また、重要なフレーズを識別する方法があるかどうかも確認したいと思います。(単語の数ではなく、フレーズの数は 2 ~ 3 語をまとめたものです)
役立つ戦略、ライブラリ、またはアルゴリズムに関するガイダンスをいただければ幸いです。
string - Excel で時間フィールドを文字列に変換する
私は時間でいっぱいのExcelシートを持っています。
1:00:15 のようにフォーマットされています。
ただし、セルの形式をテキストに変更すると、基になる時間の数値表現に変更されます: 0.041840278
セルをテキストセルに変換するにはどうすればよいですか?
html - HTML のソフト ハイフン ( vs. )
Web ページのソフト ハイフンの問題をどのように解決しますか? テキストには、ハイフンで改行したい長い単語がある場合があります。ただし、単語全体が同じ行にある場合は、ハイフンを表示したくありません。
このページ のコメントによると<wbr>
、非標準の「Netscape によって発明されたタグ スープ」です。­
標準準拠にも問題があるようです。すべてのブラウザで機能するソリューションを入手する方法はないようです。
ソフトハイフンの処理方法はどれですか?なぜそれを選択したのですか? 推奨されるソリューションまたはベスト プラクティスはありますか?
関連する SO ディスカッションはこちらを参照してください。
pdf - 複数の PDF ファイルのパスワードを削除する
そのため、テキストを抽出する必要がある PDF ファイルの膨大なコレクションがあります。ファイルは暗号化されていますが、パスワードは知っています。テキストを抽出するプロセスを自動化する方法を探しています。
Acrobat Professional でファイルを手動で開き、パスワードを入力してセキュリティを解除し、.txt ファイルとして保存できます。しかし、600 ファイルのバッチ処理でそれを自動化する方法はありません。
これに役立つツールを探しています。私は Perl が得意なので、CPAN のさまざまな PDF 処理モジュールを試しましたが、暗号化されたドキュメントを読み取ることができません。誰にもこれに対する解決策はありますか?
macos - OS X ファイルの複製は、デフォルトでテキスト エンコーディングを変換します
ワークスペース内のすべての PHP ファイルは、Unicode (UTF-8、BOM なし) でエンコードされています。新しいスクリプトのベースとして使用するために、既存のソース ファイルを複製することがよくあります。必ず (Path Finder または元の Finder を使用して)、OS X は複製ファイルのエンコーディングをWestern (Mac OS Roman)に変換します。
テキスト ファイルを複製するときに、OS X を動作させ、テキスト エンコーディングを変換しないようにする方法はありますか? または、拡張子が .php のすべてのファイルに対して、デフォルトで特定のテキスト エンコーディング (Western 以外!) を使用するようにしますか?
text - あいまいさのある重複テキストを検出する方法
少し前に、Text::DeDupeを使用して小さなスクリプトを作成し、ブログ投稿の重複を目にする前に削除しました。
実装の基になっている Web の構文クラスタリングに関する論文を読んだ後、重複するドキュメント (たとえば、全文ではなくブログの抜粋、引用など) を見つけられるようになりたいと思っています。
C、C++、または perl で、自分で作成する前に試すことができる他の実装を知っていますか?
c# - 選択したテキストを Web ブラウザー コントロールから取得する
これが私がやろうとしていることです:
Web ブラウザー コントロールを使用してプルアップした Web ページからテキストを選択します。このテキストがまだ選択されている間にボタンをクリックすると、ユーザーによって強調表示されたテキストを表示するメッセージ ボックスがポップアップ表示されます。この機能を wpf アプリケーションで動作させるにはどうすればよいですか?
mshtml を使用して正しい軌道に乗っていると思いますが、次のようなエラーが表示されます。
COM コンポーネントへの呼び出しからエラー HRESULT E_FAIL が返されました。
このエラーは、タイトルを変更するなど、ドキュメントで小さなことをしようとしても発生します。
コードは以下のとおりです。