“word-count”の関連問題_Stack Overflow日本語サイト

0 投票する

6 に答える

10026 参照

ruby - Railsの単語数？

TitleとBodyのブログモデルがあるとします。本文の単語数とタイトルの文字数を表示するにはどうすればよいですか？このような出力にしたい

タイトル：Lorem本文：Lorem Lorem Lorem

この投稿の単語数は3です。

ruby word-count

2010-01-21T07:43:49.387

0 投票する

3 に答える

4028 参照

c# - リッチテキストボックス内のすべての単語をカウントする最も効率的な方法は何ですか?

私はテキストエディターを作成しており、実際の単語数を提供する必要があります。現在、私はこの拡張メソッドを使用しています:

リッチテキストボックスのテキストに対して 10 分の 1 秒ごとに単語カウントが実行されるように設定しました (選択の開始が前回のメソッド実行時と異なる場合)。問題は、非常に長いファイルで作業すると単語カウントが遅くなることです。これを解決するために、現在の段落でのみ単語数を実行し、毎回単語数を記録し、前回単語数を実行したときの単語数と比較することを考えています。次に、2 つの単語の差を合計単語数に追加します。これを行うと、多くの複雑さが生じます (ユーザーが貼り付けた場合、ユーザーが段落を削除した場合など)。これは単語数を改善するための論理的な方法ですか? それとも、それをより良くするかについて私が知らない何かがありますか?

編集:別のスレッドでワードカウントを実行するとうまくいきますか? スレッドについてはよくわかりません。調査します。

私が使用したサンプルテキスト:

c#wpf performance richtextbox word-count

2010-02-09T01:32:45.177

0 投票する

2 に答える

1376 参照

python - 複雑なドキュメント (.rtf、.doc、.odt など) の単語をカウントするにはどうすればよいですか?

ドキュメントファイルへのパスを指定すると、そのドキュメント内の単語数を返す Python 関数を作成しようとしています。これは .txt ファイルで行うのはかなり簡単で、いくつかのより複雑なドキュメント形式のサポートをまとめてハックできるツールもありますが、本当に包括的なソリューションが必要です。

OpenOffice.org の py-uno スクリプトインターフェイスとサポートされている形式のリストを見ると、ドキュメントをヘッドレス OOo にロードし、そのワードカウント関数を呼び出すのが理想的であるように思われます。ただし、基本的なドキュメント生成を超える py-uno チュートリアルやサンプルコードは見つかりません。また、見つけたコードスニペットでさえ、半年ほど古く、機能しません。

OOo と Uno を使用するかどうかに関係なく、さまざまな形式のドキュメントの信頼できる単語数を取得するにはどうすればよいですか?

python document openoffice.org word-count

2010-02-13T07:52:55.310

0 投票する

4 に答える

1476 参照

ms-word - .doc ファイルの文字数を確実に取得する

.doc または .docx ファイル内の文字や単語を自動的にカウントする信頼できる方法は何ですか?

唯一の実際の要件は、適度に正確で適度に信頼できるカウントです。
ラテン文字以外のものを含むドキュメントで動作する必要があるため、ほとんどの場合、文字数を数えるだけで十分です。
カウントは必ずしも Word のものと一致する必要はありませんが、近いほど良いです。
.doc ファイルを生成できるさまざまなアプリが無数にあるため、何もカウントしなくてもかまいませんが、このケースはキャッチ可能である必要があるため、カウントが不正確になる可能性があることを認識しています。他のすべてのケースでは、カウントは少なくとも 99% の確率で少なくとも 99% 正確でなければなりません。

関連するテクノロジについてはオープンですが、*NIX コマンドラインで実行できるものが望ましいでしょう。

これに対する合理的な解決策はありますか？

ms-word ms-office word-count charactercount

2010-02-17T02:59:55.767

0 投票する

4 に答える

20713 参照

hadoop - Hadoop MapReduce を使用して並べ替えられた単語数

私は MapReduce を初めて使用し、Hadoop の単語カウントの例を完成させました。

その例では、単語数のソートされていないファイル (キーと値のペアを含む) を生成します。別の MapReduce タスクを以前のタスクと組み合わせることで、単語の出現回数で並べ替えることができますか?

hadoop mapreduce word-count parallel-processing

2010-03-31T05:54:21.150

0 投票する

6 に答える

1147 参照

ruby-on-rails - フィールドに含まれる単語数が n 個以下であることを検証する最速の方法は何ですか?

Ruby-on-Rails モデルがあります。

application_essayC に落ち込まずに、500 語以下であることを確認する最速の方法は何ですか? ほとんどのエッセイは少なくとも 200 語であり、5000 語を超える可能性は低く、英語 (または「ビジネス英語」と呼ばれることもある疑似英語) で書かれていると想定できます。分類が一般的なユーザーにすぐにわかる限り、「単語」として必要なものを分類することもできます。(注: これは、「典型的なユーザー」とは何かを議論する場所ではありません :) )

ruby-on-rails ruby validation word-count

2010-05-04T01:43:32.160

0 投票する

9 に答える

7405 参照

git - git diff の変化量を定量化していますか?

私は少し変わった目的で git を使用しています。フィクションを書いているときにテキストを保存するためです。（わかってる、わかってる…オタク。）

私は生産性を追跡しようとしており、後続のコミット間の違いの程度を測定したいと考えています。作家の「仕事」の代用は、少なくとも作成段階では「書かれた言葉」です。文章の重要な部分である編集と圧縮を無視するため、単純な単語カウントは使用できません。私は追跡したいと思います：

これは二重にカウントされます (単語が変更されました) が、私はそれで問題ありません。

魔法の呪文を入力して、任意の 2 つのリビジョンについてこの距離メトリックを git に報告させるとよいでしょう。ただし、git diff はパッチであり、行の 1 文字だけをいじっただけでも行全体が表示されます。特に私の「行」は段落であるため、私はそれを望んでいません。理想的には、「単語」で何を意味するかを指定することもできます (ただし、\W+ はおそらく許容されます)。

単語ごとに差分を与えるための git-diff へのフラグはありますか? または、標準のコマンドラインツールを使用して上記のメトリックを計算するソリューションはありますか?

git word-count

2010-05-20T13:50:00.750

0 投票する

3 に答える

3419 参照

php - さまざまな言語の単語を数える PHP ライブラリ/クラス?

近い将来、クロス言語の単語カウントを実装する必要があります。それが不可能な場合は、クロス言語の文字カウントを実装する必要があります。

単語数とは、テキストの言語を使用して、特定のテキストに含まれる単語の正確な数を意味します。テキストの言語はユーザーによって設定され、正しいと見なされます。

文字数とは、上記と同じ言語情報を使用して、特定のテキスト内に含まれる「単語の可能性がある」文字の数を意味します。

私は前者の数をはるかに好むが、それに伴う困難は承知している。また、後者の計算の方がはるかに簡単であることも認識していますが、可能であれば前者を非常に好みます。

英語だけを見ればよかったのですが、中国語、韓国語、英語、アラビア語、ヒンディー語など、すべての言語を考慮する必要があります。

私は良い怠惰なプログラマーなので、スタックオーバーフローがPHPでこれを行うための既存の製品/メソッドをどこから探し始めるかについて何か手がかりがあるかどうか知りたいです*

set_locale を使用した str_word_count が機能しないことを示す簡単なテストと、php.net の str_word_count ページの関数。

* http://blogoscoped.com/archive/2005-08-24-n14.html

php nlp utf-8 word-count

2010-05-29T15:02:38.680

0 投票する

9 に答える

82572 参照

latex - LaTeXドキュメントの正しい単語数

私は現在、LaTeXドキュメントに対して正しい単語数をカウントするアプリケーションまたはスクリプトを探しています。

これまで、単一のファイルでのみ機能するスクリプトに遭遇したことがありますが、必要なのは、LaTeXキーワードを安全に無視し、リンクされたファイルをトラバースできるスクリプトです。ドキュメント全体。\include\input

vimで、私は現在使用していますggVGg CTRL+Gが、明らかにそれは現在のファイルのカウントを示し、LaTeXキーワードを無視しません。

この仕事をすることができるスクリプト（またはアプリケーション）を知っている人はいますか？

latex word-count

2010-06-04T14:20:21.157

0 投票する

2 に答える

1657 参照

vb.net - キーワードを除く、文字列内の単語頻度 (最も重要な単語) のカウント

文字列内の単語 (一部のキーワードを除く) の頻度をカウントし、DESC で並べ替えたいと思います。それで、どうすればできますか？

次の文字列では...

除外キーワードの場所

出力は次のようになります

PSいいえ！私はグーグルを再設計していません！:)

vb.net linq count word-count word-frequency

2010-08-31T09:34:57.617

問題タブ [word-count]

Reference