問題タブ [text-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java テキスト分類の問題
私はBooksオブジェクトのセットを持っています.Bookクラスは次のように定義されています:
titleは本のタイトルです。例: Javascript for dummies。
taglistは、この例のタグのリストです: Javascript、jquery、「web dev」、..
私が言ったように、IT、生物学、歴史など、さまざまなことについて話している本のセットがあります...各本には、タイトルとそれを説明するタグのセットがあります..
これらの本を、トピックごとに別のセットに自動的に分類する必要があります。例:
ITブックス:
- ダミーのための Java
- ダミー用 Javascript
- 30日でフラッシュを学ぶ
- C++ プログラミング
歴史書:
- 世界大戦
- 1960年のアメリカ
- マーティン・ルーサー・キングの生涯
生物学の本:
- ....
そのような問題に適用する分類アルゴリズム/方法を知っていますか?
解決策は、外部 API を使用してテキストのカテゴリを定義することですが、ここでの問題は、書籍の言語がフランス語、スペイン語、英語など異なることです。
statistics - ドキュメントを指定して、関連するスニペットを選択します
ここで質問すると、自動検索によって返される質問のツールのヒントは、質問の最初の少しを与えられますが、それらのかなりの割合は、質問を理解するのに役立つテキストを提供していません。タイトル。質問の無駄な部分を取り除くためのフィルターを作成する方法について誰かが考えていますか?
私の最初のアイデアは、一部のリストの単語のみを含む主要な文をトリミングすることです(たとえば、ストップワード、タイトルの単語、およびタグとの相関が非常に弱いSOコーパスの単語、つまり、タグに関係なく、どんな質問でも発生します)
python - Pythonを使用して高Unicode文字のドキュメントを削除して置き換える最も速い方法は何ですか?
大きなドキュメントから、アクセント付きのE、左右の引用符などのすべての高いUnicode文字を、通常の「E」やまっすぐな引用符などの低範囲の「通常の」対応文字に置き換えたいと考えています。非常に大きなドキュメントでこれを頻繁に実行する必要があります。私はここでperlかもしれないと思うものでこれの例を見ます:http ://www.designmeme.com/mtplugins/lowdown.txt
s.replace(...)。replace(...)。replace(...)...を使用せずにPythonでこれを行う高速な方法はありますか?数文字を置き換えてみましたが、ドキュメントのストリッピングが非常に遅くなりました。
編集、動作していないように見えるunutbuのコードの私のバージョン:
bash - Bash: テキスト ファイル内の文字列を置き換えるコマンドはありますか?
多くのテキスト ファイルを含むディレクトリの階層があります。特定のテキスト文字列がファイルの 1 つに表示されるたびに検索し、別の文字列に置き換えたいと考えています。たとえば、"Coke" という文字列をすべて "Pepsi" に置き換えたいとします。誰もこれを行う方法を知っていますか? これらすべてのファイルをエディターにロードすることなくこれを実行できる、またはそれを実行するためのより複雑なスクリプトを考え出す必要がない、ある種の Bash コマンドがあるかどうか疑問に思っています。
sed を使用したトリックを説明しているこのページを見つけましたが、サブディレクトリ内のファイルでは機能しないようです。
python - テキストファイルからデータを抽出する際の問題
私は python が初めてで、この形式からデータを抽出したい
この形式に
動作することを願ってコードを書きましたが、動作しません。助けてください!
hmmtext ファイルは
regex - 終了していない文字列を見つけるための正規表現
終了していない二重引用符で囲まれた文字列で終わる CSV ファイル内の行を検索する必要があります。
例えば:
一致しますが、
しません。
私は正規表現の経験が非常に限られており、私が考えることができる唯一のことは次のようなものです
ただし、これは最後の引用符から行末までに一致します。
これはどのように行われますか?
bash - LaTeX\inputコマンドのインライン化
\input{}
LaTeXファイル内のすべてのコマンドを再帰的にインライン化するプログラムを探しています。「再帰的に」と\input{}
は、最終的なLaTeXファイルにコマンドがなくなるまでインライン化を繰り返し行うことを意味します。
私はすでにフラットパッケージに出くわしました。しかし、何らかの理由で、私のTeXLiveディストリビューションはそれをインストールしません。コマンドを実行すると、次sudo tlmgr show flatten
のエラーメッセージが表示されますtlmgr: cannot find flatten
。そのため、より標準的でインストールが簡単な代替ツールを探しています。
algorithm - 名前の存在を検出するためのよく知られたアルゴリズムはありますか?
たとえば、次の文字列を指定します。
「ボブは友人のジム・スミスと釣りに行きました。」
ボブとジムスミスは両方とも名前ですが、ボブとスミスは両方とも言葉です。彼らが大文字でなかったら、私たちの文の知識の外では、これを示すものは少なくなるでしょう。名前、少なくとも西洋の名前の存在を検出するためのよく知られたアルゴリズムはありますか?
csv - 空白が多いソースからのデータ抽出
からデータを抽出しようとしています: http://www.phillysheriff.com/old_site/properties.html
理想的には、住所、病棟、価格、平方フィートを含む CSV ファイルを取得できますか? これを行う簡単な方法はありますか?
c - 良いテキスト処理プロジェクトを提案してください
最近、テキストの処理 (解析) が得意でなければならないことに気付きました。HTTP 応答の解釈や設定ファイル (*.ini または *.xml または *.json) の読み取りのような単純なものから、コンパイラや正規表現エンジンの作成のような難しいものまであります。
現在、一般的な形式のテキストを解釈するためのライブラリ関数/メソッドがあることに同意します。しかし、関数を使用すると、何かが足りないと感じます。何が欠けているのかはわかりませんが、すべてに関数を使用することで自信を失っていることは間違いありません.
自信をつけるために、C でテキスト処理を試してみたいと思います。
中級レベルだが良いプロジェクトを提案できる人はいますか? 有用なプロジェクトを提案できる場合は、もう少し複雑なものも高く評価されます。