問題タブ [text-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - Linux または Mac でテキスト処理を行うのに最適なツールは何ですか?
私は通常、すべての行から最後のトークンを削除する、各行から最初の 2 つのトークンを抽出する、各行をトークンに分割するなど、研究のためにかなりの量のテキスト処理を行う必要があります。
これを実行する最良の方法は何ですか? このためにPerlを学ぶべきですか?それとも、ある種のシェル コマンドを学習する必要がありますか? 主な関心事は速度です。そのようなもののために長いコードを書く必要がある場合、それは目的を無効にします.
編集:
@Mimisbrunnr の勧めで sed の学習を開始しましたが、すでに必要なことを実行できました。しかし、人々は awk をより好むようです。それで、それを試します。返信ありがとうございます。
algorithm - tf-idf: 私はそれを正しく理解していますか?
ドキュメントのクラスタリングに興味があり、現在、これに TF-IDF を使用することを検討しています。
私が間違っていなければ、TF-IDF は特に、クエリが与えられたドキュメントの関連性を評価するために使用されます。特定のクエリがない場合、どのように tf-idf をクラスタリングに適用できますか?
perl - PerlでISO-8859-1とUTF-8が混在する複数行の文字列を強制的にUTF-8にする
次の問題を検討してください。
複数行の文字列$junk
には、UTF-8 でエンコードされた行と ISO-8859-1 でエンコードされた行が含まれています。どの行がどのエンコーディングに含まれているかはアプリオリにわからないため、ヒューリスティックが必要になります。
$junk
ISO-8859-1 行を適切に再エンコードして、純粋な UTF-8 に変換したいと考えています。また、処理中にエラーが発生した場合は、エラーをスローするのではなく、「ベスト エフォートの結果」を提供したいと考えています。
私の現在の試みは次のようになります。
各行の元のエンコーディングに関する情報が不足しているため、変換が完全に行われないことは明らかです。しかし、これは私たちが得ることができる「最善の努力の結果」でしょうか?
force_utf8(...)
サブのヒューリスティック/機能をどのように改善しますか?
c# - C#結合行
みなさん、これが私が行っていることです。2つのテキストファイルがあります。うーん、1つのA.txtとB.txtを呼び出すことができます。
A.txtは、多数のフォルダー名を含む構成ファイルであり、フォルダーごとに1つのリストのみが含まれます。
B.txtは、フォルダの名前とサイズを含むディレクトリリストです。しかし、Bには、1つのエントリだけでなく多数のリストが含まれています。
必要なのは、BにAが含まれている場合です。Aを含むBのすべての行を取得し、A | B | B | Bect...として書き出します。
例:
A.txt:
Apple
Orange
Pear XBSj
HEROE
B.txt:
Apple | 3123123
Apple | 3434
Orange | 99999999
Orange | 1234544
Pear | 11
Pear | 12
XBSJ | 43949
XBSJ | 43933
Result.txt:
Apple | 3123123 | 3434
Orange | 99999999 | 1234544
Pear | 11 | 12
XBSJ | 43949 | 43933
これは私が持っていたものですが、実際には必要なことをしていません。
行全体を読み取って見つけることができないため、最初の「if」が見つからないことはわかっています。しかし、出力ファイルには必要なものが含まれていないと私は信じています。
php - 正規表現を使用してプレーンテキストのフォームレターから変数を抽出しますか?
PHPで正規表現を使用して、複数行のテキストボックスに貼り付けられ、処理のためにスクリプトに送信されたフォームレター(もちろん、既知の形式)を「リバースエンジニアリング」する良い例を探しています。
したがって、たとえば、これが元のプレーンテキスト入力(USDAプレスリリースから取得)であると仮定します。
ワシントン、2010年4月5日-ノースダコタ州ニューロックフォードのNorth American Bison Co-Opは、トンシルが完全に除去されていない可能性のある舌を含む約25,000ポンドの牛肉の頭全体をリコールしています。すべての年齢の牛からのトンシルの除去、米国農務省の食品安全検査局(FSIS)は本日発表しました。
わかりやすくするために、変数であるフィールドは以下で強調表示されています。
[pr_city =] WASHINGTON、[pr_date=]2010年4月5日- [corp_name=]North American Bison Co-Op、[corp_city =] New Rockford、 [corp_state =] ND、施設は約[amount=]25,000ポンドをリコールしています[product =]牛肉の頭全体に、トンシルが完全に除去されていない可能性があります。これは、 [理由=]すべての年齢の牛からのトンシルの除去を要求する規制に準拠していません。米国農務省の食品安全および本日発表された検査サービス(FSIS)。
どうすれば効率的にコンテンツを抽出できますか
- pr_city
- pr_date
- corp_name
- corp_city
- corp_state
- 額
- 製品
- 理由
私の例のフィールド?
助けていただければ幸いです、ありがとう。
nlp - 文を否定するアルゴリズム
アルゴリズムによる文の否定の試みに精通している人がいるかどうか疑問に思っていました。
たとえば、「この本は良いです」のような文が与えられた場合、「この本は良くない」または「この本は悪い」のような反対の意味の代替文をいくつでも提供します。
明らかに、これを高度な精度で達成することは、現在の NLP の範囲を超えている可能性がありますが、この件に関して何らかの研究が行われたことは確かです。何か仕事を知っている人がいたら、いくつかの論文を教えてくれませんか?
java - XMLファイルからヘッダーを削除する簡単な方法
別のプログラムによって生成されたファイルから非xmlタグを削除する必要があります。
ファイルは次のようなものです。
Javaで非xmlテキストを簡単に削除するにはどうすればよいですか?
nlp - 次の自然言語処理用語の詳細?
NLP の上記の機能のいずれかを実行するために使用できるライブラリはありますか?
AlchemyAPI にお金を払いたくない
nlp - 面白くない単語のリスト
[警告]これは直接プログラミングの質問ではありませんが、言語処理で頻繁に出てくるものなので、コミュニティに役立つと確信しています。
カジュアルな見た目以上にテストされた面白くない(英語の)単語の良いリストを持っている人はいますか?これには、すべての前置詞、接続詞などが含まれます。意味的な意味を持つ可能性がありますが、主語に関係なく、すべての文で頻繁に使用される単語です。私は個人的なプロジェクトのために時々自分のリストを作成しましたが、それらはその場限りのものでした。忘れてしまった言葉をどんどん追加していきます。
parsing - 文字およびテキスト処理のリソース (エンコード、正規表現、NLP)
エンコーディング、文字、テキストの基礎を学びたいです。これらを理解することは、それがログ ファイルであろうと集合知のアルゴリズムを構築するためのテキスト ソースであろうと、大量のテキスト セットを処理するために重要です。私の今の知識は、「UTF-8さえ使えば大丈夫」というようなごく基本的なことです。
高度なトピックについてすぐに学ぶ必要があるとは言いません。しかし、私は知る必要があります:
- エンコーディングに関するビットおよびバイトレベルの知識。
- 英語で使用されていない文字とアルファベット。
- マルチバイトエンコーディング。(私は中国語と日本語をある程度理解しています。そしてそれらを解析することは重要です。)
- 正規表現。
- テキスト処理のアルゴリズム。
- 自然言語の解析。
また、数学とコーパス言語学の理解も必要です。現在および将来の Web (セマンティック、インテリジェント、リアルタイム Web) には、大きなテキストの処理、解析、および分析が必要です。
いくつかの弾丸を使い始めるためのリソース (おそらく本?) を探しています。(スタック オーバーフローでは、正規表現に関する有益な議論が数多く見つかります。そのため、そのトピックに関するリソースを提案する必要はありません。)