問題タブ [text-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
parsing - 自然言語処理・テキスト構造解析の起点
半構造化テキストの大きなセット (基本的には、法律文書 - 法律テキスト、それらへの補遺、条約、裁判官の決定など) を解析して処理する必要があります。私がやろうとしている最も基本的なことは、サブパートがどのように構成されているかに関する情報を抽出することです - 章、記事、小見出し、そしていくつかのメタデータ。私の質問は、誰かがこのタイプのテキスト処理の出発点を教えてくれるかどうかです。これについては多くの研究が行われていると確信していますが、私が見つけたのは主に、厳密な文法 (コードなど) で何かを解析することです。または完全に自由形式のテキスト (Google が Web ページでやろうとしているようなもの)。適切なキーワードをつかめば、Google や雑誌のデータベースでより多くの成功を収めることができると思います。ありがとう。
linux - Awk を使用して、各レコードに異なる固定幅フィールドがあるファイルを処理する
Awk を使用して処理したいレガシー システムのデータ ファイルがいくつかあります。各ファイルは、レコードのリストで構成されています。いくつかの異なるレコード タイプがあり、各レコード タイプには異なる固定幅フィールドのセットがあります (フィールド区切り文字はありません)。レコードの最初の 2 文字はタイプを示しており、これからどのフィールドが続くかがわかります。ファイルは次のようになります。
Gawk を使用してFIELDWIDTHSを設定できますが、それはファイル全体に適用されます (レコードごとにこれを設定する方法がない場合を除きます)。または、FS を "" に設定してファイルを 1 文字で処理することもできます。時間ですが、それは少し面倒です。
Awk を使用してそのようなファイルからフィールドを抽出する良い方法はありますか?
編集:はい、Perl(または他のもの)を使用できます。ただし、Awkでそれを行う賢明な方法があるかどうかを知りたいと思っています。
vim - 単語がファイルまたは特定の範囲に出現した回数を計算する方法
ファイルまたはコード ブロックで特定の関数が呼び出された回数を確認したい場合があります。どうやってそれをしますか?Vim7.2を使用しています。
などを使用する必要があると思います!wc
。
perl - 改行以外の単語以外のすべての文字を削除するにはどうすればよいですか?
次のようなファイルがあります。
それを「正規化」して、単語以外のすべての文字を削除したいと思います。私はこのようなもので終わりたいです:
現在、コマンド ラインで Linux を使用しています。使用できるワンライナーがあることを願っています。
私はこれを試しました:
しかし、これですべての改行が削除され、すべてが 1 行になりました。に改行を含めないように Perl に指示できる方法はあり\W
ますか? それとも何か他の方法がありますか?
xml - Perlの代わりにプログラムを使用したテキスト処理
次のような.plistファイルがあります。
モットーやニックネームなどの情報をplistに追加したいと思います。それらはこの形式です:
情報を追加するために、検索と置換を行うことを検討しています。ニックネームを読み取ってplistに追加するperlスクリプトを作成することもできます。
しかし、値を繰り返し処理して正しい場所に挿入できるテキスト処理プログラムはありますか?テキストプロセッサ/エディタを検索していますが、探しているものが見つかりません。
algorithm - キーワードのグループに基づいてテキストを分類しますか?
前任者の残骸から組み立てられたソフトウェアプロジェクトの要件のリストがあります。各要件は、1つ以上のカテゴリにマップする必要があります。各カテゴリは、キーワードのグループで構成されています。私がやろうとしているのは、各要件がどのカテゴリーに分類される可能性が高いかをスコアランキングするアルゴリズムを見つけることです。結果は、要件をさらに分類するための開始点として使用されます。
例として、次の要件があるとします。
システムは、顧客の指定された口座に預金を適用するものとします。
そしてカテゴリー/キーワード:
- 顧客取引:預金、預金、顧客、口座、口座
- 残高勘定:勘定、勘定、借方、貸方
- その他のカテゴリ:foo、bar
アルゴリズムで要件をカテゴリ1で最も高く、カテゴリ2で低く、カテゴリ3ではまったくスコア付けしないようにします。スコアリングメカニズムはほとんど私には関係ありませんが、カテゴリ1がカテゴリ2よりも適用される可能性がどれだけ高いかを伝える必要があります。 。
私はNLPを初めて使用するので、少し戸惑っています。私はPythonで自然言語処理を読んでいて、いくつかの概念を適用したいと思っていましたが、完全に適合するものは見当たりませんでした。私が処理しているテキストは非常に小さい(1文)ので、単純な度数分布は機能しないと思います。
python - foo を含むすべての行の最後に bar を置きます
多数の行を含むリストがあり、それぞれが主語-動詞-目的語の形式をとっています。
色分けされた有向エッジでノード間のさまざまな関係を表すネットワーク グラフをプロットするには、動詞を矢印に置き換え、各行の最後にカラー コードを配置する必要があります。
動詞の数は少ないので、それらを矢印に置き換えるには、いくつかの検索と置換コマンドを実行するだけです。ただし、その前に、行の動詞に対応するすべての行の末尾にカラー コードを配置する必要があります。Pythonを使用してこれを行いたいと思います。
これらはプログラミングにおける私の初歩的なステップなので、テキスト ファイルで読み取るコードを明示的に含めてください。
ご協力いただきありがとうございます!
algorithm - 多くのページから同様のテキストを取得するには?
多数のテキストから 1 つのテキストに最も類似した x 個のテキストを取得します。
ページをテキストに変更する方が良いかもしれません。
遅すぎるため、テキストをすべてのテキストと比較しないでください。
linux - grep でテキスト ファイルの空行を削除する
FILE
:
これで空の新しい行をすべて削除するにはどうすればよいFILE
ですか?
コマンドの出力:
FILE
:
algorithm - テキストからフレーズやキーワードを検出するアルゴリズム
約 10,000 エントリに分割された、マークアップなしの約 100 メガバイトのテキストがあります。「タグ」リストを自動生成したいと考えています。問題は、一緒にグループ化された場合にのみ意味をなす単語グループ (つまり、フレーズ) があることです。
単語を数えるだけで、非常に一般的な単語 (is、the、for、in、am など) が多数得られます。単語とその前後にある他の単語の数を数えましたが、次に何をすべきか本当にわかりません 2 語句と 3 語句に関する情報はありますが、このデータを抽出するにはどうすればよいですか?