1

半構造化テキストの大きなセット (基本的には、法律文書 - 法律テキスト、それらへの補遺、条約、裁判官の決定など) を解析して処理する必要があります。私がやろうとしている最も基本的なことは、サブパートがどのように構成されているかに関する情報を抽出することです - 章、記事、小見出し、そしていくつかのメタデータ。私の質問は、誰かがこのタイプのテキスト処理の出発点を教えてくれるかどうかです。これについては多くの研究が行われていると確信していますが、私が見つけたのは主に、厳密な文法 (コードなど) で何かを解析することです。または完全に自由形式のテキスト (Google が Web ページでやろうとしているようなもの)。適切なキーワードをつかめば、Google や雑誌のデータベースでより多くの成功を収めることができると思います。ありがとう。

4

2 に答える 2

1

自然言語ツールキットは興味深い出発点となる可能性があり、自然言語処理のすべての分野に関するリソースが豊富に用意されています。おそらく、必要以上に言語に焦点を当てています。

もう 1 つのオプションは、それほど厳密ではないパーサー ジェネレーター ライブラリ (通常はコードに使用される) を使用することです (つまり、必要に応じて大量のテキストを無視できます)。Python では、pyparsingをお勧めします。別の回答では、テキストの任意のチャンクを無視したい場合に何ができるかの簡単な例を示しました。

于 2009-08-31T17:46:53.880 に答える