python - 非構造化テキストから構造化データへ

Question

Googleカレンダーのクイック追加ボタンと同様の方法で構造化されていないテキストを構造化することに関する参考文献（チュートリアル、本、学術文献）を探しています。

これが NLP のカテゴリに入る可能性があることは理解していますが、「リーバイスジーンズサイズ 32 A0b293」のようなものから移行するプロセスにのみ関心があります。

to: ブランド: リーバイス, サイズ: 32, カテゴリー: ジーンズ, コード: A0b293

字句解析と機械学習技術の組み合わせになると思います。

私はむしろ言語にとらわれませんが、押された場合は、python、Matlab、または C++ の参照を好むでしょう

ありがとう

score 7 · Accepted Answer

テキストのソース (ウェブ? ユーザー入力?)、ドメイン (単なる衣服ですか?)、潜在的なフォーマットと語彙について、より多くの情報を提供する必要があります。

最悪のシナリオを想定して、NLP の学習を開始する必要があります。非常に優れた無料の書籍として、NLTK のドキュメントがあります: http://www.nltk.org/book。また、Python の入門書としても非常に優れており、SW は無料です (さまざまな用途に使用できます)。注意: NLP は難しいです。いつもうまくいくとは限りません。楽しくない時もある。最先端の技術は、あなたが想像するどこにもありません。

より良いシナリオ (テキストが半構造化されている) を想定すると、優れた無料ツールはpyparsingです。本があり、たくさんの例があり、結果のコードは非常に魅力的です。

これが役立つことを願っています...

score 1 · Accepted Answer

Toby Segaran の "Collective Intelligence" を見てください。この基本を 1 つの章で扱ったことを覚えているようです。

score 1 · Accepted Answer

調査の結果、この問題は一般に情報抽出と呼ばれていることがわかり、いくつかの論文を集めて Mendeley Collection に保存しました。

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

また、Tai Weiss が NLTK for python は良い出発点であると指摘したように、本のこの章では、特に情報抽出に注目しています。

score 0 · Accepted Answer

引用した例のようなケースでのみ作業している場合は、100% 予測可能で、本番環境で発生する可能性のあるケースの 90% をカバーする手動のルールベースを使用することをお勧めします..

考えられるすべてのブランドとカテゴリのリストを列挙し、入力文字列のどちらがどちらであるかを検出できます。通常、これら 2 つのリストにはほとんど共通部分がありません。

他の 2 つは、正規表現を使用して簡単に検出および抽出できます。(1～3桁の数字は必ずサイズ等)

あなたの問題領域は、統計学習などのより負荷の高いアプローチを正当化するのに十分な大きさではないようです。

python - 非構造化テキストから構造化データへ

4 に答える 4

Related

Reference