次の段落構造からこのタイプの情報を抽出しようとしています。
women_ran men_ran kids_ran walked
1 2 1 3
2 4 3 1
3 6 5 2
text = ["On Tuesday, one women ran on the street while 2 men ran and 1 child ran on the sidewalk. Also, there were 3 people walking.", "One person was walking yesterday, but there were 2 women running as well as 4 men and 3 kids running.", "The other day, there were three women running and also 6 men and 5 kids running on the sidewalk. Also, there were 2 people walking in the park."]
spaCy
NLP ライブラリとしてPython を使用しています。私は NLP の仕事を始めたばかりで、そのような文からこの表形式の情報を抽出する最良の方法について、何らかのガイダンスを期待しています。
走っている人や歩いている人がいるかどうかを識別するだけの問題であればsklearn
、分類モデルに適合させるために使用しますが、抽出する必要がある情報は明らかにそれよりも詳細です (サブカテゴリと値を取得しようとしています)各)。ガイダンスをいただければ幸いです。