私は、さまざまな Web ページをクロールし、分析を行い、クエリに答える必要がある趣味のプロジェクトに取り組んでいます。たとえば、Web ページには次のようなデータを含めることができます。
強盗で1人負傷。
昨夜の強盗未遂事件で2人が負傷した。
警察は、強盗未遂で 3 人を負傷させた人物を探しています。
これらの事件のそれぞれで何人の人が負傷したかなどの質問に答えることに興味があります. 私の質問は、どうすればそれができるかです。このタスクを実行するのに役立つライブラリはありますか?
スタンフォードCoreNLPデモをお試しください。品詞タガーとして使用されます。XML出力ときれいな印刷出力を生成し、「強盗で負傷した1人の男性」の「1人」を数字で表示します。試してみてください。これは本当に役に立ちます。次に、JavaでDOMパーサーを使用してXMLファイルを解析し、ファイル内の「NER」タグをチェックして「1つ」を簡単に分離し、それが数値かどうかを確認できます。
私はあなたがopenNLPに足を踏み入れていると思います。質問応答システムに必要な回答を得るには、独自のアルゴリズムを用意する必要があります。以下はあなたを助けるかもしれません
Apache オープン nlp --> http://opennlp.apache.org/
Apache Jena --> http://jena.apache.org/
スタンフォード オープン nlp --> http://nlp.stanford.edu/software/corenlp.shtml
他にもいくつかあると思いますが、これらは非常に人気のあるものです。
Jenaをチェックしてください。あなたが探しているものと思われます