次の構成の文を検索して、Web からステートメントを収集しようとしています。
[subject] [are/is] [rest of sentence].
そこで例えば「コンピュータは【文末】」で始まる文を全て検索して集めたいと思います。その結果、次のような結果になる可能性があります。
- コンピューターは面倒です。
- コンピュータは素晴らしいです。
- コンピュータは高価です。
- 等。
集めたいのは文頭からピリオドまで(できれば出現率順)です。
既存の検索エンジンでこれを行う方法はありますか、それともボット/スクレーパーを構築する必要がありますか?