0

隣接する単語を抽出しますか? (名前、通り、小川、川)

こんにちは、小川の名前を分離できるように、大量の段落リストを実行して「小川」に続く単語を抽出できる関数を探しています。

たとえば、特定の段落は次のようになります。

「現場は、クラーク クリークに沿った橋から 3 マイル上流に位置していました。」</p>

理想的な出力は単純です

クラーク クリーク

「クリーク」という単語を条件として調べて、前の単語を抽出するものである必要があります。「クラーク」だけでも機能します。

RQSlite パッケージと gsub をいじってみましたが、今のところうまくいきません。これは一般的な手順だと思います。

4

1 に答える 1

1

実際の住所を抽出している場合、これをインテリジェントに行い、結果を検証することさえできるサービスがあります: http://smartystreets.com/products/liveaddress-api/extract私はもうそこで働いていませんが。)

場所の名前については、場所が 1 つの単語であると仮定すると、単純な正規表現を試すことができます。

/(?<=\s)(\S+\s+(Creek|Street|River))/ig

確かに、私は RQSLite や gsub を使用したことはありませんが、このようなものがうまくいくと思います。

于 2013-11-15T15:10:32.363 に答える