大きなテキスト エントリを含む main_text というフィールドがあります。
新しいコレクションを作成してデータのインデックスを再作成したいのですが、このフィールドからすべてのメール アドレスを email_fields という新しい特別なフィールドに抽出したいと考えています。
それを行うための最良の方法は何ですか?
使用するハンドラは? DIH? 別 ?この新しいフィールドの型は何ですか?
DataImportHandler を使用するには、次のようなものをdata-config.xml
ファイルに追加する必要があります。
<field column="email_fields" regex="(/S+@/S+)" sourceColName="main_text"/>
これにより、正規表現に一致する電子メール アドレスが検索されます/S+@/S+
。この正規表現は、実際の使用に適したものに変更する必要があります。
フィールドのタイプは、検索方法によって異なりますが、おそらくstring
ortext_general
である必要があります。各ドキュメントに複数の電子メールがあると予想される場合は、複数の値を持つ必要があります。