ruby-on-rails - 検索を改善するためにタグを削除する必要がありますか？

Question

レールにルビーが付いた黒点を使用しています。その正常に動作します。DBにフィードされるコンテンツは、リッチテキストエディターから取得されるため、HTMLタグがあります。これらのタグを削除して、テーブルの別のフィールドにコンテンツを保存する必要がありますか？それを使用すると、検索エンジンの精度が向上しますか。

score 2 · Accepted Answer

タグを剥がすことは決して傷つきません。ノイズが少ないほど良いです。

Nokogiriを使用すると、タグなしでドキュメントのテキストを簡単に取得できます。

require 'nokogiri'

xml = <<EOT
<xml>
  <node>This is some text.</node>
  <node>This is more text.</node>
</xml>
EOT

doc = Nokogiri::XML(xml)
puts doc.text

>> :!ruby test.rb
>> 
>>   This is some text.
>>   This is more text.
>>

Nokogiriには、隣接するテキストノードをマージするオプションがありますが、通常のRuby配列および文字列操作でも簡単に行うことができます。

score 0 · Accepted Answer

フィルターチェーン (schema.xml で構成) で HTML ストリップトークナイザーの 1 つを使用することもできます。

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.HTMLStripStandardTokenizerFactory

Nokogiri に解析ステップを追加するよりもおそらく効率的です。

ruby-on-rails - 検索を改善するためにタグを削除する必要がありますか？

2 に答える 2

Related

Reference