python - 信頼できない著者名を検索する

Question

何千もの古い文書をスキャンし、重要なデータをデータベースに入力しました。フィールドの 1 つは著者名です。

特定の著者による文書を検索する必要がありますが、多くの文書ではデータが手書きであるため、正確な名前が間違って入力されている可能性があります。

姓の最初の数文字だけを検索して、ユーザーが選択できるリストを表示することを考えました。現段階では、明確な著者が何人いるかはわかりませんが、数十万人ではなく数百人になると思います。何十万ものドキュメントがあります。より良い方法はありますか？SQL データベースの方がうまく処理できるでしょうか?

ソフトウェアは python であり、作成者ごとにドキュメントのリストが表示されます。

score 0 · Accepted Answer

リストフィールドに可能なすべての著者名を設定できるmongodbを使用できると思います。たとえば、手書きの名前「black」があり、「c」や「e」などの名前の文字を認識できず、元の名前を「black」として設定し、可能な名前のリストに「blaek」を追加できます

score 0 · Accepted Answer

Luceneの上に構築されたSolrにアクセスする Python-Solr ライブラリであるSunburntを使用できます。

Solr とは何かの抜粋:

Solr は、Apache Lucene プロジェクトによる人気のある超高速オープンソースエンタープライズ検索プラットフォームです。その主な機能には、強力な全文検索、ヒットの強調表示、ファセット検索、動的クラスタリング、データベース統合、リッチドキュメント (Word、PDF など) の処理、および地理空間検索が含まれます。Solr は非常にスケーラブルで、分散検索とインデックスレプリケーションを提供し、世界最大のインターネットサイトの多くで検索機能とナビゲーション機能を強化しています。

検索基準が何であれ、部分的なヒットや潜在的な一致など、ドキュメントの検索に必要なものがすべて提供されます。

python - 信頼できない著者名を検索する

2 に答える 2

Related

Reference