複数のドキュメントで言及されている人の名前の頻度を見つけて、次のようにファイル (peopleNames.txt) に書き込む Java プログラムから出力されたテキスト ファイルがあります。
article1location\article1 name1:countofname1# name2:countofname2# name3:countofname3# ...
article2location\article2 name1:countofname1# name2:countofname2# name3:countofname3# ...
article3location\article3 name1:countofname1# name2:countofname2# name3:countofname3# ...
名前は、各記事で特定された人の名前と、記事に登場する頻度に対応しており、約 90,000 の記事があります。約 40 の異なるタイトルとその略語 (Mr.、Mrs.、President、Sir など) のリストを含む別のテキスト ファイル (titles.lst) があります。ファイルでこのリストを使用して検索したいと思います。これらの役職を peopleNames.txt から削除します。私はJavaが初めてで、タイトルの削除に対応するためにpeopleNames.txtを生成したJavaの元のコードを変更する必要があるため、Javaでそれを行う方法がわかりません。
私のプログラムは、John Smith 氏などの人物を John Smith とは異なる人物として識別しているため、肩書を削除すると、記事で言及されている名前をより正確に数えることができます。
助けてくれてありがとう。