4

私は、英国の公共部門からのオープン ガバメント データを使用して競合他社の分析を行っています。しかし、私の結果にはいくつかの異常があります。契約を会社名でグループ化すると、会社のスペルが間違っていたり、名前が異なっていたりするなど、多くの問題があります。たとえば、HP、Hewlett-Packard、Hewlett-Packard Limited、ibm、ibm UK、ibm UK limited などです。問題は、既にコードを実行し、結果を手動で修正したことです。コードの一部を変更したので、再度実行する必要があります。しかし、コストがかかるため、同じことをやり直すことはできません。現時点では、これらの会社をアルファベット順に並べ替え、最初の数単語が一致したときに統合する一般的なルールを作成することを考えています。ただし、HP と Hewlett-Packard は異なるため、完全に証明されたアプローチではありません。誰かが以前に同様の種類の仕事をしたことがありますか、または私に彼らの仕事を紹介してください。私は感謝されます。ありがとう。

4

1 に答える 1

4

これは私が過去に取り組んだ問題ですが、別のドメインで行いました。企業とその略語のリストを提供するオンライン ソースから始めて、それらをスクレイピングし、何らかの形式 (ハッシュマップなど) で保存することができます。これで、略語を使用して、オリジナルと略語の両方に一致する部分文字列を見つけることができます。いくつかのしきい値を持つ単語 (90% としましょう)。

あなたのケースに合わせて、 JSOUP を使用してこのサイトhttp://www.abbreviations.com/acronyms/FIRMSのスクレイピングを開始できます。これには、会社の略語の非常に豊富な情報源があります。このリストで十分でない場合は、他のソースを探す必要があります。お役に立てれば。

于 2015-04-24T18:25:46.690 に答える