0

会社名や個人名を含むテキスト文書がたくさんあります。上記が手動で匿名化されたテキスト文書を整列させました (名前を単一の一意の文字に置き換えました)。

このコーパスを使用して、目に見えないドキュメントの自動匿名化を実行するシステムをトレーニングしたいと考えています。つまり、単語を文字に置き換えるだけです。第一の問題は、匿名化する単語を認識することであり、第二の問題は、単語を一意の文字に置き換えることです。私は二次問題を行うことができます。

Python が推奨されており、sklearn には必要なツールが含まれている必要があると考えています。

これについてどうすればいいですか?教師あり学習に関するスタックオーバーフローに関する記事はたくさんありますが、それらが私の状況と一致するかどうかはわかりません。これは解決するのがかなり簡単な問題だと思います。必ずしも完全な解決策を探しているわけではありませんが、いくつかの開始点があればよいでしょう。また、どのアルゴリズムがよりうまく機能するかについての洞察も大歓迎です。

4

0 に答える 0