質問のタイトルとタグを編集していただけると助かります。
私の「会話」コーパスの参加者は、ニックネームを使用して別の参加者を参照することがありますが、通常は略語またはスペルミスですが、以降は単に「ニックネーム」と呼びます. さまざまな可能なニックネームが実際にニックネームであると思うかどうかをソフトウェアに手動で伝えたいとしますが、ソフトウェアに、人を識別するハンドルと潜在的なニックネームとの間の可能な一致のリストを作成してもらいたいとします。どうすればそれを行うことができますか?
私とコーパスの背景: 私は自然言語処理の経験はありませんが、R の有能なデータ アナリストです。私のデータは 70 のチームによって作成され、それぞれが将来のある時点で発生する 100 の異なるイベントの可能性を予測しています。70 x 100 = 7000 個のテキスト ファイルが得られた結果、参加者が作成した一連の予測と、予測に含まれるコメントが含まれています。以下に、これらのテキスト ファイルの 1 つの非常に短い抜粋を貼り付けます。これは、マリ政府が MNLA との交渉に入るかどうかに関係していました。
2013/02/12 20:10: past_returns の回答 はい: (50%)
以前のプレースホルダーを入れたとき、私は多くの調査を行っていませんでした... DougLの予測により、私は多くのことをしています
02/12/2013 19:31: DougL は「はい」と答えました: (60%)
気弱なトラオレ大統領は、MNLA が領土の主張を取り下げた場合、話し合いを望んでいます。マリ軍は会談を望まないかもしれない。フランスは交渉を望んでいます。MNLA は、自律性だけが必要であると示唆しています。しかし、7週間で?
2013/02/12 10:59: past_returns はいいえと答えました: (75%)
プレースホルダー予測... http://www.irinnews.org/Report/97456/What-s-the-way-forward-for-Mali
私の最初の考え: 明らかに、一致させるために探している名前を提供することから始めることができます...上記の例では、それらは past_returns と DougL になります (ただし、上記ではニックネームは使用されていません)。ちょっとしたスペルミスをコンピューターに推測させるのはそれほど難しいことではないと思います (個人的にはどこから始めればよいかわかりませんが)。あるチームが他のチームよりもはるかに多く使用する文字列はニックネームである可能性が高いと仮定するなど、他のトリックを使用できると想像できます。ニックネームは、ずっと前に話した人よりも、最近話した人を指す可能性が高いか、この質問についてまったく話していない. また、フルネーム/スクリーンネームがコーパスで通常使用される方法と同様の方法で、文章で使用する必要があります。しかし、私は単純なアプローチについて聞くことに興味があります。