私は NLP (自然言語処理) への新規参入者です。スタートアップ プロジェクトとして、言い換え認識機能 (2 つの類似した文を認識できるシステム) を開発しています。レベル、すなわち、レキシカル、シンタックス、セマンティックレキシカルレベルでは、コサイン類似度、マッチング係数、ジャカード係数などの複数の類似度測定があります.これらの測定には、シェフィールド大学によって開発されたsimMetricsパッケージを使用しています..これは、さまざまな類似性測定のための素晴らしいパッケージです。多くの類似性測定が含まれています。しかし、レーベンシュタイン距離とジャロウィンクラー距離測定の場合、コードは *文字レベルのみです*のみ.文レベルでコードが必要です(つまり、文字単位ではなく単一の単語を単位と見なします)。また、マンハッタン距離のコードはSimMetricsにはありません...必要なコードを開発するための提案を専門家に依頼します(または) 上記の手段の文レベルでのコードを提供してください。
私を助けてくれたあなたの時間と努力に、前もって感謝します。