1

次の問題があります。単語とそれに対応する補題を含む辞書 (ドイツ語) を作成しました。例: "Lagerbestände", "Lager-bestand"; "Wohnhauser"、"Wohn-haus"; 「バーンホフ」、「バーンホフ」

私は今テキストを持っており、すべての単語の補題をチェックしたいと思っています。「Restbestände」など、辞書にない単語が表示されることがあります。しかし、「bestände」の補題、私たちはすでにそれを知っています. したがって、dicti では不明な単語の最初の部分を取得し、これを見出し語化された 2 番目の部分に追加して、これを出力 (または返します) したいと考えています。例: "Restbestände" --> "Rest-bestand". (「bestand」は「Lagerbestände」の補題から取られています)

以下をコーディングしました。

for limit in range(1, len(Word)): 
    for k, v in dicti.iteritems():
        if re.search('[\w]*'+Word[limit:], k, re.IGNORECASE) != None:
            if '-' in v:
                tmp = v.find('-')
                end = v[tmp:]
                end = re.sub(ur'[-]',"", end)
                Word = Word[:limit] + '-' + end `

しかし、私は2つの問題を抱えています:

  1. 単語の最後には、毎回「 」と出力されます。どうすればこれを回避できますか?
  2. 単語の 2 番目の部分が正しくない場合があります。論理エラーがあるはずです。

でも; これをどのように解決しますか?

4

1 に答える 1