0

だから、私は文字列に対して次の操作をしているテキストファイルで作業しています

     def string_operations(string):

        1) lowercase
        2) remove integers from string
        3) remove symbols
        4) stemming

この後、私はまだ次のような文字列が残っています:

  durham 28x23

私のアプローチには欠陥がありますが、文字列に数値が付加されているかどうかを識別するための適切で迅速な方法があるかどうかを知りたいと思います。

したがって、上記の例では、出力を

  durham

もう一つの例:

 21st ammendment

与える必要があります:

ammendment

では、どうすればこのようなものに対処できますか?

4

1 に答える 1

5

「数字で始まる用語を削除する」という要件がある場合は、次のようにすることができます。

def removeNumerics(s):
  return ' '.join([term for term in s.split() if not term[0].isdigit()])

これにより、文字列が空白で分割され、数字で始まらないすべての用語がスペースで結合されます。

そして、それは次のように機能します:

>>> removeNumerics('21st amendment')
'amendment'
>>> removeNumerics('durham 28x23')
'durham'

これが探しているものではない場合は、質問に明示的な例をいくつか示してください (最初の文字列と目的の結果の両方を示します)。

于 2012-05-04T19:19:58.590 に答える