c# - 複数の空白を1つの空白に置き換える方法

Question

次のような文字列があるとします。

"Hello     how are   you           doing?"

複数のスペースを1つのスペースに変換する機能が欲しいのですが。

だから私は得るでしょう：

"Hello how are you doing?"

正規表現を使用するか、電話をかけることができることを知っています

string s = "Hello     how are   you           doing?".replace("  "," ");

ただし、連続するすべての空白が1つだけに置き換えられるようにするには、これを複数回呼び出す必要があります。

このための組み込みのメソッドはすでにありますか？

score 206 · Accepted Answer

206

string cleanedString = System.Text.RegularExpressions.Regex.Replace(dirtyString,@"\s+"," ");

于 2009-08-14T19:57:50.390 に答える

score 53 · Accepted Answer

この質問は、他のポスターがそれを明らかにしたほど単純ではありません（そして私が最初に信じていたように）-質問は必要なほど正確ではないためです。

「スペース」と「ホワイトスペース」には違いがあります。スペースのみを意味する場合は、の正規表現を使用する必要があり" {2,}"ます。空白を意味する場合、それは別の問題です。すべての空白をスペースに変換する必要がありますか？開始時と終了時のスペースはどうなりますか？

以下のベンチマークでは、スペースだけを気にし、最初と最後であっても、単一のスペースには何もしたくないと仮定しました。

ほとんどの場合、パフォーマンスよりも正確さが重要であることに注意してください。Split / Joinソリューションが先頭/末尾の空白（単一のスペースだけでも）を削除するという事実は、指定された要件（もちろん不完全な場合もあります）に関する限り正しくありません。

ベンチマークはMiniBenchを使用します。

using System;
using System.Text.RegularExpressions;
using MiniBench;

internal class Program
{
    public static void Main(string[] args)
    {

        int size = int.Parse(args[0]);
        int gapBetweenExtraSpaces = int.Parse(args[1]);

        char[] chars = new char[size];
        for (int i=0; i < size/2; i += 2)
        {
            // Make sure there actually *is* something to do
            chars[i*2] = (i % gapBetweenExtraSpaces == 1) ? ' ' : 'x';
            chars[i*2 + 1] = ' ';
        }
        // Just to make sure we don't have a \0 at the end
        // for odd sizes
        chars[chars.Length-1] = 'y';

        string bigString = new string(chars);
        // Assume that one form works :)
        string normalized = NormalizeWithSplitAndJoin(bigString);


        var suite = new TestSuite<string, string>("Normalize")
            .Plus(NormalizeWithSplitAndJoin)
            .Plus(NormalizeWithRegex)
            .RunTests(bigString, normalized);

        suite.Display(ResultColumns.All, suite.FindBest());
    }

    private static readonly Regex MultipleSpaces = 
        new Regex(@" {2,}", RegexOptions.Compiled);

    static string NormalizeWithRegex(string input)
    {
        return MultipleSpaces.Replace(input, " ");
    }

    // Guessing as the post doesn't specify what to use
    private static readonly char[] Whitespace =
        new char[] { ' ' };

    static string NormalizeWithSplitAndJoin(string input)
    {
        string[] split = input.Split
            (Whitespace, StringSplitOptions.RemoveEmptyEntries);
        return string.Join(" ", split);
    }
}

いくつかのテスト実行：

c:\Users\Jon\Test>test 1000 50
============ Normalize ============
NormalizeWithSplitAndJoin  1159091 0:30.258 22.93
NormalizeWithRegex        26378882 0:30.025  1.00

c:\Users\Jon\Test>test 1000 5
============ Normalize ============
NormalizeWithSplitAndJoin  947540 0:30.013 1.07
NormalizeWithRegex        1003862 0:29.610 1.00


c:\Users\Jon\Test>test 1000 1001
============ Normalize ============
NormalizeWithSplitAndJoin  1156299 0:29.898 21.99
NormalizeWithRegex        23243802 0:27.335  1.00

ここで、最初の数値は反復回数、2番目の数値は所要時間、3番目の数値はスケーリングされたスコアであり、1.0が最良です。

これは、少なくとも一部のケース（これを含む）では、正規表現が分割/結合ソリューションよりもパフォーマンスが優れている場合があり、場合によっては非常に大きな差があることを示しています。

ただし、「すべての空白」要件に変更すると、分割/結合が優先されるように見えます。よくあることですが、悪魔は詳細に宿っています...

score 19 · Accepted Answer

正規表現が最も簡単な方法です。正規表現を正しい方法で記述すれば、複数の呼び出しは必要ありません。

これを次のように変更します。

string s = System.Text.RegularExpressions.Regex.Replace(s, @"\s{2,}", " ");

score 18 · Accepted Answer

既存の回答は問題ありませんが、機能しないアプローチを 1 つ指摘したいと思います。

public static string DontUseThisToCollapseSpaces(string text)
{
    while (text.IndexOf("  ") != -1)
    {
        text = text.Replace("  ", " ");
    }
    return text;
}

これは永久にループする可能性があります。理由を推測したい人はいますか？（数年前にニュースグループの質問として尋ねられたときに初めてこれに出くわしました...誰かが実際に問題として遭遇しました。）

score 5 · Accepted Answer

Felipe Machado による高速な余分な空白除去ツール。(複数のスペースを削除するために RW で変更)

static string DuplicateWhiteSpaceRemover(string str)
{
    var len = str.Length;
    var src = str.ToCharArray();
    int dstIdx = 0;
    bool lastWasWS = false; //Added line
    for (int i = 0; i < len; i++)
    {
        var ch = src[i];
        switch (ch)
        {
            case '\u0020': //SPACE
            case '\u00A0': //NO-BREAK SPACE
            case '\u1680': //OGHAM SPACE MARK
            case '\u2000': // EN QUAD
            case '\u2001': //EM QUAD
            case '\u2002': //EN SPACE
            case '\u2003': //EM SPACE
            case '\u2004': //THREE-PER-EM SPACE
            case '\u2005': //FOUR-PER-EM SPACE
            case '\u2006': //SIX-PER-EM SPACE
            case '\u2007': //FIGURE SPACE
            case '\u2008': //PUNCTUATION SPACE
            case '\u2009': //THIN SPACE
            case '\u200A': //HAIR SPACE
            case '\u202F': //NARROW NO-BREAK SPACE
            case '\u205F': //MEDIUM MATHEMATICAL SPACE
            case '\u3000': //IDEOGRAPHIC SPACE
            case '\u2028': //LINE SEPARATOR
            case '\u2029': //PARAGRAPH SEPARATOR
            case '\u0009': //[ASCII Tab]
            case '\u000A': //[ASCII Line Feed]
            case '\u000B': //[ASCII Vertical Tab]
            case '\u000C': //[ASCII Form Feed]
            case '\u000D': //[ASCII Carriage Return]
            case '\u0085': //NEXT LINE
                if (lastWasWS == false) //Added line
                {
                    src[dstIdx++] = ' '; // Updated by Ryan
                    lastWasWS = true; //Added line
                }
                continue;
            default:
                lastWasWS = false; //Added line 
                src[dstIdx++] = ch;
                break;
        }
    }
    return new string(src, 0, dstIdx);
}

ベンチマークは...

|                           | Time  |   TEST 1    |   TEST 2    |   TEST 3    |   TEST 4    |   TEST 5    |
| Function Name             |(ticks)| dup. spaces | spaces+tabs | spaces+CR/LF| " " -> " "  | " " -> " " |
|---------------------------|-------|-------------|-------------|-------------|-------------|-------------|
| SwitchStmtBuildSpaceOnly  |   5.2 |    PASS     |    FAIL     |    FAIL     |    PASS     |    PASS     |
| InPlaceCharArraySpaceOnly |   5.6 |    PASS     |    FAIL     |    FAIL     |    PASS     |    PASS     |
| DuplicateWhiteSpaceRemover|   7.0 |    PASS     |    PASS     |    PASS     |    PASS     |    PASS     |
| SingleSpacedTrim          |  11.8 |    PASS     |    PASS     |    PASS     |    FAIL     |    FAIL     |
| Fubo(StringBuilder)       |    13 |    PASS     |    FAIL     |    FAIL     |    PASS     |    PASS     |
| User214147                |    19 |    PASS     |    PASS     |    PASS     |    FAIL     |    FAIL     | 
| RegExWithCompile          |    28 |    PASS     |    FAIL     |    FAIL     |    PASS     |    PASS     |
| SwitchStmtBuild           |    34 |    PASS     |    FAIL     |    FAIL     |    PASS     |    PASS     |
| SplitAndJoinOnSpace       |    55 |    PASS     |    FAIL     |    FAIL     |    FAIL     |    FAIL     |
| RegExNoCompile            |   120 |    PASS     |    PASS     |    PASS     |    PASS     |    PASS     |
| RegExBrandon              |   137 |    PASS     |    FAIL     |    PASS     |    PASS     |    PASS     |

ベンチマークノート: リリースモード、デバッガー接続なし、i7 プロセッサ、平均 4 回の実行、短い文字列のみテスト済み

SwitchStmtBuildSpaceOnly はFelipe Machado 2015 によって作成され、Sunsetquest によって変更されました

Felipe Machado 2015 による InPlaceCharArraySpaceOnly およびSunsetquest による変更

SwitchStmtBuild はFelipe Machado 2015 によって作成され、Sunsetquest によって変更されました

SwitchStmtBuild2 はFelipe Machado 2015 によって作成され、Sunsetquest によって変更されました

David S 2013によるSingleSpacedTrim

Fubo (StringBuilder) by fubo 2014

SplitAndJoinOnSpace by Jon Skeet 2009

RegExWithCompile by Jon Skeet 2009

User214147 by user214147

Brandonによる RegExBrandon

Tim Hoolihanによる RegExNoCompile

ベンチマークコードは Github にあります

score 5 · Accepted Answer

これが私が使用するソリューションです。RegEx と String.Split なし。

public static string TrimWhiteSpace(this string Value)
{
    StringBuilder sbOut = new StringBuilder();
    if (!string.IsNullOrEmpty(Value))
    {
        bool IsWhiteSpace = false;
        for (int i = 0; i < Value.Length; i++)
        {
            if (char.IsWhiteSpace(Value[i])) //Comparion with WhiteSpace
            {
                if (!IsWhiteSpace) //Comparison with previous Char
                {
                    sbOut.Append(Value[i]);
                    IsWhiteSpace = true;
                }
            }
            else
            {
                IsWhiteSpace = false;
                sbOut.Append(Value[i]);
            }
        }
    }
    return sbOut.ToString();
}

だからあなたはできる：

string cleanedString = dirtyString.TrimWhiteSpace();

score 4 · Accepted Answer

何か違うものを思いついたように見えるので、私が使用しているものを共有しています。私はこれをしばらく使用してきましたが、私にとっては十分に高速です。それが他のものとどのように重なっているのかわからない。私はそれを区切りファイルライターで使用し、一度に1フィールドずつ大きなデータテーブルを実行します。

    public static string NormalizeWhiteSpace(string S)
    {
        string s = S.Trim();
        bool iswhite = false;
        int iwhite;
        int sLength = s.Length;
        StringBuilder sb = new StringBuilder(sLength);
        foreach(char c in s.ToCharArray())
        {
            if(Char.IsWhiteSpace(c))
            {
                if (iswhite)
                {
                    //Continuing whitespace ignore it.
                    continue;
                }
                else
                {
                    //New WhiteSpace

                    //Replace whitespace with a single space.
                    sb.Append(" ");
                    //Set iswhite to True and any following whitespace will be ignored
                    iswhite = true;
                }  
            }
            else
            {
                sb.Append(c.ToString());
                //reset iswhitespace to false
                iswhite = false;
            }
        }
        return sb.ToString();
    }

score 4 · Accepted Answer

すでに指摘したように、これは正規表現で簡単に実行できます。先頭/末尾の空白を取り除くために、それに .trim() を追加することをお勧めします。

score 2 · Accepted Answer

VB.NET

Linha.Split(" ").ToList().Where(Function(x) x <> " ").ToArray

C#

Linha.Split(" ").ToList().Where(x => x != " ").ToArray();

LINQ = D のパワーをお楽しみください

score 1 · Accepted Answer

1

Regex regex = new Regex(@"\W+");
string outputString = regex.Replace(inputString, " ");

于 2009-08-14T19:59:15.847 に答える

score 0 · Accepted Answer

0

最小の解決策：

var regExp=/\s+/g,
newString=oldString.replace(regExp,' ');

于 2009-08-26T10:43:52.257 に答える

score 0 · Accepted Answer

これを試すことができます：

    /// <summary>
    /// Remove all extra spaces and tabs between words in the specified string!
    /// </summary>
    /// <param name="str">The specified string.</param>
    public static string RemoveExtraSpaces(string str)
    {
        str = str.Trim();
        StringBuilder sb = new StringBuilder();
        bool space = false;
        foreach (char c in str)
        {
            if (char.IsWhiteSpace(c) || c == (char)9) { space = true; }
            else { if (space) { sb.Append(' '); }; sb.Append(c); space = false; };
        }
        return sb.ToString();
    }

score -1 · Accepted Answer

これを行う方法は組み込まれていません。これを試すことができます：

private static readonly char[] whitespace = new char[] { ' ', '\n', '\t', '\r', '\f', '\v' };
public static string Normalize(string source)
{
   return String.Join(" ", source.Split(whitespace, StringSplitOptions.RemoveEmptyEntries));
}

これにより、先頭と末尾の空白が削除され、内部の空白が 1 つの空白文字にまとめられます。本当にスペースのみを縮小したい場合は、正規表現を使用したソリューションの方が優れています。それ以外の場合は、このソリューションの方が優れています。( Jon Skeet による分析を参照してください。)

c# - 複数の空白を1つの空白に置き換える方法

16 に答える 16

Related

Reference