ノート
以下の質問は、2003 年の一部のコードについて 2008 年に尋ねられました。OP の更新が示すように、この投稿全体は 2008 年のビンテージ アルゴリズムによって廃止されており、歴史的な好奇心としてのみここに残っています。
C/C++ で、大文字と小文字を区別しない部分文字列検索を高速に行う必要があります。私の要件は次のとおりです。
- strstr() のように動作する必要があります (つまり、一致点へのポインターを返します)。
- 大文字と小文字を区別しない必要があります (doh)。
- 現在のロケールをサポートする必要があります。
- Windows (MSVC++ 8.0) で利用できるか、Windows に簡単に移植できる (つまり、オープン ソース ライブラリから) 必要があります。
これが私が使用している現在の実装です(GNU Cライブラリから取得):
/* Return the offset of one string within another.
Copyright (C) 1994,1996,1997,1998,1999,2000 Free Software Foundation, Inc.
This file is part of the GNU C Library.
The GNU C Library is free software; you can redistribute it and/or
modify it under the terms of the GNU Lesser General Public
License as published by the Free Software Foundation; either
version 2.1 of the License, or (at your option) any later version.
The GNU C Library is distributed in the hope that it will be useful,
but WITHOUT ANY WARRANTY; without even the implied warranty of
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
Lesser General Public License for more details.
You should have received a copy of the GNU Lesser General Public
License along with the GNU C Library; if not, write to the Free
Software Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA
02111-1307 USA. */
/*
* My personal strstr() implementation that beats most other algorithms.
* Until someone tells me otherwise, I assume that this is the
* fastest implementation of strstr() in C.
* I deliberately chose not to comment it. You should have at least
* as much fun trying to understand it, as I had to write it :-).
*
* Stephen R. van den Berg, berg@pool.informatik.rwth-aachen.de */
/*
* Modified to use table lookup instead of tolower(), since tolower() isn't
* worth s*** on Windows.
*
* -- Anders Sandvig (anders@wincue.org)
*/
#if HAVE_CONFIG_H
# include <config.h>
#endif
#include <ctype.h>
#include <string.h>
typedef unsigned chartype;
char char_table[256];
void init_stristr(void)
{
int i;
char string[2];
string[1] = '\0';
for (i = 0; i < 256; i++)
{
string[0] = i;
_strlwr(string);
char_table[i] = string[0];
}
}
#define my_tolower(a) ((chartype) char_table[a])
char *
my_stristr (phaystack, pneedle)
const char *phaystack;
const char *pneedle;
{
register const unsigned char *haystack, *needle;
register chartype b, c;
haystack = (const unsigned char *) phaystack;
needle = (const unsigned char *) pneedle;
b = my_tolower (*needle);
if (b != '\0')
{
haystack--; /* possible ANSI violation */
do
{
c = *++haystack;
if (c == '\0')
goto ret0;
}
while (my_tolower (c) != (int) b);
c = my_tolower (*++needle);
if (c == '\0')
goto foundneedle;
++needle;
goto jin;
for (;;)
{
register chartype a;
register const unsigned char *rhaystack, *rneedle;
do
{
a = *++haystack;
if (a == '\0')
goto ret0;
if (my_tolower (a) == (int) b)
break;
a = *++haystack;
if (a == '\0')
goto ret0;
shloop:
;
}
while (my_tolower (a) != (int) b);
jin:
a = *++haystack;
if (a == '\0')
goto ret0;
if (my_tolower (a) != (int) c)
goto shloop;
rhaystack = haystack-- + 1;
rneedle = needle;
a = my_tolower (*rneedle);
if (my_tolower (*rhaystack) == (int) a)
do
{
if (a == '\0')
goto foundneedle;
++rhaystack;
a = my_tolower (*++needle);
if (my_tolower (*rhaystack) != (int) a)
break;
if (a == '\0')
goto foundneedle;
++rhaystack;
a = my_tolower (*++needle);
}
while (my_tolower (*rhaystack) == (int) a);
needle = rneedle; /* took the register-poor approach */
if (a == '\0')
break;
}
}
foundneedle:
return (char*) haystack;
ret0:
return 0;
}
このコードを高速化できますか、またはより良い実装を知っていますか?
注: GNU C ライブラリにの新しい実装が追加されたstrstr()
ことに気付きましたが、大文字と小文字を区別しないように簡単に変更できるかどうか、または実際に古いライブラリよりも高速であるかどうかはわかりません (私の場合)。また、古い実装がまだワイド文字列に使用されていることに気付いたので、理由を知っている人は共有してください。
アップデート
明確にするために (まだ作成していない場合に備えて)、この関数は作成していません。これは GNU C ライブラリの一部です。大文字と小文字を区別しないように変更しただけです。
strcasestr()
また、他のソース (OpenBSD、FreeBSD など) からの他の実装についてのヒントとチェックアウトに感謝します。それは行く道のようです。上記のコードは 2003 年のものです。そのため、より良いバージョンが利用可能になることを期待してここに投稿しました。:)