Ремонт принтеров, сканнеров, факсов и остальной офисной техники


назад Оглавление вперед




[258]

очевидно, o{Ti) = 0 и q = 0; в обоих случаях второе утверждение выполнено. Наконец, если второе утверждение верно для некоторого г < п, то, очевидно, первое утверждение верно для г+1. Это завершает индукцию и доказательство.

Упражнения

34.4-1

Найдите префикс-функцию для строки ababbabbababbababbabb. 34.4-2

Укажите верхнюю оценку на размер множества 7Г*[д] (как функцию от q) и покажите, что ваша оценка неулучшаема. 34.4-3

Как можно найти все вхождения образца Р в текст Г, зная префикс-функцию строки РТ (конкатенация Р и Г)? 34.4-4

Покажите, что в алгоритме KMP-Matcher можно в строке 7 (но не в строке 12) заменить тт на тт, где функция тт определена так:

тгМ

0,если 7г[д] = 0;

тг[7г[д]], если n[q] ф 0 и P[n[q] + 1] = P[q + 1]; тг[д], если тг[д] ф 0 и P[n[q] + 1] ф P[q + 1].

Почему можно сказать, что такая модификация алгоритма KMP-Matcher является его усовершенствованием? 34.4-5

Укажите работающий за линейное время алгоритм, выясняющий, является ли данная строка Г циклической перестановкой строки Т (например, строки arc и саг получаются одна из другой циклической перестановкой).

34.4-6

Разработайте эффективный алгоритм, вычисляющий функцию перехода 8 для конечного автомата, ищущего подстроку Р[1..т] в строке символов алфавита £. Ваш алгоритм должен работать за время 0(m\T<\). (Указание. Докажите, что S(q,a) = S(Tr[q],a), если q = m или P[q + 1] ф а.)

34.5. Алгоритм Бойера - Мура

Если образец Р длинный, а алфавит £ достаточно велик, то наиболее эффективным алгоритмом поиска подстрок является, видимо, следующий алгоритм, изобретенный Бойером (Robert S. Boyer) и Муром (J. Strother Moore):


Boyer-Moore-Matcher(Т,Р,\Sigma)

1п \gets length[Т]

2m \gets length[Р]

3\lambda \gets Compute-Last-Occurrence-Function(P,m,\Sigma)

4\gamma \gets Compute-Good-Svrff ix-Function(P,m)

5s \gets 0

6while s \leqslant n-m

7do j \gets m

8while j>0 and P[j]=T[s+j]

9do j \gets j-1

10if j=0

11then print Образец входит со сдвигом s

12s \gets s+\gamma[0]

13else s \gets s+\max(\gamma[j],j-\lambda[T[s+j]])

Если не обращать внимания на загадочные А и 7, этот алгоритм очень похож на простейший алгоритм поиска подстрок. В самом деле, если мы закомментируем строки 3-4 и заменим строки 12-13 на

12s \gets s+1

13else s \gets s+1,

то получится в точности простейший алгоритм разд. 34.1, с той единственной разницей, что сравнение Р[1..то] и T[s+l..s + то] идет справа налево, а не слева направо.

Алгоритм Бойера - Мура вносит в простейший алгоритм со сравнением справа налево два усовершенствования, называемые «эвристикой стоп-символа» и «эвристикой безопасного суффикса» (см. рис. 34.11). Эти эвристики позволяют не рассматривать некоторые (на практике - весьма многие) значения сдвига s. Обе эвристики действуют независимо и используются одновременно. Если при проверке сдвига s обнаруживается, что подстрока T[s + l..s + то] не совпадает с образцом, то каждая из эвристик указывает значение, на которое можно увеличить s, не опасаясь пропустить допустимый сдвиг (это j - X[T[s + j]] для эвристики стоп-символа и для эвристики безопасного суффикса); алгоритм Бойера - Мура выбирает из двух сдвигов больший.

34.5.1. Эвристика стоп-символа

Стоп-символ, соответствующий данному сдвигу образца, - это первый справа символ в тексте, отличный от соответствующего символа в образце. Эвристика стоп-символа предлагает попробовать новое значение сдвига, исходя из того, где в образце встречается стоп-символ (если вообще встречается). В наиболее удачном случае стоп-символ выявляется при первом же сравнении (то есть


Рис. 34.11, занимающий целую страницу. Переводы текстов на рисунке: bad character - стоп-символ, good suffix - безопасный суффикс.

Подпись:

Рис. 34.11. Эвристики Бойера - Мура (мы ищем в тексте подстроку reminiscence), (а) При сравнении сдвинутого на s образца с текстом (справа налево) выяснилось, что две крайние правые буквы совпадают (они образуют «безопасный суффикс» се), а третья справа буква в образце - не такая, как в тексте (в тексте на этом месте стоит «стоп-символ» i: на нем сравнение строк обрывается), (б) Эвристика стоп-символа предлагает сдвинуть образец вправо на такое расстояние, чтобы стоп-символ в тексте оказался напротив крайнего правого вхождения этого символа в образец. В нашем случае это означает сдвиг на 4 позиции. Если стоп-символа в образце вообще нет, то образец надо полностью задвинуть за стоп-символ текста; если стоп-символ в образце встречается правее стоп-символа в тексте, то эвристика стоп-символа ничего полезного не предлагает (даёт отрицательный сдвиг, который будет проигнорирован алгоритмом), (в) Эвристика безопасного суффикса предлагает сдвинуть образец вправо настолько, чтобы ближайшее (если смотреть справа налево) вхождение безопасного суффикса в образец оказалось напротив безопасного суффикса в тексте. В нашем примере это означает сдвиг на 3 позиции. Алгоритм Бойера - Мура выбирает больший из двух рекомендуемых сдвигов (в нашем случае - сдвиг на 4).



[стр.Начало] [стр.1] [стр.2] [стр.3] [стр.4] [стр.5] [стр.6] [стр.7] [стр.8] [стр.9] [стр.10] [стр.11] [стр.12] [стр.13] [стр.14] [стр.15] [стр.16] [стр.17] [стр.18] [стр.19] [стр.20] [стр.21] [стр.22] [стр.23] [стр.24] [стр.25] [стр.26] [стр.27] [стр.28] [стр.29] [стр.30] [стр.31] [стр.32] [стр.33] [стр.34] [стр.35] [стр.36] [стр.37] [стр.38] [стр.39] [стр.40] [стр.41] [стр.42] [стр.43] [стр.44] [стр.45] [стр.46] [стр.47] [стр.48] [стр.49] [стр.50] [стр.51] [стр.52] [стр.53] [стр.54] [стр.55] [стр.56] [стр.57] [стр.58] [стр.59] [стр.60] [стр.61] [стр.62] [стр.63] [стр.64] [стр.65] [стр.66] [стр.67] [стр.68] [стр.69] [стр.70] [стр.71] [стр.72] [стр.73] [стр.74] [стр.75] [стр.76] [стр.77] [стр.78] [стр.79] [стр.80] [стр.81] [стр.82] [стр.83] [стр.84] [стр.85] [стр.86] [стр.87] [стр.88] [стр.89] [стр.90] [стр.91] [стр.92] [стр.93] [стр.94] [стр.95] [стр.96] [стр.97] [стр.98] [стр.99] [стр.100] [стр.101] [стр.102] [стр.103] [стр.104] [стр.105] [стр.106] [стр.107] [стр.108] [стр.109] [стр.110] [стр.111] [стр.112] [стр.113] [стр.114] [стр.115] [стр.116] [стр.117] [стр.118] [стр.119] [стр.120] [стр.121] [стр.122] [стр.123] [стр.124] [стр.125] [стр.126] [стр.127] [стр.128] [стр.129] [стр.130] [стр.131] [стр.132] [стр.133] [стр.134] [стр.135] [стр.136] [стр.137] [стр.138] [стр.139] [стр.140] [стр.141] [стр.142] [стр.143] [стр.144] [стр.145] [стр.146] [стр.147] [стр.148] [стр.149] [стр.150] [стр.151] [стр.152] [стр.153] [стр.154] [стр.155] [стр.156] [стр.157] [стр.158] [стр.159] [стр.160] [стр.161] [стр.162] [стр.163] [стр.164] [стр.165] [стр.166] [стр.167] [стр.168] [стр.169] [стр.170] [стр.171] [стр.172] [стр.173] [стр.174] [стр.175] [стр.176] [стр.177] [стр.178] [стр.179] [стр.180] [стр.181] [стр.182] [стр.183] [стр.184] [стр.185] [стр.186] [стр.187] [стр.188] [стр.189] [стр.190] [стр.191] [стр.192] [стр.193] [стр.194] [стр.195] [стр.196] [стр.197] [стр.198] [стр.199] [стр.200] [стр.201] [стр.202] [стр.203] [стр.204] [стр.205] [стр.206] [стр.207] [стр.208] [стр.209] [стр.210] [стр.211] [стр.212] [стр.213] [стр.214] [стр.215] [стр.216] [стр.217] [стр.218] [стр.219] [стр.220] [стр.221] [стр.222] [стр.223] [стр.224] [стр.225] [стр.226] [стр.227] [стр.228] [стр.229] [стр.230] [стр.231] [стр.232] [стр.233] [стр.234] [стр.235] [стр.236] [стр.237] [стр.238] [стр.239] [стр.240] [стр.241] [стр.242] [стр.243] [стр.244] [стр.245] [стр.246] [стр.247] [стр.248] [стр.249] [стр.250] [стр.251] [стр.252] [стр.253] [стр.254] [стр.255] [стр.256] [стр.257] [стр.258] [стр.259] [стр.260] [стр.261] [стр.262] [стр.263] [стр.264] [стр.265] [стр.266] [стр.267] [стр.268] [стр.269] [стр.270] [стр.271] [стр.272] [стр.273] [стр.274] [стр.275] [стр.276] [стр.277] [стр.278] [стр.279] [стр.280] [стр.281] [стр.282] [стр.283] [стр.284] [стр.285] [стр.286] [стр.287] [стр.288] [стр.289] [стр.290] [стр.291] [стр.292] [стр.293] [стр.294]