Ремонт принтеров, сканнеров, факсов и остальной офисной техники


назад Оглавление вперед




[253]

раций за время 0(1) едва ли допустимо. К счастью, эту трудность можно обойти следующим образом: надо проводить вычисления чисел р и to, а также вычисления по формуле (34.1), по модулю фиксированного числа q (рис. 34.4; по поводу арифметики по модулю q см. разд. 33.1). Тогда все числа не превосходят q и можно считать, что число р и все tj будут действительно вычислены за время О (га + то). Обычно в качестве q выбирают простое число, для которого 10q помещается в машинное слово - это упрощает программирование вычислений. В общем случае (для алфавита { О, 1, 2,..., d }) выбирают такое простое число q, что dq помещается в машинное слово (благодаря этому все арифметические операции происходят в пределах одного слова); рекуррентное соотношение (34.1) приобретает вид

ts+1 = (d(ts - T[s + l]h) + T[s + то + 1]) mod q,(34.2)

где h = dm~l (mod q).

Вычисления по модулю q хороши всем, кроме одного: из равенства ts = р (mod q) ещё не следует, что ts = р. Поэтому, если ts ф р (mod q), то сдвиг s заведомо недопустим и о нем можно забыть, а если ts = р (mod q), то надо еще проверить, совпадают ли строки Р[1..то] и T[s+1..s+to] на самом деле. Если совпадают, то мы нашли вхождение образца в строку, а если не совпадают, то произошло холостое срабатывание (spurious hit). Если простое число q достаточно велико, то можно надеяться, что дополнительные затраты на анализ холостых срабатываний будут невелики.

Запишем текст соответствующей процедуры Rabin-Karp-Matcher. Она получает на вход текст Г, образец Р, «основание системы счисления» d (обычно берут d = Е) и простое число q.

Rab in-Karp-Mat cher(Т,P,d,q)

1n \gets length[T]

2m \gets length[P]

3h \gets d~{m-l} \bmod q

4p \gets 0

5t \gets 0

6for i \gets l to m

7do p \gets (dp+P[i]) \bmod q

8t \gets (dt+T[i]) \bmod q

9for s \gets 0 to n-m

10do if p=t

11then if P[l..m]=T[s+l..s+m]

12then print Образец входит со сдвигом s

13if s<n-m

14then t \gets (d(t-T[s+l]h) + T[s+m+l]) \bmod q

Опишем работу процедуры. Все символы рассматриваются как d-ичные цифры. В строках 1-5 переменным присваиваются началь-


Рис.34.4, занимающий целую страницу.

Переводы надписей, входящих в рисунок: valid match - вхождение образца, spurious hit - холостое срабатывание, old high-order digit - цифра старшего разряда, new low-order digit - цифра младшего разряда, shift не переводить и не воспроизводить (ни слово, ни стрелку).

Подпись:

Рис.34.4. Алгоритм Рабина-Карпа. У = { 0, 1, 2,..., 9 }, q = 13. (а) Строка Г (текст). Серым выделено окошко ширины 5. Численное значение выделенной подстроки равно 7 по модулю 13. (б) Для того же текста указаны численные значения (по модулю 13) всех подстрок длины 5. Если образец есть Р = 31415, то нас интересуют подстроки со значением 7, поскольку 31415 = 7 (mod 13). Таких подстрок всего две; одна из них соответствует вхождению образца в текст, а другая - холостому срабатыванию, (в) Изменение числового значения при сдвиге окошка. В предыдущем окошке стояло 31415. Удалив цифру старшего разряда и приписав новую цифру младшего разряда, получаем 14152. Те же вычисления по модулю 13 из старого значения 7 получают новое значение 8.


ные значения (h - это «единица старшего разряда» в й-ичной системе). В цикле в строках 6-8 с помощью схемы Горнера вычисляются значения р и to (последнее присваивается переменной t). Цикл в строках 9-14 перебирает все возможные значения s; в момент исполнения строки 10 имеем t = ts (mod q). Если оказывается, что ts = р, то строки T[s+ l..s + гаг] и Р[1..га] сравниваются и, в случае совпадения, об этом печатается сообщение (строки 11-12). Если ts ф р, то программа проверяет, будет ли цикл выполняться далее (строка 13), и если будет, то обновляет значение t по формуле (34.2) - строка 14.

В худшем случае эта процедура требует времени в ((га - га+1)га), как и простейший алгоритм - уже потому, что для всех допустимых сдвигов происходит посимвольная проверка. Например, если Р = ат и Т = а™, то сравнение в строке 11 будет выполняться для всех значений s (и алгоритм отличается от тривиального лишь в худшую сторону за счёт дополнительных затрат на вычисление h в строке 3, на цикл в строках 6-8 и на вычисления в строке 14).

Во многих приложениях следует ожидать, что допустимых сдвигов будет немного; в этом случае время работы алгоритма Рабина - Карпа будет О (га + гаг) плюс небольшие дополнительные затраты на обработку холостых срабатываний. Можно сделать нестрогую прикидку, основываясь на следующих соображениях. Будем считать, что отображение редукции по модулю q - случайная функция из Е* в Zq. Это утверждение трудно поддается формализации и доказательству, но эмпирически подтверждается (ср. разд. 12.3.1, где мы обсуждали применение деления с остатком к хешированию). Тогда можно надеяться, что количество холостых срабатываний есть 0(ra/g), поскольку вероятность того, что случайное число ts сравнимо с р по модулю q, равна 1/q. Стало быть, ожидаемое время работы алгоритма Рабина - Карпа есть

О(га) + 0(m(v + ra/g)),

где v - количество вхождений образца в текст. Если q гаг (то есть длина образца не превосходит выбранного значения q) и v = 0(1), то получается, что алгоритм работает за время О (га + гаг).

34.2.1. Упражнения

34.2-1

Сколько холостых срабатываний даст алгоритм Рабина-Карпа, если q = 11, Г = 3141592653589793 и Р = 26?

34.2-2 Обобщите алгоритм Рабина - Карпа на случай, когда в тексте надо искать одну из к данных подстрок.

34-2.3 Обобщите алгоритм Рабина - Карпа на случай, когда надо искать квадрат размером гаг X гаг в матрице размером га X га с



[стр.Начало] [стр.1] [стр.2] [стр.3] [стр.4] [стр.5] [стр.6] [стр.7] [стр.8] [стр.9] [стр.10] [стр.11] [стр.12] [стр.13] [стр.14] [стр.15] [стр.16] [стр.17] [стр.18] [стр.19] [стр.20] [стр.21] [стр.22] [стр.23] [стр.24] [стр.25] [стр.26] [стр.27] [стр.28] [стр.29] [стр.30] [стр.31] [стр.32] [стр.33] [стр.34] [стр.35] [стр.36] [стр.37] [стр.38] [стр.39] [стр.40] [стр.41] [стр.42] [стр.43] [стр.44] [стр.45] [стр.46] [стр.47] [стр.48] [стр.49] [стр.50] [стр.51] [стр.52] [стр.53] [стр.54] [стр.55] [стр.56] [стр.57] [стр.58] [стр.59] [стр.60] [стр.61] [стр.62] [стр.63] [стр.64] [стр.65] [стр.66] [стр.67] [стр.68] [стр.69] [стр.70] [стр.71] [стр.72] [стр.73] [стр.74] [стр.75] [стр.76] [стр.77] [стр.78] [стр.79] [стр.80] [стр.81] [стр.82] [стр.83] [стр.84] [стр.85] [стр.86] [стр.87] [стр.88] [стр.89] [стр.90] [стр.91] [стр.92] [стр.93] [стр.94] [стр.95] [стр.96] [стр.97] [стр.98] [стр.99] [стр.100] [стр.101] [стр.102] [стр.103] [стр.104] [стр.105] [стр.106] [стр.107] [стр.108] [стр.109] [стр.110] [стр.111] [стр.112] [стр.113] [стр.114] [стр.115] [стр.116] [стр.117] [стр.118] [стр.119] [стр.120] [стр.121] [стр.122] [стр.123] [стр.124] [стр.125] [стр.126] [стр.127] [стр.128] [стр.129] [стр.130] [стр.131] [стр.132] [стр.133] [стр.134] [стр.135] [стр.136] [стр.137] [стр.138] [стр.139] [стр.140] [стр.141] [стр.142] [стр.143] [стр.144] [стр.145] [стр.146] [стр.147] [стр.148] [стр.149] [стр.150] [стр.151] [стр.152] [стр.153] [стр.154] [стр.155] [стр.156] [стр.157] [стр.158] [стр.159] [стр.160] [стр.161] [стр.162] [стр.163] [стр.164] [стр.165] [стр.166] [стр.167] [стр.168] [стр.169] [стр.170] [стр.171] [стр.172] [стр.173] [стр.174] [стр.175] [стр.176] [стр.177] [стр.178] [стр.179] [стр.180] [стр.181] [стр.182] [стр.183] [стр.184] [стр.185] [стр.186] [стр.187] [стр.188] [стр.189] [стр.190] [стр.191] [стр.192] [стр.193] [стр.194] [стр.195] [стр.196] [стр.197] [стр.198] [стр.199] [стр.200] [стр.201] [стр.202] [стр.203] [стр.204] [стр.205] [стр.206] [стр.207] [стр.208] [стр.209] [стр.210] [стр.211] [стр.212] [стр.213] [стр.214] [стр.215] [стр.216] [стр.217] [стр.218] [стр.219] [стр.220] [стр.221] [стр.222] [стр.223] [стр.224] [стр.225] [стр.226] [стр.227] [стр.228] [стр.229] [стр.230] [стр.231] [стр.232] [стр.233] [стр.234] [стр.235] [стр.236] [стр.237] [стр.238] [стр.239] [стр.240] [стр.241] [стр.242] [стр.243] [стр.244] [стр.245] [стр.246] [стр.247] [стр.248] [стр.249] [стр.250] [стр.251] [стр.252] [стр.253] [стр.254] [стр.255] [стр.256] [стр.257] [стр.258] [стр.259] [стр.260] [стр.261] [стр.262] [стр.263] [стр.264] [стр.265] [стр.266] [стр.267] [стр.268] [стр.269] [стр.270] [стр.271] [стр.272] [стр.273] [стр.274] [стр.275] [стр.276] [стр.277] [стр.278] [стр.279] [стр.280] [стр.281] [стр.282] [стр.283] [стр.284] [стр.285] [стр.286] [стр.287] [стр.288] [стр.289] [стр.290] [стр.291] [стр.292] [стр.293] [стр.294]