Ремонт принтеров, сканнеров, факсов и остальной офисной техники


назад Оглавление вперед




[252]

обозначаться Sk = 5[1../г] (в частности, So = е и Sr = S). В этих обозначениях задача о нахождении образца Р длины то в тексте Г длины га состоит в нахождении всех таких s из промежутка 0 s га - то, что Р □ Ts+m.

При записи алгоритмов для поиска подстрок мы будем рассматривать проверку равенства двух строк как элементарную операцию, время выполнения которой пропорционально длине сравниваемых строк. Если сравнивать строки слева направо и останавливаться, как только обнаружено расхождение, то стоимость сравнения строк хну есть Q(t + 1), где t - длина наибольшего общего префикса строк хну. (Мы пишем t + 1 вместо t, учитывая сравнение первых не совпавших символов.)

34.1. Простейший алгоритм

Первый приходящий в голову алгоритм для поиска образца Р в тексте Г последовательно проверяет равенство Р[1..то] = T[s + l..s + то] для всех п - то + 1 возможных значений s:

Iaive-String-Matcher(T,P)

1n \gets length[Т]

2m \gets length[P]

3for s \gets 0 to n-m

4do if P[l..m]= T[s+l..s+m]

5then print Подстрока входит со сдвигом s

Можно сказать, что мы двигаем образец вдоль текста и проверяем все его положения (рис. 34.3). Отметим, что проверка в строке 4 представляет собой ещё один цикл.

Время работы процедуры Naive-String-Matcher в худшем случае есть О ((га - то + 1)то). В самом деле, пусть Т = ап (буква а, повторённая га раз), а Р = ат. Тогда для каждой из га - то + 1 проверок (строка 4) будет выполнено то сравнений символов, всего (га - то + 1)то, что есть ©(га2) (при то = [га/2]).

Простейший алгоритм - не лучший (далее мы расскажем об алгоритме, работающем за время 0(га+ то)). Неэффективность про-

Рис. 34.3 Подпись:

Рис. 34.3. Простейший алгоритм ищет образец Р = aab в тексте Г = acaabc. Четыре последовательные попытки изображены на рис. (а)-(г). Буквы, для которых сравнение прошло успешно, соединены и показаны серым. Буквы, на которых выявлено несовпадение, соединены ломаными линиями. При этом s = 2 - единственный допустимый сдвиг.


стейшего алгоритма связана с тем, что информация о тексте Г, получаемая при проверке данного сдвига s, никак не используется при проверке последующих сдвигов. Между тем такая информация может очень помочь. Пусть, например, Р = aaab и мы выяснили, что сдвиг s = 0 допустим. Тогда сдвиги 1, 2 и 3 заведомо недопустимы, поскольку Г[4] = Ь. Далее мы обсудим различные способы реализации этой идеи.

Упражнения

34.1-1

Какие сравнения символов делает простейший алгоритм при Р = 0001 и Г = 000010001010001? 34.1-2

Покажите, что в худшем случае простейший алгоритм найдёт первое вхождение подстроки за время в ((га - т + 1)(т - 1)). 34.1-3

Пусть все символы в образце Р различны. Как усовершенствовать алгоритм Naive-String-Matcher, чтобы он работал за время О (га), где га - длина текста?

34.1-4

Пусть алфавит содержит d символов, и пусть образец и текст - случайные строки длины тип соответственно. Покажите, что математическое ожидание числа сравнений символов, производимых простейшим алгоритмом при выполнении строки 4, есть

1 d~m

(га - т + 1)---p-j- 2(га - т + 1)

(сравнение строк прекращается, как только найдены несовпадающие символы или когда просмотрен весь образец). Таким образом, для случайных строк простейший алгоритм вполне эффективен.

34-1.5 Пусть в образце (но не в тексте!) может встречаться, наряду с символами из алфавита Е, символ ф, называемый символом пропуска (gap character), который соответствует произвольной подстроке (в том числе пустой). Например, образец аЬфЬафс входит в текст cabccbacbacab и как

ab 0 ba 0с

и как

cabccbacbaс уаЪ.

ab <> ba <>с

Разработайте полиномиальный алгоритм, выясняющий, входит ли данный образец (с символами пропуска) в данный текст.


34.2. Алгоритм Рабина - Карпа

Рабин и Карп изобрели алгоритм поиска подстрок, который эффективен на практике и к тому же обобщается на другие аналогичные задачи (например, поиск образца на двумерной решётке). Хотя в худшем случае время работы алгоритма Рабина-Карпа есть в ((га - то + 1)т), в среднем он работает достаточно быстро.

Предположим для начала, что Е = { 0, 1, 2,..., 9 } (в общем случае можно считать, что каждый символ в алфавите £ есть d-ичная цифра, где d = £). Тогда строку из к символов можно рассматривать как десятичную запись числа (/г-значного), а сами символы - как цифры.

Если Р[1..то] - образец, то через р обозначим число, десятичной записью которого он является; аналогично, если Г[1..га] - текст, то для s = 0,1,..., га - то обозначим через ts число, десятичной записью которого является строка T[s + 1..S+ тп]. Очевидно, s является допустимым сдвигом тогда и только тогда, когда ts = р. Если бы мы могли вычислить р за время О (то) и все £г- за время О (га) (временно закроем глаза на то обстоятельство, что эти вычисления могут привести к слишком большим числам), то мы смогли бы найти все допустимые сдвиги за время О (га), сравнивая р со всеми ts по очереди.

Вычислить р за время О (то) действительно можно, по схеме Гор-нера (разд. 32.1):

р = Р[т] + 10(Р[то - 1] + 10(Р[то - 2] + • • • + 10(Р[2] + 10Р[1]) ...)).

Точно так же за время О (то) можно вычислить to.

Чтобы вычислить t\, £2, • • •, t-n-m за время 0(га - тп), заметим, что при известном ts можно вычислить ts+i за время 0(1). В самом деле,

ts+1 = 10(ts - Ю"1"1! + 1]) + T[s + то + 1] : (34.1)

чтобы получить строку T[s + 2..s + то + 1] из T[s + l..s + то], надо удалить T[s + 1] (то есть вычесть 10m 1T[s + 1] из ts) и приписать справа T[s + то + 1] (то есть умножить полученную разность на 10 и прибавить к ней T[s + то + 1]). Если вычислить константу 10m 1 заранее (с помощью техники, описанной в разд. 33.6, это можно сделать за время O(lgrre); впрочем, оценка не ухудшится, если непосредственно перемножить то - 1 десятку за время О (то)), то стоимость вычислений по формуле (34.1) ограничена сверху константой; стало быть, числа р и to, t\,..., tn m могут быть найдены за время О (га + то), и также за время О (га + то) могут быть найдены все вхождения образца Р[1..то] в текст Г[1..га].

До сих пор мы не учитывали того, что числа р и ts велики - настолько, что предположение о выполнении арифметических one-



[стр.Начало] [стр.1] [стр.2] [стр.3] [стр.4] [стр.5] [стр.6] [стр.7] [стр.8] [стр.9] [стр.10] [стр.11] [стр.12] [стр.13] [стр.14] [стр.15] [стр.16] [стр.17] [стр.18] [стр.19] [стр.20] [стр.21] [стр.22] [стр.23] [стр.24] [стр.25] [стр.26] [стр.27] [стр.28] [стр.29] [стр.30] [стр.31] [стр.32] [стр.33] [стр.34] [стр.35] [стр.36] [стр.37] [стр.38] [стр.39] [стр.40] [стр.41] [стр.42] [стр.43] [стр.44] [стр.45] [стр.46] [стр.47] [стр.48] [стр.49] [стр.50] [стр.51] [стр.52] [стр.53] [стр.54] [стр.55] [стр.56] [стр.57] [стр.58] [стр.59] [стр.60] [стр.61] [стр.62] [стр.63] [стр.64] [стр.65] [стр.66] [стр.67] [стр.68] [стр.69] [стр.70] [стр.71] [стр.72] [стр.73] [стр.74] [стр.75] [стр.76] [стр.77] [стр.78] [стр.79] [стр.80] [стр.81] [стр.82] [стр.83] [стр.84] [стр.85] [стр.86] [стр.87] [стр.88] [стр.89] [стр.90] [стр.91] [стр.92] [стр.93] [стр.94] [стр.95] [стр.96] [стр.97] [стр.98] [стр.99] [стр.100] [стр.101] [стр.102] [стр.103] [стр.104] [стр.105] [стр.106] [стр.107] [стр.108] [стр.109] [стр.110] [стр.111] [стр.112] [стр.113] [стр.114] [стр.115] [стр.116] [стр.117] [стр.118] [стр.119] [стр.120] [стр.121] [стр.122] [стр.123] [стр.124] [стр.125] [стр.126] [стр.127] [стр.128] [стр.129] [стр.130] [стр.131] [стр.132] [стр.133] [стр.134] [стр.135] [стр.136] [стр.137] [стр.138] [стр.139] [стр.140] [стр.141] [стр.142] [стр.143] [стр.144] [стр.145] [стр.146] [стр.147] [стр.148] [стр.149] [стр.150] [стр.151] [стр.152] [стр.153] [стр.154] [стр.155] [стр.156] [стр.157] [стр.158] [стр.159] [стр.160] [стр.161] [стр.162] [стр.163] [стр.164] [стр.165] [стр.166] [стр.167] [стр.168] [стр.169] [стр.170] [стр.171] [стр.172] [стр.173] [стр.174] [стр.175] [стр.176] [стр.177] [стр.178] [стр.179] [стр.180] [стр.181] [стр.182] [стр.183] [стр.184] [стр.185] [стр.186] [стр.187] [стр.188] [стр.189] [стр.190] [стр.191] [стр.192] [стр.193] [стр.194] [стр.195] [стр.196] [стр.197] [стр.198] [стр.199] [стр.200] [стр.201] [стр.202] [стр.203] [стр.204] [стр.205] [стр.206] [стр.207] [стр.208] [стр.209] [стр.210] [стр.211] [стр.212] [стр.213] [стр.214] [стр.215] [стр.216] [стр.217] [стр.218] [стр.219] [стр.220] [стр.221] [стр.222] [стр.223] [стр.224] [стр.225] [стр.226] [стр.227] [стр.228] [стр.229] [стр.230] [стр.231] [стр.232] [стр.233] [стр.234] [стр.235] [стр.236] [стр.237] [стр.238] [стр.239] [стр.240] [стр.241] [стр.242] [стр.243] [стр.244] [стр.245] [стр.246] [стр.247] [стр.248] [стр.249] [стр.250] [стр.251] [стр.252] [стр.253] [стр.254] [стр.255] [стр.256] [стр.257] [стр.258] [стр.259] [стр.260] [стр.261] [стр.262] [стр.263] [стр.264] [стр.265] [стр.266] [стр.267] [стр.268] [стр.269] [стр.270] [стр.271] [стр.272] [стр.273] [стр.274] [стр.275] [стр.276] [стр.277] [стр.278] [стр.279] [стр.280] [стр.281] [стр.282] [стр.283] [стр.284] [стр.285] [стр.286] [стр.287] [стр.288] [стр.289] [стр.290] [стр.291] [стр.292] [стр.293] [стр.294]