Ремонт принтеров, сканнеров, факсов и остальной офисной техники


назад Оглавление вперед




[255]

Рис. 34.6, занимающий целую страницу. Переводы слов, входящих в рисунок: input - вход, state - состояние.

Подпись:

Рис. 34.6. (а) Таблица переходов для конечного автомата, допускающего строки, оканчивающиеся на ababaca (и только их). Здесь О - исходное состояние, 7 - единственное допускающее состояние (зачернено). Если из г в j ведет стрелка, помеченная буквой а, это означает, что S(a,i) = j. Жирные стрелки, идущие слева направо, соответствуют успешным этапам поиска подстроки Р [если мы в состоянии j, то j последних прочитанных букв текста совпадают с j первыми буквами образца; если мы перешли из состояния j в состояние j + 1, то очередная буква текста также совпадает с очередной буквой образца - шансы найти образец растут!]. Стрелки, идущие справа налево, соответствуют неудачам [последние j букв текста совпадали с первыми j буквами образца, но очередная буква - не такая, как хотелось бы]. Не все стрелки, идущие справа налево, показаны на рисунке: если из состояния г не выходит стрелки, помеченной буквой а, то подразумевается, что 5(i, а) = 0. (б) Таблица переходов для того же автомата. Клеточки, соответствующие успешным этапам поиска (жирным стрелкам на диаграмме), выделены серым, (в) Результат применения автомата к тексту Г = abababacaba. Под каждым символом Г [г] записано состояние автомата после прочтения этого символа (иными словами, значение <*р(Т{)). Найдено одно вхождение образца (начиная с позиции 3).


Рис. 34.7 Подпись:

К доказательству леммы 34.2: если г = а(ха), то г а(х) + 1.

Рис. 34.8 Подпись:

К доказательству леммы 34.3. Из рисунка видно, что г = a(Pqa), где q = а(х) и г = а(ха).

и время, требуемое для вычисления функции перехода 6. Мы этим вскоре займёмся, но сначала докажем, что процедура Finite-Automaton-Matcher правильно находит все вхождения подстроки Т.

Как отмечалось выше, нам достаточно показать, что для всех г выполнено соотношение (34.4), то есть что после прочтения символа Г [г] автомат оказывается в состоянии а{ТЛ. Это вытекает из следующих двух лемм.

Лемма 34.2 (неравенство для суффикс-функции)

Для любых строки х и символа а имеем а(ха) а(х) + 1.

Доказательство.

Если а(ха) > а(х) + 1, то отбросим последний символ а от наибольшего суффикса ха, являющегося префиксом Р, и получим суффикс строки х, имеющий длину больше а(х) и являющийся префиксом Р - противоречие (см. рис. 34.7).

Лемма 34.3 (Рекуррентная формула для суффикс-функции)

Пусть q = ст(х), где х - строка. Тогда для любого символа а имеем а(ха) = a(Pqa).

Доказательство.

Лемма 34.2 гласит, что а(ха) д + 1. Поэтому значение а(ха) не изменится, если оставить от строки ха последние q + 1 символов, то есть заменить его на строку Pqa (напомним, что последние q символов строки х образуют слово Pq, так как а(х) = q (рис. 34.8).

Из леммы 34.3 немедленно вытекает

Теорема 34.4

Пусть (р - функция конечного состояния автомата для поиска подстроки Р[1..то]. Если Г[1..п] - произвольный текст, то

(p(Ti) = а(Тг)

для г = 0,1,..., п.

Доказательство.

Для г = 0 это соотношение очевидно. Лемма 34.3 и формула (34.3) для функции перехода показывают, что оно сохраняется при прочтении автоматом очередного символа.

В силу доказанной теоремы, автомат после прочтения г символов текста находится в состоянии q тогда и только тогда, когда Pq является самым длинным суффиксом строки Ti, являющимся


одновременно префиксом строки Р. В частности, q = га означает, что автомат только что прочёл подстроку Р. Это доказывает правильность алгоритма Finite-Automaton-Matcher.

34.3.3. Вычисление функции перехода

Функцию перехода S, соответствующую образцу Т[1..га], можно вычислить так:

Compute-Transition-Function(P,\Sigma)

1m \gets length[Р]

2for q \gets 0 to m

3do for (для) всех символов a \in \Sigma

4do k \gets \min(m+l, q+2)

5repeat k \gets k-1

6until P k \sqsupset P qa

7\delta(q,a) \gets k

8return \delta

Эта процедура вычисляет функцию S «в лоб»: циклы, начинающиеся в строках 2 и 3, перебирают все пары (q,a), а в строках 4-7 наибольшее значение к, при котором для данной пары (q, а) выполнено соотношение Рк □ Pqa, находится прямым перебором, начиная с наибольшего априори возможного значения к, то есть min(ra, q + 1).

Время работы этого алгоритма есть 0(га3£): в самом деле, два внешних цикла дают множитель га£, внутренний цикл repeat может выполняться не более га + 1 раз, и сравнение в строке 6 требует О (га) операций. На самом деле функцию перехода можно вычислить гораздо быстрее, за время 0(га£) (см. упр. 34.4-6). В этом случае время поиска образца длины га в тексте длины п будет 0(п + га£).

Упражнения

34.3-1

Постройте автомат для поиска подстроки Р = aabab и продемонстрируйте его работу на тексте Г = aaababaabaababaab. 34.3-2

Нарисуйте диаграмму переходов автомата для поиска подстроки Р = ababbabbababbababbabb (над алфавитом £ = {а, Ъ}). 34.3-3

Будем говорить, что Р - строка с уникальными префиксами (Р is nonoverlappable), если соотношение Р □ Pq возможно лишь при к = 0 или к = q. Как выглядит диаграмма переходов автомата для поиска подстроки с уникальными префиксами?



[стр.Начало] [стр.1] [стр.2] [стр.3] [стр.4] [стр.5] [стр.6] [стр.7] [стр.8] [стр.9] [стр.10] [стр.11] [стр.12] [стр.13] [стр.14] [стр.15] [стр.16] [стр.17] [стр.18] [стр.19] [стр.20] [стр.21] [стр.22] [стр.23] [стр.24] [стр.25] [стр.26] [стр.27] [стр.28] [стр.29] [стр.30] [стр.31] [стр.32] [стр.33] [стр.34] [стр.35] [стр.36] [стр.37] [стр.38] [стр.39] [стр.40] [стр.41] [стр.42] [стр.43] [стр.44] [стр.45] [стр.46] [стр.47] [стр.48] [стр.49] [стр.50] [стр.51] [стр.52] [стр.53] [стр.54] [стр.55] [стр.56] [стр.57] [стр.58] [стр.59] [стр.60] [стр.61] [стр.62] [стр.63] [стр.64] [стр.65] [стр.66] [стр.67] [стр.68] [стр.69] [стр.70] [стр.71] [стр.72] [стр.73] [стр.74] [стр.75] [стр.76] [стр.77] [стр.78] [стр.79] [стр.80] [стр.81] [стр.82] [стр.83] [стр.84] [стр.85] [стр.86] [стр.87] [стр.88] [стр.89] [стр.90] [стр.91] [стр.92] [стр.93] [стр.94] [стр.95] [стр.96] [стр.97] [стр.98] [стр.99] [стр.100] [стр.101] [стр.102] [стр.103] [стр.104] [стр.105] [стр.106] [стр.107] [стр.108] [стр.109] [стр.110] [стр.111] [стр.112] [стр.113] [стр.114] [стр.115] [стр.116] [стр.117] [стр.118] [стр.119] [стр.120] [стр.121] [стр.122] [стр.123] [стр.124] [стр.125] [стр.126] [стр.127] [стр.128] [стр.129] [стр.130] [стр.131] [стр.132] [стр.133] [стр.134] [стр.135] [стр.136] [стр.137] [стр.138] [стр.139] [стр.140] [стр.141] [стр.142] [стр.143] [стр.144] [стр.145] [стр.146] [стр.147] [стр.148] [стр.149] [стр.150] [стр.151] [стр.152] [стр.153] [стр.154] [стр.155] [стр.156] [стр.157] [стр.158] [стр.159] [стр.160] [стр.161] [стр.162] [стр.163] [стр.164] [стр.165] [стр.166] [стр.167] [стр.168] [стр.169] [стр.170] [стр.171] [стр.172] [стр.173] [стр.174] [стр.175] [стр.176] [стр.177] [стр.178] [стр.179] [стр.180] [стр.181] [стр.182] [стр.183] [стр.184] [стр.185] [стр.186] [стр.187] [стр.188] [стр.189] [стр.190] [стр.191] [стр.192] [стр.193] [стр.194] [стр.195] [стр.196] [стр.197] [стр.198] [стр.199] [стр.200] [стр.201] [стр.202] [стр.203] [стр.204] [стр.205] [стр.206] [стр.207] [стр.208] [стр.209] [стр.210] [стр.211] [стр.212] [стр.213] [стр.214] [стр.215] [стр.216] [стр.217] [стр.218] [стр.219] [стр.220] [стр.221] [стр.222] [стр.223] [стр.224] [стр.225] [стр.226] [стр.227] [стр.228] [стр.229] [стр.230] [стр.231] [стр.232] [стр.233] [стр.234] [стр.235] [стр.236] [стр.237] [стр.238] [стр.239] [стр.240] [стр.241] [стр.242] [стр.243] [стр.244] [стр.245] [стр.246] [стр.247] [стр.248] [стр.249] [стр.250] [стр.251] [стр.252] [стр.253] [стр.254] [стр.255] [стр.256] [стр.257] [стр.258] [стр.259] [стр.260] [стр.261] [стр.262] [стр.263] [стр.264] [стр.265] [стр.266] [стр.267] [стр.268] [стр.269] [стр.270] [стр.271] [стр.272] [стр.273] [стр.274] [стр.275] [стр.276] [стр.277] [стр.278] [стр.279] [стр.280] [стр.281] [стр.282] [стр.283] [стр.284] [стр.285] [стр.286] [стр.287] [стр.288] [стр.289] [стр.290] [стр.291] [стр.292] [стр.293] [стр.294]