Ремонт принтеров, сканнеров, факсов и остальной офисной техники


назад Оглавление вперед




[75]

выбор зависит от того, какого рода данные подвергаются хешированию. В книге [123] Кнут обсуждает выбор константы А и приходит к выводу, что значение

является довольно удачным.

В заключение приведём пример: если к = 123456, то = 10000 и А определено формулой (12.2), то

12.3.3. Универсальное хеширование

Если недоброжелатель будет специально подбирать данные для хеширования, то (зная функцию h) он может устроить так, что все га ключей будут соответствовать одной позиции в таблице, в результате чего время поиска будет равно в (га). Любая фиксированная хеш-функция может быть дискредитирована таким образом. Единственный выход из положения - выбирать хеш-функцию случайным образом, не зависящим от того, какие именно данные вы хешируете. Такой подход называется универсальным хешированием (universal hashing). Что бы ни предпринимал ваш недоброжелатель, если он не имеет информации о выбранной хеш-функции, среднее время поиска останется хорошим.

Основная идея универсального хеширования - выбирать хеш-функцию во время исполнения программы случайным образом из некоторого множества. Стало быть, при повторном вызове с теми же входными данными алгоритм будет работать уже по-другому. Как и в случае с алгоритмом быстрой сортировки, рандомизация гарантирует, что нельзя придумать входных данных, на которых алгоритм всегда бы работал медленно (в примере с компилятором и таблицей символов не сможет получиться, что какой-то определённый стиль выбора идентификаторов приводит к замедлению компиляции: вероятность, что компиляция замедлится из-за неудачного хеширования, во-первых, мала, и во-вторых, зависит только от количества идентификаторов, но не от их выбора).

Пусть И - конечное семейство функций, отображающих данное множество U (множество всевозможных ключей) во множество {0,1,..., то - 1} (множество хеш-значений). Это семейство называется универсальным (universal), если для любых двух ключей х,у G U число функций h £ 7i, для которых h(x) = h(y), равно

h(k) = [10000 • (123456 • 0,61803. = [10000- (76300,0041151... = [10000-0,0041151...] = = [41,151...] = 41.

.. mod 1)J

mod 1)J =


\H\jm. Иными словами, при случайном выборе хеш-функции вероятность коллизии между двумя данными ключами должна равняться вероятности совпадения двух случайно выбранных хеш-значений (которая равна 1/га).

Следующая теорема показывает, что универсальное семейство хеш-функций обеспечивает хорошую производительность в среднем.

Теорема 12.3. Пусть нам необходимо поместить п фиксированных ключей в таблицу размера га, где га п, и хеш-функция выбирается случайным образом из универсального семейства. Тогда математическое ожидание числа коллизий, в которых участвует данный ключ х, меньше единицы.

Доказательство. Математическое ожидание числа коллизий данного ключа х с данным ключом у равно 1/га по определению универсального семейства. Поскольку всего имеется п-1 ключей, отличных от х, математическое ожидание числа коллизий с каким-нибудь из этих ключей равно (п - 1)/га, что меньше единицы, поскольку п га.□

Как же построить универсальное семейство? Нам поможет в этом элементарная теория чисел. Число га (количество хеш-значений) выберем простым. Будем считать, что каждый ключ представляет собой последовательность г + 1 «байтов» (байт, или символ,- это просто двоичное число с ограниченным числом разрядов; мы будем считать, что максимальное значение байта меньше га). Для каждой последовательности а = (ао, а\,..., аг), элементы которой являются вычетами по модулю га (то есть принадлежат множеству {0,1,...,га- 1}), рассмотрим функцию ha, заданную формулой

г

ha(x) = djXj mod га,(12.3)

8 = 0

где ключ х есть последовательность байтов (жо, х\,..., хг). Положим

П = \J{ha},(12.4)

а

Очевидно, множество И содержит rar+1 элементов.

Теорема 12.4. Семейство функций И, определённое по формулам (12.3) и (12.4), является универсальным семейством хеш-функций.

Доказательство. Пусть ж = (жо, х\,..., хг) и у = (уо, у\,..., уг) - два различных ключа; не ограничивая общности, можно считать,


что жо ф уо- Если а = (ао, сц, , аг), то ha(x) = ha(y) тогда и только тогда, когда

Поскольку жо - уо ф 0 (mod то), для каждой последовательности (ai,..., аг) существует и единственно значение ао, при котором это равенство выполнено (раздел 33.4). Количество таких последовательностей равно тог, и таково же, стало быть, количество функций из 7i, не различающих ключи хну. Поскольку тог = \7i\/m, всё доказано.

[Короче можно сказать так: ненулевой линейный функционал h \-> h(x - у) с равной вероятностью принимает любое из то своих значений, в том числе 0.]□

Упражнения

12.3-1 Пусть в связанном списке каждый элемент хранится вместе с его ключом к и соответствующим хеш-значением h(k). Ключ представляет собой длинную последовательность символов. Как можно упростить поиск в этом списке элемента с данным ключом?

12.3-2 Предположим, что ключами являются последовательности символов, которые мы рассматриваем как числа, записанные в системе счисления с основанием 128. Число то помещается в 32-битном слове с запасом, но числа, соответствующие ключам, уже не помещаются, поскольку ключи содержат много десятков символов. Как вычислить хеш-функцию, построенную методом деления? (Нет необходимости реализовывать арифметические операции с длинными числами - достаточно дополнительной памяти постоянного объёма.)

12.3-3 Пусть ключи представляют собой последовательности р-битных символов, рассматриваемые как числа в 2р-ичной системе счисления, а в качестве хеш-функции выбран остаток при делении на то = 2Р - 1. Покажите, что двум ключам, отличающимся только порядком символов, соответствует одно и то же хеш-значение. Приведите пример приложения, в котором применение такой хеш-функции было бы нежелательно.

12.3-4 Пусть размер хеш-таблицы равен то = 1000, а хеш-функция имеет вид h(k) = [т(кА mod 1) , где А = (л/5 - 1)/2. В какие позиции попадут ключи 61, 62, 63, 64 и 65?

12.3-5 Удалим из семейства 7i, определённого по формулам (12.3) и (12.4), те функции ha, в которых хотя бы одно из аг-

j = l



[стр.Начало] [стр.1] [стр.2] [стр.3] [стр.4] [стр.5] [стр.6] [стр.7] [стр.8] [стр.9] [стр.10] [стр.11] [стр.12] [стр.13] [стр.14] [стр.15] [стр.16] [стр.17] [стр.18] [стр.19] [стр.20] [стр.21] [стр.22] [стр.23] [стр.24] [стр.25] [стр.26] [стр.27] [стр.28] [стр.29] [стр.30] [стр.31] [стр.32] [стр.33] [стр.34] [стр.35] [стр.36] [стр.37] [стр.38] [стр.39] [стр.40] [стр.41] [стр.42] [стр.43] [стр.44] [стр.45] [стр.46] [стр.47] [стр.48] [стр.49] [стр.50] [стр.51] [стр.52] [стр.53] [стр.54] [стр.55] [стр.56] [стр.57] [стр.58] [стр.59] [стр.60] [стр.61] [стр.62] [стр.63] [стр.64] [стр.65] [стр.66] [стр.67] [стр.68] [стр.69] [стр.70] [стр.71] [стр.72] [стр.73] [стр.74] [стр.75] [стр.76] [стр.77] [стр.78] [стр.79] [стр.80] [стр.81] [стр.82] [стр.83] [стр.84] [стр.85] [стр.86] [стр.87] [стр.88] [стр.89] [стр.90] [стр.91] [стр.92] [стр.93] [стр.94] [стр.95] [стр.96] [стр.97] [стр.98] [стр.99] [стр.100] [стр.101] [стр.102] [стр.103] [стр.104] [стр.105] [стр.106] [стр.107] [стр.108] [стр.109] [стр.110] [стр.111] [стр.112] [стр.113] [стр.114] [стр.115] [стр.116] [стр.117] [стр.118] [стр.119] [стр.120] [стр.121] [стр.122] [стр.123] [стр.124] [стр.125] [стр.126] [стр.127] [стр.128] [стр.129] [стр.130] [стр.131] [стр.132] [стр.133] [стр.134] [стр.135] [стр.136] [стр.137] [стр.138] [стр.139] [стр.140] [стр.141] [стр.142] [стр.143] [стр.144] [стр.145] [стр.146] [стр.147] [стр.148] [стр.149] [стр.150] [стр.151] [стр.152] [стр.153] [стр.154] [стр.155] [стр.156] [стр.157] [стр.158] [стр.159] [стр.160] [стр.161] [стр.162] [стр.163] [стр.164] [стр.165] [стр.166] [стр.167] [стр.168] [стр.169] [стр.170] [стр.171] [стр.172] [стр.173] [стр.174] [стр.175] [стр.176] [стр.177] [стр.178] [стр.179] [стр.180] [стр.181] [стр.182] [стр.183] [стр.184] [стр.185] [стр.186] [стр.187] [стр.188] [стр.189] [стр.190] [стр.191] [стр.192] [стр.193] [стр.194] [стр.195] [стр.196] [стр.197] [стр.198] [стр.199] [стр.200] [стр.201] [стр.202] [стр.203] [стр.204] [стр.205] [стр.206] [стр.207] [стр.208] [стр.209] [стр.210] [стр.211] [стр.212] [стр.213] [стр.214] [стр.215] [стр.216] [стр.217] [стр.218] [стр.219] [стр.220] [стр.221] [стр.222] [стр.223] [стр.224] [стр.225] [стр.226] [стр.227] [стр.228] [стр.229] [стр.230] [стр.231] [стр.232] [стр.233] [стр.234] [стр.235] [стр.236] [стр.237] [стр.238] [стр.239] [стр.240] [стр.241] [стр.242] [стр.243] [стр.244] [стр.245] [стр.246] [стр.247] [стр.248] [стр.249] [стр.250] [стр.251] [стр.252] [стр.253] [стр.254] [стр.255] [стр.256] [стр.257] [стр.258] [стр.259] [стр.260] [стр.261] [стр.262] [стр.263] [стр.264] [стр.265] [стр.266] [стр.267] [стр.268] [стр.269] [стр.270] [стр.271] [стр.272] [стр.273] [стр.274] [стр.275] [стр.276] [стр.277] [стр.278] [стр.279] [стр.280] [стр.281] [стр.282] [стр.283] [стр.284] [стр.285] [стр.286] [стр.287] [стр.288] [стр.289] [стр.290] [стр.291] [стр.292] [стр.293] [стр.294]