Algorithmen und Datenstrukturen 13. Vorlesung

Transkript

1 Algorithmen und Datenstrukturen 3. Vorlesung Karl-Heinz Niggl 27. Juni 2006 Hashing Viele AnwendungendynamischerMengen unterstützennur die Wörterbuchoperationen insert,search,delete. Bsp. Ein Compiler verwaltet eine Tabelle für die Bezeichner der betreffenden Programmiersprache. Hashtabellen: Effektive ImplementierungvonWörterbüchern Worst-case Laufzeit für search: Θ(n) Erwartete Laufzeit für search: O() Im folgendenseiu einuniversum vonschlüsseln, K dieteilmenge der gespeicherten Schlüssel und R ein Wertebereich für die eigentlichen Daten (sattelite data). FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Hashing 2 Hashtabellen verallgemeinern gewöhnliche Arrays, verwenden aber im Unterschied zu Arrays das Prinzip der indirekten Adressierung via einer Hashfunktion. Direkte Adressierung ist anwendbar, wennfürjedenschlüssel eine Tabellenposition zur Verfügung steht. Ist jedoch K kleingegenüber U, so stellen Hashtabelleneine effektive Alternative dar, denn derengröße ist proportionalzu K. Idee: Anstatt einen Schlüssel key[x] als Arrayindex zu verwenden, wird der Arrayindex h(key[x]) aus dem Schlüssel via einer Hashfunktion h berechnet. Hashing 3 Problem: Im allgemeinentretenkollisionen auf, d.h. mehrere Schlüssel erhalten via h dieselbe Position (englisch: slot). Wir betrachten zwei Arten der Kollisionsbehandlung: Hashing mit verketteten Listen (chained hashing) Geschlossenes Hashing (open addressing) Variante: perfektes Hashing bei statischem K, d.h. einmal gespeicherte Schlüssel bleiben unverändert. Bei perfektem Hashing beträgt die worst-case Laufzeit für alle Wörterbuchoperationen: O() FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD

2 Direktes Adressieren: Hashing 4 Empfehlenswert, wenn U klein ist. O.E. sei U := {0,...,m }. Annahme: Je zwei Elemente der zu implementierenden dynamischen Menge S haben verschiedene Schlüssel. Wir implementieren S als Array T[0..m ], in dem jede Position k auf ein Element x S mit Schlüssel key[x] = k zeigt, oder es gilt T[k] = NIL, falls kein solches Element existiert. Triviale ImplementierungderWörterbuchoperationen, alle mit worst-case Laufzeit O(): Hashing 5 Bsp. Direkte Adressierung im Bild: 4 2 U K h T key satellite data FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Hashing 6 : procedure direct-address-search(t,k) 2: return T[k] : procedure direct-address-insert(t,x) 2: T[key[x]] x : procedure direct-address-delete(t,x) 2: T[key[x]] NIL Bem. Bei manchen Anwendungen kann man die Objekte x (mit Schüssel key[x] und sattelite data) direkt (ohne Zeiger) in der Tabelle speichern ( Platzersparnis). Oft kann man auchkey[x] einsparen (Positionensinddannbelegt oderleer). Hashing 7 Problem bei direkter Adressierung: Ist U sehr groß, so kann man das Allokieren von Array T[0.. U ] unmöglich oder unpraktisch sein: K könnte viel kleiner als U sein ( Platzverschwendung!). Im letzteren Fall eignen sich Hashtabellen: Reduzieren den Speicherplatzbedarf auf Θ( K ) Erwartete Laufzeit pro Wörterbuchoperation: O() Def. Für m N + sei [m] := {0,...,m }. Ansatz: Speicherung von Schüsseln aus U in m Plätzen einer Tabelle T[0..m ]. FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD

3 Hashing 8 Def. Eine Hashfunktion (fürhashtabelle T) ist eine Funktion h: U [m]. Ein Wert h(k) heißt Hashwert von k unter h. T 0 U k K k 4 k 5 k 2 k 3 h. h(k ) h(k 4 ). h(k 2 ) = h(k 5 ). h(k 3 ). m Hashing 9 Problem: Zwei Schlüssel könnten denselben Hashwert unter h erhalten ( Kollision). Ideal: Speichere k in berechneter Zelle T[h(k)] und versuche h so zu wählen, daß keine Kollisionen vorkommen. Aber: Im Falle U > m (und das nehmen wir ja an) sind Kollisionen unvermeidbar. Idee: ) Minimiere Kollisionen via Zufall ( Randomisierung) 2) Behandle die verbleibenden Kollisionen geeignet: chained hashing (Hashing mit verketteten Listen) open addressing (geschlossenes Hashing) FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Hashing 0 Chained Hashing: Alle Schlüssel mit demselben Hashwert j werden in einer verketteten Liste verwaltet und T[j] ist ein ZeigeraufderenAnfang. Fallses keine Schlüsselmit Hashwert j gibt, so gilt T[j]=NIL. T U K k k 4 k 5 k 7 k 2 k 3 k 8 k 6 h k k 4 k 5 k 2 k 7 k 3 k 8 k 6 Hashing Bem. Bei chained Hashing ist die Hashtabelle ein Array von Zeigern auf den Anfang von eventuell leeren Listen. Die Prozedur chained-hash-delete(t,x) löscht Objekt x aus der Hashtabelle T. : procedure chained-hash-delete(t,x) 2: Lösche Objekt x aus Liste T[h(key[x])]. Laufzeit: O() bei zweifach verketteten linearen Listen! (Man muß nach Objekt x nicht erst suchen!) FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD

4 Hashing 2 : procedure chained-hash-insert(t,x) 2: Füge Objekt x am Anfang von Liste T[h(key[x])] ein. Laufzeit: O() vorausgesetzt, Objekt x befindet sich nicht in T. Dies kann man vorher mittels chained-hash-search testen, freilich nur mit zusätzlichem Zeitaufwand. Frage: Wie hoch ist dieser im Durchschnitt? : procedure chained-hash-search(t,k) 2: Suche nach Objekt mit Schlüssel k in Liste T[h(k)]. Hashing 3 Analyse von chained Hashing: Ziel: Erwartete Laufzeitfüralle Wörterbuchoperationen: O() Genügt: Erwartete Laufzeit von chained-hash-search beträgt O(). Sei T[0..m ] eine Hashtabelle bzgl. Hashfunktion h mit n gespeicherten Elementen. Die Analyse ist inabhängigkeitvom (aktuellen) Auslastungsfaktor α := n m (= durchschnittliche Länge einer verketteten Liste in T). Worst-case Laufzeit: Θ(n) (die Schlüssel der n Elemente von T könnten ja alle denselben Hashwert haben!) FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Hashing 4 Die erwartete Laufzeit hängt wesentlich vonder Verteilungder Hashwerte unter h ab. Hierfür treffen wir die folgende Abgeschwächte Uniformitätsannahme: (UF 2 ) Für alle k l in U gilt: Pr{h(k)=h(l)} m Für j < m bezeichne n j die Länge der Liste T[j]. Also gilt: n=n 0 + n n m Bem. Bei Annahme (UF 2 ) gilt für den Erwartungswert von n j (= erwartete Listenlänge von T[j]): E[n j ] α Weitere Annahme: h ist einfach, d.h. jeder Wert h(k) kann in Zeit O() berechnet werden. Hashing 5 Satz (Chained Hashing). Unter obigen Annahmen gilt: Die erwartete Laufzeit bei erfolgloser Suche ist O( + α). Die erwartete Laufzeit beierfolgreicher Suche ist O(+α). Beweis. Erfolglose Suche nach k / T. Genügt: E[n j ] α Für l [m] definiere dazu die Indikator-Zufallsvariable { falls h(k)=h(l) Y kl := 0 sonst. Dann gilt n h(k) = l T Y kl. Mittels Linearität des Erwartungswertes, Lemma und (UF 2 ) erhalten wir somit: E[n h(k) ] = E[Y kl ] = Pr{h(k)=h(l)} m = α l T l T l T FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD

5 Hashing 6 Erfolgreiche Suche BeierfolgreicherSuche nacheinem Objekt x in T mit Schlüssel k in einer Liste T[j] werden plus die Anzahl der nach x in T[j] eingefügten Schlüssel verglichen. Seien x,...,x n die nacheinander in T eingefügten Objekte mit Schlüsseln k,...,k n. Für i,j [m] seien wieder Indikator-Zufallsvariablen definiert: { falls h(ki )=h(k X ij := j ) 0 sonst Die erwartete Anzahl der Schlüsselvergleiche bei erfolgreicher Suche, gemittelt über alle n Elemente, ergibt sich damit nach Linearität des Erwartungswertes, Lemma und (UF 2 ) zu: E [ n n (+ n i= j=i+ Hashing 7 X ij ) ] = n n (+ n i= j=i+ m ) i= j=i+ n m n i= n n (+ n = + E[X ij ]) (n i) = + n m (n2 n(n+) 2 ) = + n 2m = + α 2 2m Damit ist die erwartete Laufzeit bei erfolgreicher Suche: Θ(2 + α 2 2m ) = Θ( + α) FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Hashing 8 Interpretation: Wenn die Hashtabellengröße m zumindest proportionalzuranzahln dergespeichertenelemente ist, d.h. n = O(m), dann gilt: α = n m = O(m) m = O() d.h. die erwartete Laufzeit bei der Suche ist O(). Satz (Wörterbuchoperationen bei chained Hashing). Wenn (UF 2 ) gilt und die Hashtabellengröße proportional zur Anzahl der gespeicherten Elemente ist (oder α c für eine Konstante c), dann beträgt die erwartete Laufzeit von chained Hashing für alle Wörterbuchoperationen nur O(). Hashing 9 Hashfunktionen: Kriterien für gute Hashfuktionen Drei Schematazur Erzeugung guter Hashfunktionen: Divisionsmethode Multiplikationsmethode Universelles Hashing (Randomisierung!) Kriterien für gute Hashfuktionen ) Auswertungszeit von h(k) 2) Wahrscheinlichkeit für Kollisionen (unter realistischen Annahmen über die Schlüsselmenge U) Für ) entscheidend: Schlüsselformat FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD

6 Hashing 20 Bsp. U = {A,...,Z,a,...,z} 3 Nichtleere Wörter mit mindestens 3 Buchstaben: unendlich! h: U {0,...,2} wird definiert durch wobei h(c c 2 c r ) = num(c 3 ) mod 3 num(a) = num(a) = 0 num(b) = num(b) =.. num(z) = num(z) = 25 Hashing 2 Es war: h(c c 2 c r ) = num(c 3 ) mod 3 x num(c 3 ) h(x) Januar 3 0 Februar Maerz 4 4 April 7 4 Mai 8 8 Juni 3 0 Juli August 6 6 September 5 2 Oktober 9 6 November 2 8 Dezember 25 2 FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Hashing 22 Bsp. Chained Hashing T : 0: : 2: 3: 4: 5: 6: 7: 8: 9: 0: : 2: Juni Februar September Maerz August November Juli Dezember Januar April Oktober Mai.Fall U N Hashing 23 Divisionsmethode: h(k) = k mod m Vorteile: Sehr einfach, effizient. Nachteile: Bei strukturierten Schlüsselmengen (z.b. aus Strings übersetzte Schlüssel) erhöhtes Kollisionsrisiko Relativ sicher nur für Primzahlen m. Vorsicht: Falls m = 2 p, ist h(k) der Binärwert der p lowerorder Bits von k. Solange man nichts über deren Verteilung weiß, sollte h(k) von möglichst vielen Bits von k abhängen! Oft gute Wahl: m als Primzahl mit m 2 p 20. FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD

7 Hashing 24 Multiplikationsmethode: U = {0,,...,m } Idee: Für 0 < ϑ < ( theta ) h(k) = (ϑ k mod ) m wobei ϑ k mod = ϑ k ϑ k = Nachkommastellenvonϑ k Bsp. ϑ := φ = und m = 00 h(00) = (ϑ 00 mod ) 00 = (6, mod ) 00 = 80 h(0) = (ϑ 0 mod ) 00 = (62, mod ) 00 = 42 Hashing 25 Bem. Mitdiesem ϑ (nachknuth) werdenaufeinanderfolgende Schlüssel (k, k +,...,k+q ) sehr gut in [m] verteilt. Diskrete Version der Multiplikationsmethode: U = [2 k ], m = 2 l. h(x) = (a x mod 2 k )div2 k l mit ungeradem a und ϑ a/2 k. Sehr effizient auswertbar ohne Division: a k Bits x k Bits ax * = 2k Bits h ( x) l Bits FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Hashing 26 2.Fall U Seq(Σ) = Strings über einem Alphabet Σ. Bsp. ASCII-Zeichensatz ={0,} 8 ={0,,...,255} Schlüssel: k = c...c r mit Buchstaben c,...,c r Σ. Stets möglich: Codierung der Buchstaben als Zahlen num: Σ {0,..., Σ } und damit Codierung der Schlüssel als Zahlen: num: Seq(Σ) Zahldarstellungen bzgl Basis Σ mit num(c...c r ) := num(c )...num(c r ). Hashing 27 Möglich, nicht sehr zu empfehlen: x ˆx h(ˆx). Bsp. h(c }...c {{} r ) = num(c 3 ) mod 3, wobei ˆx = num(c 3 ) x x num(c 3 ) h(x) Januar 3 0 Februar Juni 3 0 Juli Nachteil: Kollisionen ˆx = ŷ sind nicht auflösbar. Besser: an Schlüsselformat angepasste Hashfunktion! FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD

8 Hashing 28 Lineare Funktionen über Körper Z p ( Z modulo pz ): m = p Primzahl mit p > Σ, also 0 num(c) < p. Wähle Koeffizienten a,...,a r {0,...,p }. ( r ) h(c c r ) = a i num(c i ) mod p. Vorteile: i= Rechnung nur mit Zahlen < m 2 (wenn man nach jeder Multiplikation/Addition modulo m reduziert) Sehr effizient Theoretisch nachweisbares gutes Verhalten, wenn a,...,a r aus {0,,...,p } zufällig gewählt wurden. Qualitätskriterien: Hashing 29 ) Zeit für Auswertung von h(x) 2) Wahrscheinlichkeit für Kollisionen ohne Annahmen über die Schlüsselmenge S 3) Effizientes Generieren einer neuen Hashfunktion ( Verdoppelungsstrategie) 4) Platzbedarf für die Speicherung von h (Programm, Parameter) FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Universelles Hashing: Hashing 30 Erinnerung: Bei jeder fest gewählten Hashfunktion kann die worst-case Laufzeit Θ(n) eintreten. Ausweg: Man wählt zufällig eine Fkt. aus einer geeigneten Klasse vonhashfunktion, unabhängig vonderzuspeichernden Schlüsselmenge. Def. Eine endliche Menge H von Hashfunktionen, d.h. H {h h: U [m]}, heißt universell, falls für beliebige Schlüssel k, l U mit k l gilt: {h H h(k)=h(l)} H m Hashing 3 Satz (Universelles Chained Hashing). Sei h H für eine universelle Hashklasse H zur Speicherung von n Schlüsseln in einer Hashtabelle T der Größe m zufällig gewählt. Dann gilt: Die erwartete Laufzeit für chained Hashing bei erfolgloser Suche ist O(α). Die erwartete Laufzeit für chained Hashing bei erfolgreicher Suche ist O( + α). Beweis. Genügt: Bestimmung von E[n h(k) ]. Definiere dazu für jedes Paar k, l [m] mit k l die Indikator-Zufallsvariable { falls h(k)=h(l) X kl := 0 sonst. FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD

9 Hashing 32 Nach Vorauss., Lemma gilt: E[X kl ]=Pr{h(k)=h(l)} m. Nun definiere für k [m] Zufallsvariable Y k, die die Anzahl der l k mit h(k)=h(l) mißt. Also gilt: m E[Y k ] = E[ l T l k X kl ] = l T l k E[Y kl ] l T l k k / T Dann gilt n h(k) = Y k und {l T : l k} =n. = E[n h(k) ] = E[Y k ] n m =α k T Dann gilt n h(k) = Y k + und {l T : l k} =n. = E[n h(k) ] = E[Y k ] + n m + < + α Hashing 33 Satz (Wörterbuch bei universellem chained Hashing). Bei universellem chained Hashing bzgl einer Hashtabelle der Größembeträgtdieerwartete Laufzeit fürn Wörterbuchoperationen mit O(m) insert-operationen nur O(n). Beweis. Nach Annahme gilt n = O(m) und somit α = O(). Nach Satz beträgt damit die erwartete Laufzeit jeder Wörterbuchoperation O(). Aus der Linearität des Erwartungswertes folgt damit die Behauptung des Satzes. FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Hashing 34 Bsp. einer universellen Hashklasse H: Betrachte den Restklassenkörper Z p (Z modulo pz) für eine Primzahl p > m. Es gilt Z p = {0,,...,p }. Nun definiere zu jedem Paar a Z + p und b Z p eine Hashfunktion h a,b wie folgt: h a,b (k) := ((a k + b) mod p)mod m Satz (Universelle Hashklasse). Die Menge H p,m := {h a,b a Z + p,b Z p } ist eine universelle Hashklasse. Beweis. Zahlentheorie Hashing 35 Geschlossenes Hashing oder open addressing : Ansatz: Speichere alle Schlüssel in Array A[0..m ] einfach praktisch viel verwendet kein Platz für Zeiger und leere Plätze in Zeiger-Array vermeidet Zeitaufwand für dynamische Erzeugung von Listenelementen Bei open addressing gibt es für jeden Schlüssel k U eine Sondierungsfolge h(k,0),h(k,),...,h(k, m ) in [m]. FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD

10 Hashing 36 Beim EinfügenvonObjektxmit Schlüsselk undbeim Suchen nach einem Objekt mit Schlüssel k werden die Zellen der Hashtabelle T in dieser Reihenfolge untersucht bis eine leere Zelle oder der Eintrag k gefunden wird. Die bei openaddressingbetrachtetenhashfunktionen h sind also von der Gestalt h: U [m] [m]. Damit jede Zelle erreicht wird, fordert man: h(k,0),h(k,),...,h(k, m ) ist Permutation von [m]. Wennmindestens eine Zelle in T leer ist, dann endet also jede erfolglose Suche in einer leeren Zelle. Hashing 37 Problem: Beim Suchen nach einem Objekt mit Schlüssel k wird dieselbe Sondierungsfolge wie beim Einfügen verwendet. Daherkanndie Suche erfolglosenden (mantrifft aufeine leere Zelle), obwohl das Objekt in der Tabelle vorhanden ist. Lösung: Mandarfbeim Löscheneines Objektes die Zelle nicht auf NIL setzen, sondern nur den Status auf deleted. Beim Einfügen muß man lediglich Zellen mit Status deleted wie leere Zellen behandeln. Nachteil: Erwartete Laufzeit beim Suchenkann nichtmehrin Abhängigkeit vom Auslastungsfaktor α analysiert werden. Rest: nächste Woche! (nun im Netz) FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Hashing 38 O.E. besitze im folgendenjedertabelleneintragxdiekomponenten key[x] und status[x] {NIL,full,deleted}, also keine sattelite data. : procedure open-address-search(t,k) 2: i 0 3: repeat 4: j h(k, i) 5: if key[t[j]]=k then return j k found 6: else i i + 7: until status[t[j]]=nil oder i=m 8: return NIL k not found Hashing 39 : procedure open-address-insert(t,k) 2: i 0 3: repeat 4: j h(k, i) 5: if status[t[j]] full then 6: key[t[j]] k 7: status[t[j]] full 8: return j 9: else i i + 0: until i=m : return hash table overflow Bem. Bei overflow besser: Verdoppelungsstrategie! FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD

11 Hashing 40 : procedure open-address-delete(t,k) 2: i 0 3: repeat 4: j h(k, i) 5: if (status[t[j]]=full key[t[j]]=k) then 6: status[t[j]] deleted 7: if status[t[j]]=nil then 8: return error not found! 9: else i i + 0: until i=m Hashing 4 Def. Gegeben eine gewöhnliche Hashfunktion h : U [m], so verwendet geschlossenes Hashing mit linearem Sondieren (linear probing) die Hashfunktion h: U [m] [m]: h(k, i) := (h (k) + i) mod m Bem. Zueinem Schlüsselk gehörthierdiesondierungsfolge: h (k),h (k) +,...,m,0,...,h (k) Bem. Es gibt nur m verschiedene Sondierungsfolgen! Die GefahrderprimärenClusterbildung (lange Abschnitte belegter Slots) verschlechtert die erwartete Laufzeit. FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Hashing 42 Def. Gegeben eine gewöhnliche Hashfunktion h : U [m] sowie Konstanten c und c 2 0, so verwendet geschlossenes Hashing mit quadratischem Sondieren (quadratic probing) die Hashfunktion h: U [m] [m]: h(k, i) := (h (k) + c i + c 2 i 2 ) mod m Bem. Zu k U gehört eine Sondierungsfolge, die mit h (k) beginnt; alle weiteren Sondierungspositionen ergeben sich aus der vorangehenden durch einen Offset (modulo m), der quadratisch von i abhängt. Bem. Da jede solche Sondierungsfolge eine Permutation von [m] sein soll, muß man c,c 2 sowie m geeignet wählen! Hashing 43 Variante: Alternierendes quadratisches Sondieren h(k, i) = ( h (k) + i 2 2 ( ) i+) mod m Fakt. Ist m=4j+3 eine Primzahl, so ist jede Sondierungsfolge h(k,0),h(k,),...,h(k, m ) eine Permutation von [m]. Beweis. Elementare Zahlentheorie. Bsp. m=9 und h (k)=0 liefert die Sondierungsfolge: 0,,8,4,5,9,0,6,3,6,3,7,2,,8,7,2,5,4 FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD

12 Hashing 44 Bem. Beim quadratischen Sondieren existieren ebenfalls nur m verschiedene Sondierungsfolgen! Denn es gilt: h(k,0)=h(k 2,0) = h(k,i)=h(k 2,i) für i < m. Bem. Quadratisches Sondieren arbeitet besser als lineares Sondieren und verhält sich der Erfahrung nach sehr gut (wenn h gut verteilend und der Auslastungsfaktor 0,9 ist.) Trotzdem besteht die Gefahr derprimärenclusterbildung, aber nur in abgemilderter Form. Hashing 45 Def. Gegeben zwei gewöhnliche Hashfunktionen h,h 2 : U [m], so verwendet das (geschlossene) Doppel-Hashing die Hashfunktion h: U [m] [m]: h(k, i) := (h (k) + i h 2 (k)) mod m Bem. Zu k U gehört eine Sondierungsfolge, die mit h (k) beginnt; alle weiteren Sondierungspositionen ergeben sich aus der vorangehenden durch den Offset h 2 (k), modulo m. Bem. Beim Doppel-Hashing existieren Θ(m 2 ) verschiedene Sondierungsfolgen!, denn jedes mögliche Paar (h (k),h 2 (k)) lieferteine unterschiedliche Sondierungsfolge. Doppel-Hashing verhält sich daher fast wie das ideale uniforme Hashing. FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Hashing 46 Fakt. Ist m eine Primzahl, so ist bei folgender Variante des Doppel-Hashings mit Bild(h 2 ) [m ] h(k, i) := (h (k) + i ( + h 2 (k))) mod m jede Sondierungsfolge h(k,0),h(k,),...,h(k, m ) eine Permutation von [m]. Beweis. Sei z := +h 2 (k) und gelte h(k, i) = h(k, j). = (h (k) + i z) mod m = (h (k) + j z) mod m Also gilt (j i) z 0 (mod m), d.h. m teilt (j i) z. Da m Primzahl ist und z < m (nach Vorauss.), teilt m die Zahl j i. Also ist i = j, da 0 i,j < m. Einschub: W-Theorie Def. Sei (Pr{ },S) ein W-Raum und A,B Ereignisse von S mit Pr{B} =0. Dann definiert Pr{A B} := Pr{A B} Pr{B} die Wahrscheinlichkeit von A unter der Bedingung B. Folg (Durchschnitt und bedingte Wahrscheinlichkeit). Für Ereignisse A,...,A n, n 2 von S gilt: Pr{ n i= A j } = Pr{A } Pr{A 2 A } Pr{A 3 A A 2 } Pr{A n A A 2... A n } FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD

13 Einschub: W-Theorie 2 Beweis. Für i = 2,...,n sei B i :=A i A i 2... A. n = Pr{A } Pr{A i B i } Def n = Pr{A } i=2 Def = Pr{A } i=2 n i=2 Pr{A i B i } Pr{B i } Pr{B i+ } Pr{B i } = Pr{A } Pr{B n+} Pr{B 2 } = Pr{B n+ } Fertig, denn B n+ =A n... A und Pr{A } n Pr{A i B i } ist die linke Seite der Behauptung. i=2 Hashing 47 Analyse von geschlossenem Hashing: Ziel: Erwartete Laufzeit bei der Suche nach einem Schlüssel k ineinerhashtabelle T[..m] mit n gespeicherten Schlüsseln und gegebener Hashfunktion h: U [m] [m]. Dies erfolgt ) in Abhängigkeit vom Auslastungsfaktor α := n m 2) unter der Annahme des uniformen Hashings: (UH) Jeder Schlüssel wird von h unabhängig und gleichwahrscheinlich auf eine Tabellenposition verteilt. Konsequenz: Jede der m! möglichen Sondierungsfolgen h(k,0),h(k,),...,h(k, m ) fürdas Einfügenvonk oder Suchen nach k ist gleichwahrscheinlich. FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Hashing 48 Satz (Open Addressing bei erfolgloser Suche). Sei h: U [m] [m] eine Hashfunktion zur Speicherung von n Schlüsseln in einer Tabelle T[..m]. Ferner gelte (UH). Dann ist die erwartete Laufzeit für open addressing mit α < bei erfolgloser Suche α. Beweis. Bei erfolglosersuche nacheinem Schüsselk enthält jede gemäßsondierungsfolge besuchte Zelle, bis auf die letzte (diese ist leer), einen Schlüssel k. SeiX eine Zufallsvariable, diedieanzahlderbesuchtenzellen mißt. Ferner sei A i, i, das Ereignis, daß die i-te besuchte Zelle belegt ist. Hashing 49 Dann gilt: Pr{X i}=pr{a A 2... A i } Nach Einschub zu W-Theorie gilt: A j } = Pr{A } Pr{A 2 A } Pr{A 3 A A 2 } Pr{ i j= Nun gilt: Pr{A i A A 2... A i 2 } Pr{A }= n m Pr{A j A A 2... A j }= n j+ m j+ für j = 2,...i. = Pr{X i} = n m n m n i+2 m i+2 ( n m )i = E[X] = Pr{X i} α i = α i= i= FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD

14 Hashing 50 Folg (Einfügen bei open Addressing). Unter der Annahme (UH) ist die erwartete Laufzeit für das Einfügen eines Schlüssels bei open addressing mit Auslastungsfaktor α höchstens α. Beweis. Das Einfügeneines Schlüssels k ist nur möglich, falls α < gilt. Es erfordert eine gemäß Sondierungsfolge erfolglose Suche, gefolgt von einer Plazierung von k in die erste leere Zelle. Also ist die erwartete Anzahl von Sondierungen (nach Satz) höchstens α. Hashing 5 Satz (Open Addressing bei erfolgreicher Suche). Sei h: U [m] [m] eine Hashfunktion zur Speicherung von n Schlüsseln in einer Tabelle T[..m]. Ferner gelte (UH). Dann ist erwartete Laufzeit für open addressing mit α < bei erfolgreicher Suche höchstens α ln α. Beweis. Eine erfolgreiche Suche nach einem Schüssel k folgt derselben Sondierungsfolge wie beim Einfügen von k. Wurde also k als (i + )-ter Schlüssel in die Tabelle eingefügt, so ist nach Folgerung die erwartete Anzahl von dazu erforderlichen Sondierungen höchstens: α = m m i m i FG KTuEA, TU Ilmenau AuD FG KTuEA, TU Ilmenau AuD Hashing 52 Mittelung über alle n Schlüssel in der Tabelle ergibt für die erwartete Anzahl von Sondierungen bei erfolgreicher Suche: m m i = m n n m i i=0 i=0 n n = α α m k k=m n m m n x dx Umnumerierung Riemannintegral = α (lnm ln(m n)) Fundamental., ln x= x = α ln m m n = α ln α Funktionalgleichung FG KTuEA, TU Ilmenau AuD