Datenmassenspeicher. nannten NoSQL-Datenbanken I I anwendungen verbirgt sich. frir Einsatzzwecke optimiert der fast schon sprichwortliche

Transkript

1 Know-how I NoSQL- lsabel Drost, Lars George Datenmassenspeicher Konzepte von NoSQL-Datenba nken Web-Anwendungen stellen Anforderungen, die relationale Datenbanke nur schlecht erf0llen kiinnen. Unter dem Oberbegriff NoSQL sind daher eine Reihe von entstanden, die neue ldeen umsetzen und den Schwerpunkt auf Skalierbarkeit und den Umgang mit unstrukturierten Daten legen. l-l intervielen interaktiven Web- nannten NoSQL- I I anwendungen verbirgt sich frir Einsatzzwecke optimiert der fast schon sprichwortliche wurden, die sich erheblich von LAMP-Stack aus,,linun, Apache, den Szenarien etablierter relationaler Datenbanksysteme un- MySQL und PHP": Die Anwendung lduft auf einem oder mehreren Linux-Rechnern, wird von terscheiden. dem Apache-Webserver ausgel iefert, speichert ihre Daten in einer SQL relationalen Datenbank (RDBMS) Name NoSQL bereits begeht es um, und ist in einer Skriptsprache ge. schrieben. Vor allem f0r das "M" die nicht (oder nicht nur) die im Stack entwickeln sich in den Standard Query Language als letzten Jahren allerdings mehr Abfragesprache venvenden. SQL und mehr Alternativen. Die meisten davon sind aufanwendungs- verstanden) in der Entwicklerge- entwickeln und betreiben NoSQL- mdchtige und dennoch ver- stellt eine ausdrucksstarke. fiille zugeschnitten, die sich mit meinschaft nicht unumstritten. Aus den Anforderungen solcher Nutzer ergeben che Abfragesprache frir relatiogleichsweise leicht verstdndli- einer herkdmmlichen relationalen SQL-Datenbank nicht oder dass Diskussionen angeregt und sich wesentliche Eigenschaftennale Daten dar. Sie ist - von,,ei- ist, hat er doch dazu gefrihrt, nur mit sehr viel Aufiivand umsetzen lassen. Schlagwort zusammengefr.ihrtken: Sie skalieren problemlos Abwandlungen abgesehen - an- unter einem gemeinsamen der meisten NoSQL-Datenbannigen" herstellerspezifischen Ursprtinglich eine ldee von wurden, die so vorher kaum riber viele Server, bieten eine bietertibergreifend standardisiert, sodass es mit SQL vertrau- Eric Evans und Johan Oskarsson, stattgefunden haben. hohe VerfUgbarkeit und sind den Organisatoren des ersten Vorreiter bei den NoSQL-Da-f0tenbanken sind die gro8en In- denen die Lese- gegenuber den leicht fiillt, eine neue Datenbank Szenarien konzipiert, in ten Entwicklern vergleichsweise NoSQL-Treffens in Kalifornien, f0r den Namen einer Konferenz ternetfirmen. Google beispielsweise hat mit Bigtabl eine so- Uberzahl sind. lm Gegenzug ver- Tools, die das Formulieren von Schreibzugriffen deutlich in der anzubinden. Es gibt unzdhlige zum Thema hochskalierbare, hat sich der Begriff genannte spaltenorientierte Datenbank entwickelt, die verteilt sierte Abfragesprache SQL und fur Programmierer existieren zichten sie auf die standardi- SQl-Abfragen erleichtern, und inzwischen fiir nicht-relationale, auf Skalierbarkeit optimierte weltweit etabliert. lduft und die Daten for die Web- fur die Konsistenz der Daten als den Umgang mit relationalen auf Zehntausenden von Servern geben weniger starke Garantien zahlreiche Abstraktionen, um Obwohl der Begriff selbst (heute suche speichert [1]. Auch Unternehmen wie Amazon, Facebook, Eigenschaften wird bereits deutorientierten Sprachen heraus traditionelle RDBMS. Aus diesen auch aus objekt- eher als,,not only 5Q1",,,nicht nur SQL", denn als,,kein SQL" Linkedln, Twitter oder Yahoo lich, dass die meisten der soge- einfach zu gestalten. 168 c't 2010, Heft 1 5

2 Know-how I NoSQL- Warumalsosollteman diese naturlichere Gesamtlcisung aus Konsistentoder Komponenten ein verteiltessysvorteileaufgeben? Als Beispiel Anwendungund Datenbank; al- verfi.igbar? tem umfasst:bei gro8en Clusseihierein Bloggenannt:Wenn lerdingssindsiebeider Abfrage ternisteinepartitionierung eher die Datenbank zujedemposting von Datenmeistwenigermdch- DerPreisfUrdie im Vergleichmit die RegelalsdieAusnahme. Man d e n In h altund einigew e n i g e tig alsrdbms. relationalen einfa- hatdanndiewahl,entwederdie Metadatenwie das Verdffentliche Skalierbarkeit ist,dassviele komolette Datenbank abzuchungsdatumund Tags speinosql- keinestar- schalten, um siein einemkonsisthinkbig chert,die bei jedem Aufruf des ke Konsistenz der Datengaran- tentenzustandzu halten,oder Blogsin festgelegter Formange- Webanwendungen startentypi- tierenkcinnen. kom- Konsistenzverletzungen Stattdessen zu akzeigt und bestenfalls Tag-weise scherweise kleinmit einemein- men leichtgewichtigere Garan- zeptieren,um die Datenbank softiertwerdensollen,benotigt zigen Rechnerals Datenbank- tien wie,,eventual consistency" verf0gbarzu halten.nosql-damankeinejoins,gruppierungen Backend. Wenndie Lastansteigt, zum Einsatz. tenbankenbeziehendieseuberodergarstatistische Funktionen. stelltmandie Datenbankoft auf TraditionellerelationaleDa- legungbereitsin ihr Designein. Diezahlreichen Optimierungen, eine Master-5lave-Konfiguration tenbankenarbeitennach dem Amazonbeispielsweise hat sich die relationale bie- um, in der ein ServerSchreibzu- ACID-Prinzip. Transaktionen sind bei seinemwebshop,der auf ten,die Machtigkeit derabfrage- griffeentgegennimmt, wdhrend atomar(a):siewerdenentweder Tausenden von riberdie ganze spracheund ihre Standardisie-ein zweiterlesezugriffe auslie- komplett ausgefiihrtoder gar Welt verteilten Servern lduft, rungbietenkeinevorteile,wenn fert. Die ndchstestufe besteht nicht;es ist unmdglich, nur par- dazuentschieden, Konsistenzgadie Blog-Anwendung sowieso besteht dann aus mehr als tiell geschriebenedaten a) rantienan einigenstellenaufzunurzweioderdreifesteinkodier- einemslave,um die Lastder Le- lesen.c (fur Consistency)be- weichen,um eine hdhereverte Datenbankanfragen enthslt. sezugriffezu verteilen.lst eine deutet,dasssichdie Datenbank frigbarkeitzu erreichen[5]. Die FrirvieleWebanwendungen sind hohe Verftigbarkeit frir Schreib- zu jedem Zeitpunktin einem eigens entwickelte Key-ValueandereKriterienwie eine gute zugriffewichtig,bietetsicheine konsistentenzustand befindet Datenbank DynamoerlaubtUpSkalierbarkeit und die einfache Master-Master-Replikation an, in und die beim Aufsetzender Da- datesnur basierend auf einzelei n b i n dungin A nwen d u n g e n der Schreibzugriffeauf zwei tenbankdefiniertenconstraints nen Schl0sseln - die lsolation wichtiger. Rechnernparallel ausgefuhrt einhdlt.transaktionen sind ge- ganzertransaktionen wird nicht NoSQL- bringen werden.fillt einer davon aus, geneinander isoliert(l):solange garantiert. daherhiufig HTTP/REST-Sch nitt- kann der zweite Rechnerr,iber- einetransaktion abliiuft,kcinnen Vielfach greifen NoSQL-Dastellenmit - der Einsatzim lnter- nehmen. keinedavon betroffenendaten tenbankenaufdasprinzip,,evennet und derausgangspunkt viedoch was, wenn so viele gelesenodergar riberschriebentual consistency" zurrick:nach ler Projektebei Internetfirmen Datenzu speichern undzu verar- werden- Transaktionen, die sich einerveriinderung ist garantiert, lassengrr.iben. Dieeinfachstvor- beitensind,dasssiedie Kapazi- aufgleichedatensetze beziehen, dassletztlichallelesendenprostellbareformeinerdatenabfra- tet einesrechners sprengen? In arbeitetdie Datenbankseriell zessedie aktualisierten Daten ge sprichtein gespeichertes Ob- diesemfall mtissendie Daten ab. Das D frlr Dauerhaftigkeit erhaltenwerden.allerdings gibt jekt Uber einen eindeutigen riber mehrere Server verteilt schlieblich bezeichnet die Eigen- es, andersals bei den starken Schkissel an: Die Datenbank- werden(sharding), indemman schafteinerdatenbank, System- Konsistenzgarantien traditionelman spricht von Key-Value- die Datenbank aufteilt. Um ausfdlleohne Datenverlust zu ler Datenbanksysteme, ein InStores- presentiert sichalsasso- jedem zu speichernden Datum Uberstehen. konsistenzfenster. in demclients ziativesarray(hashin Perl,Map einenserverzuzuweisen, kommt EinidealesSpeicher-Backend unter Umstanden veraltetedain Java,Dictionaryin Python). hiufig ein Consistent-HashingsolltesolchefestenKonsistenz- ten erhalten.ln vielenkontexten Nichtseltenist dasfiir Weban- Algorithmuszum Einsatz.Das garantiengeben.allerdingsist ist dasdurchausakzeptabel: Ob wendungen schonausreichend. stelltsicher, dasssichdie bislang Konsistenznicht alles:bei E- die Sucheauf einer News-Site Eine andere, von vielen geltendezuordnungvon Daten Commerce-Anwendungen bei- auchdie jtingste,erst vor weninosql- unterstr.itz- zu Servernnichtallzumassiven- spielsweise sindhochverfiigbare gen Sekundenonlinegestellte te Moglichkeit zur Formulierung dert,wenn Rechnerhinzukom- Systemegefragt - kann eine Nachrichtfindet, spielt keine komplexerer AbfragensindMap- menoderwegfallen- ansonsten A ppl i kati on ei ne B estel l ung grobe Rolle. Die bekannteste Reduce-Jobs: Die Map-Funktion wdre die Datenbankvor allem nichtentgegennehmen, sofrihrt lmplementierung von,,eventual transformiert Daten,indem sie mit dem Umverteilen der bislang diesdirektzu finanziellen Verlus- consistency" stelltvermutlichdas beisoielsweise ein bestimmtes gespeichertendaten beschdf- ten.verteilte soll- DNSdar: Auch hier dauert es Datenfeldausjedem Datensatz tigt,wennsichdiezahlder Kno- ten zudemeine Partitionierung einige Zeit, bis sich eine Anauswdhlt. Dieentstehende Liste ten im Clusterdndert. des Netzwerks durch Probleme derungriberalledns-server vervon Schh.issel-Wert-Paaren wird StumbleUpon beispielsweisezwischenden Knotenoder gar breitethat. dann von der Reduce-Funktionliefgenauin diesesskalierungs-den AusfallganzerNetzsegmen- AbgeschwdchteKonsistenzaggregiert. Da sowohldie Map- problem [3]. Der Bookmark- te im Clustertolerieren.Schon garantien k6nnen in unteralsauchreduce-prozesse vonei- Dienststartetemit MySQL, muss- vor einigenjahrenhabenaller- schiedlichen Spielarten auftreten: nander unabhingig jeweils te abermit dem Anwachsen der dingsgilbertund Lynchin einer 5o garantiert,,readyour writes", einenteilder Datenbearbeiten, Datenbankaus Performance- Ausarbeitung zumcap-thoerem dass ein schreibender Prozess kcinnensieparallellaufen.details GrUnden auf immermehrfeatu- (Consistency, Availability,Par- bei darauffolgenden Lesezugrifdazufindensichin [2]. resder relationalen Datenbank tition tolerance)gezeigt,dass fen mindestensseineeigenen Anforderungen wie das Fil- verzichten- bis hin zum Ab- Systemenur zwei dieserdrei Updatessieht,wdhrend,,monotern von Datensetzen nachbe- schalten dersekunddren lndizes. Eigenschaften voll erfullenk6n- tonicread"sicherstellt, dassspdstimmtenkriterien, ftir die rela- In dem Master-5lave-Szenario nen [4]. terelesezugriffe nieslterewerte generische wurdendie Schreibzugriffe tionale auf Bei einer verteilten Daten- liefern als frtihere.,,monotonic Funktionen bereitstellen, imple- den Masterzum Engpass; der bank lassensich Datenkonsis- write"wiederumserialisiert die mentierthierdie AnwendungUmfangder Datendrohte,die tenz und Verfilgbarkeit nur ga- Schreibzugriffe einesprozesses. aufden konkretenanwendungs- Kapazitat einesservers zu spren- rantieren,solangealle Kompo- AlsEntwickler mussmansichdafallzugeschnitten und optimiert. gen. Ftir das Unternehmen er- nenten erreichbarsind. Aller- r0berim Klarensein,wasdieabNoSQL- erlauben wiessichschlieblich HBase, geschwechten eine dingsist die Wahrscheinlichkeit, Konsistenzgaranso mit ihren domiinenspezifi-freielmplementierung von Big- dass irgendeinekomponente tien bedeuten.gehtes zum BeischenSprachenhdufigeineviel Table,alsLosung. ausfdllt,um so hciher,je mehr spielum monetdre Transaktionen, c't 2010.Heft15 169

3 Know-how I NoSQL- so ist sehr wahrscheinlich ein schreibenund lesen;allerdings Webanwendungen kaum eine ( "ze itsch n ift": { Systemmit starkerkonsistenz fehlender Datenbank die kom- Rolle. "n a n e u ' ' cr tlia g a zin ", "issn ": " E6 i9 ", ndtig, schlieblich mcichteman plexerenabfragemechanismen "p r e is":3.7 0, nicht,dassetwa der r.iberwiesedokumentenorientierter Daten- CouchDB: la Se ": ,"Au f ne Betragkurzzeitig auf beiden banken. WikizumMitnehmen ) Kontenauftaucht. lstabereinab GooglesBigtableund deren undzu leichtveralteterwert,der freie lmplementierunghbase CouchDBist einedokumentenbaldauf den aktuellenwechselt, JSON-Dokumente bestehen sindebensowiecassandra Spal- orientiertedatenbank.in der aussichtderanwendung akzep- ausschliissel-wert-paaren. tendatenbanken.5ie erfordern Dokumenteals JSON-Objekte tabel,konnendie letztlichkonvorabdie Definitionvon Spalten, representiert sind.damituntersistenten einesehr ist als ein relationalesdaten- die jedoch im Unterschied zu stiitztcouchdb alledatentypen, garantieren. bankschema. hoheverfiigbarkeit BeivielenNoSQL- relationalen eine die fr.irjsondefiniertsind.als erforderndasfeh- variablezahlvon jederzeitver- schemafreiedatenbankbenodatentypenund len eineswertes,ein andersbe- iinderbarenwerten enthalten tigt CouchDB keinefestedefininanntesoder ein zusdtzliches konnenund daherals Spalten- tion der zu erwartendendatenschemata Feld keine besonderebehand- familien oder Spaltengruppen objekte.daserleichtertden UmDie Arbeitmit einersql-daten- lung beim Umgangmit der Da- bezeichnetwerden.5o kcinnte gangmit sichdndernden Datenbank beginntin der Regelmit tenbank.die Behandlung dieser der Entwickler in dervordefinier- strukturen:eineanderungwie der DefinitioneinesfestenDa- Ausnahmefiille obliegtdann al- ten Spaltenfamilie wdh- ein zus6tzliches Feld,,Private,,VCard" tenbankschemas. dasdie Tabel- lerdingsdem Anwendungsent- rendder Laufzeitbeliebigviele Mailadresse" im Adressdatensatz len.derenattributeund Relatio- wickler- wie auchnull-e ntre-attributespeichern, zum Beispiel der Angestelltenzwingt nicht nen festlegt.anderungenam ge beirelationalen,,v C ard:n ame",,,v C ard:p hone" zu einer umfangreichen Daten, Schema sindzwarauchnachbe- in der Anwendungabgefangen,,VCard:Mail" und soweiter.spal- migration. fullender Datenbankmoglich, werdenmtissen. ten sind also vergleichbar mit Zugriffeauf die Datenbank erallerdingserzwingt das meist Hashes,Maps bei Java oder folgennachdemprinzipdesoptieinedatenmigration mit hohen Dictionaries in Python.Uberdie mistischen Locking: Will Prozess Schliisselund Spalten Kosten.In NoSQL- Zuordnung eines Wertes zu A einendatensatz modifizieren, sind die Datenstrukturen sche- Nichtrelationale einerspaltenfamilie teiltderent- liest er ihn ein und bekommt mafreiund lassensichleichtan- lassensichgrob in f0nf Katego- wicklerder Datenbank mit,wel- nebeneinemsnapshot des Dapassen. Einedokumentenorien-rieneinteilen: che Werte zusammengespei- tensatzes dieversion seines Snaptierte NoSQL-Datenbank wie DokumentenorientierteDa- chertwerdensollen:andersals shotsmitgeteilt.willer die modicouchdb kannbeliebigedaten- tenbanken wie CouchDBund relationalerdbmslegen Spal- fiziertendatenin die Datenbank sdtzeflexibelspeichern. Mo n g o D B s p e i c h e r n w eni g tendatenbanken nichtsdmtliche zunickschreiben, musser dievorals Beispielsollder Umgang strukturiertelnformationenin FeldereinesDatensatzes hinter- her erhalteneversionsnummer mit Visitenkarten dienen:ahn- JSON-formatierten Dokumenten einanderauf dem Datentrager mit 0bergeben.Hat ein zweiter lich wie personenbezogene Ein- (JavaScriptObject Notation, ab, sondernverteilendie Spal- Prozess B in derzwischenzeit den trage einer Datenbankhaben siehekastenaufdieserseite)als tenfamilienuber verschiedene Datensatzmodifiziert,so hat er diese Kdrtchen r.iblicherweise eine Reihevon Sch[issel-Wert-Dateien. damitauchdie Versionsnummer Eintriigefiir den Namen,die Te- Paaren. Siebringenin der Regel Graphendatenbankenwie des Datensatzes verdndert.da lefonnummer, die Adresse, eine eine fr.ir das Web natrirliche Neo4jsindauf die Speicherung die Versionin der Datenbank Fa xn u m m erund eine E -M a i l - Schnittstelle auf der Grundlage komplexerbaum-und Netzwerk- nichtmit dervon A ribergebenen gibt es auch von HTTPund REST (Represen- strukturen Adresse. Allerdings optimiert,die sichin Versiontibereinstimmt, lehntdie Visitenkarten, die mehrinforma- tionalstatetransfer) mit. Daauf relationalennur Datenbank die Anderungab: A tionen enthalten,zum Beispiel ein explizitesschemaf0r die schlecht abbildenlassen. EinBei- muss die Daten erneut lesen, einenakademischen Titel oder Daten verzichtetwird, lassen spieldaftirwiren die Follower- seine Anderungenvornehmen eine Berufsbezeichnung, oder sich Modifikationen, die sonst Beziehungen zwischen den und einenweiterenversuchstardenen die Faxnummerfehlt. eine Schema-Anderung nach Twitter-Mitgliedern. ten, die Anderungen zur0ckzuzudem kdnnen die einzelnen sichziehenwrirden,vergleichs- Schonldngerim Einsatz sind schreiben.diesesmodell optifelderunterschiedliche Bezeich- weiseeinfachumsetzen. die objektorientierten Daten- miertdiewartezeit dereinzelnen nungen haben,etwa,, ", VielfachgenUgtftir Anwen- banken.siewerdenals Persis- Prozesse: Die Interaktionmit der All dasliisst dungender einfacheschltissel- tenzschicht vor allemin Anwen- Datenbank,,Mail"oder,, ". ist im Mittelschneller sichin einerrelationalen Daten- basiertezugriff auf abgelegte dungeneingebettet, die in ob- alsbeiklassischen, blockierenden bankkaumabbilden: Das - Daten- Key-Value-Stores sind iektorientierten Sprachen erstellt Modellen und bei hohem Feld heibt dort immer gleich, frir diesenanwendungsfall opti- sind.wenigauf Skalierung opti- Schreibaufkommen schlimmsund wenn kein akademischer miert.derbekannteste Vertreter miert,spielensie bei typischen tenfalls genauso langsam. Titelvorgesehen ist,lssster sich dr.lrfte Memcachedsein, ein hochstensabspeichern, indem Cache-Server, der hiiufigbenomanein anderes Feldzweckent- tigte h 6 t.,.-. i i ').g D B,r, e fremdet. re Serverim RAMspeichert.Mit r h F.b :h o u n kr l ( u ( ;h d * o n l n. l tsa a Fh a * o p d ::u b l n tu :]M s Ea r B Dokumentenorientierte Daten- Redis und wie banken sind den gedruckten Voldemortund Riakdiedieldeen Visitenkarten iihnlicher: DerAn- hinter Amazons hochverfligwender ist nicht gezwungen, baremkey-value-store Dynamo CouchDB gleichzu BeginneinesProjektes umsetzen, sindinzwischen weiein rigidesschemafestzulegen. tere Vertreterhinzugekommen. Vielmehrdefiniertjedes abge- Der UbergangzwischenKeylegte Dokumentselbst,welche Value-Stores und dokumentenfelderes enthelt.zudem sind orientierten ist auch komplexe Datentypen etwasunscharf:so lassensich moglich,was deutlichflexibler Datenin Riakim JSON-FormatCouchDBbringt eineweb-basierte Administrationsoberfldche mit. i;! 170 c't 2010.Heft15

4 Know-how I NoSQL- CouchDB liisst sich r.iber ein die aus der traditionellen Datenbankwelt bekannte Master-Masnical besteht darin, diese Infra- Diese Server stellen jedoch keine Ziel von Ubuntu-Hersteller Cano- oder mehr Servern zu starten. HTTP/REST-lnterface a nsprechen, was die Integration in Webanwendungen sehr einfach gestaltet. ter-replikation als auch eine Master-Slave Replikation sind mogstruktur als Standard frir alle Plattformen zu etablieren. Als Desk- besonderen Anforderungen und sind meist sogenannte,,commo- Auf einem Rechner mit lich. Dar0ber hinaus untersttltzt topcouch ist die Datenbank dity Server", also auf gut Deutsch laufender CouchDB gibt der Aufruf CouchDB einen einfachen Aus- inzwischen Bestandteil einer Spe- Stangenware. Damit kommt der URL tausch tiber mehr als zwei Maszifi kation von freedesktop.org. ein HBase-Cluster unterm Strich ein JSON-Objekt zuruck: ter. Auch die Kommunikation billiger als ein dicker Server f0r 0ber CouchDB-lnstanzen, die in eine vergleichbar leistungsfiihige, {"couchdb":"welcome","version":" "} getrennten HBase: Die Petabyte-DB Rechenzentren oder nicht verteilte Datenbank. Uber die URL htto://localhost: sogar auf unterschiedlichen Kontinenten HBase ist nicht die Art von Daten sind in HBase in Zeilen 5984/_all_dbs erhiilt man ein laufen, stellt kein Pro- Datenbank, die man als Backend organisiert, wobei jede Zeile aus Array mit allen angelegten, blem dar. Ein Abgleich zwischen einer Instanz auf einem mobilen ftir einen kleinen Webshop oder die selbst geschriebene Foreneinem sortierten Sch[lssel und (nahezu) beliebig vielen Spalten dotobosel _all_docs liefert eine Endgerdt und einer verteilten lnstanz in einer Cloud-Computing-lmplementierung von Googles ten lassen sich dabei zu Spalten- Software verwendet: Die freie besteht. Inhaltlich dhnliche Spal- Ubersicht aller in der angesprochenen Datenbank gespeicherten Dokumente An der Verteilung einer logischen zum Speichern sehr grober,,telefon:dienstlich" und,,telefon: Infrastruktur ist ebenso mciglich. BigTable-Spezifikation [1] wurde familien zusammenfassen (etwa Um in CouchDB gespeicherte Instanz riber mehrere Rechenknoten Datenmengen konzipiert und privat"). Die Spaltenfamilien wer- Daten zu filtern, zu aggregieren wird derzeit gearbeitet. daher konsequent auf horizontale den beim Anlegen einer Daten- und miteinander zu verbinden. CouchDB kommt nicht nur als Skalierbarkeit ausgelegt. Damit bank festgelegt; Anderungen daran dienen Views. die man riblicherweise Backend ftir Webapplikationen ist allerdings auch die Hrjrde sind ein aufirendiger adminis- als MapReduce-Jobs in der zum Einsatz. Seit Version 9.10 ver- zum Einstieg erheblichoher als trativer Prozess. Neue Spalten in- Programmiersprache JavaScriptwendet Ubuntu als zentralen bei anderen Systemen: Auch nerhalb einer Spaltenfamilie lassen sich hingegen jederzeit mit formuliert. Auf diese Weise stehen dem Entwickler umfangrei- CouchDB - in jeder aktuellen aufeinem einzelnen Rechner be- einer einfachen Schreiboperation Dienst zur Datensynchronisationwenn die Datenbank stand-alone che AusdrucksmOglichkeiten fur Ubuntu-Version liiuft standardmiibig trieben werden kann, laufen hinzufr.igen (etwa,ielefon:5!ype"). die Interaktion mit CouchDB zur eine CouchDB-lnstanz, in HBase-l nstallationen typischer- lm Unterschied zu einer relatrieben Verf0gung. Details dazu finden der sich persdnliche Daten wie weise auf grd8eren Clustern zusammen tionalen Datenbank speichert mit Apache Hadoop [2]. HBase physisch nicht die komtionalen sich in der CouchDB-Dokumentation. CouchDB kann die Ergebmarks sichern und r.iber den Hadoop unterstutzt die Dapletten Zeilen zusammenhdn- Adressbuch, Notizen oder Booknisse dieser Jobs als separate Dokumente Cloud-Service UbuntuOne mit tenbank durch die in das Hagend, sondern die Werte pro speichern, die bei Up- anderen Rechnern synchronisie-doop-dateisystem HDFS einge- Spaltenfamilie. Spalten, die in dates des Datenbestandes automatisch aktualisiert werden. Auf diese Weise sind deutliche Performance-Vofteile ren lassen. Auch Entwickler anderer Applikationen k6nnen diesen Dienst nutzen. um Daten riber die baute Reolikation der Daten auf Dateiebene und stellt mit Map- Reduceinen Mechanismus zur einer Zeile nicht vorkommen, werden dabei nicht gespeichert. HBas eignet sich so ideal zum bei hdufig wie- Ubuntu-Cloud zu replizieren. Ein Verfiigung, um HBase-TabellenSpeichern von schwach besetzren derkehrenden Abfragen zu verzeichnen. Es ist einfach. die Datenbank beliebiger GrdBe in kurzer Zeit durchlaufen zu konnen. HBase kann aber auch in anderen Umgebungen ten Tabellen (sparse tables): Nur Spalten, die einen Wert enthalten, verursachen Speicherbedarf. horizontal zu skalieren: Sowohl laufen, beispielsweisedas erlaubt eine nahezu unbeten in Amazons 53 oder Elastic Block Storage (EBS). Die Voraussetzung zum Aufbau eines Clusters konnen allerdings schon abschrecken: Die Empfehlung lautet, mit zehn grenzte Anzahl an Spalten: Ziel des Projekts ist es,,,milliarden von Zeilen und Millionen von Spalten zu speichern". Ein wichtiger Bestandteil der Architektur ist, dass HBase konsistentes Hashing weder einsetzt noch bendtigt: Ein Master teilt -/\ jedem Region Datenbankserver einen Server festen Bereich der anhand des Zeilenschltissels riber die gesamte Datenbank geordneten Zeilen zu. Diese Aufteilung der Zeilen in sogenannte Regionen erlaubt eben jene Skalierbarkeit auf theoretisch unbegrenzt viele Daten. Will die Client-Anwendung eine Zeile verindern oder in einer Region eine neue Zeile einf0gen, dann Ubernimmt der zugeordnete Region Server diese Ahion. Dieser Region Server speichert die Werte jeder Spaltenfamilie in einem HStore, dem Dateien - die sogenannten HFiles -zugeordnet sind. Letztere werden dann mit den Mechanismen des Hadooo Distributed File System (HDFS) HBase verwendet Hadoop zum verteilten Speichern der Daten. auf mehreren Datenknoten ab- Region Server tr;l tl 172 c't 2010, Heft 15

5 Know-how I NoSQL- gelegt [6]. Hat ein RegionServer ein Problem oder fiillt er ganz aus, so verschiebt der Master innerhalb von Sekunden seinen Bereich auf einen anderen Server. Der HBase-Client erkennt diese Situation und schickt die Anfrage oder Modifikation automatisch an den neuen Rechner. HBase bietet einen sehr ver- 16sslichen Datendurchsatz: Daten werden zundchst im RAM zwischengespeichert und, wenn der RAM-Cache zur Neige geht, in einem Rutsch als neues HFile ins Dateisystem geschrieben. Ein Aufrdumprozess (Compaction) ordnet dann diese Verdnderungen im Hintergrund und fasst die HFiles zusammen. Das ist etwas v6llig anderes als die Anderung Tabelle der Daten in einer relationalen Datenbank, die bei zunehmender Dateigrd3e immer linger 0ber mehrere Server. NoSQL- haben da HBase verteilt Fazit die Daten anhand des Zeilenschl0ssels nach dem Datensatz auf der ihre Stdrken, wo traditionelle relationale schwd- Festplatte suchen muss, bevor sie eine Anderung schreiben Auch f0r Sprachen wie Jython, artigen Abfragesprache auch einen JDBC-Treiber zur Verf0gung mit wenig strukturierten Daten cheln: Sie gldnzen beim Umgang kann. Viele relationale werden daher mit stei- JVM laufen, existieren Schnitt- stellt. HBase-dsl will mit einer und skalieren problemlos auch Groovy und Scala, die auf der gender Datenmenge langsamer, stellen f0r HBase.5oll es kein Java eigenen Abfragesprache die zum tiber viele Datenbankserver. wdhrend bei HBase die Menge sein, gibt es vielfdltige Alternativen f0r die Kommunikation mit mierung des HBase-Java-APl verstriche bei der Datenkonsistenz. Teil etwas komplexe Program- Dafrir machen sie bewusst Ab- der bereits gespeicherten Daten praktisch keinen Einfluss auf die HBase: Stargate implementiert einfachen. Damit lassen sich wie Sie stellen daher keine Alternative oder gar Konkurrenzu Schreibgeschwindigkeit hat. eine REST-Schnittstelle zu HBase. mit der StringBuilder-Klasse Ahnlich verhdlt es sich bei Die Software kann als Daemon Java ganze Abfragen in einer einzigen Zeile formulieren, da jede mehr ergdnzen sie das Spektrum MySQL, Oracle und Co. dar; viel- Lesezugriffen: RDBMS mussen oder als Servlet arbeiten und unterstiitzt eine offene Serialisie- Methode des Objekts die aktuelle an Applikationen, aus denen dazu den Datenbestand durchsuchen, was umso linger dauert, rungsschnittstelle. Thrift ist ein Instanz wieder zurrickgibt. Entwickler auswihlen konnen, je mehr Daten bereits gespeichert sind. HBase kann hier aufwickeltes, noch junges Apache- einfache Client-Anwendungen, senden Persistenzschicht fr,ir ihre urspr0nglich bei Facebook ent- All diese APls eignen sich for die auf der Suche nach einer pasgrund des bekannten Zeilenschl0sselsofort auf den richti- Schnittstellen defi nieren lassen. aufnehmen wollen. Eine andere Projekt, mit dem sich Service- die direkt mit HBase Kontakt Anwendung sind. (odi) gen Server zugreifen, der wiederum intern mit einer biniiren aus denen der Thrift-CompilerMciglichkeit der Datenabfrage be- in MapReduce-Programmen, Literatur dann Code zur lmplementierungsteht Suche (also mit logarithmischemeiner RPC-basierten Kommunikation zwischen Clients und Ser- Ber Datenmengen ermdglichen. com/papers/bigtable.html die die verteilte Bearbeitungro- [1] Google BigTable: http//labs.google. Zeitverhalten) sehr effizient die Daten findet. vern generiert. Thrift unterst0tzt HBase wird mit fertigen Klassen [2] lsabel Drost, Simon Willnauer, eine Vielzahl an Programmier-frisprachen: C++, Java, Python, Hadoop Apache Hadoop speichert und die MapReduce-Plattform von Cloud Computing frei Haus, Vielsprachig ausgeliefert. Da Map- PHP, Ruby, Erlang, Perl, Haskell, Reduce selbst aber auch nicht analysiert grobe Datenmengen. HBase verfr.igt ljber eigene Modelle zur Abfrage der gespei- In letzter Zeit entstehen zu- ist, versuchen Projekte wie Casca- [3] StumbleUpon-Migration zu HBase: C#. Cocoa. Smalltalk, OCaml. ganz trivial in der Handhabung c't 4/10, S. I 80 cherten Daten. Ftir in Java programmierte HBase-Clients bietet HBase, die zum Teil SQL-iihnlichegibt es Schnittstellen zu Hadoops / HB ase-at-hadoopnehmend Projekte rund um ding dort auszuhelfen. AuBerdem htto:// sich die Verwendung des Java- Zugriffe erm6glichen oder eigene domenenspezifische Spraoder skriptartigen Sprachen eine [4] Seth Gilbert, Nancy Lynch, Bre- Hive und Pig, welche mit SQL- World-NYC API an. Dessen Verwendung wird anhand eines einfachen chen mitbringen. Zu Ersteren Analyse der gespeicherten Daten we/s Conjecture and the Feasibility of Consistent, Available, Partiti- Beispiels im HBase-Wiki erkliirt gehort HBgl, das neben der SQL- in HBasermciglichen. SchlieBlich (siehe c't-link unten). Der Java- on-tolerant Web Services: hftp:// Code im Kasten auf dieser Seite lpd.epfl.ch/sgilbert/pubs/brewers extrahiert die Titel einer Reihe lleaseconli guration conf i g = ner tl8aseconti guration( ); Conjecture-SigAct.pdf von in HBase gespeicherten lllabte table = ner }ltabie(contig, "blog"); [5] Amazon Dynamo: Scan s = ner ScanO; Blog-Postings mit dem Ziel, ein s.addcoiunn(bites.tobytes("postings"), Sytes,to8ytes("ti ttes")); d istri buted.com/2m7 / 1 O / amazons Inhaltsverzeichnis zu erstellen. ResuItScanner scanner : table.getscanner(s); dynamo.html tty { Zundchst Ubergibt ein Konfigurationsobjekt Verbindungs- ) finalty { Storage, for (ResuIt resutt: scanner) output(resuit); [6] Lars George, HBase Architecture und Authentifizierungsdaten, com / 2OO9 / 1 O / hbase-arch itectu re-, scanner,ctoseo; anschliebend iteriert ein Scanner- 101-storage.html Objekt riber alle Blogeintriige der Tabelle,,blog". Das Java-APl erlaubt den einfachen Zugriff auf Daten in HBase. bringt HBaseine in JRuby umgesetzte Shell mit, mit deren Hilfe Entwickler Ad-hoc-Queries ausfuhren und schnelle Analysen durchfrihren kdnnen. Seine Stdrken spielt HBase bei der Verwaltung von Daten im Petabyte-Bereich aus. Lese- und Schreibzugriffe skalieren gut, da sie aufgrund der verteilten Natur von HBase 0ber viele Knoten parallel erfolgen kdnnen. Datenreplikation kommt aufgrund der Hadoop-Basis automatisch mit. Batch-Analysen in Form von Map Reduce-Jobs lassen sich einfach formulieren. HBase eignet sich auch als Quelle und Ziel firr MapReduce-Jobs innerhalb des Hadoop-Frameworks. & c't 2010, Heft