Kapitel 1 Einführung

Kapitel 1 Einführung Chemische Daten und Information zeichnen sich gegenüber Information aus anderen Wissenschaften durch eine kleine Anzahl einfacher, klar definierter und nicht textorientierter Datenobjekten wie Strukturen, Reaktionen, Spektren und Oberflächen sowie den damit verbundenen Darstellungsformen aus. Der Visualisierung solcher Datenobjekte ist dabei eine hohe Bedeutung beizumessen, da der Mensch von Natur aus dazu tendiert, einen Sachverhalt oder ein Modell leichter zu akzeptieren, wenn er sich ein Bild davon machen kann. ierbei werden mikroskopische Sachverhalte oder komplexe und abstrakte Modelle in ein sichtbares Model projiziert. Die zweidimensionale Repräsentation von Strukturinformation stellt dabei wohl den ältesten und bis heute bekanntesten Vertreter zur Darstellung chemischer Information dar und ermöglichte erst das Verständnis und die Entwicklung der klassischen Chemie. Während sich im 18. Jahrhundert die Darstellung noch auf verschiedene Symbole für die Elemente beschränkte, war das 19. Jahrhundert durch die Entwicklung der Bindungsformel geprägt. Diese standardisierte, rationale und leicht zugängliche Repräsentation wird bis heute weltweit von Chemikern angewendet und spielt noch immer eine bedeutende Rolle bei der Moleküldarstellung. Für die Anwendung in der modernen Chemie reichen solche zweidimensionalen Darstellungsformen aber längst nicht mehr aus. Wichtige Sachverhalte, Wirkungsweisen und Mechanismen insbesondere in den Bereichen der Biochemie und Pharmazie lassen sich heute nur noch durch Analyse und Betrachtung der räumlichen Struktur von Molekülen verstehen (Abbildung 1-1). So hängt beispielsweise die Bindungsaffinität an einen Rezeptor oder ein Enzym von der definierten Anordnung der Atome im aktiven Zentrum des Proteins ab. Viele Jahrzehnte lang wurde zum Verständnis dieses Vorgangs das bekannte von Emil Fischer entwickelte Schlüssel-Schloss-Prinzip [1] zu Grunde gelegt. Während dieses Modell das puzzleartige Zusammenfügen von zwei starren molekularen Geometrien beschreibt, geht man heute vielmehr von einer induzierten Anpassung von Ligand und Protein aus. Bei dieser induced fit genannten dynamischen Erkennung werden in Abhängigkeit von der Zeit viele 1

1 Einführung molekulare Wechselwirkungen zwischen verschiedenen Konformationen des Liganden und Proteins ausgebildet bis sich schließlich der Protein-Ligand-Komplex bildet. Dieses von Daniel E. Koshland 1958 postulierte Modell [2] verdeutlicht, dass neben der molekularen 3D-Struktur auch noch weitere Dimensionen wie Zeitachsen (z.b. Reaktionsabläufe oder Dynamiken) oder mit dreidimensionalen Raumpunkten oder Flächen verknüpfte molekulare Eigenschaften (Oberflächenpotentiale, Wasserstoffbrückenbindungen) eine weitere und bedeutende Rolle spielen. O O Abb. 1-1: 2D-Struktur, 3D-Struktur und molekulare Oberfläche des ormons Testosteron. Die Nutzung von dreidimensionalen Darstellungsformen hat jedoch nicht nur im Bereich der chemischen Forschung eine zentrale Stellung eingenommen. 3D-Modelle und Animationen spielen auch eine zunehmend wichtigere Rolle im wissenschaftlichen Unterricht. Das Erlernen eines komplexen Sachverhaltes ist mittels graphischer Repräsentationen wesentlich leichter, da diese Form der Darstellung einer dem Betrachter bekannten Wirklichkeit wesentlich näher kommt. Dieser Sachverhalt wird bei der Betrachtung der in Abbildung 1-2 dargestellten nukleophilen Substitutionsreaktion deutlich. Br C + Cl Br C Cl C Cl + Br Abb. 1-2: Nucleophile Substitution SN 2 von Brommethan mit Chloridion. Diese für herkömmliche Chemielehrbücher übliche Darstellung von Reaktionen als Strichformeln setzt zum einen die Kenntnis von chemischen Konventionen (Keilpfeile) und zum anderen Abstraktionsvermögen voraus. Der Einsatz einer dreidimensionalen, animierten Version ermöglicht hingegen auch dem ungeübten Betrachter das leichte Verständnis des abstrakten Sachverhaltes. Durch Nutzung von zusätzlichen interaktiven Elementen können somit auch theoretisch schwer zugängliche Thematiken (z.b. Quantenchemie) auf fast spielerische Art und Weise erlernt werden. 2

Im Gegensatz zu den papierbasierten 2D-Darstellungen war die Nutzung dreidimensionaler Repräsentationen bis auf wenige Ausnahmen wie beispielsweise Stereobilder oder Anaglyphen auf die Entwicklung computergestützter Visualisierungstechniken angewiesen. Erste Applikationen zur Visualisierung von Röntgenkristallstrukturen wurden dabei bereits in den späten Sechziger-Jahren des 20. Jahrhunderts entwickelt. eute steht dem Chemiker eine unüberschaubare Anzahl von kommerziellen und frei verfügbaren Anwendungen zur Analyse dreidimensionaler Strukturen und molekularen Eigenschaften zur Verfügung. auptmerkmale dieser plattformabhängigen Applikationen sind vor allem die eng an einzelne Frage- und Problemstellung angelehnte Entwicklung und die im Allgemeinen fehlende Kompatibilität unter den einzelnen Programmpaketen. Dieser Umstand steht jedoch im Widerspruch zum chemischen Alltag, der zu großen Teilen auf einem schnellen, unkomplizierten und vollständigen Zugriff und einer weitergehenden Analyse von bereits bestehendem Wissen basiert. Das hohe Potential des Internets in Bezug auf Austausch, Abfrage und Darstellung chemischer Information wurde daher in der Chemie sehr schnell erkannt und führte zu einer rasanten Entwicklung von webbasierten, chemischen Informationsdiensten. Der Vorteil gegenüber den alten Druckmedien lag dabei vor allem im nicht unterbrochenen Informationsfluss (direkter Zugriff auf chemische Dateiaustauschformate) und den erweiterten Darstellungsmöglichkeiten. Während anfänglich nur die Kommunikation, Publikation und der Austausch chemischer Information im Vordergrund standen [3-7], entwickelten sich im Laufe der Zeit auch zunehmend Techniken wie Plugins und Java-Applets, die eine Visualisierung von chemischen Daten eingebettet in digitalen Dokumenten erlaubten [8-11]. Letztere Techniken ermöglichen heute interaktive Repräsentationen von molekularen 3D-Strukturen und Spektren und sind Stand der Technik. Im begrenzten Maße können diese Visualisierungstools auch einfache Oberflächen und Animationen darstellen. Bei der genaueren Betrachtung dieser Standardwerkzeuge fällt jedoch auf, dass viele Anwendungen aufgrund ihres plattformabhängigen Charakters nicht universell einsetzbar sind. Des Weiteren zeigt sich, dass für Visualisierungsanforderungen, die über die einfache Strukturvisualisierung hinausgehen wie zum Beispiel Orbitale, molekulare Oberflächen, molekulare Eigenschaften oder Animationen, keine portablen und einfach nutzbaren Anwendungen existieren oder die verfügbaren Applikationen nur sehr ineffiziente Lösungen unterstützen. Diese Situation ist unter anderem deshalb als ernst einzustufen, da sich heute standardmäßig Internettechnologien in Form von Intranet-Informationssystemen [12] und elektronischen Laborbüchern in der chemischen Industrie etabliert haben und diese aus den oben beschriebenen Gründen eine portable Visualisierung gewährleisten müssen. Darüberhinaus sind auch Schulen und Universitäten im Bereich der Lehre auf webbasierte Visualisierungsalternativen angewiesen, da sie aus Budgetgründen nicht immer auf teure kommerzielle Produkte zurückgreifen können. 3

1 Einführung Neben steigenden Anforderungen bei der Behandlung von Einzelszenen mit aufwendigen Oberflächen- und Volumendarstellungen ist ein weiterer wichtiger Trend in der Pharmaforschung und auch anderen Disziplinen zu beobachten - der enorme Anstieg an chemischer Information. Während bis zur Mitte des letzten Jahrhunderts chemische Information noch durch gedruckte Referatedienste wie dem Chemischen Zentralblatt oder der papierbasierten Version des Chemical Abstracts Service (CAS) verwaltet werden konnten, ist seit einigen Jahrzehnten die Referenzierung und Verwaltung der exponentiell zunehmenden Datenmengen nur noch mit ilfe elektronischer, informationsverarbeitender Systeme möglich. Eine Auswahl an frei verfügbaren und kommerziellen chemischen Datenbanken ist in Abbildung 1-3 dargestellt. Abb. 1-3: Ausgewählte Chemische Datenbanken im Überblick (Stand: Juli 2002) [14]. Diese Tendenz hat durch die Entwicklung neuer Synthesetechnologien zur Verminderung von Zeitbedarf und Entwicklungskosten in den letzten Jahren eine weitere Steigerung erfahren. Automatisierte Technologien wie parallele bzw. kombinatorische Synthese sowie entsprechende Testsysteme wie das igh-throughput-screening haben den chemischen Alltag vor allem in der Wirkstoffforschung grundlegend verändert [13]. Diese automatisierten Robotikanlagen werden permanent weiterentwickelt und generieren heute bereits Datenvolumina, die die Zahl früherer Versuchsergebnisse um mehrere Größenordnungen überragen (Abbildung 1-3: Pfeil, Aktuelle Datensatzgrößen durch automatisierte Labortechniken). Obwohl die resultierenden Datensätze ein hohes Potential für die Entwicklung neuer Wirkstoffe beinhalten, gestaltet sich das Auffinden relevanter Information mit zunehmender Datenbankgröße als schwierig. 4

1.1 Zielsetzung und Gliederung der Arbeit Datensätze mit einigen tausend, Millionen oder sogar zehn Millionen [15] von Verbindungen können nicht mehr durch Betrachtung einzelner Moleküle analysiert werden. Aktuelle Standardanwendungen zur Analyse chemischer Datenbanken repräsentieren die Ergebnisse daher in Form von molekularen Spreadsheets oder erlauben Struktur-Aktivitätskorrelationen mittels struktureller bzw. physikochemischer Deskriptoren oder dreidimensionaler Strukturinformation [16]. Obwohl deskriptorenbasierte Systeme durchaus für die Auswertung großer Datensätze konzipiert sind, ist ihr Einsatz nicht immer unproblematisch. Das erhebliche Spezialwissen, welches zur Bedienung derartiger Anwendungen nötig ist, fordert im Allgemeinen eine teure und zeitaufwendige Datenbearbeitung durch spezialisierte Modelling-Experten und verhindert letztendlich eine schnelle Interpretation der Ergebnisse durch den Synthesechemiker. Im Gegensatz dazu können Spreadsheet-Anwendungen direkt vom Synthesechemiker zur Interpretation und Analyse eingesetzt werden. Die tabellarische Datenrepräsentation dieser Applikationen beschränkt deren Einsatz jedoch auf kleine bis mittlere Datensätze. Darüber hinaus macht der zunehmend höherdimensionale Charakter der Datensätze eine Auswertung mittels dieser Programme sehr schwierig oder sogar unmöglich. Die Entwicklung von Software zur einfachen und interaktiven Analyse, Interpretation und Visualisierung großer multidimensionaler Datensätze ist somit eines der großen Anliegen in der chemischen Forschung und Entwicklung. 1.1 Zielsetzung und Gliederung der Arbeit Komplexe chemische oder wissenschaftliche Zusammenhänge im Allgemeinen lassen sich durch Einbettung interaktiver, drei- und mehrdimensionaler Repräsentationen in digitale Dokumente besser verstehen. Der Zugriff auf digitale Dokumente ist insbesondere in der Chemie bereits zur Routine geworden und über eine große Anzahl an unterschiedlichen Rechnerplattformen und Netzwerkinfrastrukturen möglich. Trotz der Notwendigkeit von Applikationen zur Visualisierung mehrdimensionaler Darstellungsformen beherrschen heutige webbasierte Visualisierungswerkzeuge nur einfache dreidimensionale Moleküldarstellungen. Ein Ziel dieser Arbeit war daher die Entwicklung von portablen, sich an Internetstandards orientierenden Systemen, die die Einbettung von dynamischen Visualisierungen in digitale Dokumente erlauben. Da zur interaktiven Visualisierung von multidimensionalen und multivariaten Datenobjekten häufig große Datenmengen übertragen und dargestellt werden müssen, stand zunächst die Entwicklung von intelligenten Client-Server-Strategien zur verteilten Vermittlung und Verarbeitung im Vordergrund. Dabei sollten insbesondere Faktoren wie Netzwerkinfrastruktur (z.b. Internet oder Intranet), Netzbandbreite, Netzlatenz, Verfügbar- 5

1 Einführung keit von Ressourcen aber auch das Vorhandensein von Server- und Client-seitiger ardware berücksichtigt werden. Die allgemeine Einsatzfähigkeit und der Nutzen dieser Strategien wurde mit ilfe von webbasierten Applikationen und Online-Diensten dargestellt und verifiziert. Ein weiteres Ziel dieser Arbeit war die Entwicklung von plattformunabhängigen Methoden und Applikationen zur interaktiven Visualisierung und Analyse von großen, multidimensionalen und multivariaten Datensätzen. Zur Lösung dieser Problematik dienten im Rahmen dieser Arbeit Ansätze aus dem Bereich der Informationsvisualiserung als Ausgangspunkte. Die entwickelten Methoden sollten dabei im Gegensatz zu spreadsheetbasierten Standardapplikationen die Möglichkeit bieten, sowohl große als auch hochdimensionale Datensätze zu analysieren und zu visualisieren. Des Weiteren sollten die Applikationen eine einfache Bedienung als auch eine schnelle und einfache Interpretation der Datensätze erlauben, so dass die Analyse der Daten direkt durch den nicht-spezialisierten Synthesechemiker möglich ist. Weitere Kriterien bei der Entwicklung waren ebenso die Nutzung aktueller low-budget Graphikhardware-Fähigkeiten aktueller PC-Systeme als auch die plattformübergreifende Implementation der Applikationen. Die vorliegende Arbeit gliedert sich in folgende Abschnitte: In Kapitel 2 werden zunächst wichtige Begriffe und Grundlagen aus den Bereichen des Internets und der Visualisierung erklärt. Weiterhin werden wichtige Programmpakete erläutert, die im Rahmen dieser Arbeit für die Generierung, Speicherung und das Management von chemischen Daten von zentraler Bedeutung waren. Kapitel 3 widmet sich der portablen, Client-Server-basierten Visualisierung chemischer Datenobjekte wie beispielsweise Strukturen, Oberflächen oder Animationen. Nach einem kurzen, historischen Rückblick werden die wichtigsten chemischen Darstellungsformen beschrieben. Des Weiteren wird auf die Bedeutung des Internets innerhalb der Chemie und hier insbesondere im Bereich der Visualisierung eingegangen. Schließlich werden die wichtigsten Client-Server-Ansätze zur Visualisierung chemischer Daten erläutert, wobei vor allem die Prinzipien des im Rahmen dieser Arbeit eingesetzten Graphiktransfers näher beschrieben werden. Kapitel 4 beschreibt anhand der drei grundsätzlichen, Graphiktransfer-basierten Client- Server-Strategien die im Rahmen dieser Arbeit entwickelten, portablen Methoden und Applikationen zur plattformunabhängigen Visualisierung chemischer Daten. Neben den Aspekten der Implementierung werden die einzelnen Anwendungen im Vergleich mit aktuellen Standardapplikationen diskutiert. Schließlich werden die Vor- und Nachteile der drei Client- Server-Strategien zusammengefasst und ein Ausblick auf zukünftige Arbeiten gegeben. 6

1.1 Zielsetzung und Gliederung der Arbeit Kapitel 5 befasst sich mit der Problematik der chemischen Datenflut sowie mit dem Prozess des Data Mining, welcher nützliche und neuartige Information aus den enormen Datenmengen extrahieren kann. Zunächst wird die Definition des Data Minings sowie die Aufgaben und Einsatz in der Chemie erläutert. Anschließend erfolgt eine Kurzvorstellung der wichtigsten, in der chemischen Forschung gebräuchlichen Data Mining-Methoden. Der zweite Teil des Kapitels widmet sich dem relativ jungen Gebiet des visuellen Data Minings. Neben einer Einführung in die Grundlagen werden die verschiedenen Informationsvisualisierungstechniken des visuellen Data Minings vorgestellt. Kapitel 6 beschreibt die im Rahmen dieser Arbeit entwickelten Anwendungen und Programme zum visuellen Data Mining von großen, multidimensionalen, chemischen Datensätzen. Dabei wird insbesondere auf das umfangreiche, plattformunabhängige Programm InfVis eingegangen. Neben der Vorstellung der einzelnen Funktionalitäten werden die diversen Applikationen im Vergleich mit aktuellen, chemieorientierten Standardapplikationen diskutiert. Schließlich wird ein Ausblick auf zukünftige und zum Teil bereits in der Entwicklung befindliche Forschungsarbeiten gegeben. Kapitel 7 stellt anhand von drei ausgewählten, chemischen Anwendungsbeispielen die Fähigkeiten visueller Data Mining-Ansätze im Allgemeinen als auch des InfVis-Programms im Speziellen vor. Die ersten beiden Anwendungsbeispiele basieren auf der neuartigen Reaktionsdatenbank der Firma ChemCodes und beschreiben eine Reaktionsoptimierungs- sowie eine Reaktionsplanungs-Fragestellung. Das dritte Beispiel beschreibt schließlich eine visuelle Analyse von Struktur-Aktivitäts-Beziehungen anhand von Platinverbindungen in der Antitumor Datenbank des amerikanischen Krebsforschungsinstituts. Kapitel 8 fasst schließlich die im Rahmen dieser Arbeit entwickelten Methoden und Applikationen zusammen. Aufgrund der thematischen Ausrichtung enthält die vorliegende Arbeit eine Reihe von Farbabbildungen. Aus drucktechnischen Gründen wurden alle notwendigen Farbabbildungen im Anhang A zusammengefasst. Die Kapitel enthalten an den entsprechenden Stellen eine Schwarz-Weiß-Abbildung und eine Referenz auf die Farbkopie. Diese Arbeit wurde von der Deutschen Forschungsgemeinschaft (DFG) im Rahmen des Schwerpunktprogramms Verteilte Vermittlung und Verarbeitung Digitaler Dokumente (V3D2) unterstützt und im Teilprojekt ChemVis - Chemische Visualisierung im Internet realisiert. Durch die Ausrichtung auf das Internet und den Einsatz von portablen Technologien sind viele der hier vorgestellten Methoden und Applikationen in Form von webbasierten Demonstrationsanwendungen und/oder als mittlerweile etablierte Online-Dienste nutzbar. Eine Übersicht aller wichtiger Webseiten findet sich im Anhang B. 7

1 Einführung 8