Version 2.00 ( )
|
|
|
- Dominik Gerhardt
- vor 9 Jahren
- Abrufe
Transkript
1 Tutorial: Regex Version 2.00 ( ) Seite 1 von 15
2 Inhaltsverzeichnis 1. Was ist Regex? Verwendung von Regex in C# Validieren von numerischen Benutzereingaben Funktionen von Regex Syntax von Regex Einfachstes Pattern Patternbeginn und -Ende Zeichenauswahlen / Zeichenbereiche Negationen Quantoren Vordefinierte Zeichenklassen Zeichen mit Metabedeutung Weitere Zeichen Gruppierungen Alternativen Kommentare Gieriges Verhalten Positive und negative Lookarounds Lookbehinds Lookaheads Zusammenfassung Lookarounds Beispiele zu Lookarounds RegexMatchEvaluator Tipps zur Performance Übungen zu Regex Weblinks Literatur...15 Seite 2 von 15
3 1. Was ist Regex? Regex ist die Abkürzung für Regular Expressions, zu Deutsch: Reguläre Ausdrücke. Wikipedia definiert Reguläre Ausdrücke als eine Zeichenkette, die der Beschreibung von Mengen beziehungsweise Untermengen von Zeichenketten mit Hilfe bestimmter syntaktischer Regeln dient. Regex ist ein mächtiges Werkzeug zum Validieren und Bearbeiten von Zeichenketten. 2. Verwendung von Regex in C# Um Regex in einem C#-Programm nutzen zu können, muss zunächst der Namespace System.Text.RegularExpressions eingebunden werden: using System.Text.RegularExpressions; Um die Ausdrücke zu testen, erstellt man dann eine Instanz der Klasse Regex. Allgemein sieht dieser Befehl so aus: Regex myregex = new Regex("[Pattern]"); Unter Pattern versteht man ein Muster, welches die Voraussetzungen beschreibt, wie eine gültige Zeichenkette auszusehen hat. Das Pattern kann beispielsweise beschreiben, dass eine Zeichenfolge nur gültig ist, wenn diese nur aus Zeichen von A Z besteht. Oder, wenn diese nur Buchstaben, Ziffern und Strichpunkte enthält. Anstelle von [Pattern] übergibt man dem Konstruktor das Muster als String. Um zum Beispiel nur Zahlen zuzulassen, wäre folgendes Pattern geeignet: ^[0-9]*$ Auf die Pattern werde ich in 4. Syntax von Regex näher eingehen. Anmerkung: Es wird empfohlen, bei komplexen Ausdrücken vor dem einleitenden Anführungszeichen des Pattern-Strings zu setzen. Der bewirkt, dass im String vorkommende Anführungszeichen und umgekehrte Schrägstriche (Backslashes) weniger verwirrend angegeben werden können: Anführungszeichen, die im Pattern vorkommen, verdoppelt man, umgekehrte Schrägstriche können normal angegeben werden. müsste man vor einem Anführungszeichen einen umgekehrten Schrägstrich einfügen, umgekehrte Schrägstriche müsste man verdoppeln. (Wenn das Pattern zur Laufzeit definiert wird (z. B. bei Eingabe des Patterns in ein Textfeld während der Programmausführung), so gibt man Anführungszeichen und umgekehrte Schrägstriche normal an.) Die Instanz von Regex wird also folgendermaßen generiert: Regex myregex = new Regex("^[0-9]*$"); Um eine Zeichenfolge, die in textbox1 steht, nach diesem Muster zu überprüfen und das Ergebnis in eine Bool-Variable zu speichern, wäre folgende Befehlszeile notwendig: bool bedingungwahr = myregex.ismatch(textbox1.text); 2.1 Validieren von numerischen Benutzereingaben Regex ermöglicht es, zu überprüfen, ob ein String eine Zahl ist. Jedoch gibt es viele Eigenschaften, die zum Beispiel bei einer Kommazahl berücksichtigt werden müssen: Zu Beginn kann optional ein Plus- oder Minuszeichen stehen, das Komma kann vorkommen, muss aber nicht, es darf nicht das erste Zeichen oder letzte Seite 3 von 15
4 Zeichen sein und höchstens einmal vorkommen, weiters muss jedes Zeichen, das kein Komma oder Plus-/Minuszeichen ist, eine Ziffer sein, All dies ließe sich noch erledigen, erfordert aber bereits ein relativ komplexes Muster. Und dann gibt es bei einigen Zahlentypen noch eine Eigenschaft, welche fast unmöglich zu berücksichtigen ist: Int hat eine Länge von 32 Bit. Zu lange Zahlen führen zur Ausnahme OverflowException. Daher sollte man zur Validierung von numerischen Benutzereingaben auf Regex verzichten und die vom.net-framework (ab.net 2.0) bereitgestellten Methoden nutzen: Zur Überprüfung, ob eine Zeichenfolge zu Int konvertiert werden kann, gibt es Int32.TryParse; für Double (64 Bit) Double.TryParse. 3. Funktionen von Regex Die Klasse Regex enthält folgende Methoden: Match o Zum Durchsuchen eines Strings nach dem ersten Treffer des Musters. Der getroffene Textteil kann aus der Eigenschaft Match.Value ausgelesen werden. o Wertetyp der Rückgabe: Match Matches o Zum Durchsuchen eines Strings nach allen Vorkommen des regulären Ausdrucks. o Wertetyp der Rückgabe: MatchCollection IsMatch o Zum Überprüfen eines Strings auf Gültigkeit bezüglich eines Musters. o Wertetyp der Rückgabe: Bool Replace o Zum Ersetzen von Zeichenfolgen in einem String. o Wertetyp der Rückgabe: String Split o Zum Splitten (Aufteilen) eines Strings. o Wertetyp der Rückgabe: String[] Anmerkung: Zu jeder Methode gibt es mehrere Überladungen. So kann etwa mit RegexOptions.IgnoreCase angegeben werden, dass zwischen Groß- und Kleinschreibung nicht unterschieden werden soll. Ist diese Regex-Option nicht explizit angegeben, so wird zwischen Groß- und Kleinschreibung unterschieden. In diesem Tutorial werde ich hauptsächlich auf die Syntax von Regex eingehen und mich auf die IsMatch-Methode beziehen. Damit beim Üben nicht bei jeder Änderung des Patterns das gesamte Programm neu kompiliert werden muss, kann man Pattern mit On-the-fly-Testprogrammen testen: So gibt es das Programm Regex-Lab ( ein sogenannter On-the-fly-Tester, kostenlos zum Herunterladen. Das englischsprachige Programm Espresso ( analysiert reguläre Ausdrücke und stellt diese strukturiert dar. Die Webseite ermöglicht online das Testen von Regulären Ausdrücken an Computern ohne installiertem.net- Framework. Seite 4 von 15
5 4. Syntax von Regex 4.1 Einfachstes Pattern Auch ein Wort oder ein Zeichen ist bereits ein gültiges Pattern (Muster). So erlaubt das Pattern Zeichen unter anderem die Wörter Zeichen, Zeichenfolge, DruckZeichen, Westliche Zeichenkodierung. Alle Strings, die dieses Wort enthalten, führen bei der Validierung anhand dieses Patterns zu einem positiven Ergebnis. 4.2 Patternbeginn und -Ende Das Zeichen ^ bestimmt, wenn es zu Beginn des Patterns steht, dass der zu durchsuchende String ab Beginn (d. h. ab dem ersten Zeichen) dem Muster entsprechen muss. Dieses Zeichen wird auch Zeichenanker genannt. Muss der String bis zum Ende mit dem Muster übereinstimmen, so kennzeichnet man dies mit dem Dollar-Zeichen $ am Patternende. Beispiele: ^Zeichen erlaubt alle Strings, die mit Zeichen beginnen, also z. B. Zeichenkodierung, nicht aber DruckZeichen. Soll ein gültiger String mit Zeichen enden, so wäre das Pattern Zeichen$. Nur das Wort Zeichen als einzig gültige Zeichenfolge wird mit ^Zeichen$ beschrieben. Auch ^$ ist ein gültiges Pattern: Es beschreibt eine leere Zeichenfolge. 4.3 Zeichenauswahlen / Zeichenbereiche Innerhalb der eckigen Klammern können sich Zeichenauswahlen (verschiedene Zeichen) und/oder Zeichenbereiche befinden: Die Zeichenauswahl [ASDF] erlaubt einen der Großbuchstaben A S D F. [0-9] steht für die Ziffern von 0 bis 9 (0 und 9 inklusive). Der Bindestrich kennzeichnet, dass es sich um einen Bereich handelt. (Würde der Bindestrich direkt nach dem Zeichen [ oder direkt vor ] (also an den inneren Rändern des Bereichs) stehen, dann wäre der Bindestrich als solcher und nicht als von-bis zu verstehen.) [a-z] würde die Zeichen von a bis z beinhalten, [c-f] die zwischen c und f mit c und f inklusive. In den Klammern können man auch mehrere Bereiche angeben werden: So beschreibt das Pattern [A-Za-z0-9] sowohl Groß- als auch Kleinbuchstaben sowie Ziffern. Zu beachten ist, dass ä, ö, ü, ß nicht in [a-z] liegen. Zeichenauswahlen und Bereiche können auch kombiniert werden. [A-Za-zäöüßÄÖÜ] würde demnach alle Zeichen von A bis Z sowie Ä, Ö, Ü (auch als Kleinbuchstaben) akzeptieren. Oder [1-35-9] als Kombination von [1-3] und [5-9]) erlaubt 1, 2, 3, 5, 6, 7, 8 und 9. Diese Patternteile innerhalb der eckigen Klammern [] gelten nur für ein einzelnes Zeichen - sofern nicht durch Quantoren (siehe 4.5 Quantoren) hinter den eckigen Klammern anders angegeben. Das Pattern ^[A-Za-zäöüßÄÖÜ]$ würde zwar den einzelnen Buchstaben A oder s oder ü zulassen, aber nicht As oder sdk oder sdfkl. Seite 5 von 15
6 4.4 Negationen Das Zeichen ^ hat, wenn es im Inneren des Patterns vorkommt, eine andere Bedeutung als am Patternanfang (wo es der Zeichenanker ist): Es steht für eine Negation und bedeutet ungleich. ^[^A-Z]*$ lässt alle Zeichen außer Großbuchstaben zu (alles außer die Zeichen A-Z). 4.5 Quantoren Um zwei Großbuchstaben zu beschreiben, könnte man ^[A-Z][A-Z]$ verwenden. Was aber, wenn man hundert Ziffern erlauben möchte? Hundert mal [0-9] schreiben? Dann bzw. auch schon bei zweimaliger Wiederholung verwendet man Quantoren. Quantoren geben die Anzahl der Wiederholungen an. Der Quantor steht hinter dem Bereich oder der Gruppierung (4.9 Gruppierungen), für welche(n) er gelten soll. Es gibt folgende Quantoren:?: Der Ausdruck vor? ist optional: Er kann einmal vorkommen, muss es aber nicht, d. h. der Ausdruck kann genau null- oder einmal vorkommen. (? entspricht {0,1}.) +: Der voranstehende Ausdruck muss mindestens einmal vorkommen, darf aber auch mehrfach vorkommen. (Dies entspricht {1,}.) *: Der voranstehende Ausdruck darf beliebig oft (auch nullmal) vorkommen. (Dies entspricht {0,}.) {n}: Der voranstehende Ausdruck muss exakt n-mal vorkommen. {min,}: Der voranstehende Ausdruck muss mindestens min-mal vorkommen. {,max}: Der voranstehende Ausdruck darf maximal max-mal vorkommen. {min,max}: Der voranstehende Ausdruck muss mindestens min-mal und darf maximal max-mal vorkommen. (Wikipedia) Genau 100 aufeinanderfolgende Ziffern als Muster zu definieren, könnte man so bewerkstelligen: ^[0-9]{100}$ 4.6 Vordefinierte Zeichenklassen Um nicht jedes Mal [0-9], [a-za-z], usw. schreiben zu müssen, gibt es folgende vordefinierte Zeichenklassen: \d: eine Ziffer (entspricht [0-9]) \D: ein Zeichen, welches keine Ziffer ist (auch: [^\d]) \w: ein Buchstabe, eine Ziffer oder der Unterstrich, also [a-za-z_0-9] (und evtl. weitere Buchstaben, z. B. Umlaute) \W: ein Zeichen, das weder Buchstabe noch Zahl noch Unterstrich ist (entspricht [^\w]) \s: Whitespace (Leerraum); meistens die Klasse der Steuerzeichen \f, \n, \r, \t und \v \S: ein Zeichen, das kein Whitespace ist [^\s] (Wikipedia) In neueren Implementationen von Regex gibt es zusätzlich folgende POSIX-Klassen. Anmerkung: Die Regex-Engine von.net unterstützt keine POSIX-Klassen! [:alnum:]: Alphanumerische Zeichen: [:alpha:] und [:digit:]. [:alpha:]: Buchstaben: [:lower:] und [:upper:]. [:blank:]: Leerzeichen und Tabulator. [:cntrl:]: Steuerzeichen. Im ASCII sind das die Zeichen 00 bis 1F, und 7F (DEL). Seite 6 von 15
7 [:digit:]: Ziffern: 0, 1, 2,... bis 9. [:graph:]: Graphische Zeichen: [:alnum:] und [:punct:]. [:lower:]: Kleinbuchstaben: nicht notwendigerweise nur von a bis z. [:print:]: Druckbare Zeichen: [:alnum:], [:punct:] und Leerzeichen. [:punct:]:! " # $ % & ' ( ) * +, -. / : ; < = [ \ ] ^ _ ` { } ~. [:space:]: Whitespace: Horizontaler und vertikaler Tabulator, Zeilen- und Seitenvorschub, Wagenrücklauf und Leerzeichen. [:upper:]: Großbuchstaben: nicht notwendigerweise nur von A bis Z. [:xdigit:]: Hexadezimale Ziffern: 0 bis 9, A bis F, a bis f. (Wikipedia) 4.7 Zeichen mit Metabedeutung Einige Zeichen haben eine besondere Bedeutung. Der Punkt zum Beispiel steht für ein beliebiges Zeichen (unter bestimmten Umständen kann er auch für eine neue Zeile stehen). Möchte man den Punkt aber als Punkt verwenden, so muss man die Metabedeutung aufheben, indem man vorher einen umgekehrten Schrägstrich (Backslash) einfügt. \. wird von Regex also als Punkt interpretiert. Dies nennt man auch escapen. Auch folgende Zeichen stehen in der Regel nicht für sich selbst: \ ( ) [ { *? + ^ $. # [Leerzeichen] (Einige Zeichen müssen nur in einem bestimmten Kontext escaped werden.) Aufzupassen gilt bei der Verwendung folgender beiden Zeichen: und \ (siehe 2. Verwendung von Regex in C#) Regex bietet die statische Methode Escape an, welche in einem String einen minimalen Satz von Metazeichen mit Escape-Zeichen versieht. Als Parameter übergibt man den zu escapenden String, auch der Rückgabewert ist vom Typ String. Das Gegenteil erledigt die statische Methode Unescape. 4.8 Weitere Zeichen ^: Zeilenanfang, wenn zu Beginn des Patterns; Negation bei der Zeichenauswahl mittels [ und ]. $: je nach Kontext für Zeilen- oder Stringende, wobei noch ein \n folgen darf. Das tatsächliche Ende wird von \z gematcht. \: hebt gegebenenfalls die Metabedeutung des nächsten Zeichens auf (siehe 4.7 Zeichen mit Metabedeutung). \b: steht für die leere Zeichenkette am Wortanfang oder am Wortende. \B: steht für die leere Zeichenkette, die nicht den Anfang oder das Ende eines Wortes bildet. \<: steht für die leere Zeichenkette am Wortanfang. \>: steht für die leere Zeichenkette am Wortende. (Wikipedia) 4.9 Gruppierungen Gruppierungen sind Zusammenfassungen von Ausdrücken in runden Klammern. Gruppierungen ermöglichen die Wiederverwendbarkeit dieser Teilausdrücke und das Einbauen von Alternativen ( Oder ; siehe 4.10 Alternativen). ^001$ erlaubt nur 001. ^(001)*$ würde erlauben, da der Quantor * auf die Gruppierung angewandt wird und somit die drei Zeichen in der Klammer beliebig oft wiederholt werden dürfen. Seite 7 von 15
8 Gruppierungen können mit \[Gruppierungsindex] aufgerufen werden. (Anmerkung: Dieser Index ist nicht nullbasiert!) Beispiel: ^(136[0-3])[A-Z]\1$ akzeptiert 1360A1360, 1361A1361,..., 1361A1363,, 1360B1360,, 1363Z1363 ; \1 verweist (referenziert) auf den Inhalt der ersten Gruppierung (Klammer). Daher muss an der Stelle von \1 das stehen, was von der 1. Gruppierung gematcht wurde. Dies ist nützlich, wenn man überprüfen möchte, ob zwei gleiche Wörter (hintereinander) vorkommen. Anstatt die Gruppierungen anhand der Indexe aufzurufen, kann ihnen ein Namen zugewiesen werden. Den Gruppennamen definiert man, indem man nach dem Öffnen der runden Klammer?<[Gruppenname]> schreibt. Der Aufruf erfolgt mit \k<[gruppenname]>. [Gruppenname] ersetzt man mit dem gewünschten Namen, wobei dieser keine Satzzeichen enthalten und nicht mit einer Ziffer beginnen darf. Beispiel: Namensdefiniton und erste Verwendung der Gruppe: ^(?<DeutscheSonderzeichen>[äöüÄÖÜß])$ Aufruf: \k<deutschesonderzeichen> Das Zurückgreifen auf Gruppierungen nennt man Backtracking. Welches Zeichen eine Gruppe gematch hat, kann aus der Property Match.Groups gelesen werden, falls man die Methode Match verwendet Alternativen Alternativen werden mit dem Oder -Zeichen in Regex aufgezählt. Das Oder wird mit dem Zeichen (= [Alt Gr] + [<]) dargestellt. Beispiel: ( ) erlaubt 001 oder 005 oder Selbstverständlich können Alternativen auch verschachtelt werden. Beispiele: (Airbus (A350 A380) Boeing ( )) (AT440 L[A-G][0-9]{2}) 4.11 Kommentare Kommentare schreibt man folgendermaßen: (?#[Kommentar]) Beispiel: ^[0-9]{2}(?#2 Ziffern erforderlich)$ Kommentare können vor allem bei längeren und verschachtelten Ausdrücken sinnvoll sein, um ein späteres Überarbeiten des Patterns zu erleichtern Gieriges Verhalten Von gierigem (engl. greedy) Verhalten spricht man, wenn zu einem regulären Ausdruck die längste passende Zeichenkette ausgewählt wird. Dies ist nicht immer erwünscht und kann deshalb auch deaktiviert werden. Beispiel: Zu überprüfender String: Gieriges Verhalten: o Pattern: ^1.*1 Seite 8 von 15
9 o Ergebnis von ^1.*1 ).Value: o Erst mit dem letzten Vorkommen (im Suchstring) des Zeichens hinter.* im Pattern nimmt die Regex-Engine dieses als nachfolgendes Zeichen; vorherige Zeichen, die auf das Zeichen nach.* zutreffen, werden als beliebiges Zeichen (Punkt) interpretiert. Der Punkt hat alle außer dem letzten auf das Ende zutreffenden Zeichen gefressen. Genügsames Verhalten: o Nicht gieriges Ergebnis wäre: 1231 o Hier spricht man von genügsamen Verhalten, da die letzte Ziffer von 1231, die eins, auf die 1 nach dem * zutrifft. Es gibt 2 Möglichkeiten, das genügsame Verhalten zu aktivieren : Eine Möglichkeit ist, hinter dem Quantor das Zeichen? anzuhängen. Das obere Beispiel wird also zu: ^1.*?1. Aus Performance-Gründen ist diese Methode nicht empfehlenswert, da der Regex-Interpreter jedes Mal zurückspringen und die Backreference überprüfen muss. Die zweite Möglichkeit wäre eine Umformung des oberen Beispiels zu folgendem Pattern: ^1[^1]*1 (1. Zeichen eine 1, beliebig viele Nicht-Eins - Zeichen im Mittelteil und die 1 als Ende) 4.13 Positive und negative Lookarounds Anmerkung zu Kapitel 4.13 und 4.14: Dieses und das folgende Kapitel behandeln fortgeschrittene Konzepte, gehen tiefer in die Materie Regex ein und sind dementsprechend etwas komplizierter. Diese beiden Kapitel sind eher an Fortgeschrittene gerichtet. Sie sollten diese Kapitel nur lesen, wenn Sie die vorherigen verstanden haben. (Um zu überprüfen, ob Sie Regex verstanden haben, können Sie auf Seite 12 bei 6. Übungen üben. Das Wissen, das in diesen beiden Kapiteln vermittelt wird, ist zum Lösen der Fragestellungen nicht notwendig.) Lookarounds stellen die die Leistungsfähigkeit von Regex nochmals unter Beweis. Man unterscheidet zwischen Lookbehinds und Lookaheads, wobei diese wiederum in positive und negative Lookarounds unterteilbar sind. Mit Lookarounds lässt sich festlegen, dass eine Zeichenfolge nur gematcht wird, wenn sich direkt vorher und/oder nachher eine bestimmte Zeichenfolge befindet. Da diese Bedingungszeichenfolge nicht in das Suchergebnis (Regex.Value) aufgenommen wird, spricht man auch von zero-width-assertions. Die Bedingung (auch Behauptung ) wird als regulärer Ausdruck angegeben; die Verwendung von Quantoren (*, +, {0,5}, ) ist jedoch nicht möglich Lookbehinds Lookbehinds beziehen sich auf Bereiche, die vor der momentan untersuchten Stelle im zu durchsuchenden Text liegen und somit bereits dahinter liegen, weil sie schon passiert wurden (deshalb Lookbehind ). Vor dem eigentlichen Suchmuster wird nach einem weiteren Suchmuster gesucht. Nur wenn das weitere Suchmuster erfolgreich gefunden wird (positiv) bzw. erfolgreich nicht gefunden wird (negativ), gibt es einen Treffer. Positive Lookbehinds behaupten, dass (direkt) vor einem Ausdruck etwas zu stehen hat. Die Bedingung wird vor dem Ausdruck mit (?<=[Bedingung]) angegeben. Seite 9 von 15
10 Negative Lookbehind-Behauptungen, die festlegen, dass (direkt) vor einem Ausdruck etwas nicht stehen soll, werden mit (?<![Bedingung]) vor dem Ausdruck angegeben Lookaheads Lookaheads sind das Gegenteil von Lookbehinds und beziehen sich auf Bereiche, die nach der aktuell untersuchten Stelle liegen (deshalb Lookahead ). Positive Lookaheads behaupten, dass nach einem Ausdruck etwas Bestimmtes stehen soll. Die Angabe erfolgt mit dem Ausdruck (?=[Bedingung]) hinter dem Pattern. Negative Lookahead-Behauptungen lauten (?![Bedingung]). Direkt nach der untersuchten Stelle soll eine Zeichenfolge nicht vorkommen Zusammenfassung Lookarounds Anordnung der Patternteile: [Lookbehind-Bedingung][ Haupt -Pattern] oder [ Haupt -Pattern][Lookahead-Bedingung] (Es ist nur ein Lookaround möglich!) Syntax Lookbehind Lookahead Positiv (?<=[Bedingung]) (?=[Bedingung]) Negativ (?<![Bedingung]) (?![Bedingung]) Beispiele zu Lookarounds Lookaround-Teil des Pattern o Positive Lookbehind-Bedingung: (?<=de) Triff nur ( Matche nur), wenn vorher de steht. o Negative Lookbehind-Bedingung: (?<!de) Triff nur, wenn vorher nicht de steht. o Positive Lookahead-Bedingung: (?=de) Triff nur, wenn nachher de steht. o Negative Lookahead-Bedingung (?!de) Triff nur, wenn nachher nicht de steht. (?<=0)[0-9]{3}(?! ) o (?<0): Lookbehind, positiv (vor [0-9]{3} soll eine 0 stehen) o [0-9]{3}: Ausdruck im Mittelteil (kein Lookaround!) (\d{3} würde das gleiche beschreiben) o (?! ): Lookahead, negativ (nachher soll nicht stehen) (?<![a-ea-m])\.server1(?=\.us) o (?<![a-ea-m]): Lookbehind, negative (vor \.server1 soll weder ein Kleinbuchstabe von a-e noch ein Großbuchstabe von A-M stehen) o \.server1: Mittelteil (\. steht für einen escapten Punkt) o (?=\.us): Lookahead, positive (nach \.server1 soll.us stehen) 4.14 RegexMatchEvaluator RegexMatchEvaluator stellt eine Erweiterung der Regex-Methode Replace dar. Seite 10 von 15
11 Um den RegexMatchEvaluator zu verwenden, benötigt man eine Instanz von MatchEvaluator. Diese Klasse befindet sich im gleichen Namespace wie Regex und wird folgendermaßen instanziert: MatchEvaluator myevaluator = new MatchEvaluator([Methode]); Außerdem braucht man eine Methode mit einem String als Rückgabewert: public string ReplaceMatch(Match m) { [(IF-)Anweisungen] return [Ersetzung]; } (Sollten Sie dieses Beispiel in einer Konsolenanwendung ausprobieren, so fügen Sie im Methodenkopf vor string das Schlüsselwort static ein.) Den Parameter [Methode] bei der Instanzierung ersetzt man in diesem Beispiel mit ReplaceMatch, da dies der Name der Methode mit String-Rückgabe ist. Den Methodenname übergibt man jedoch nicht als String, daher schreibt man ihn auch nicht in Anführungszeichen. Das Pattern, das wir in anderen Beispielen bisher dem Regex-Konstruktor bekannt gegeben haben, wird hier erst jetzt der Replace-Methode übergeben. Für das Ersetzen mit der statischen Replace-Methode gibt es folgende Überladung: string [Variablenname] = Regex.Replace([Zu ersetzender String], [Pattern], [MatchEvaluator-Instanz]); Beispiel 1: In diesem einfachen Beispiel werden alle Beistriche durch eine leere Zeichenkette ("") ersetzt. Da der Ersatzstring unabhängig vom (zu ersetzenden) Treffer gleich bleibt, ist in diesem Fall die Verwendung von MatchEvaluator nicht besonders sinnvoll, denn die gleiche Aufgabe ließe sich auch einfacher mit einer anderen Überladung der Replace-Methode durchführen. MatchEvaluator myevaluator = new MatchEvaluator(ReplaceMatch); string output = Regex.Replace("H,a,l,l,o", ",", myevaluator); Und die Methode: public string ReplaceMatch(Match m) { return ""; } Die Variable output würde Hallo enthalten, da von der Methode ReplaceMatch jeder gefundene Beistrich mit einer leeren Zeichenkette ersetzt wird. Einfachere Lösung: Regex.Replace("H,a,l,l,o", ",", ""); (Allgemein: Regex.Replace([ZuErsetzen], [Pattern], [Ersatz]);) Sinnvoll wird der MatchEvaluator, wenn man Suchtreffer mit einem flexiblen vom Treffer abhängigen String ersetzen möchte. Beispiel 2: Ziel: Alle ae sollen zum Umlaut ä, alle oe zu ö, alle ue zu ü umgewandelt werden. Seite 11 von 15
12 Man erstellt eine Instanz von MatchEvaluator und übergibt dem Konstruktor die nachfolgende Methode. MatchEvaluator myevaluator = new MatchEvaluator(ReplaceMethode); Methode: public string ReplaceMethode(Match m) { switch (m.value) { case "ae": return "ä"; break; case "oe": return "ö"; break; case "ue": return "ü"; break; case "Ae": return "Ä"; break; case "Ae": return "Ö"; break; case "Ue": return "Ü"; break; default: return ""; break; } } (Der default-zweig im Switch-Case-Konstrukt muss vorhanden sein, damit alle Codepfade einen Wert zurückgeben, wie es der Compiler haben will.) Durchführen der Ersetzung mit der Replace-Methode (Pattern: [aou]e): string ersetzterstring = myregex.replace("franz faehrt von Muenchen nach Oesterreich, um einen Baer zu suchen.", "[aou]e", myevaluator, RegexOptions.IgnoreCase); Inhalt von ersetzterstring: Franz fährt von München nach Österreich, um einen Bär zu suchen. Erklärung: Alle ae, oe und ue im String werden je nach Treffer mit ä, ö oder ü ersetzt. Aufgrund von RegexOptions.CaseInsensitive trifft Regex auch Ae, Oe und Ue. (Bei jedem Treffer (Match) wird die Methode ReplaceMethode aufgerufen und der Treffer mit dem Rückgabewert der Methode ersetzt.) (Weitere sinnvolle Ersetzungen wären, dass die Klasse, in der sich die Methode befindet, eine statische Int-Variable mit dem Ausgangswert 0 enthält. Diese Variable wird bei jedem Aufruf der Methode inkrementiert (um den Wert 1 erhöht) und als Ersetzungsstring zurückgegeben. Siehe: 5. Tipps zur Performance Einige Tipps zur Gestaltung von Pattern, um die Performance zu verbessern: Vordefinierte Zeichenklassen sollten benutzt werden. Klammern sollten nur dort benutzt werden, wo sie wirklich nötig sind. Alternativen sind ziemlich rechenintensiv und sollten deshalb so selten wie möglich verwendet werden. Wenn sie nicht vermeidbar sind, so sollte die häufigste Möglichkeit als erste gelistet werden. Man sollte soviel Text wie möglich explizit und ohne Alternativen angeben, da dies eine effektive innere Optimierung ermöglicht. (Beispiel: xxxxx* statt x{5,} oder S(ams onn)tag statt (Samstag Sonntag)) Seite 12 von 15
13 Falls vom Sinn her möglich, sollte man auf jeden Fall den Pattern mit ^ beginnen. ( 6. Übungen zu Regex Es ist die Aufgabe, zu jeder der 17 Übungen ein Pattern zu definieren, das auf die Fragestellung zutrifft. Zur Verdeutlichung der Fragestellung gibt es zu jeder Aufgabe ein Beispiel. Unter der Frage steht eine Lösungsvariante, die teilweise erklärt ist. Es ist durchaus möglich, dass es zu einer Fragestellung mehrere richtige Lösungen gibt, obwohl meist nur eine angegeben ist. Die Übungen sind nach Schwierigkeitsgrad gestaffelt. 1. Fragestellung: Pattern, das eine 4-stellige Zahl erlaubt, wobei die erste Ziffer ungleich 0 sein muss (Bsp: 7344) Lösung: ^[1-9][0-9]{3}$ Beschreibung der Lösung: ^ und $, damit sich das Muster auf den gesamten String bezieht [1-9]: damit ein Zeichen aus 1, 2, 3,..., 9 gewählt wird [0-9]: damit ein Zeichen von 0 bis 9 gewählt wird (gleichwertige Alternativen: \d, [:digit:]) {3}: damit [0-9] 3-mal wiederholt wird ([0-9]{3} entspricht [0-9][0-9][0-9]) 2. Wort mit 4 Zeichen (Bsp: Haus) ^[a-za-z][a-z]{3}$ [a-za-z]: ein Groß- oder Kleinbuchstabe als erstes Zeichen [a-z]{3}: gefolgt von genau 3 Kleinbuchstaben 3. Nur Buchstaben "a" und "b" enthalten (Bsp: abaababbaaa) ^[ab]*$ [ab]*: Beliebig oft (oder auch nie) darf a oder b vorkommen 4. Binärzahlen, längenmäßig nicht beschränkt (Bsp: ) ^[01]*$ 5. Wort mit einem Großbuchstaben zu Beginn, das auf "en" endet (Bsp: Tannen) ^[A-Z][a-z]*en$ 6. Ziffer Strich Ziffer Strich Ziffer Strich (Bsp: 1-7-6) ^[0-9]-[0-9]-[0-9]$ - (2. Vorkommen; zwischen ] und [): Bindestrich wird als solcher verwendet, da er nicht innerhalb der eckigen Klammern ist (Weitere Lösungsmöglichkeit: ^([0-9]-){2}[0-9]$) 7. Zeichenfolge, die nur aus Kleinbuchstaben besteht und keinen Selbstlaut enthält (Bsp: dkfs) ^[b-df-hj-np-tv-z]*$ 8. Zahl mit erster Ziffer ungleich 0, gefolgt von der Einheit Stück (inklusive einem Leerzeichen zwischen der Zahl und Stück ) (Bsp: 60 Stück) ^[1-9][0-9]* Stück$ 9. Smiley: 1. Zeichen ":" oder ";"; 2. Zeichen "-"; 3. Zeichen "(" oder ")" oder " "; (Bsp: ;-) ^[:;]-[() ]$ -: Bindestrich als 2. Zeichen [() ]: ( oder ) oder als 3. Zeichen 10. Zahl zwischen -750 und 750 (wenn Zahl positiv, dann kein Vorzeichen; keine längenmäßige Beschränkung, d. h. Zahl kann auch einstellig sein) (Bsp: 411) ^-?(7[0-4][0-9] 750 [0-6]?[0-9]{1,2})$ -?: Minuszeichen kann vorkommen 7[0-4][0-9]: 700 bis 749 möglich 750: oder 750 Seite 13 von 15
14 [0-6]?[0-9]{1,2}: oder eine folgendermaßen zusammengesetzte Zahl [0-6]?: 0 6 als erste Ziffer der Zahl möglich 11. Dreistellige Zahl von -750 bis 750 (wenn Zahl positiv, dann kein Vorzeichen) (Bsp: 747) ^-?(7[0-4][0-9] 750 [0-6][0-9]{2})$ 12. Länge: 4 Zeichen; Buchstaben A als erstes Zeichen gefolgt von einer Zahl [300;399] oder Buchstabe B zu Beginn gefolgt von einer Zahl [737;747;...;787] (erste und letzte Ziffer 7, zweite Ziffer zwischen 3 und 8 (inklusive)) (Bsp: A380) ^(A3[0-9]{2} B7[3-8]7)$ A3[0-9]{2}: A3 und zwei Ziffern B7[3-8]7: oder B7 und Ziffer von 3 8 gefolgt von Wort mit mind. 2 gleichen aufeinander folgenden Zeichen bzw. Buchstaben (Bsp: Schiff) ([a-za-z])\1 \1: Zeichen, welches in der Gruppierung gematcht wurde (Backtracking) 14. Uhrzeit im Format 00:00:00 (Bsp: 16:41:33) ^(2[0-3] [0-1]?[0-9])(:[0-5][0-9]){2}$ (2[0-3] [0-1]?[0-9]): 2[0-3]: 2 gefolgt von einer der Ziffern 1, 2, oder 3 (für 20, 21, 22, 23 Uhr) [0-1]?[0-9]: oder Ziffer 0 oder 1 gefolgt von einer Ziffer (für 00 Uhr bis 19 Uhr) (:[0-5][0-9]){2}: :: Doppelpunkt [0-5][0-9]: Minuten/Sekunden 00 bis Adresse (ohne Umlaute und ß) (Bsp: bill_gates@googl .com) ^[a-za-z0-9_-]{1,}[a-za-z0-9_-\.]*[a-za-z0-9_-]{1,}@[a-za-z0-9_-]{2,}\.[az]{2,4}$ [a-za-z0-9_-]{1,}[a-za-z0-9_-\.]*[a-za-z0-9_-]{1,}: Groß-, Kleinbuchstaben, Ziffern, Bodenstrich, Bindestrich als Beginn und als letztes Zeichen vor erlaubt; zusätzlich zu diesen Zeichen ein Punkt in der Mitte erlaubt (Punkt darf also nicht am Beginn und als letztes Zeichen vor stehen) \.: Punkt als solcher und deshalb escaped [a-z]{2,4}: für die 2 bis 4 Zeichen lange Top-Level-Domain (Bsp: de, com, info) (und noch viele andere Lösungen (Microsoft-Lösung (in Microsoft Visual Studio Web Developer 2005 Express Edition): \w+([-+.']\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*)) 16. Internet-Adresse (ohne Umlaute und ß) (Beispiele: de.wikipedia.org) ^(https?://)?(www2?\.)?[a-za-z0-9&-\(\)$/]{2,}\.[a-z]{2,4}/?$ (https?://)?: Fragezeichen am Ende, welches hinter der Gruppierung steht, bezieht sich auf die Gruppierung; erlaubt ist also: oder oder gar nichts https?: Fragezeichen bezieht sich nur auf das vorhergehende Zeichen, das in diesem Fall das s ist; (www2?\.)?: vorkommen kann: www. oder www2. oder gar nichts [a-za-z0-9&-\(\)$/]{2,}: erlaubte Zeichen für die Second-Level-Domain, wobei dieser Domainteil mindestens 2 Zeichen ({2,}) lang sein muss; \( und \) stehen für die offene und geschlossene runde Klammer als solche, da diese Klammern ansonsten als Gruppierung interpretiert werden [a-z]{2,4}: Top-Level-Domain mit 2 4 Zeichen /?: / als letztes Zeichen erlaubt (und noch viele andere Lösungen (Microsoft-Lösung: http(s)?://([\w-]+\.)+[\w- ]+(/[\w-./?%&=]*)?)) 17. Betrag in (optional 2 Kommastellen), mit 1.000er-Trennzeichen (Bsp: ,00 ) ^[0-9]{1,3}(\.[0-9]{3})*(,[0-9]{2})?[ ]? $ Seite 14 von 15
15 7. Weblinks [0-9]{1,3}: eine bis maximal 3 Ziffern zu Beginn (wenn Zahl größer als 999, dann stellen diese Ziffern die Ziffern vor dem er-Trennzeichen dar; ansonsten die Ziffern vor dem Komma) (\.[0-9]{3})*: \.: steht für den Punkt; muss mit dem Backslash escaped werden (Punkt für Tausender-Trennzeichen benötigt) [0-9]{3}: 3 Ziffern *: diese Gruppierung kann 0 unendlich mal vorkommen (,[0-9]{2})?:,: Komma [0-9]{2}: genau 2 Ziffern für die 2 Kommastellen?: diese Gruppierung kann 0 oder 1-mal vorkommen [ ]?: Leerzeichen kann vorkommen Seite zum Tutorial auf mycsharp.de: Feedback, Online-Version, Veröffentlichung von neueren Versionen: Wikipedia-Artikel zu Regex (deutsch): Sehr gutes deutsches und einfach verständliches Tutorial: Deutsches Tutorial: Deutsches Tutorial: Informationen im Microsoft Developer Network (MSDN): Video-Clip im MSDN (deutsch): Deutsches Tutorial in Tabellenform für Fortgeschrittene: Behandlung von Regex-Fehlermeldungen (deutsch): Englischsprachiger Artikel aus Wikipedia zu Regex: Sehr gutes englisches Tutorial für Einsteiger auf Codeproject: Weiteres englisches Tutorial auf Codeproject: Ausführliches englisches Tutorial zu Regex: Englische Webseite mit einer Sammlung von regulären Ausdrücken: 8. Literatur Um das letzte Quäntchen aus Regex herauszukitzeln, kann folgendes Buch empfohlen werden: Reguläre Ausdrücke von Jeffrey E. F. Friedl, O'Reilly Verlag ; webstarg. Seite 15 von 15
Version 1.00h (13. 04. 2008)
Tutorial: Regex Version 1.00h (13. 04. 2008) Seite 1 von 15 Inhaltsverzeichnis 1. Was ist Regex?... 3 2. Verwendung von Regex in C#... 3 3. Funktionen von Regex... 3 4. Syntax von Regex... 4 4.1 Einfachstes
Proseminar UNIX Tools. Ferdinand Beyer
Reguläre Ausdrücke Proseminar UNIX Tools Ferdinand Beyer Technische Universität München 08.11.2005 Ferdinand Beyer (TUM) Reguläre Ausdrücke 08.11.2005 1 / 39 Gliederung Allgemeines 1 Allgemeines 2 Notation
C# - Einführung in die Programmiersprache Methoden. Leibniz Universität IT Services
C# - Einführung in die Programmiersprache Methoden Leibniz Universität IT Services 02.07.12 Methoden... sind Subroutinen in einer Klasse. können einen Wert an den Aufrufer zurückgeben. verändern die Eigenschaften
Funktionen in JavaScript
Funktionen in JavaScript Eine Funktion enthält gebündelten Code, der sich in dieser Form wiederverwenden lässt. Es können ganze Programmteile aufgenommen werden. Mithilfe von Funktionen kann man denselben
Linux II. Reguläre Ausdrücke Editoren Scripting. 2 Linux II. Linux I II III Res WN/TT NLTK XML Weka E Reguläre Ausdrücke Editoren Scripting
Linux II 2 Linux II Reguläre Ausdrücke Editoren Scripting Reguläre Ausdrücke Reguläre Ausdrücke beschreiben eine Menge von Zeichenfolgen und werden benutzt um m festzustellen, ob eine Zeichenkette Teil
Funktionen in JavaScript
Funktionen in JavaScript Eine Funktion enthält gebündelten Code, der sich in dieser Form wiederverwenden lässt. Mithilfe von Funktionen kann man denselben Code von mehreren Stellen des Programms aus aufrufen.
b{2} [^b]{2} Reguläre Ausdrücke als Hilfsmittel der Textanalyse Manuel Raaf Bayerische Akademie der Wissenschaften, IT-Referat
b{2} [^b]{2} Reguläre Ausdrücke als Hilfsmittel der Textanalyse Manuel Raaf [email protected] Bayerische Akademie der Wissenschaften, IT-Referat Reguläre Ausdrücke engl. regular expressions, kurz: regex, regexp
Reguläre Ausdrücke Suchmuster, Pattern Matching
Suchmuster, Pattern Matching Ein oder mehrere Einzelzeichen in interner Variablen $_suchen: /e/ #liefert wahr, wenn $_ ein 'e' enthält. /aus/ #liefert wahr, wenn $_ 'aus' enthält. while { if (/e/)
JavaScript. Dies ist normales HTML. Hallo Welt! Dies ist JavaScript. Wieder normales HTML.
JavaScript JavaScript wird direkt in HTML-Dokumente eingebunden. Gib folgende Zeilen mit einem Texteditor (Notepad) ein: (Falls der Editor nicht gefunden wird, öffne im Browser eine Datei mit der Endung
Programmieren I + II Regeln der Code-Formatierung
Technische Universität Braunschweig Dr. Werner Struckmann Institut für Programmierung und Reaktive Systeme WS 2016/2017, SS 2017 Programmieren I + II Regeln der Code-Formatierung In diesem Dokument finden
Einführung in PERL 2 Reguläre Ausdrücke
Einführung in PERL 2 Reguläre Ausdrücke BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER und dem Buch `Einführung in Perl (Lama Buch) von RL Schwartz&T Phoenix sowie hwp://de.sel[tml.org/perl/sprache/regexpr.htm
Webengineering. Reguläre Ausdrücke. Dienstag, 2. Juli 13
Webengineering Reguläre Ausdrücke Marcel Vilas 1 DHBW - Stuttgart 1 RegExp - Allgemein Muster, die eine Menge von Zeichenketten mit Hilfe bestimmter syntaktischer Regeln beschreiben Werden oft als Suchmuster
Einstieg in die Informatik mit Java
Vorlesung vom 18.4.07, Grundlagen Übersicht 1 Kommentare 2 Bezeichner für Klassen, Methoden, Variablen 3 White Space Zeichen 4 Wortsymbole 5 Interpunktionszeichen 6 Operatoren 7 import Anweisungen 8 Form
3 Regular expressions
3 Regular expressions Es gibt eine ganze Reihe von Unix-Werkzeugen, für deren Benutzung es sinnvoll oder gar wesentlich ist, dass man mit etwas umgehen kann, was als regular expression oder kurz Regex
Programmieren I + II Regeln der Code-Formatierung
Technische Universität Braunschweig Dr. Werner Struckmann Institut für Programmierung und Reaktive Systeme WS 2012/2013, SS 2013 Programmieren I + II Regeln der Code-Formatierung Die hier vorgestellten
Reguläre Ausdrücke. Reguläre Ausdrücke = Regular Expressions = reg.exp./regexp/regexp = RE
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. REGULAR EXPRESSIONS RegExp Was ist ein regulärer Ausdruck? = Regular Expressions = reg.exp./regexp/regexp = RE Ein regulärer
Reguläre Ausdrücke mit Java
Reguläre Ausdrücke mit Java Johannes Dyck, Thomas Schulz Projektseminar www.prominentpeople.info Gliederung 2 1. Grundlagen von regulären Ausdrücken 1. Aufbau 2. Zeichenklassen 3. Metazeichen 4. Quantoren
Java Einführung VARIABLEN und DATENTYPEN Kapitel 2
Java Einführung VARIABLEN und DATENTYPEN Kapitel 2 Inhalt dieser Einheit Variablen (Sinn und Aufgabe) Bezeichner Datentypen, Deklaration und Operationen Typenumwandlung (implizit/explizit) 2 Variablen
Formale Sprachen und Automaten
Formale Sprachen und Automaten Kapitel 3: Regular Expressions Vorlesung an der DHBW Karlsruhe Thomas Worsch Karlsruher Institut für Technologie, Fakultät für Informatik Wintersemester 2012 Kapitel 3 Regular
Regular expressions for pros Reguläre Ausdrücke für Fortgeschrittene (Perl) Elena Neuburg
Regular expressions for pros Reguläre Ausdrücke für Fortgeschrittene (Perl) Elena Neuburg Inhaltsverzeichnis Definition Pattern Matching Greediness Eagerness Backtracking Nützliche Optionen Backreferences
Regular Expressions. Daniel Lutz Was ist eine Regular Expression?
Regular Expressions Daniel Lutz 12.11.2003 1 Was ist eine Regular Expression? Ausdruck, der ein Textfragment beschreibt Eine Regular Expression passt zu einem Textfragment, wenn das Textfragment
/ Vortrag Unix-AG
16.6.2010 / Vortrag Unix-AG xkcd Fortsetzung... Grundlegendes 1 Begriff: = regular expressions kurz: regex Funktion: definieren flexible Muster, mit denen in Texten gesucht (und ersetzt) werden kann. Diese
Reguläre Ausdrücke 1 / 10. Doing Web Apps. Reguläre Ausdrücke. Letzte Änderung: 2009-04-17 Version: 0.6 Copyright: 2005. Alle Rechte vorbehalten
1 / 10 Doing Web Apps Reguläre Ausdrücke Autor: Rüdiger Marwein Letzte Änderung: 2009-04-17 Version: 0.6 Copyright: 2005. Alle Rechte vorbehalten Dieses Dokument darf mit Nennung des Autoren - frei vervielfältigt,
Reguläre Ausdrücke. Einstieg in PHP 5.4 und MySQL 5.5. Zusatzkapitel zum Buch: Thomas Theis ISBN
Zusatzkapitel zum Buch: Thomas Theis Einstieg in PHP 5.4 und MySQL 5.5 ISBN 978-3-8362-1877-1 Galileo Press 2012 1 Suchmuster Reguläre Ausdrücke dienen zur Beschreibung von Suchmustern. Mit Hilfe dieser
Einstieg in die Informatik mit Java
1 / 30 Einstieg in die Informatik mit Java Datentypen Gerd Bohlender Institut für Angewandte und Numerische Mathematik Gliederung 2 / 30 1 Überblick 2 Ganzzahlige Typen 3 Gleitkommatypen 4 Zeichen, char
Empfehlenswerte Referenzen
Wenn Google etwas nicht finden kann, fragen sie Jack Bauer. ("Fakten über Jack Bauer") Inhalt Empfehlenswerte Referenzen...1 0 Wozu reguläre Ausdrücke?...1 1 Die Elemente regulärer Ausdrücke...2 2 Ein
C++ Teil 2. Sven Groß. 16. Apr IGPM, RWTH Aachen. Sven Groß (IGPM, RWTH Aachen) C++ Teil Apr / 22
C++ Teil 2 Sven Groß IGPM, RWTH Aachen 16. Apr 2015 Sven Groß (IGPM, RWTH Aachen) C++ Teil 2 16. Apr 2015 1 / 22 Themen der letzten Vorlesung Hallo Welt Elementare Datentypen Ein-/Ausgabe Operatoren Sven
Perl Regular Expressions in Base SAS
Webinar@Lunchtime Perl Regular Expressions in Base SAS Perl Reguläre Ausdrücke (Perl Regular Expressions) Einleitung Perl Regulare Ausdrücke beschreiben einen Text, der als Muster dient. In einem solchen
Schritt für Schritt Reguläre Ausdrücke verstehen. Einstieg in. Reguläre Ausdrücke. Michael Fitzgerald O REILLY. Übersetzung von Thomas Demmig
Schritt für Schritt Reguläre Ausdrücke verstehen Einstieg in Reguläre Ausdrücke O REILLY Michael Fitzgerald Übersetzung von Thomas Demmig Inhalt Vorwort.... 1 Was ist ein regulärer Ausdruck?... 1 Ein Anfang
Lexikalische Programmanalyse der Scanner
Der Scanner führt die lexikalische Analyse des Programms durch Er sammelt (scanned) Zeichen für Zeichen und baut logisch zusammengehörige Zeichenketten (Tokens) aus diesen Zeichen Zur formalen Beschreibung
C++ - Objektorientierte Programmierung Konstruktoren und Destruktoren
C++ - Objektorientierte Programmierung Konstruktoren und Destruktoren hat eine Kantenlänge hat eine Füllfarbe Kantenlänge setzen Füllfarbe lesen Volumen berechnen Leibniz Universität IT Services Anja Aue
Einführung in die Programmierung für NF. Rückgabewerte, EBNF, Fallunterscheidung, Schleifen
Einführung in die Programmierung für NF Rückgabewerte, EBNF, Fallunterscheidung, Schleifen FUNKTIONEN UND PROZEDUREN 3 Rückgabewerte, EBNF, Fallunterscheidung, Schleifen 2 Funk@on und Prozedur Methoden
Java I Vorlesung Imperatives Programmieren
Java I Vorlesung 2 Imperatives Programmieren 3.5.2004 Variablen -- Datentypen -- Werte Operatoren und Ausdrücke Kontrollstrukturen: if Imperatives Programmieren Im Kern ist Java eine imperative Programmiersprache.
Einstieg in die Informatik mit Java
1 / 17 Einstieg in die Informatik mit Java String Tokenizer Gerd Bohlender Institut für Angewandte und Numerische Mathematik Gliederung 2 / 17 1 Überblick Tokenizer 2 StringTokenizer 3 Verwendung von String.split
Objektorientierte Programmierung. Kapitel 22: Aufzählungstypen (Enumeration Types)
Stefan Brass: OOP (Java), 22. Aufzählungstypen 1/20 Objektorientierte Programmierung Kapitel 22: Aufzählungstypen (Enumeration Types) Stefan Brass Martin-Luther-Universität Halle-Wittenberg Wintersemester
Methoden und Wrapperklassen
Methoden und Wrapperklassen CoMa-Übung IV TU Berlin 06.11.2012 CoMa-Übung IV (TU Berlin) Methoden und Wrapperklassen 06.11.2012 1 / 24 Themen der Übung 1 Methoden 2 Wrapper-Klassen CoMa-Übung IV (TU Berlin)
C. Ortseifen: Reguläre Ausdrücke
Inhalt Reguläre Ausdrücke mit SAS Einsatz der RX- und PRX-Funktionen Dr. Carina Ortseifen SAS-Treff am URZ 2. Dezember 2005 1. Einleitung 2. Aufbau der regulären Ausdrücke 3. Beispiele 4. Reguläre Ausdrücke
GI Vektoren
Vektoren Problem: Beispiel: viele Variablen vom gleichen Typ abspeichern Text ( = viele char-variablen), Ergebnisse einer Meßreihe ( = viele int-variablen) hierfür: Vektoren ( = Arrays = Feld ) = Ansammlung
Einführung in die Computerlinguistik Suche mit regulären Ausdrücken
Einführung in die Computerlinguistik Suche mit regulären Ausdrücken Dozentin: Wiebke Petersen 9. Foliensatz Wiebke Petersen Einführung CL 1 Suche mit regulären Ausdrücken Suche nach allen Wortformen des
Einführung in die Programmierung I. 2.0 Einfache Java Programme. Thomas R. Gross. Department Informatik ETH Zürich
252-0027 Einführung in die Programmierung I 2.0 Einfache Java Programme Thomas R. Gross Department Informatik ETH Zürich Uebersicht 2.0 Einfache Java Programme Struktur Namen Output 2 Graphische Darstellung
3.1 Allgemeines. Abbildung 3.1: Eröffnungsmenü einer Excel-Mappe
3.1 Allgemeines Nach Aufruf des Programms-MS-Excel wird eine leere Datei, auch als Arbeitsmappe oder Excel-Worksheet als bezeichnet, geöffnet (= Abb. 3.1). Eine Arbeitsmappe besteht aus einem Stapel von
Programmierkurs C++ Variablen und Datentypen
Programmierkurs C++ Variablen und Datentypen Prof. Dr. Stefan Fischer Institut für Telematik, Universität zu Lübeck http://www.itm.uni-luebeck.de/people/fischer #2 Überblick Welche Datentypen gibt es in
Python Variablen und Anweisungen
Python Variablen und Anweisungen Ausdruck... besteht aus Operanden und Operatoren, die nach bestimmten Regeln zusammengesetzt werden. formuliert einzelne Schritte des Programms. ist eine Verarbeitungsvorschrift,
Informationsextraktion Materialien zur Vorlesung
Vordefinierte Informationsextraktion Materialien zur Vorlesung Reguläre Ausdrücke D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg
Themen der Übung. Methoden und Wrapperklassen. Vorteile von Methoden. Methoden. Grundlagen
Themen der Übung 1 Organisatorisches Methoden und Wrapperklassen 2 Methoden 3 Wrapper-Klassen CoMa-Übung IV TU Berlin 07.11.2012 Organisatorisches: Im Pool nur auf die Abgabeliste setzen, wenn ihr wirklich
Intensivübung zu Algorithmen und Datenstrukturen
Intensivübung zu Algorithmen und Datenstrukturen Silvia Schreier Informatik 2 Programmiersysteme Martensstraße 3 91058 Erlangen Übersicht Programmierung Fallunterscheidung Flussdiagramm Bedingungen Boolesche
Funktionen in Matlab. Nutzerdefinierte Funktionen können in.m-datei gespeichert werden
Funktionen in Matlab Zusammenfassung von Befehlssequenzen als aufrufbare/wiederverwendbare Funktionen in einem Programmblock mit festgelegter Schnittstelle (Signatur) Derartige prozedurale Programmierung
Klausur Informatik WS 2012/13
Klausur Informatik WS 2012/13 Name Gruppe 1 Vorname Dauer 90 min Matrikelnummer Hilfsmittel keine Die Klausur ist mit 50 Punkten sicher bestanden. Hinweies: Voraussetzung für die Teilnahme ist das Bestehen
Tag 4 Repetitorium Informatik (Java)
Tag 4 Repetitorium Informatik (Java) Dozent: Michael Baer Lehrstuhl für Informatik 2 (Programmiersysteme) Friedrich-Alexander-Universität Erlangen-Nürnberg Wintersemester 2017/2018 Übersicht Arrays (Reihungen)
Methoden-Expertin. Aufgabe 1. Das Neue. Lösung in JavaKara. Puzzle: Expertin D
Methoden-Expertin Aufgabe 1 Kara steht vor einem Baum, der alleine in der Welt steht. Hinter dem Baum hat es ein Kleeblatt, das Kara aufheben soll. Danach soll Kara wieder zum Ausgangsort zurückkehren.
GREP. Reguläre Ausdrücke. GREP Hardcore. Syntax. Ersetzen Suchen. Look Around. 20. April 2012 Pubkon 2013
GREP Syntax Reguläre Ausdrücke Look Around Ersetzen Suchen GREP Hardcore 20. April 2012 Pubkon 2013 Kontakt: Folien: [email protected] http://www.publishingx.de/dokumente Lizenz: c b n Quelle:
C++ Notnagel. Ziel, Inhalt. Programmieren in C++
C++ Notnagel Ziel, Inhalt Ich versuche in diesem Dokument noch einmal die Dinge zu erwähnen, die mir als absolut notwendig für den C++ Unterricht und die Prüfungen erscheinen. C++ Notnagel 1 Ziel, Inhalt
Schachtelung der 2. Variante (Bedingungs-Kaskade): if (B1) A1 else if (B2) A2 else if (B3) A3 else if (B4) A4 else A
2.4.6. Kontrollstrukturen if-anweisung: Bedingte Ausführung (Verzweigung) 2 Varianten: if (Bedingung) Anweisung (Anweisung = einzelne Anweisung oder Block) Bedeutung: die Anweisung wird nur ausgeführt,
Reguläre Ausdrücke - eine Einführung -
Ziel Reguläre Ausdrücke - eine Einführung - Andreas Romeyke Leipzig, Oktober/November 2002 Diese Präsentation ist eine kurze Einführung in die Welt der regulären Ausdrücke mit Schwerpunkt Perl. Die Präsentation
Strings. Daten aus Dateien einlesen und in Dateien speichern.
Strings. Daten aus Dateien einlesen und in Dateien speichern. Strings Ein String ist eine Zeichenkette, welche von MATLAB nicht als Programmcode interpretiert wird. Der Ausdruck 'a' ist ein String bestehend
Sprachen sind durch folgenden Aufbau gekennzeichnet:
BNF UND SYNTAXDIAGRAMME 1. Allgemeines 1.1 Aufbau von Sprachen BNF und Syntaxdiagramme werden verwendet, um die Syntax einer Sprache darzustellen und graphisch zu veranschaulichen. Mit ihnen können entweder
1.103 Regular Expressions - Reguläre Ausdrücke
Copyright ( ) 2009 by M.Peichl. This work is licensed under the Creative Commons Attribution-Noncommercial-Share Alike 2.0 Germany License. To view a copy of this license, visit http://creativecommons.org/licenses/by-nc-sa/2.0/de/
Scala. Funktionale (Zustandslose) Objekte
Scala Funktionale (Zustandslose) Objekte Agenda Was sind Funktionale Objekte? veränderliche Objekte vs. unveränderliche Objekte Klassen Parameter Konstruktoren Private Member Methoden und Operatoren Overriding
Informatik I - Übung 2 Programmieren in Eclipse
Informatik I - Übung 2 Programmieren in Eclipse. / Info1 / HelloWorld / HelloWorld Wort1 Wort2 Daniel Hentzen [email protected] 5. März 2014 1.2 Häufigste Fehler im Terminal auf Gross-/Kleinschreibung
Grundlagen von C# - 1
Grundlagen von C# - 1 Marc Satkowski 20. November 2016 C# Kurs Gliederung 1. Über diesen Kurs 2. Benötigte Software 3. Exkurs: Architektur von.net und C# 4. Erstes Programm: Hello World Grundlegende Eigenschaften
Einstieg in die Informatik mit Java
1 / 20 Einstieg in die Informatik mit Java Literalkonstanten Gerd Bohlender Institut für Angewandte und Numerische Mathematik Gliederung 2 / 20 1 Ganzzahlige Konstanten 2 Gleitkommakonstanten 3 Zeichenkonstanten
Elementare Konzepte von
Elementare Konzepte von Programmiersprachen Teil 1: Bezeichner, Elementare Datentypen, Variablen, Referenzen, Zuweisungen, Ausdrücke Kapitel 6.3 bis 6.7 in Küchlin/Weber: Einführung in die Informatik Bezeichner
Statische und Nichtstatische Methoden Properties/ Eigenschaften
Statische und Nichtstatische Methoden Properties/ Eigenschaften Statische Methoden Definition und Merkmale von Properties Modifizierer Beispiele Nebeneffekte Dr. Beatrice Amrhein Statische / Nichtstatische
Interaktive Programme mit Scanner
2.X Input 191 Interaktive Programme mit Scanner 193 Input und System.in Interaktives Programm: Liest Input von der Konsole ( console ). Während das Programm ausgeführt wird fragt das Programm den Benutzer
5 Grundlagen der Java-Syntax
5 Grundlagen der Java-Syntax Es sollen nun einige Grundregeln besprechen, die in jeder Java-Programmdatei berücksichtigt werden müssen. 5.1 Grundsätzliches zur Syntax von Java Programmen Zunächst sollten
Beispiel. Problem: mehrteilige Nachnamen (von Goethe, Mac Donald, Di Caprio)
Beispiel Beispiel: Namensliste konvertieren (Karl Egon Meier Meier, Karl Egon). s/(.*) (.*)/$2, $1/; Problem: mehrteilige Nachnamen (von Goethe, Mac Donald, Di Caprio) s/(.*) (.*)/$2, $1/; s/(.*) ([a-z]+
Primitive Datentypen, Eingaben, Kontrollstrukturen und Methodendeklaration
Primitive Datentypen, Eingaben, Kontrollstrukturen und Methodendeklaration CoMa-Übung III TU Berlin 30.10.2013 Primitive Datentypen, Eingaben, Kontrollstrukturen und Methodendeklaration 30.10.2013 1 /
Algorithmen mit konstantem Platzbedarf: Die Klasse REG
Algorithmen mit konstantem Platzbedarf: Die Klasse REG Sommerakademie Rot an der Rot AG 1 Wieviel Platz brauchen Algorithmen wirklich? Daniel Alm Institut für Numerische Simulation Universität Bonn August
Wichtige Prinzipien von C#
Wichtige Prinzipien von C# Marc Satkowski 20. November 2016 C# Kurs Gliederung 1. Dokumentationskommentare 2. Gültigkeit (Scope) 3. namespace & using 4. Methodenüberladung 5. Wert- & Referenztyp 6. null
Einstieg in die Informatik mit Java
Vorlesung vom 18.4.07, Literalkonstanten Übersicht 1 Ganzzahlige Konstanten 2 Gleitkommakonstanten 3 Zeichenkonstanten 4 Zeichenketten 5 Boolsche Konstanten 6 null Referenz Literalkonstanten Literalkonstanten
Programmierkurs Python I
Programmierkurs Python I Michaela Regneri & Stefan Thater Universität des Saarlandes FR 4.7 Allgemeine Linguistik (Computerlinguistik) Winter 2010/11 Übersicht Variablen Datentypen Werte Ausdrücke Operatoren
2.2 Der Algorithmus von Knuth, Morris und Pratt
Suchen in Texten 2.1 Grundlagen Ein Alphabet ist eine endliche Menge von Symbolen. Bsp.: Σ a, b, c,..., z, Σ 0, 1, Σ A, C, G, T. Wörter über Σ sind endliche Folgen von Symbolen aus Σ. Wörter werden manchmal
Übersicht Shell-Scripten
!!!! Wichtig: Bei Shell-Scripten enden die Zeilen nicht mit einem Strichpunkt!!!! Erste Zeile eines Shell-Scripts: #! /bin/bash Variablen in Shell-Scripts: Variablennamen müssen mit einem Buchstaben beginnen,
Übersicht PERL. !!!! Wichtig: Nach dem Befehl einem Strichpunkt setzen!!!!
!!!! Wichtig: Nach dem Befehl einem Strichpunkt setzen!!!! Erste Zeile eines PERL-Scripts: #! /usr/bin/perl Variablen in PERL: Normale Variablen beginnen mit einem $-Zeichen Array-Variablen beginnen mit
Reguläre Ausdrücke. Felix Döring, Felix Wittwer 14. November Python-Kurs
Reguläre Ausdrücke Felix Döring, Felix Wittwer 14. November 2016 Python-Kurs Gliederung 1. Grundlagen 2. Matching Regeln Sonderzeichen Zusammengesetzte Regex Spezielle Sequenzen 3. Methoden 4. reqular
Reguläre Ausdrücke in C#
Jürgen Bayer Reguläre Ausdrücke in C# Strings flexibel durchsuchen und bearbeiten Inhalt 1 Einführung 1 1.1 Das Prinzip 1 1.2 Die Musterzeichen 2 1.2.1 Escape-Sequenzen 3 1.2.2 Zeichenklassen 3 1.2.3 Gruppierungen
S. d. I.: Programieren in C Folie 4-1. im Gegensatz zu Pascal gibt es in C kein Schlüsselwort "then"
S. d. I.: Programieren in C Folie 4-1 4 Anweisungen 4.1 if-anweisung 1) if (Ausdruck) 2) if (Ausdruck) } else im Gegensatz zu Pascal gibt es in C kein Schlüsselwort "then" es wird nur der numerische Wert
Übersicht. Einführung in Perl Mustersuche III/ Datentypen II. Mehrzeiliges Matching (1) Mehrzeiliges Matching (2) chomp
Einführung in Perl Mustersuche III/ Datentypen II Universität Stuttgart Institut für maschinelle Sprachverarbeitung http://www.ims.uni-stuttgart.de/lehre/teaching/2003-ws/perl/home.html [email protected]
Elementare Datentypen in C++
Elementare Datentypen in C++ bool signed/unsigned char signed/unsigned short int signed/unsigned int signed/unsigned long int (signed/unsigned long long int) float double long double void enum char Der
Formale Sprachen. Anwendungen formaler Sprachen Adressen, Kaffeeautomaten, Programmiersprachen. Rudolf Freund, Marian Kogler
Formale Sprachen Anwendungen formaler Sprachen Adressen, Kaffeeautomaten, Programmiersprachen Rudolf Freund, Marian Kogler (http://xkcd.com/208) Gültige Adressen: Favoritenstraße 9, 1040 Wien Reumannplatz
Java - Zahlen, Wahrheitswerte und Zeichen. Leibniz Universität IT Services Anja Aue
Java - Zahlen, Wahrheitswerte und Zeichen Leibniz Universität Anja Aue Kommentare Hilfe für den Entwickler. Wer hat wann welche Änderung vorgenommen? Warum werden diese Anweisungen hier ausgeführt? Bei
Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen
Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen 16OH21005 gefördert. Die Verantwortung für den Inhalt dieser
Lexikalische Struktur von Fortran 95. Normierte Zeichensätze
Lexikalische Struktur von Fortran 95. Normierte Zeichensätze Im Folgenden steht für ein Leerzeichen! ASCII (American Standard Code for Information Interchange. Es gibt eine DIN-Norm die dem entspricht),
Arbeiten mit Regulären Ausdrücken. Annette Gerstenberg Würzburg, 16. März 2016 Workshop "Digitale Methoden" beim Forum Junge Romanistik
Arbeiten mit Regulären Ausdrücken Annette Gerstenberg Würzburg, 16. März 2016 Workshop "Digitale Methoden" beim Forum Junge Romanistik Warum RegEx? Ziele! Beispiel 1: Bereinigen eines Transkripts, Entfernen
C++ - Einführung in die Programmiersprache Ein- und Ausgabe in die Konsole. Leibniz Universität IT Services Anja Aue
C++ - Einführung in die Programmiersprache Ein- und Ausgabe in die Konsole Leibniz Universität IT Services Anja Aue Eingabe (input) und Ausgabe (output) In diesem Kapitel wird nur das Lesen von und das
Zahlenformat bei der Eingabe
Zahlenformat bei der Eingabe Excel stellt Zahlen oft nicht so dar wie sie eingegeben werden, es verwendet zur Anzeige das eingestellte Zahlenformat. Ist für eine Zelle noch kein Zahlenformat festgelegt
