Programujeme v jazyku C# III. Diel 6. – Regulárne výrazy I

Michal Čižmár  /  13. 06. 2007, 00:00

Pozrieme sa na veľmi užitočný nástroj nielen v programovaní, ktorý nám môže ušetriť veľa riadkov kódu typu if else if else.... a všelijaké šantenie ;-) pri vyhľadávaní v reťazcoch – stringoch. Odporučím Vám niekoľko utilít, ktoré Vám zjednodušia tvorbu a testovanie reg. výrazov.

[Kľúčové slová]
Regular Expression, RegEx, parsing.

Pokračujme v seriáli o jazyku C# a tentoraz dúfam, že sa budeme stretávať v pravidelnom režime dlhšiu dobu, možno aj 2x mesačne. Dnes začneme jemným úvodom do regulárnych výrazov, skôr aby ste pochopili, na čo je to dobré a v ďalšom dieli, si podrobnejšie ukážeme ako na to.
Pre stručnosť sa regulárne výrazy označujú skrátene RegEx (vychádza z anglického Regular Expression)

Určite ste sa s nimi už stretli napr. najčastejšie pri vyhľadávaní súborov. Poznáte to klasické *.* či dokument?.*

>>POZOR!! POZOR!! VÝZVA!!
Ak pre Vás regulárne výrazy nie sú ničím novým a použili ste ich už viac krát vo svojich programoch, pomôžte ostatným čitateľom a dole do diskusie uveďte Váš príklad na regEx, bez vysvetľovania syntaxe, iba stručne napíšte čo to robí.

Sám viem, že nehrozí aby si človek pamätal celú syntax RegEx, hlavne ak ich dlhšie nepoužíva a väčšinou siahne po príkladoch na internete a prispôsobí si ich pre vlastné použitie. Preto budem rád, ak tento článok zároveň s diskusiou, vytvoria jeden celok, ktorý bude slúžiť ako odrazový mostík, pre čitateľov tohoto seriálu.

>>Načo sú dobre regulárne výrazy?
Veľa programov, ktoré ste už naprogramovali alebo len ešte naprogramujete bude pracovať s textom. , v ktorom bude potrebné napr. jednoducho vyhľadať opakujúce sa slová po sebe nasledujúce, jednoducho spočítať výskyt určitého výrazu, alebo nahradiť slová. A to nielen v textových súboroch, ale napr. aj v databázach.

Takže prácu s regEx môžeme rozdeliť na hlavné tri oblasti:
  1. Overenie, či skupina znakov vyhovuje určitému vzoru, šablóne
  2. Vyhľadávanie, nahradzovanie
  3. Parsovanie, segmentovanie (grupovanie) znakov.

>>Sú regulárne výrazy len nástrojom v .NET ?
Ale kdeže!!! Pojem „regulárny výraz“ vznikol okolo 50.-tich rokov a ako nástroj sa začali po užívať v rôznych utilitách operačného systému UNIX.
Je snaha o ich štandardizáciu a kedže do programovania ich priniesol najmä jazyk PERL, tak poznáme PERL štandard a zároveň aj POSIXové regulárne výrazy + ďalšie špecifické a málo používané typy.
Stretneme sa s nimi aj v jazyku JAVA, VB a iných, ďalej napr. môžeme pomocou nich vyhľadávať v OpenOffice dokumentoch alebo v PSPade či v EditPluse (známe utility pre prácu s textom)

>>Jednoduchý príklad v C# na RegEx

Oveľa jednoduchšie bude, keď si použitie regulárnych výrazov ukážeme na praktickom príklade, kde uvidíte aj aké triedy máme v C# preto nachystané.

Príklad 6.1
//---------------------------------------------------------
using
System;
using
System.Text.RegularExpressions;
class MainClass
{
public static void Main(string[] args)
{

Console.WriteLine("Zadajte IP adresu na overenie");
string addressIP = Console.ReadLine();
string sablona = @"^([01]?\d\d?|2[0-4]\d|25[0-5])\." +
@"([01]?\d\d?|2[0-4]\d|25[0-5])\.([01]?\d\d?|2[0-4]\d|25[0-5])\." + @"([01]?\d\d?|2[0-4]\d|25[0-5])$";

Regex regExp = new Regex(sablona);
if(regExp.IsMatch(addressIP) == true)
Console.WriteLine("Adresa je korektna");
else
Console.WriteLine("Chyba!!");
Console.ReadLine();
}
}
//---------------------------------------------------------

Potrebný namespace: System.Text.RegularExpressions
Hlavná trieda : Regex

Regulárny výraz je uložený v premennej sablona. Asi si teraz hovoríte - Ufff ;-) to je čo?, nebojte sa prehliadač to zobrazuje správne. Reťazec bol dlhší, tak som ho rozdelil na 3 riadky, ale neznamená to, že to musíte takto zapisovať. Dávajte si pozor, aby ste pred reťazec dali znak zavináča @, pretože je tam dosť lomítok, ktoré sa nemajú interpretovať ako špeciálne znaky v C#.

>>Vysvetlenie regEx z príkladu
Na tomto príklade začneme rozoberať syntax RegEx a vysvetlíme si jednotlivé znaky. Celá syntax RegEx je dosť obsiahla a preto sa pokúsim aj ostatné príklady formulovať tak, aby sme väčšinu prešli, ale pre úplné naštudovanie Vám odporúčam linky na konci článku, prípadne SDK k .NET, kde je tiež kompletne vysvetlená, aj keď s minimom príkladov .

>> ^ $
označujú, že vstupný reťazec musí vyhovovať výrazu od jeho začiatku až po koniec. Teda ^ - začiatok, $ - koniec. Ak by sme ich tam nedali, tak výraz bude vyhovovať, aj keď sa bude korektná IP adresa nachádzať napr. v strede vstupného reťazca. Ak by sme vynechali znak $, tak to znamená, že výraz musí vyhovovať od začiatku reťazca, ale na konci môže byť pridané ešte všeličo inšie.

>> \d

Zastupuje práve jednu desiatkovú číslicu. 0-9

>>[01] [0-5]
Hranatými zátvorkami sa špecifikuje množina znakov, ktoré sa môžu na danej konkrétnej pozícii vyskytovať.

Buď vymenovaním napr. [01234], [aeiouy], [12ab]
alebo rozsahom [0-5], [a-z], [A-Z], [0-9a-fA-F]

>> ?

Označuje to, že výraz, ktorý napíšme pred týmto znakom, sa môže nachádzať najviac 1krát. To znamená, že sa ani nemusí nachádzať a výraz je stále platný.

Napr. [01]?\d\d?

Znamená, že to bude maximálne trojciferné číslo, ktoré bude začínať znakom 0 alebo 1. Kedže za jedným \d nie je otáznik, vyžadujeme tým, že minimálne jedno číslo tam určite musí byť.

>> | (pipe)
Toto poznáte z programovania a znamená to ALEBO.

>> . (bodka)

Bodkou je možné nahradiť ľubovoľný jeden znak okrem znaku pre nový riadok \n, pretože regulárne výrazy môžeme použiť samozrejme aj na ohodnocovanie viacriadkových vstupov.

My ale v príklade, chceme aby sa tam bodka naozaj nachádzala a nemá zastupovať iné znaky, preto sme dali pred bodku spätné lomítko, podobne ako v programovaní.

>> ( ) zátvorky

Umožňuje aplikovať kvantifikátor za celý vyraz, ktorý je uvedený v zátvorkách, alebo použiť znak | (pipe), tak ako sme to spravili my.

>>Ako príklad funguje
Dobre.... a teraz sa pozrite ešte raz na príklad a skúste porozmýšlať, či by ste už vedeli preložiť daný regulárny vyraz do slovenčiny. Dúfam, že hej a ak nie, prosím napíšte do diskusii, čomu ste neporozumeli (alebo správnejšie povedané, čo som zle vysvetlil).

Vieme, že IP adresa sa môže nachádzať v rozsahu od 0.0.0.0 po 255.255.255.255. Sú to 4 skupiny znakov oddelené bodkou. V každej skupine je minimálne jeden znak a maximálne tri. Nechápte to tak, že stačí povedať, že musí isť o číslo v rozsahu 0-255, ale je potrebné to chápať po znakoch na jednotlivých pozíciach (ako text, nie ako číslo 255).

Tejto úvahe zodpovedá regEx ([01]?\d\d?|2[0-4]\d|25[0-5]) , ktorý stačí 3x zopakovať a dať medzi to bodky zo spätným lomítkom.
Prvá možnosť zahrňuje rozsah
0-199
Druhá alternatíva je
200 – 249
A posledná
250 – 255

Samotné použitie v jazyku C# je úplne jednoduché. Ako parameter konštruktora môžeme aj hneď uviesť regulárny výraz a potom sa už len pýtať, či vstup mu vyhovuje, pomocou metódy IsMatch(string vstup)

>>Čo bude nabudúce?
Na testovanie regulárnych výrazov existuje veľké množstvo utilít, z ktorých veľa je zadarmo a sú naozaj premakané – takže si ich ukážeme. Ďalej si dáme ďalší príklad, na ktorom budeme pokračovať vo vysvetľovaní syntaxe.

[Príklady z článku na stiahnutie]

Overenie IP adresy

[Iné zdroje]

http://www.regular-expressions.info/tutorial.html

POZOR!! Veľmi kvalitné http://www.regularnivyrazy.info/, hlavne sekcia http://www.regularnivyrazy.info/shrnuti-syntaxe.html

.NET 2 SDK

SEE YOU!
Michal Čižmár

Neprehliadnite: