Programujeme v jazyku C# III. Diel 9. – Regulárne výrazy IV

Michal Čižmár  /  25. 07. 2007, 00:00

V tomto dieli ešte dokončíme regulárne výrazy, pretože nám ešte zostalopozrieť si funkcie ako Replace a Split. Všetko si ukážeme hlavne na príkladoch, ktoré by sa Vám mohli aj prakticky hodiť

[Kľúčové slová]
RegEx.Replace() , RegEx.Split(),

Ak potrebujete zameniť v texte výskyt napr. jedného znaku alebo alebo jedného slova iným prvkom, tak na to Vám úplne stačí funkcionalita, ktorú poskytuje trieda String. Ak ale vieme povedať podľa akého pravidla má fungovať nahrádzanie, tak vždy si môžeme buď na to spraviť jednoduchý algoritmus, ako sa to asi aj najčastejšie rieši alebo siahneme po regulárnych výrazoch.

>>Replace
Keď ideme nahrádzať niečo pomocou regulárnych výrazov, potrebujeme si vždy nachystať dva regulárne výrazy. Prvým vyhľadáme danú množinu znakov a druhý nám predpisuje, ako má nahradenie prebehnúť. Pri tomto sa využíva špeciálna syntax – substitučné znaky.

>>Preskupenie výrazu

Nájsť pomenované grupy v texte pomocou RegEx už viete, čo tak teraz to využiť a napr. modifikovať ich poradie v texte? Predstavte si, že na vstupe máte pole obsahujúce dvojice meno a priezvisko, Vy ale potrebujete aby boli v opačnom poradí prípadne nejak inak upravené.

Príklad 3.9.1

using
System;
using
System.Text.RegularExpressions;
//-------------------------------------------------------
class
Program
{
    public static void Main(string[] args    )
    {
    string paternToFind = @"(?<Meno>\S+) (?<Priezvisko>\S+)";
    string vstup = "Alojz Mrkvicka";
    Console.WriteLine("Vstup: "+ vstup);
    Regex regEx = new Regex(paternToFind);

    string zamenene =
        regEx.Replace(vstup,"${Priezvisko}, ${Meno}");

       Console.WriteLine("Vystup: " +zamenene);
       Console.ReadLine();
    }
}
//-------------------------------------------------------




a) Najprv vytvoriť vyhľadávajúci regEx.

Keďže vieme, že na vstupe budu dva slová oddelené medzerou, môžeme využiť vzor (?<Meno>S+), ktorý hovorí, že do danej pomenovaj grupy ma zaradiť úplne všetko okrem prvého znaku medzera (= space =s). Pozor, keďže regulárne výrazy sú citlivé na veľkosť písmen, tak tu ozaj musí byť veľké S. Čo robí malé s, si ukážeme v nasledujúcom príklade.

b) Zostaviť nahrádzajúcí regEx.

${Priezvisko} -
tieto zložené (kučeravé :-)) zátvorky označujú substitúciu, teda na ich miesto sa doplní hodnota pomenovanej grupy, ktorá vyplýva zo vstupného regulárneho výrazu.

>>Odstránenie nadbytočným medzier
Pozrite si najprv príklad:

Príklad 3.9.2

using
System;
using
System.Text.RegularExpressions;
//-------------------------------------------

class
Program
{
    public static void Main(string[] args)
    {

        string pattern = @"\s{2,}";
        string vstup = "Ahoj ako sa mas?";

        Regex regEx = new Regex(pattern);

        Console.WriteLine("Vstup: "+ vstup);
        string vystup =
            regEx.Replace(vstup," ");

        Console.WriteLine("Vystup: " + vystup);
        Console.ReadLine();
    }
}

//-------------------------------------------



Už viete, že s predstavuje medzeru. {2,} - toto je ale nové a je to kvantifikačný znak. Znamená, že hľadáme medzery, ktoré sa vyskytujú 2 a viac krát. Ak by ste chceli určiť rozsah, tak to by bolo napr. {2,5}. Ak len presný počet výskytov, tak to je napr. {3}.


Nahrádzajúci regulárny výraz je kapánek jednoduchší :-). Je to len jedna medzera.


>>Split

Trieda String obsahuje dosť dobrú metódu s názvom Split() s rôznymi preťaženými tvarmi na rozdelenie vstupného reťazca na pole raťazcov podla určeného oddeľovača. V .C# +1.1 bolo možné aby oddeľovačom bol iba znak, alebo pole znakov, nie napr. celé slovo alebo pole slov. Takže sa dosť často využívali regulárne výrazy na to, ak ste si nevystačili len zo znakom ako oddeľovačom. Ok, už ste asi dosť dopletení :-) , poďme na príklad.

>>Inteligentné rozdelenie textu podľa čiarky.

Predstavte si, že prepájate dva systémy a prvý z nich produkuje textové súbory, v ktorých sú dáta oddelený pomocou čiarky. Ak čiarka nie je oddeľovač ale patri naozaj do textu, je celá tato časť v úvodzovkách. Tu by sme si už ozaj nevystačili s metódou String.Split().
Spravili sme si regulárny výraz:
"[^"]*"|([^,]+)

Vieme, že v niečom takotmo [ ] môžeme vypísať znaky, ktoré sa majú vyskytovať v reťazci. Ak chceme ale opak, čiže povedať že tam môžu patriť všetky možne znaky okrem nejakého vybraného znaku, použijeme striešku ^. Čiže [^"] znamení všetky znaky okrem úvodzoviek.

* - je ďalší kvantifikačný znak a znamená že vyžadujem 0 alebo viac výskytov.
Ostatné znaky už poznáte. Celkovo sa v tomto regEx snažíme buď nájsť úvodzovky a potom zobereme cely text az po koniec úvodzoviek, alebo vytiahneme text až po ďalší výskyt čiarky.

Príklad 3.9.3

using
System;
using
System.Text.RegularExpressions;

//--------------------------------------------------------------

class
Program
{
    public static void Main(string[] args)
    {
       
        string vstup = "Jozko, \"Drevarenska 23, Byt 22\", Bratislava";
        string pattern =" "[^"]*"|([^,]+)";

        Console.WriteLine("Vstup: "+ vstup);
        Regex regEx = new Regex(pattern);

        Console.WriteLine("Vystup:");
        foreach(Match m in regEx.Matches(vstup))
        {

            Console.WriteLine(m.Value.Trim());
        }

        Console.ReadLine();
    }
}

//--------------------------------------------------------------




>>Užitočné nastavenia regulárnych výrazov
Trieda RegEx má zaujímavú vlastnosť Options. Je len read-only, takže ju môžete špecifikovať len v konštruktore. Je typu enum a má tieto niektoré zaujimavé prvky:
- IgnoreCase – užitočný parameter, ktorý určite viete, že znamená, že sa nebude brať ohľad na veľké, malé písmena. Takže to nebudete musieť ošetrovať v rámci regulárneho výrazu.
- IgnorePatternWhitespaces – ak vám v regulárnom výraze nerozhoduje to, ei sa v texte vyskytujú medzery alebo nie, možete spravi? svoj regulEx preh3adnejší použi?im medzier a kei uvediete tento parameter, tak sa nakoniec budú aj tak ignorova?.


>>Záver k regulárnym výrazom
Myslím, že som Vám podal dobrý základ k regExp. Išlo mi hlavne o to, aby ste si uvedomili, na čo dobré sa dajú použiť a keď sa už vyskytne konkrétna úloha, budete si vedieť nájsť potrebné informácie a pomôcť si trebárs niektorým z RAD nástrojov, ktoré sme si ukázali v minulom článku.
Pri každom aj tom dnešnom článku je priložených zopár adries, ktoré vám môžu slúžiť k hlbšiemu štúdiu. Napr. som tu neuvádzal celú syntax regEx, len tú, ktorú sme použili v príkladoch a celú ju nájdete naozaj v minimálne jednom z odkazov a nebudete musieť začínať už len priamo GOOGLom. (Don't Google it Moss!)

>>Čo bude nabudúce?
Zaeneme novú tému. Ešte nie som rozhodnutý ale eo to bude. V diskusii sa vyskytli rozne návrhy na tému, tak sa nechám tým inšpirova?. Najviac sa mi páeila téma šifrovanie v C#. To by sa Vám pozdávalo? Alebo napíšte sami do diskusie, čo myslíte, že by bolo praktické, keby sme rozobrali.

[Príklady z článku]
Príklad 3.9.1
Príklad 3.9.2
Príklad 3.9.3


[Predchádzajúce diely]

Programujeme v jazyku C# III. Diel 8. – Regulárne výrazy III
Programujeme v jazyku C# III. Diel 7. – Regulárne výrazy II
Programujeme v jazyku C# III. Diel 6. – Regulárne výrazy I
Programujeme v jazyku C# III. Diel 5. –Všetko o DataSet II.


[Iné zdroje]

Použitie Replace I
Použitie Replace II



SEE YOU!


Michal Čižmár