XML syntax v HTML dokumente?

Jozef Benko  /  20. 06. 2006, 07:46

Doposiaľ som považoval XML syntax v HTML dokumentoch za nevalídnu, nakoľko XML syntax nie je kompatibilná s HTML syntaxou. No nedávno som na jednom fóre narazil na zaujímavosť, ktorú som si doposiaľ nevšímal. W3 validátor označí HTML dokument obsahujúci XML syntax za valídny. Prečo?

Je to celkom jednoduché. Príčinu nájdeme v starších špecifikáciách. Pes je zakopaný vo vymoženosti SGML – v skrátenom (shorthand) značkovaní – SGML SHORTTAG. Poznáme viacero SGML SHORTTAG konštrukcií, nás bude zaujímať konkrétne tzv. NET značkovanie.

Vďaka tomuto značkovaniu je možne v SGML (a v jeho aplikáciách) zapisovať elementy v skrátenej forme:


<element/NET značkovanie je super/
<prazdny_element/

Ako je možné vidieť, toto značkovanie je o niečo odlišné od klasického, s ktorým denne pracujeme. Pri NET značkovaní uvádzame len začiatočnú značku elementu, ktorú neukončíme znakom väčší „>“, ale znakom „/“. Pokiaľ ide o prázdny element, je to všetko a ak ide o element s obsahom, nasleduje obsah elementu a nakoniec ukončenie celého elementu znakom „/“. Príklad:


<p/toto je obyčajný odstavec/
<img src="./cesta/ku/obrazku.jpg" alt="Toto je obyčajný obrázok"/

Áno, tento špeciálny SGML zápis je povolený aj v HTML, zmienka o ňom sa nachádza napríklad aj v špecifikácii HTML 4, konkrétne v časti [B.3.7 Shorthand markup] dokumentu [Appendix B: Performance, Implementation, and Design Notes]. V XML nemôžeme používať SGML SHORTTAG konštrukcie.

Teraz sa pozrime na XML syntax. Ako vieme, XML prináša nutnosť uzatvárať všetky elementy ukončovacou značkou. Napríklad element IMG, ktorý sme boli v HTML zvyknutí zapisovať <img> musíme v XHTML zapisovať <img></img>. Elementy bez obsahu je možné v XML zapísať aj bez ukončovacej značky, stačí ak zapíšeme znak „/“ na koniec začiatočnej značky, napríklad <img/>.

Teraz porovnajte tento zápis prázdnych elementov v XML s NET značkovaním. Nie je tu až príliš nápadná podobnosť? A záhada je vyriešená. Ak validátor validuje HTML stránku, robí to pomocou SGML parseru. SGML parser pozná SGML SHORTTAG zápis a validátor vie, že v HTML je možné využívať SGML SHORTTAG konštrukcie. Ak validátor natrafí na XML syntax (znak „/“ v úvodnej značke prázdneho elementu), pochopí ju ako NET značkovanie a keďže ide o povolenú SGML konštrukciu, dokument označí za valídny.

Ale nie je všetko také ružové, ako by nás o tom mohol validátor nechtiac presvedčiť. Dokument je síce valídny, ale je potrebné zamyslieť sa nad dokumentovým stromom. Preto si vyskúšajte zvalidovať HTML dokument s XML syntaxou so zapnutou možnosťou „show parse tree“ (zobraziť dokumentový strom). Tento strom môže byť na prvý pohľad podivný. V tomto strome sa nachádzajú v elementoch znaky „>“. Prečo?

Na objasnenie postačí malý príklad a úvaha o NET značkovaní. Takže jednoduchý HTML dokument obsahujúci XML syntax:


<div>
<img />
</div>

Parsovaním tohto dokumentu získame nasledovný dokumentový strom:


<DIV>
<IMG></IMG>
>
</DIV>

Čo tam robí ten znak „>“? Je to jednoduché. NET značkovanie funguje tak, že element so zakázanou ukončovacou značkou (napríklad element IMG – <!ELEMENT IMG - O EMPTY> (deklarácia prázdneho elementu v SGML)) je v NET zápise možné ukončiť znakom „/“. Tento znak ukončuje celý element, znak „>“ už neuvádzame. Takže ak SGML parser narazí na znak „/“ v prázdnom elemente, pochopí to ako ukončený element a znak „>“ už nie je súčasťou elementu. Tento znak sa už ďalej chápe ako obyčajný text. Preto sa tento znak po parsovaní objavil v dokumentovom strome mimo elementu IMG ako samostatný znak.

Teraz vás možno napadá otázka, prečo sa XHTML vykresľuje správne. Ak vás to nenapadá, priblížim situáciu. XHTML je aplikáciou XML, takže používa XML syntax. Ako sme si už povedali, XML syntax je v HTML chápaná ako NET zápis, ale v XHTML dokumentoch však znamená niečo iné (ukončovanie elementov) – NET zápis nie je možné použiť v XHTML. Ale aby bol XHTML dokument správne pochopený, musí byť parsovaný ako XML. To je dnes v rozšírených prehliadačoch takmer nemožné – napríklad v IE 6 je nemožné dosiahnúť vykreslenie bežného XHTML dokumentu s použitím XML parseru. Preto sa XHTML dokumenty posielajú s MIME typom text/html, ktorý značí HTML dokument, čo znamená, že sa použije HTML parser. Takže s našim XHTML dokumentom sa nakladá takisto, ako s HTML dokumentom. XML syntax v XHTML dokumente by sa mala vďaka HTML parseru chápať ako NET zápis. Pred chvíľou sme si ukázali, ako vyzerá dokumentový strom po parsovaní XML syntaxe SGML parserom. Z toho vychádza otázka, prečo sa XHTML dokumenty vykresľujú správne aj pri použití HTML parseru, prečo sa na stránke nezobrazujú znaky „>“.

V teoretickej rovine špecifikácií by sme mohli prísť k záveru, že by sa tieto znaky mali zobrazovať. Áno, podľa špecifikácie, dnešné XHTML dokumenty parsované v obyčajných prehliadačoch, nepodporujúcich XHTML, sú vykresľované tak, že na mieste každého prázdneho elementu sa objaví znak „>“. Podľa špecifikácie sú XHTML stránky plné znakov „>“. Ale zjavne to tak nie je. Prečo?

Našťastie pre XHTML, rozšírené prehliadače sa nikdy nezaujímali o „brutálne“ SGML konštrukcie, ako napríklad SGML SHORTTAG. Takže dnešné prehliadače nepoznajú NET značkovanie. A všeobecne platí, že čo prehliadač nepozná, to si „nevšíma“. Tak si „nevšíma“ ani znak „/“ v značke elementu. XHTML je vďaka nedokonalosti prehliadačov použiteľné aj po parsovaní HTML parserom.

Tento článok však určite nechce povedať, že používanie XML syntaxe v HTML dokumentoch je v poriadku. V majoritnej väčšine zariadení sa nič neudeje, ale nikdy si nemôžeme byť istí, akým zariadením náš dokument prejde. Preto ho píšme so správnou syntaxou. A už z princípu je používanie XML syntaxe v HTML dokumentoch nesprávne.

O podobnej téme ale trošku z iného pohľadu sa rozpísal Timy, odporúčam prečítať.

Neprehliadnite: