Slovenské katalógy a vyhľadávače - Úvod

Vladimír Gábor  /  01. 11. 2004, 00:00

Ako pracujú internetové vyhľadávače a katalógy? Aký je vôbec medzi nimi rozdiel a aké sú úskalia, ktoré skrývajú? Nielen o tomto chcem hovoriť v prvej časti seriálu venovanému majákom slovenského internetu – vyhľadávačom a katalógom.

Informačné zoznamy o internetových adresách môžeme vo všeobecnosti rozdeliť do štyroch tried:

  • katalógy (zoznamy, directories)

  • vyhľadávače (fulltextové vyhľadávače, search engines)

  • kombinované vyhľadávače (vyhľadávacie a informačné portály)

  • stránky s odkazmi (link pages, FFA)


Vyhľadávače sú aktívne, hľadajú webstránky na internete sami pomocou skriptov, tzv. automatických botov, alebo spiderov ako je napr. Googlebot, Alexa spider, rokudan.jyxo.com a pod. Takýto skript navštívi webstránku, prehľadá ju, zistí aký má obsah, a zaindexuje ju do svojej databázy. Podľa toho potom poskytuje výsledky vyhľadávania. Ďalšie webstránky nájde vyhľadávač, resp. jeho spider tak, že jednoducho nasleduje všetky externé odkazy na prehľadávanej webstránke. Tak sa vyhľadávanie neustále rozvetvuje po rozsiahlej sieti internetu.


Na zoradenie výsledkov vyhľadávania používajú tieto systémy vždy nejaké pravidlá, ktoré si zväčša dobre strážia. Úplné poznanie týchto pravidiel by totiž pre firmy zaoberajúce sa optimalizáciou umiestnenia vo vyhľadávačoch znamenalo doslova raj. Všeobecne známym hodnotiacim algoritmom je napríklad Google PageRank. Je to prepracovaná technológia na zoraďovanie relevantných výsledkov vyhľadávania v snáď najväčšom vyhľadávači Google. Český Jyxo (http://www.jyxo.cz) nazýva svoju metódu JyxoRank. Existujú niektoré zásady, ktoré je nutné dodržať pre úspešné umiestnenie odkazu vo vyhľadávačoch, ale presné kritéria, podľa ktorých vyhľadávače webstránky hodnotia, sú utajované. Známe slovenské vyhľadávače sú napríklad Morpheo (http://www.morfeo.sk), alebo Zoohoo (http://www.zoohoo.sk), ktorý používa technológiu českého Jyxa.


Špecifickým prípadom vyhľadávačov sú tzv. meta-vyhľadávače. Zameriavajú sa na vyhľadávanie iba v meta tagoch webstránok. Tie, ktoré ich neobsahujú, sú jednoducho ignorované. Táto technológia indexovania obsahu je dnes však už na ústupe, pretože meta tagy chýbajú mnohým webstránkam. Ak aj sú prítomné, vôbec nemusia zodpovedať jej obsahu a tak v konečnom dôsledku môžu výrazne skresliť výsledky vyhľadávania.


Katalóg je pasívny - visí na internete a čaká. Keď ho navštívi niekto, kto má svoju vlastnú webstránku (alebo hocikto iný), môže pridať do databázy katalógu odkaz na ňu tak, že jednoducho vyplní registračný formulár. Odkaz je do zoznamu pridaný zväčša až po skontrolovaní administrátorom, ale existujú niektoré katalógy, ktoré zaraďujú odkazy okamžite. Vyhľadávanie v katalógu prebieha nalistovaním konkrétnej kategórie vzťahujúcej sa k téme, ktorá nás zaujíma, alebo vyhľadávaním v databáze podľa kľúčoveho slova. Príkladom kvalitného medznárodného katalógu je DMOZ (http://www.dmoz.org). Zo slovenských katalógov stojí za povšimnutie Vševedko (http://www.vsevedko.sk) , alebo Best (http://www.best.sk).

Katalógy sú mimoriadne vhodným riešením pre zhromažďovanie odkazov o nejakom konkrétnom odvetví – napríklad katalóg webstránok venujúci sa tématike zbraní (http://www.e-gun.com), reštauračné (http://www.dodomu.sk), alebo ubytovacie (http://www.HotelSite.sk) služby.


Obe formy vyhľadávania – v katalógu i vo vyhľadávači, majú svoje výhody i nevýhody. Vyhľadávač často zobrazí odkazy, ktoré s hľadaným slovom nemajú dostatočnú súvislosť a sú irelevantné. Katalóg zase nemá v databáze odkazy, ktoré niekto do neho ručne nevloží a teda nie je taký flexibilný. Dobre postavený a udržiavaný katalóg vám však vo svojej konkrétnej sekcii poskytne veľké množstvo relevantných odkazov k hľadanej téme. Kvalitný vyhľadávač zobrazí len také odkazy, ktoré sa skutočne vzťahujú k vyhľadávanému kľúčovému slovu.


Vlastnosti, ktoré by vyhľadávačom a katalógom nemali chýbyť sú zhrnuté v nasledujúcej tabuľke. Ak si ku každému bodu predstavíte jeho protiklad, spoznáte tak vlastnosť, ktorej by sa mali vyhýbať.


Vyhľadávač
Katalóg
  • nájde aj webstránky, ktoré sa ešte nestačili zviditeľniť registráciou v katalógoch

  • výsledky vyhľadávania zobrazuje podľa reálnej súvislosti k hľadanému kľúčovému slovu

  • vyhľadáva aj v podstránkach webov a teda nájde aj súvislosti, ktoré majiteľ stránky ani nemusel predpokladať

  • vyhľadávanie prebieha aj v súboroch DOC, PDF, RTF a pod.

  • je možné ovplyvňovať umiestnenie vo výsledkoch vyhľadávania

  • databáza odkazov sa permanentne aktualizuje

  • rýchle vyhľadávanie

  • prehľadné usporiadanie bohato štrukturovaného, veľkého množstva kategórií

  • intuitívna a tematická navigácia

  • vecné názvy a informačne bohaté popisy odkazov

  • zoraďovanie odkazov podľa rôznych kritérií (podľa abecedy, pridania do katalógu, hodnotenia, popularity a podobne)

  • možnosť zmeniť názov, či popis odkazu kedykoľvek po požiadavke zo strany majiteľa webstránky

  • databáza sa neustále kontroluje na platnosť odkazov

  • rýchle vyhľadávanie


Ako som už naznačil, existujú v tomto smere samozrejme aj problémy. Aj ten najlepší vyhľadávač niekedy zobrazí k nejakému kľúčovému slovu irelevantné odkazy. Katalógy zase nezriedka trpia chudobnou štruktúrou kategórií, tendenčnými názvami a nič nehovoriacimi popismi odkazov.

Obidve metódy vyhľadávania sa však vhodne dopĺňajú a pri troške šikovnosti, ktorá sa dá osvojiť v krátkom čase, vždy nájdete čo potrebujete.


Kombinované vyhľadávače obsahujú aj vyhľadávač, aj katalóg odkazov. Samotné vyhľadávanie zväčša prebieha najskôr v katalógu a po ňom nasleduje vyhľadávanie v naindexovanej databáze webstránok. Jedná sa o tzv. fulltextové vyhľadávanie, teda vyhľadávanie priamo v obsahoch webstránok. Vhodným príkladom takéhoto kombinovaného vyhľadávača je Google (http://www.google.com). I keď je medzi ľuďmi, vďaka svojej brilantnej úspešnosti pri vyhľadávaní známy skôr iba ako vyhľadávač, obsahuje aj slušný katalóg odkazov, ktorý stojí za povšimnutie (http://directory.google.com). Tento katalóg však nie je jeho vlastný, ale preberá ho z DMOZ-u s miernymi variáciami funkčnosti (zoraďovanie podľa metódy PageRank). Slovenský kombinovaný vyhľadávač je, snáď všetkým dobre známy, Zoznam (http://www.zoznam.sk). Niekedy takéto vyhľadávače, ale platí to aj o katalógoch (napr. http://www.pozri.sk), ponúkajú aj mnohé ďalšie informácie – prehľady počasia, kurzy svetových mien, programy televízií a kín, aktuálne domáce i zahraničné správy, diskusné fóra, zoznamovacie služby, chat a podobne. Vtedy sa o nich zvykne hovoriť aj ako o informačných portáloch.


Pre Free For All Pages (FFA Link Directory, FFA Farms), alebo Link pages sa mi ako vhodný preklad javí – Stránky s odkazmi, alebo Zoznamy odkazov. Ide o jednoduché webstránky, ktoré obvykle obsahujú len zopár všeobecných kategórií. Odkazy do nich sú pridávané okamžite bez kontroly a ich význam je prinajmenšom diskutabilný. Skôr sa prikláňam k tomu, že registrácia do nich je celkom zbytočná a za istých okolností môže byť dokonca škodlivá. Ich existencia je zdôvodňovaná tým, že majú zvyšovať popularitu webstránky (čím viac odkazov na vašu webstránku sa na internete vyskytuje, tým je pravdepodobnejšie vyššie umiestnenie vo významných vyhľadávačoch). Mnohé vyhľadávače ich však ignorujú a dokonca kolujú chýry o tom, že penalizujú hodnotenie webstránok, ktoré v nich nájdu. Príklady: http://www.100ffa.com, http://members.tripod.com/~web_res/free4all/addurl.html, http://pages.ffanet.com.


V ďalších častiach postupne predstavím jednotlivé slovenské vyhľadávače a katalógy.


Vladimír Gábor

 

Neprehliadnite: