Web mining alebo objavovanie poznatkov na webe

Andrea Hrckova  /  19. 06. 2008, 00:00

Ako už vieme, metódy vyhľadávania informácií na internete sa stále zdokonaľujú. Len donedávna sme si pod vyhľadávaním mohli predstaviť zadanie niekoľkých slov po ktorom sa každému zobrazil ten istý zoznamu zdrojov. To však už nie je jediná možnosť.

Okrem známych typov vyhľadávačov ako sú predmetové adresáre (Yahoo, Zoznam...), prieskumové stroje (napr. Google, All the Web...), inteligentní agenti (Copernik, Searchbots, Swamii...) a pod. sa v prostredí webu vynárajú aj nástroje umožňujúce web mining.
 
Web mining zahŕňa činnosti ako vyhľadávanie zdrojov podľa preddefinovaných požiadaviek a plne automatizovaný výber a spracovanie nájdených informáci. Ďalej tieto informácie stroj sám analyzuje, validuje aj interpretuje (5). 
 
Techniky web miningu
Mechanizmy web miningu berú informácie zo štatistík, vizualizácií, používateľských analýz či databáz. Irelevantné položky vylúči tak, že skontroluje príponu URL adresy zdroja. Na všetky tieto činnosti využíva techniky data miningu ale aj svoje vlastné, ktoré si ďalej predstavíme.
 
Prvou z nich je analýza ciest. Vďaka nej sa určí napríklad počet používateľov, ktorí prešli z jednej web stránky na inú. Týmto spôsobom môžeme zistiť najfrekventovanejšie cesty používateľov. Výstup býva vo forme grafu.
 
Ďalšie technológie nám pomáhajú nájsť všetky vzťahy a korelácie medzi nájdenými údajmi. Ilustračným príkladom je napríklad výstup:40% klientov, ktorí navštívili stránku firmy, podali online žiadanku na produkt X.“
 
Niektoré technológie web miningu nám zas umožňujú vytvoriť profil skupiny používateľov alebo iných dát na základe ich spoločných atribútov. Pre príklad si uvedieme výstup: „50% klientov pracujúcich v štátnej službe mali záujem o stránku X“. (1)Výstupy sa tiež prispôsobujú používateľovi na základe jeho správania sa na webe.
 
 
 zdroj: dundas.com/Products/Chart/NET/Demos/index.aspx
 
Druhy web miningu
Nástroje využívajúce web mining môžeme rozdeliť na na dva druhy: tie, ktoré umožňujú extrahovanie údajov z obsahu webu (web content mining) a nástroje umožňujúce extrahovanie údajov z využívania webu (web usage mining). Nástroje web content miningu sa teda zameriavajú na prieskum vo webovských sídlach a databázach dostupných online (6). Patria sem agenti a nástroje, ktoré samostatne organizujú čiastočne štruktúrované údaje na webe do štruktúrovaných zbierok zdrojov.
 
Agenti využívajú pri vyhľadávaní informácie z rôznych domén a profily používateľov. Takými sú napríklad Web-Harvest, FAQFinder, Information Manifold, OCCAM a ParaSite. Agenti ako ShopBot (ktorý získava informácie o produktoch) a ILA (Internet Learning Agent) sa „učia“ štruktúre neznámych informačných zdrojov. Existujú rôzne ďalšie techniky na automatické získavanie, filtrovanie a kategorizáciu hypertextových dokumentov, ktoré agenti využívajú. Napr. HyPursuit využíva sématické informácie v štruktúre linku a obsahu dokumentov s cieľom pochopiť vzťahy hypertextových dokumentov a štruktúrovať informačný priestor. BO (Bookmark Organizer) kombinuje techniky hierarchického zhlukovania s interakciou používateľov na organizáciu dokumentov na webe. Ďalší agenti sa učia na používateľskom správaní na webe a prispôsobuje výsledky na základe ich priorít. Ako príklady možno uviesť WebWatcherSyskill &Webert, GroupLens a FireFly (1).
 
Nástroje organizujúce čiastočne štruktúrované dáta na webe do štruktúrovaných majú dve možnosti výstupu. Prvým typom sú relačné a objektovo orientované databázy, čoho príkladom je ARANEUS system (1). Ďalšie organizujú čiastočne štruktúrované dáta v grafe (4).
 
Nástroje využívajúce web usage mining vyhľadávajú a analyzujú správanie sa používateľov podľa informácií na webovských serveroch (6). Na základe týchto informácií si môžu  organizácie stanoviť vhodnú marketingovú stratégiu a upraviť si svoje webové stránky podľa používateľských preferencií (1). Príkladom je Index Tools, ktorý celkom nedávno kúpilo Yahoo. Keď už boli tieto údaje objavené, musia sa analyzovať a vizualizovať. Jedným z takých systémov je WebViz System alebo OLAP, ktorého výstup si môžeme pozrieť na obrázku (1).
 

zdroj: dundas.com/Products/Chart/NET/Demos/index.aspx

 
Bariéry fungovania web miningu
Na to, aby mohol web mining v prostredí webu fungovať naplno, musia sa zmeniť niektoré jeho vlastnosti. Prvým problémom webu je, že obsahuje iba čiastočne štruktúrované dáta, ktoré mnohé algoritmy nie sú schopné „vyťažiť“ priamo.
Riešením môže byť využívanie jazyka XML namiesto HTML. Ďalšou prekážkou je rozmiestnenie dát na viacerých web serveroch, pričom tieto sú veľmi dynamické a rýchlo sa menia v čase. Prekážkou je aj otázka vlastníctva dát. Dáta sú na webe vlastnené každým a informácie z databáz sú zastrešované nejakou organizáciou. Ani ochrana súkromia nie je stále dostatočne vyriešená. Web mining vyžaduje poznať rôzne detaily o používateľoch. Stále sa úplne nevyriešilo, ako pri tom neporušiť ich súkromie (3). Mňa osobne vystrašil výstup jedného nástroja web miningu, na ktorom vidieť všetky aktivity jedného zo zamestnancov (obr.).
 
 
 
Napriek týmto prekážkam existujú spoločnosti používajúce data a web mining. Práve pre firmy sú totiž nástroje web miningu určené. Konkrétne sú nimi banky, ktoré si vďaka nemu môžu naplánovať napríklad zvýhodnené poplatky pre niektoré skupiny klientov, poisťovne, ktorým pomáha pri predvídaní podvodov i virtuálne obchody, ktoré tak zisťujú najčastejšie objednávané položky či vytvárajú špeciálne ponuky pre svojich klientov. Ďalšími spoločnosťami sú vývojárske spoločnosti využívajúce web a data mining s cieľom pochopiť potreby zákazníkov a prispôsobiť im svoje produkty i spoločnosti pracujúce s ľudskými zdrojmi, ktoré na základe takto získaných informácií vytvárajú štatistiky (2).

 

 Použité zdroje:

 

  1. Cooley, R., Mobasher, B., Srivastava, J: Web Mining: Information and Pattern Discovery on the World Wide Web.
  1. Data base Mining and Artificial Intelligence.
  1. Kok-Leong Ong, Wee-Keong Ng, Ee-Peng Lim: A Web Mining Platform for Enhancing Knowledge Management on the Web.
  1. Kosala, Raymond – Blockeel, Hendrik: Web Mining Research: A Survey.
  1. Makulová, Soňa: Analýza nových prístupov a riešení vyhľadávania informácií v prostredí internetu alebo od kvantity ku kvalite.
  1. Makulová, Soňa: WEB mining alebo nové prístupy k vyhľadávaniu informácií v prostredí internetu. In: CS ONLINE 2001. 14. medzinárodná konferencia. Stará Lesná: [s.n.], 2001