Share:


Analysis of automated modern web crawling and testing tools and their possible employment for information extraction

Abstract

World Wide Web has become an enormously big repository of data. Extracting, integrating and reusing this kind of data has a wide range of applications, including meta-searching, comparison shopping, business intelligence tools and security analysis of information in websites. However, reaching information in modern WEB 2.0 web pages, where HTML tree is often dynamically modified by various JavaScript codes, new data are added by asynchronous requests to the web server and elements are positioned with the help of cascading style sheets, is a difficult task. The article reviews automated web testing tools for information extraction tasks.


Article in Lithuanian.


Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti


Santrauka. Internetui tapus milžiniška informacijos duomenų baze, susiduriama su informacijos rinkimo problema – kaip iš itin gausaus kiekio informacijos šaltinių pasirinkti tokį, kuris gebėtų informacijos naudotojui pateikti tinkamą ir jį dominančią aktualią informaciją. Taip pat svarbu gebėti analizuoti šiuolaikinius tinklalapius saugumo prasme ir ieškoti juose, pavyzdžiui, įterpto slapto kenkėjiško kodo, o tai galima padaryti tik surinkus informaciją iš tinklalapio. Be to, nauja WEB 2.0 interneto karta priverčia keisti įprastinius informacijos rinkimo metodus, nes Flash, Javascript, Ajax ir kitos naujos technologijos trukdo surinkti informaciją vien tik analizuojant įprastą HTML kodą. Šiame straipsnyje analizuojamos sudėtingų šiuolaikinių tinklalapių naršymo automatizavimui ir testavimui skirtos priemonės, kurios gali būti panaudotos informacijai rinkti.


Reikšminiai žodžiai: informacijos rinkimas, dinamiški tinklalapiai, automatinis naršymas, Quick Test Pro, Sahi, Selenium, Telerik, TestComplete, Watir, Windmill.

Keyword : data extraction, automated crawling, web testing, dynamic webpages, Quick Test Pro, Sahi, Selenium, Telerik, TestComplete, Watir, Windmill

How to Cite
Grigalis, T., Marozas, L., & Radvilavičius, L. (2012). Analysis of automated modern web crawling and testing tools and their possible employment for information extraction. Mokslas – Lietuvos Ateitis / Science – Future of Lithuania, 4(1), 31-34. https://doi.org/10.3846/mla.2012.07
Published in Issue
Apr 23, 2012
Abstract Views
423
PDF Downloads
287
Creative Commons License

This work is licensed under a Creative Commons Attribution 4.0 International License.