Analysis of automated modern web crawling and testing tools and their possible employment for information extraction

Abstract

World Wide Web has become an enormously big repository of data. Extracting, integrating and reusing this kind of data has a wide range of applications, including meta-searching, comparison shopping, business intelligence tools and security analysis of information in websites. However, reaching information in modern WEB 2.0 web pages, where HTML tree is often dynamically modified by various JavaScript codes, new data are added by asynchronous requests to the web server and elements are positioned with the help of cascading style sheets, is a difficult task. The article reviews automated web testing tools for information extraction tasks.

Article in Lithuanian.

Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti

Santrauka. Internetui tapus milžiniška informacijos duomenų baze, susiduriama su informacijos rinkimo problema – kaip iš itin gausaus kiekio informacijos šaltinių pasirinkti tokį, kuris gebėtų informacijos naudotojui pateikti tinkamą ir jį dominančią aktualią informaciją. Taip pat svarbu gebėti analizuoti šiuolaikinius tinklalapius saugumo prasme ir ieškoti juose, pavyzdžiui, įterpto slapto kenkėjiško kodo, o tai galima padaryti tik surinkus informaciją iš tinklalapio. Be to, nauja WEB 2.0 interneto karta priverčia keisti įprastinius informacijos rinkimo metodus, nes Flash, Javascript, Ajax ir kitos naujos technologijos trukdo surinkti informaciją vien tik analizuojant įprastą HTML kodą. Šiame straipsnyje analizuojamos sudėtingų šiuolaikinių tinklalapių naršymo automatizavimui ir testavimui skirtos priemonės, kurios gali būti panaudotos informacijai rinkti.

Reikšminiai žodžiai: informacijos rinkimas, dinamiški tinklalapiai, automatinis naršymas, Quick Test Pro, Sahi, Selenium, Telerik, TestComplete, Watir, Windmill.

Keywords:

data extraction, automated crawling, web testing, dynamic webpages, Quick Test Pro, Sahi, Selenium, Telerik, TestComplete, Watir, Windmill

How to Cite

Grigalis, T., Marozas, L., & Radvilavičius, L. (2012). Analysis of automated modern web crawling and testing tools and their possible employment for information extraction. Mokslas – Lietuvos Ateitis Science – Future of Lithuania, 4(1), 31-34. https://doi.org/10.3846/mla.2012.07

Share

Published in Issue
April 23, 2012
Abstract Views
562

View article in other formats

CrossMark check

CrossMark logo

Published

2012-04-23

How to Cite

Grigalis, T., Marozas, L., & Radvilavičius, L. (2012). Analysis of automated modern web crawling and testing tools and their possible employment for information extraction. Mokslas – Lietuvos Ateitis Science – Future of Lithuania, 4(1), 31-34. https://doi.org/10.3846/mla.2012.07

Share