GrabzIt चे वेब स्क्रॅपर वेबसाइटची दुवे तपासणे आणि तुटलेले अहवाल देणे यासारख्या विविध ऑनलाइन कार्ये करण्यास परवानगी देऊन हे बरेच लवचिक आहे.
पहिली गोष्ट म्हणजे a तयार करणे खरवडणे आणि आपण तपासू इच्छित लक्ष्य वेबसाइट नियुक्त करा, त्यानंतर स्क्रॅप सूचनांसाठी खालील कोड वापरा.
var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); urls = Utility.Array.unique(urls); urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL")); for (i = 0; i < urls.length; i++) { var url = urls[i]; Data.save(Page.getUrl(), "Links", "Found On"); Data.save(url, "Links", "URL"); if (Utility.URL.exists(url)) { Data.save("Found", "Links", "Result"); } else { Data.save("Missing", "Links", "Result"); } }
पहिली ओळ var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
सर्व हायपरलिंक URL काढते आणि त्यास मध्ये ठेवते urls
चल. पुढील ओळ वापरते उपयुक्तता.अरे.युनिक सर्व URL अद्वितीय बनविण्याची पद्धत.
तिसरी ओळ हे सुनिश्चित करते की यापूर्वी दुवे दोनदा तपासले जात नाहीत आम्ही त्या पूर्वीच्या URL वाचल्या आहेत saved आणि याद्वारे मिळविलेले दुवे फिल्टर करा. आपण प्रत्येक पृष्ठास दुवा तोडण्यासाठी रेकॉर्ड केला असल्यास ही ओळ हटवा.
यूआरएल डेटा साफ झाल्यानंतर आम्ही उर्वरित प्रत्येक यूआरएलमध्ये पळवून ठेवतो, त्यामध्ये जतन करुन ठेवतो डेटासेट वर्तमान पृष्ठासह, URL वापरुन URL अस्तित्त्वात आहे का हे तपासण्यापूर्वी Utility.URL.exists
पद्धत. नंतर या तपासणीचा निकाल देखील आहे saveडेटासेटमध्ये डी.
वैकल्पिकरित्या आपण कोडच्या जागी वेबसाइट प्रतिमा अस्तित्त्वात असल्याचे तपासू शकता Page.getTagAttributes('href', {"tag":{"equals":"a"}});
सह Page.getTagAttributes('src', {"tag":{"equals":"img"}});
.