वेब कॅप्चर आणि रूपांतरित करण्यासाठी साधने

सानुकूल दुवा तपासक तयार करा

हे उदाहरण देखील उपलब्ध आहे साचा.

GrabzIt चे वेब स्क्रॅपर वेबसाइटची दुवे तपासणे आणि तुटलेले अहवाल देणे यासारख्या विविध ऑनलाइन कार्ये करण्यास परवानगी देऊन हे बरेच लवचिक आहे.

पहिली गोष्ट म्हणजे a तयार करणे खरवडणे आणि आपण तपासू इच्छित लक्ष्य वेबसाइट नियुक्त करा, त्यानंतर स्क्रॅप सूचनांसाठी खालील कोड वापरा.

        var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
        urls = Utility.Array.unique(urls);
        urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL"));

        for (i = 0; i < urls.length; i++) 
        {
          var url = urls[i];

          Data.save(Page.getUrl(), "Links", "Found On");
          Data.save(url, "Links", "URL");

          if (Utility.URL.exists(url))
          {
            Data.save("Found", "Links", "Result");
          }
          else
          {
            Data.save("Missing", "Links", "Result");
          }
        }
    

पहिली ओळ var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); सर्व हायपरलिंक URL काढते आणि त्यास मध्ये ठेवते urls चल. पुढील ओळ वापरते उपयुक्तता.अरे.युनिक सर्व URL अद्वितीय बनविण्याची पद्धत.

तिसरी ओळ हे सुनिश्चित करते की यापूर्वी दुवे दोनदा तपासले जात नाहीत आम्ही त्या पूर्वीच्या URL वाचल्या आहेत saved आणि याद्वारे मिळविलेले दुवे फिल्टर करा. आपण प्रत्येक पृष्ठास दुवा तोडण्यासाठी रेकॉर्ड केला असल्यास ही ओळ हटवा.

यूआरएल डेटा साफ झाल्यानंतर आम्ही उर्वरित प्रत्येक यूआरएलमध्ये पळवून ठेवतो, त्यामध्ये जतन करुन ठेवतो डेटासेट वर्तमान पृष्ठासह, URL वापरुन URL अस्तित्त्वात आहे का हे तपासण्यापूर्वी Utility.URL.exists पद्धत. नंतर या तपासणीचा निकाल देखील आहे saveडेटासेटमध्ये डी.

वैकल्पिकरित्या आपण कोडच्या जागी वेबसाइट प्रतिमा अस्तित्त्वात असल्याचे तपासू शकता Page.getTagAttributes('href', {"tag":{"equals":"a"}}); सह Page.getTagAttributes('src', {"tag":{"equals":"img"}});.