वेब कॅप्चर आणि रूपांतरित करण्यासाठी साधने

वेब स्क्रॅप दस्तऐवजीकरण

वेब स्क्रॅप तयार करण्यासाठी आपल्याला पुढील टॅबमध्ये पसरलेली पाच प्रकारची माहिती निर्दिष्ट करावी लागेल.

  1. स्क्रॅप पर्याय
  2. लक्ष्य वेबसाइट
  3. स्क्रॅप सूचना
  4. निर्यात पर्याय
  5. शेड्यूल स्क्रॅप

स्क्रॅप पर्याय

स्क्रॅप पर्याय टॅबवरील वेब स्क्रॅप सानुकूलित करण्यासाठी खालील सर्व वैशिष्ट्ये उपलब्ध आहेत.

स्क्रॅप नाव स्क्रॅपचे नाव.

दुवे अनुसरण करा स्क्रॅपरने दुवे कसे अनुसरण करावे हे खालील पर्याय प्रदान करते:

फाईल डाउनलोडकडे दुर्लक्ष करा एकदा कोणतेही दुवे सेट केले, जे भेट दिल्यास फाइल डाउनलोड करण्यास कारणीभूत असतात.

रोबोट.टक्स्ट फाइलकडे दुर्लक्ष करा सेट केल्यास स्क्रॅपर वेबसाइटच्या मालकाद्वारे क्रॉल केल्या जाणार्‍या सामान्यत: वगळलेल्या वेब पृष्ठांना भेट देऊ शकेल.

त्रुटी पृष्ठांकडे दुर्लक्ष करा वेब स्क्रॅपर सेट केल्यास त्रुटीची तक्रार करणारी कोणतीही वेब पृष्ठे वगळतील. म्हणून कोणतेही HTTP स्थिती कोड 400 किंवा वरील.

URL तुकड्यांकडे दुर्लक्ष करा सेट केल्यास वेब स्क्रॅपर URL च्या नंतरच्या भागाकडे दुर्लक्ष करेल # हे वैशिष्ट्य सामान्यतः त्याच पृष्ठावरील बुकमार्क दर्शविण्यासाठी वापरले जाते आणि त्यामुळे सामान्यतः अनावश्यक पृष्ठे स्क्रॅप केली जातात. तथापि, काही वेबसाइट भिन्न सामग्री दर्शविण्यासाठी हे वैशिष्ट्य वापरतात, अशा परिस्थितीत हे सेटिंग अक्षम करणे आवश्यक आहे. हा पर्याय फक्त तेव्हाच लागू होतो जेव्हा फॉलो लिंक्स आवश्यक नसतात.

डुप्लिकेट्सकडे दुर्लक्ष करा सेट केल्यास ते आपण सेट केलेल्या समानतेपेक्षा जास्त किंवा जास्त असलेल्या पृष्ठांकडे दुर्लक्ष करेल, उदाहरणार्थ आपण 95% समान पृष्ठे दुर्लक्षित करू शकता.

मर्यादा स्क्रॅप थांबविण्यापूर्वी वेब स्क्रॅपने किती पृष्ठे स्क्रॅप करावी हे निर्दिष्ट करण्याची आपल्याला परवानगी देते.

माझा टाईमझोन वापरा सेट केल्यास हे दर्शविते की स्क्रॅपने कोणत्याही तारखांना रुपांतरित करण्याचा वेब स्क्रॅपरने प्रयत्न केला पाहिजे into आपला स्थानिक वेळ क्षेत्र आपला टाइम झोन खाते पृष्ठावर सेट केला जाऊ शकतो.

स्थान भौगोलिक स्थानावरून वेब स्क्रॅपर येथून स्क्रॅप करेल. जर लक्ष्यित वेबसाइटवर स्थानावर आधारित निर्बंध असतील तर हे उपयुक्त ठरेल.

डीफॉल्ट तारीख स्वरूप तारखेचे रूपांतरण करताना तारीख स्वरूप निश्चित केले जाऊ शकत नाही, त्याऐवजी वेब स्क्रॅपर या निवडलेल्या स्वरुपात डीफॉल्ट जाईल.

पृष्ठ लोड विलंब हा वेळ मिलिसेकंदात आहे जेव्हा वेब विश्लेषकांनी पृष्ठ विश्लेषित करण्यापूर्वी थांबावे. पृष्ठामध्ये भरपूर AJAX असल्यास किंवा लोड करण्यास धीमे असल्यास हे खूप उपयुक्त आहे.

लक्ष्य वेबसाइट

लक्ष्य वेबसाइट

लक्ष्य वेबसाइट टॅबमध्ये आपण ज्या वेबसाइट्समधून डेटा काढू इच्छिता त्या वेबसाइट निर्दिष्ट करता. वेबसाइटवरून डेटा काढण्यासाठी स्क्रॅप टूलला सांगण्यासाठी तुम्हाला प्रथम तुमची मुख्य URL निर्दिष्ट करावी लागेल intउदा http://www.example.com/shop/ हे असे होते की स्क्रॅपर त्याच्या स्क्रॅपला सुरुवात करेल, ते सामान्य वेबपृष्ठ, पीडीएफ दस्तऐवज, एक्सएमएल दस्तऐवज, जेएसओएन दस्तऐवज, आरएसएस फीड किंवा साइटमॅप असू शकते. ते वेबपृष्ठ किंवा पीडीएफ दस्तऐवज नसल्यास स्क्रॅपर फायलीतील सर्व दुवे शोधेल आणि प्रत्येकास भेट देईल.

केवळ लक्ष्य URL मध्ये आढळलेल्या दुव्यांचे अनुसरण करण्यासाठी आणि त्यानंतरच्या कोणत्याही पृष्ठांवर आपण सेट करू शकत नाही दुवे अनुसरण करा स्क्रॅप पर्याय ते पहिल्या पानावर. हे लक्ष्यीकरण URL फक्त उर्वरित स्क्रॅपच्या बियाण्यासाठी वापरेल.

यूआरएल नमुना

डीफॉल्टनुसार, वेब स्क्रॅपर ज्या वेबसाइटला भेट देते त्या प्रत्येक दुव्याचे अनुसरण करते. आपण काय जोडते हे प्रतिबंधित करू इच्छित असल्यास वेब भंगार खालीलप्रमाणे, हे करण्याचा एक सोपा मार्ग म्हणजे URL पॅटर्न निर्दिष्ट करणे. पॅटर्नच्या या भागात कोणतेही वर्ण उपस्थित असू शकतात हे दर्शविण्यासाठी हे शक्तिशाली तंत्र मुख्यतः तारांकनासह वाइल्ड कार्ड म्हणून URL निर्दिष्ट करून कार्य करते. उदाहरणार्थ http://www.example.com/*/articles/* वेबसाइटच्या मुळापासून दुसर्‍या डिरेक्टरीच्या रूपात असलेल्या कोणत्याही URL च्या वेबसाइटवर स्क्रॅप करा.

यूआरएल नमुना परिभाषित करण्याचा अधिक प्रतिबंधित मार्ग म्हणजे पर्याय परिभाषित करणे. उदाहरणार्थ हे उदाहरण केवळ स्टोअर किंवा बातम्यांशी जुळेल: http://www.example.com/ /*

त्यामुळे हे या जुळेल http://www.example.com/store/products/1 पण नाही http://www.example.com/about/.

किंवा वैकल्पिकरित्या सर्वकाही परंतु काहीतरी जुळणे शक्य आहे. उदाहरणार्थ हे उदाहरण स्टोअर किंवा बातम्यांशी जुळणार नाही: http://www.example.com/ /*

त्यामुळे हे या जुळेल http://www.example.com/about/ पण नाही http://www.example.com/store/products/1!

URL पॅटर्नमध्ये कीवर्ड देखील असू शकतात. कीवर्ड म्हणजे दुहेरी चौरस कंसात असलेली कोणतीही गोष्ट. तर [[URL_START]]www.example.com* URL च्या कोणत्याही वैध प्रारंभाशी जुळेल http://www.example.com/, https://www.example.com/ किंवा अगदी ftp://www.example.com/ उदाहरणार्थ.

बियाणे URL

बियाणे यूआरएल वापरकर्त्यास वेब स्क्रॅपद्वारे क्रॉल केल्या जाणार्‍या URL च्या सूची निर्दिष्ट करण्याची परवानगी देतात. आपण फक्त बियाणे URL हटवा सेट करू इच्छित असल्यास दुवे अनुसरण करा स्क्रॅप पर्याय ते कोणतीही पृष्ठे नाहीत स्क्रॅप पर्याय टॅबमध्ये.

लक्ष्य वेबसाइट टॅबवर सीड URL सेट करण्यासाठी, लक्ष्य जोडा बटणावर क्लिक करा नंतर सेट सीड URL चेकबॉक्स तपासा आणि प्रत्येक URL वेगळ्या ओळीवर स्क्रॅप करण्यासाठी निर्दिष्ट करा.

टेम्पलेट URL वरून बियाणे URL तयार करा

वैकल्पिकरित्या आपण टेम्पलेट URL वापरून स्वयंचलितपणे बियाणे URL व्युत्पन्न करू शकता, ही एकल URL आहे ज्यात URL व्हेरिएबल समाविष्ट आहे. URL व्हेरिएबल पुनरावृत्ती होण्याकरिता अनेक श्रेणी निर्दिष्ट करते.

आरंभ क्रमांक ही अशी संख्या आहे जी यूआरएल व्हेरिएबलने मोजणे सुरू केले पाहिजे, अंतिम संख्या ही एक संख्या आहे जी यूआरएल व्हेरिएबल मोजणे थांबवेल, पुनरावृत्ती संख्या ही संख्या आहे जी यूआरएल व्हेरिएबलच्या प्रत्येक पुनरावृत्तीसाठी वाढेल.

उदाहरणार्थ खालील टेम्पलेट URL साठी http://www.example.com/search?pageNo=

हे नंतर खालील बियाणे URL तयार करेल:

पोस्ट सादर करा

यूआरएल पीओएसटीच्या पॅरामीटर्ससह एक यूआरएल देखील निर्दिष्ट करू शकते उदाहरणार्थ उदाहरणार्थ लॉगिन फॉर्म. असे करण्यासाठी लक्ष्य URL मजकूर बॉक्समध्ये फॉर्म URL निर्दिष्ट करा आणि आवश्यक पोस्ट पॅरामीटर्स जोडा. पोस्ट व्हेरिएबल व्हॅल्यूजमध्ये विशेष ग्रॅबझिट व्हेरिएबल्स देखील समाविष्ट असू शकतात, जसे की:

स्क्रॅप सूचना

लक्ष्य वेबसाइट स्क्रॅप करताना काय करावे याबद्दल स्क्रॅप सूचना वेब स्क्रॅपरला सांगतात. स्क्रॅप सूचना टॅब डीफॉल्टनुसार स्क्रॅप विझार्ड दर्शविते, ज्यामुळे आपल्याला आवश्यक स्क्रॅप सूचना जोडणे सोपे करते. हे विझार्ड वापरण्याचे एक चांगले उदाहरण मध्ये दर्शविले आहे उत्पादन यादी आणि तपशील स्क्रॅपिंग ट्यूटोरियल.

एकदा आपण स्क्रॅप करणे सुरू करण्यास सज्ज झाल्यानंतर नवीन स्क्रॅप सूचना जोडा दुवा.

हे विझार्ड उघडेल आणि स्वयंचलितपणे लक्ष्य URL लोड करेल, आपल्याला काय स्क्रॅप करायचे आहे ते त्वरित निवडण्याची परवानगी देते. जर एखादे वेबपृष्ठ किंवा पीडीएफ दस्तऐवज लोड केले असेल तर आपण कोणत्याही दुव्यावर क्लिक करू शकता आणि उदाहरणार्थ सामान्यपणे दुसर्‍या वेबपृष्ठावर नेव्हिगेशन करा. जोपर्यंत आपण या पॉवर स्क्रीनच्या तळाशी एक क्रिया निवडत नाहीint सामग्रीवरील कोणतेही क्लिक आपण काढू किंवा इच्छित इच्छित हाताळू इच्छित HTML घटक निवडतील.

स्क्रॅप सूचनांबद्दल समजून घेण्याची पहिली गोष्ट ती आहे की ती प्रत्येक वेबपृष्ठावर डीफॉल्टनुसार अंमलात आणली जातात. हे थांबविण्याचा मार्ग म्हणजे टेम्पलेट्सचा वापर. एखाद्या दुव्यावर क्लिक करणे यासारखी क्रिया करत असताना टेम्पलेट नियुक्त केले जाऊ शकते आणि जेणेकरून जेव्हा जेव्हा एखादा स्क्रॅपर त्या दुव्यास भेट देईल किंवा त्या बटणावर क्लिक करेल तेव्हा ते ओळखले जाईल की ते नियुक्त केलेल्या टेम्पलेटचे आहे. हे भिन्न पृष्ठ प्रकार परिभाषित करण्याची अनुमती देते. उदाहरणार्थ आपल्याकडे उत्पादन श्रेणी पृष्ठ असू शकेल ज्यात काही विहंगावलोकन माहिती आणि नंतर उत्पादन माहिती असलेले तपशील पृष्ठ असेल. दोन्ही पृष्ठांना कदाचित स्क्रॅप सूचनांच्या भिन्न संचाची आवश्यकता असेल.

स्क्रॅपर टेम्पलेट

प्रारंभ करण्यासाठी निवडा क्लिक करा कृती, नंतर एकदा आपण क्रिया करू इच्छित आयटम निवडल्यानंतर क्लिक करा पुढे बटण मध्ये टेम्पलेट नाव प्रविष्ट करा एक टेम्पलेट तयार करा आता जेव्हा जेव्हा स्क्रॅपर या क्रियांची अंमलबजावणी करते तेव्हा मजकूर बॉक्स परत केला टेम्पलेट आपण प्रदान केलेले नाव असेल.

मग स्क्रॅप सूचनांना विशिष्ट टेम्पलेट नियुक्त करण्यासाठी आपल्याला वरून इच्छित टेम्पलेट निवडण्याची आवश्यकता आहे कार्यान्वित करा ड्रॉपडाऊन सूची, ती स्क्रॅप सूचना जोडण्यापूर्वी दिसते की विंडोमध्ये दिसते. टेम्पलेट निवडताना तीन मुख्य पर्याय खालीलप्रमाणे आहेतः

एकदा आपण यापैकी एक पर्याय निवडल्यानंतर, स्क्रॅप सूचना केवळ निर्दिष्ट टेम्पलेटवरच अंमलात आणली जाईल.

डेटा काढत आहे

आपण लक्षात येईल की आपण निवडल्यावर डेटा काढा क्रिया स्क्रीनचा डावा तळाचा कोपरा आपल्याला वरील विंडोमध्ये एकतर HTML घटक निवडण्यासाठी किंवा ग्लोबल पृष्ठ गुणधर्म निवडण्यासाठी आमंत्रित करतो.

ग्लोबल पृष्ठ गुणधर्म वापरण्यासाठी, क्लिक करा जागतिक पृष्ठ मालमत्ता दुवा. नंतर आपण सुरू ठेवू इच्छिता याची पुष्टी करा. आपल्याकडे आता पृष्ठावरून सरळ काढल्या जाणार्‍या गुणधर्मांची यादी असेल. उदाहरणार्थ: पृष्ठ शीर्षक.

एक निवडण्यासाठी, त्यास पर्यायांच्या सूचीतून निवडा आणि क्लिक करा पुढे मध्ये डेटा जोडण्यासाठी डेटासेट.

आपण संबंधित HTML घटकांवर क्लिक करणे आवश्यक असलेल्या संपूर्ण पृष्ठाऐवजी विशिष्ट HTML घटकांमध्ये डेटा काढू इच्छित असल्यास आपण एक किंवा अनेक आयटम निवडू शकता. तथापि आपण एकाधिक आयटम निवडत असल्यास कृपया प्रयत्न करा आणि त्या नंतर एका स्तंभातील एकाधिक पंक्तींसारख्या अनेक आयटम निवडा, कारण जर स्क्रॅपर एखादा नियम तयार करू शकत नसेल जो डेटाच्या निवडलेल्या संकलनास विशिष्टपणे ओळखू शकेल तर स्क्रॅप सूचना पाळत नाही. तयार करण्यास सक्षम व्हा. याव्यतिरिक्त आपण क्लिक करीत असलेल्या एकाधिक आयटमला आमच्या वेब स्क्रॅपर विझार्डद्वारे पुनरावृत्ती डेटा म्हणून ओळखले गेले असेल तर, त्याच गटातील सर्व पुनरावृत्ती डेटा स्वयंचलितपणे निवडल्या जातील. एकदा आपण आपले सर्व सिंगल किंवा अनेक आयटम निवडल्यानंतर स्क्रीनच्या डावीकडील डाव्या बाजूला काढण्यासाठी विशेषता निवडा आणि नंतर क्लिक करा पुढे.

डेटासेट तयार करीत आहे

डेटासेट स्क्रीन आपल्याला डेटाची प्रक्रिया कशी होते हे बदलण्याची परवानगी देते, उदाहरणार्थ आपण डेटासेट आणि त्यामधील स्तंभांचे नाव बदलू शकता, नाव बदलण्यासाठी फक्त नावावर क्लिक करा. जेव्हा आपण एका डेटासेटमध्ये स्तंभ जोडता तेव्हा आपल्याला त्यात चालविण्यासारखे टेम्पलेट देखील निवडणे आवश्यक असते. स्तंभ नावाच्या खाली असलेल्या ड्रॉप डाऊन सूचीवर क्लिक करून आपण हे बदलू शकता.

डेटा काढताना बहुतेक वेळा पुनरावृत्ती होणार्‍या वस्तूंसाठी विसंगत पुनरावृत्ती करणे सामान्य आहे, योग्य पंक्ती अद्याप एकमेकांशी संबंधित असल्याचे सुनिश्चित करण्यासाठी दुवा स्तंभ निकष, डेटासेटमधील सर्वात सुसंगत स्तंभासह विसंगत स्तंभांशी दुवा साधण्यासाठी.

डेटासेटमध्ये अधिक डेटा जोडण्यासाठी वर क्लिक करा बटण क्लिक करा किंवा क्लिक करा डेटासेटमधून डेटा काढण्यासाठी किंवा संपूर्ण डेटासेट हटविण्यासाठी. डेटासेटमध्ये डेटावर विविध निकष लागू करण्यास देखील अनुमती देते, हे करण्यासाठी वरुन इच्छित कृती निवडा आणि नंतर निकष लागू करण्यासाठी संबंधित स्तंभावर क्लिक करा. आपण निकष जोडण्यात चूक केल्यास फक्त क्लिक करा बटणावर क्लिक करा.

वेगवेगळ्या निकष प्रकारांची आणि ते कसे वापरावे याची यादी येथे आहे.

जेव्हा आपण वरीलपैकी एक ऑपरेशन निवडले आहे जे एकाधिक स्तंभांवर परिणाम करू शकते तर ते आपल्याला केवळ त्या स्तंभांच्या उपसेटवर किंवा त्या सर्वांना प्रभावित करण्याची परवानगी देऊ इच्छित असल्यास आपल्याला विचारेल. बर्‍याच बाबतीत आपल्याला हे पाहिजे आहे की ते सर्व स्तंभांवर प्रभाव टाकू शकेल, परंतु काही परिस्थितीत स्तंभांवर परिणाम मर्यादित करणे उपयुक्त आहे. उदाहरणार्थ, आपण मालिका निवडत असल्यास लेबले आणि मूल्ये, जे वेब पृष्ठांवर स्थिती बदलते आपण सर्व लेबले आणि मूल्ये निवडू शकता. नंतर डेटासेटमध्ये इच्छित लेबलपर्यंत मर्यादीत ठेवण्यासाठी समान ऑपरेशन वापरा आणि निर्दिष्ट करा की केवळ लेबल आणि मूल्य स्तंभांवर परिणाम व्हावा. हे सुनिश्चित करेल की पंक्ती हटविल्यामुळे इतर स्तंभ अप्रभावी आहेत, पूर्णतेसाठी ते लेबल स्तंभ लपविण्यासाठी उपयुक्त ठरेल.

एकदा आपण इच्छित सर्व गोष्टी सुधारित केल्यावर क्लिक करा पुढे आणि, आपल्या स्क्रॅप सूचना स्क्रॅपवर जोडल्या जातील. त्यानंतर आपणास आपली इच्छा असल्यास पुढील स्क्रॅप सूचना समाविष्ट करण्याचा पर्याय आहे.

वेबपृष्ठ हाताळत आहे

वेबपृष्ठ स्क्रॅप करण्यापूर्वी हाताळले जाऊ शकते, ड्रॉप डाऊन वरुन मूल्ये क्लिक करून, टाइप करुन आणि निवडून. हे लक्षात ठेवणे आवश्यक आहे की जरी यामुळे लागू होणार्‍या स्क्रॅप सूचना लागू होईपर्यंत स्क्रॅप सूचना लोड करण्यास नवीन वेबपृष्ठास कारणीभूत ठरू शकते.

वेबपृष्ठ हाताळण्यासाठी एकतर निवडा घटक क्लिक करा, एव्हर एलिमेंट, स्क्रोल करा, मजकूर टाइप करा or ड्रॉप डाऊन यादी मूल्य निवडा क्रिया. आपण क्लिक क्रिया करत असल्यास आपण वेबपृष्ठावरील असंख्य घटकांवर क्लिक करू शकता. अन्यथा आपण योग्य एचटीएमएल घटक निवडणे आवश्यक आहे, उदाहरणार्थ मजकूर मजकूर बॉक्समध्ये टाइप केला जावा. मग क्लिक करा पुढे. हे एक ऑप्शन बॉक्स उघडेल जो आपल्याला क्रिया पूर्ण करण्यास अनुमती देतो. मजकूर टाइप करताना आणि टाइप करणे किंवा निवडण्यासाठी डेटा ड्रॉपडाऊनमधून निवडणे अनुक्रमे निवडले जाणे आवश्यक आहे. त्याशिवाय सर्व तीन क्रियांसाठी पर्याय समान आहेत.

आपण इच्छित असल्यास आपण टेम्पलेट निवडू शकता ही कृती अंमलात आणली पाहिजे आणि क्लिक कृतीसाठी जे टेम्पलेट लागू होते, एकदा क्लिक क्रिया पूर्ण झाल्यावर. तथापि, एकाच पृष्ठावरील एकाधिक क्लिक्स केलेल्या क्लिक कृतीत नवीन टेम्पलेट नियुक्त करणे, इनलाइन पॉपअप उघडणे किंवा गोष्टी स्क्रीनवर दिसणे यासारखी चांगली कल्पना नाही. कारण क्लिक कृती काही विशिष्ट टेम्पलेटवरच अंमलात आणल्यास प्रथम क्लिकद्वारे नियुक्त केलेले नवीन टेम्पलेट रीसेट केले जाणार नाही आणि म्हणूनच स्क्रॅप कसे लिहिले गेले यावर अवलंबून, त्याच पृष्ठावरील भविष्यातील क्लिक थांबविण्यात येऊ शकतात. आपण ही क्रिया केवळ एकदाच अंमलात आणू इच्छित असल्यास आपण परिभाषित देखील करू शकता, जर आपण लॉगिनसारखे काहीतरी करत असाल तर उपयुक्त ठरेल intवेबसाइट.

मजकूर टाइप करा किंवा निवडा ड्रॉप डाऊन यादी मूल्य कृती आपल्याला अनुक्रमे मजकूराच्या एकाधिक आयटम टाइप करण्याची किंवा एकाधिक निवड बॉक्सची निवड करण्याची परवानगी देतात. स्क्रॅप सूचनांवर क्लिक करून हे संपादित केले जाऊ शकतात बदल किंवा पहा चल डावीकडील स्क्रीनशॉटमध्ये दर्शविल्याप्रमाणे बटण.

उदाहरणार्थ आपण शोध बॉक्सवर नावांची सूची टाइप करू इच्छित असल्यास हे महत्वाचे असू शकते. शोध बॉक्समध्ये जेव्हा मूल्य असेल तेव्हाच फॉर्म सबमिट केला जाईल हे सुनिश्चित करण्यासाठी प्रत्येक वेळी मजकूर यशस्वीरित्या टाइप केल्यावर एक टेम्पलेट सेट केले जाऊ शकते intहे टेम्पलेट सेट केल्याशिवाय मजकूरबॉक्स आणि बटणावर क्लिक कृती केली जात नाही. क्लिक कृती पूर्ण झाल्यानंतर प्रक्रिया पुन्हा रीसेट करण्यासाठी टेम्पलेटमध्ये दुसर्‍या कशा प्रकारे बदल करणे आवश्यक आहे.

वेबसाइट्समध्ये फेरफार करणार्‍या क्रियांची अंमलबजावणी केल्या गेल्यानंतर, स्क्रॅप सुरू ठेवण्यापूर्वी अ‍ॅजेक्स सामग्री लोड करण्यास परवानगी देण्यासाठी कृतींनी एजेक्स कार्यक्षमता सुरू केल्यास थोडा वेळ थांबणे उपयुक्त ठरेल. मध्ये विलंब जोडून आपण हे करू शकता एक्जीक्यूशन नंतर थांबा मजकूर बॉक्स.

एकदा काही शर्ती पूर्ण झाल्यावर आपण सरळ भिन्न URL वर जाण्याची इच्छा बाळगू शकता. हे करण्यासाठी URL वर जा क्रिया, जे केवळ तेव्हाच दिसून येईल जेव्हा स्क्रॅपमध्ये कमीतकमी एक टेम्पलेट परिभाषित केले गेले असेल आणि जेव्हा तयार केले जाईल तेव्हा त्यास टेम्पलेट नियुक्त केले जाणे आवश्यक आहे.

शेवटी आपण आपल्या वेब स्क्रॅप्समध्ये ग्रॅबझिटच्या कॅप्चर एपीआयचा सर्व वापरू शकता, फक्त कॅप्चर वेबपृष्ठ क्रिया निवडा आणि आपल्या इच्छित कॅप्चरची निवड करा. एकदा आपण निवडल्यानंतर आपण अंमलात आणण्यासाठी टेम्पलेट निर्दिष्ट करुन स्क्रॅपमधील काही वेबपृष्ठे कॅप्चर करण्यासाठी आपण यावर मर्यादा घालू शकता पुढे बटणावर क्लिक करा.

प्रत्येक स्क्रॅप सूचना जोडल्यानंतर ती स्क्रॅप सूचना पॅनेलमध्ये पाहिली जाऊ शकते, स्क्रॅपच्या प्रत्येक सूचनापुढील क्रॉस स्क्रॅप सूचना हटविण्यास अनुमती देते. इतर स्क्रॅप सूचनांद्वारे आवश्यक असलेली स्क्रॅप सूचना हटविली असल्यास त्या सूचना देखील हटविल्या जातात. आपण हडपण्याच्या चिन्हासह कोणत्याही स्क्रॅप सूचना ड्रॅग करून स्क्रॅप सूचनांचे क्रम बदलू शकता.

स्क्रॅप सूचना स्वहस्ते लिहिणे

आपल्याला स्क्रॅप सूचना अधिक विशिष्ट मार्गाने सानुकूलित करण्याची आवश्यकता असल्यास आपणास स्क्रॅप सूचना स्वहस्ते बदलण्याची आवश्यकता असेल.

स्क्रॅप सूचना जावास्क्रिप्ट आधारित आहेत आणि कोड एडिटर सिंटॅक्स तपासकसह पूर्ण, स्वयंपूर्ण आणि टूलटिप शक्य तितके सुलभ करण्यासाठी.

वेब स्क्रॅपर सूचना कोड संपादकाची मुख्य कार्यक्षमता मेनू पर्यायांद्वारे प्रवेशयोग्य आहे, स्क्रीनशॉटमध्ये दर्शविल्यानुसार, प्रत्येकचा हेतू खाली स्वतंत्रपणे स्पष्ट केला आहे. आपल्या स्क्रॅप सूचनांमधील कोणत्याही वाक्यरचना त्रुटी कोड संपादकाच्या डाव्या हाताच्या गटारात दर्शविल्या गेल्या आहेत.

विझार्ड विझार्ड आपल्याला आपल्यास पृष्ठावरील काही भाग निवडण्याची परवानगी देतो ज्यास आपण अर्क घेऊ इच्छिता आणि वेब कॅप्चर तयार करणे यासारखी इतर सामान्य कार्ये करू शकता.

स्क्रॅप सूचना दर्शवा वापरकर्त्यास स्क्रॅप सूचना कोड प्रदर्शित करते.

सर्व सूचना हटवा सर्व स्क्रॅप सूचना हटविते.

वेबपृष्ठ कार्ये पृष्ठ कीवर्ड प्रविष्ट करेल into स्क्रॅप सूचना आणि स्वयं-पूर्ण उघडा, ज्यात सर्व शक्य आहे पृष्ठ कार्ये. पृष्ठ कार्ये आपल्याला वेब पृष्ठावरून डेटा काढू देतात.

डेटा कार्ये डेटा कीवर्ड प्रविष्ट करेल intओ स्क्रॅप सूचना. डेटा कार्ये आपल्याला परवानगी save माहिती.

नॅव्हिगेशनची कार्ये नेव्हिगेशन कीवर्ड प्रविष्ट करते intकोड कोड. द नॅव्हिगेशन फंक्शन्स वेब स्क्रॅपर लक्ष्य वेबसाइटवर कसे नेव्हिगेट करते हे नियंत्रित करण्याची आपल्याला परवानगी देते.

जागतिक कार्ये ग्लोबल कीवर्डमध्ये प्रवेश करते intओ स्क्रॅप सूचना. हे आपल्याला प्रवेश देते कार्ये जी विविध वेब पृष्ठे विश्लेषित करण्या दरम्यान डेटा संग्रहित करू शकते. स्क्रॅप सूचना लिहिताना हे लक्षात ठेवणे आवश्यक आहे की स्क्रॅपर वेबपृष्ठांदरम्यान फिरत असताना स्क्रॅप सूचनांमध्ये जावास्क्रिप्ट व्हेरिएबल्सची स्थिती ठेवली जात नाही, जोपर्यंत आपण ग्लोबल फंक्शन्स वापरत नाही save खाली दर्शविल्या प्रमाणे चल.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

खाली दर्शविल्या प्रमाणे ग्लोबल.सेट मेथड मध्ये पर्सिस्टंट पॅरामिटर बरोबर पर्सिस्टंट ग्लोबल व्हेरिएबल पास तयार करण्यासाठी.

Global.set("myvariable", "hello", true);

उपयुक्तता कार्ये युटिलिटी कीवर्डमध्ये प्रवेश करते intओ स्क्रॅप सूचना. हे आपल्याला वापरण्याची परवानगी देते सामान्य कार्ये जे क्वेरी जोडणे किंवा काढणे यासारखे स्क्रॅप्स लिहिणे सोपे करतेstring URL मधील मापदंड.

निकष कार्ये निकष कीवर्ड प्रविष्ट करते intओ स्क्रॅप सूचना. या कार्ये डुप्लिकेट्स काढून टाकण्यासारख्या स्क्रॅपच्या वेळी काढलेला डेटा आपल्याला परिष्कृत करण्याची परवानगी देतो.

फिल्टर आपल्याला सहजपणे एक फिल्टर तयार करण्यास अनुमती देते, वेब पृष्ठामधून विशिष्ट HTML घटक निवडण्यासाठी हे काही फंक्शनद्वारे आवश्यक आहे. आपल्या लक्ष्य घटकाची आणि / किंवा घटकाच्या पालकांनी (ती) ती घटक निवडणे आवश्यक आहे असे सहजतेने निवडा. आपण या पर्यायावर क्लिक करण्यापूर्वी आपला कर्सरदेखील फिल्टरमध्ये पास होण्यासाठी फंक्शनमध्ये योग्य ठिकाणी आहे याची खात्री करा.

स्क्रीनशॉट कार्ये आपल्याला स्क्रीनशॉट पर्याय सेट करण्याची परवानगी देते. टूलटिपने ओळखल्याप्रमाणे फंक्शनच्या योग्य भागामध्ये कर्सर ठेवा आणि स्क्रीनशॉट पर्याय दाबा. नंतर आपल्याला पाहिजे असलेले सर्व पर्याय निवडा आणि आज्ञा घाला.

Strings

Stringमजकूर परिभाषित करण्यासाठी वेब स्क्रॅप करत असताना स्क्रॅप सूचनांमध्ये एस चा वापर केला जातो. ए string दुहेरी द्वारे मर्यादा घातलेले आहे (") किंवा एकच कोट ('). जर ए string दुहेरी कोट ने सुरू केले आहे ते दुहेरी कोटसह समाप्त झाले पाहिजे, जर a string एका कोटपासून सुरू होते ते एका कोटसह समाप्त होणे आवश्यक आहे. उदाहरणार्थ:

"my-class" आणि 'my-class'

उद्भवू शकणारी सामान्य चूक म्हणजे न बंद केलेली string चूक, जेव्हा ए string वर दर्शविल्यानुसार बंद होणारा कोट नाही किंवा मध्ये लाइन ब्रेक आहे string. खालील बेकायदेशीर आहेत strings:

"my
class"

"my class

या त्रुटीचे निराकरण करणे हे आहे की त्यांच्यात लाइन ब्रेक नसतात आणि जुळणारे कोट्स नाहीत, जसे की:

"my class" आणि "my class"

कधीकधी आपल्याला ए मध्ये एकच किंवा डबल कोट दिसू इच्छित आहे string. ए मध्ये एकच कोट ठेवणे हे करण्याचा सर्वात सोपा मार्ग string ए मध्ये दुहेरी अवतरण आणि डबल कोटसह सीमांकित string एकल कोट्यांसह सीमांकित, जसे की:

"Bob's shop" आणि '"The best store on the web"'

वैकल्पिकरित्या आपण अशा कोट सुटण्यासाठी बॅकस्लॅश वापरू शकता:

'test\'s'

सामान्य मॅन्युअल स्क्रॅप कार्ये

दुवा तपासक सानुकूल दुवा तपासक तयार करा - या सोप्या सूचनांचे अनुसरण करून सानुकूल दुवा तपासक कसा तयार करायचा ते शोधा.
प्रतिमा डाउनलोड वेबसाइटवरून सर्व प्रतिमा डाउनलोड करा - संपूर्ण वेबसाइटवरून सर्व प्रतिमा कशी डाउनलोड कराव्यात ते शोधा.
डेटासेट तयार करा डेटा काढा आणि त्याचे रूपांतर करा intओए डेटासेट - आपण स्क्रॅप करीत असलेल्या वेबसाइटवरून डेटासेट कसा तयार करावा ते शोधा.
दुवे काढा वेबसाइटवरून दुवे काढा - संपूर्ण वेबसाइट वरून सर्व HTML दुवे कसे मिळवायचे ते शोधा save आपण इच्छित स्वरूपात ते.
मजकूर निवडा नमुन्यांचा वापर करून मजकूरातून मूल्ये काढत आहे - मजकूराच्या अवरोधातून मूल्ये काढण्यासाठी नमुने कसे वापरायचे ते शोधा.
OCR प्रतिमांमधून मजकूर काढा - प्रतिमांमधील मजकूर कसा काढायचा ते शोधा.
डेटासेट डेटासेट पॅड कसा करावा - पॅडिंगचा वापर करुन आपल्यास काढलेल्या डेटाचे अधिक चांगले स्वरूपित करा.
अरे अ‍ॅरे हाताळणे - स्क्रॅप्समधील अ‍ॅरे सहजपणे हाताळण्यासाठी विशेष अ‍ॅरे युटिलिटी पद्धती कशा वापरायच्या हे जाणून घ्या.
कृती स्क्रॅप दरम्यान फक्त एकदाच क्रिया करा - संपूर्ण स्क्रॅप दरम्यान फक्त एकदाच क्रिया कशी करावी हे जाणून घ्या.
परिष्कृत करा स्क्रॅप केलेला डेटा परिष्कृत करीत आहे - आपल्या स्क्रॅपमधून आवश्यक नसलेला डेटा कसा काढायचा ते शोधा.
ई-मेल पत्ता वेबसाइटवरील ईमेल पत्ते स्क्रॅप करा - वेबसाइटवरील सर्व ईमेल पत्ते कशाप्रकारे काढायचे ते शोधा.
स्क्रीनशॉट संपूर्ण वेबसाइटचा स्क्रीनशॉट into पीडीएफ किंवा प्रतिमा - संपूर्ण वेबसाइटचे प्रत्येक पृष्ठ कॅप्चर करण्यासाठी ग्रॅबझिटचे वेब स्क्रॅपर कसे वापरावे ते शोधा.
स्क्रीनशॉट अप्रबंधित मजकूरातून संरचित माहिती काढा - भावना, नावे, स्थाने आणि संस्था काढण्यासाठी GrabzIt वापरा.

HTML व्यतिरिक्त इतर सामग्री स्क्रॅप करणे

जेव्हा वेब स्क्रॅपर पीडीएफ, एक्सएमएल, जेएसओएन आणि आरएसएस वर येते तेव्हा ते त्यास एचटीएमएल अंदाजे रुपांतरित करते, जे आमच्या वेब स्क्रॅपरला त्यास अचूकपणे विश्लेषित करण्यास अनुमती देते आणि आपण कोणती सामग्री काढू इच्छिता ते निवडण्यासाठी. उदाहरणार्थ, आपण JSON डेटा विश्लेषित करू इच्छित असल्यास ते डेटा रूपांतरित करेल intबाजूला दर्शविल्याप्रमाणे ओएएआरएआरएचएल एचटीएमएल प्रतिनिधित्व. हे आपल्याला सामान्य सारखे स्क्रॅप सूचना तयार करण्यास अनुमती देते.

अशाच प्रकारे जेव्हा स्क्रॅपर पीडीएफ दस्तऐवज लोड करतो, तेव्हा पीडीएफ रूपांतरित होते into प्रतिमा, हायपरलिंक्स, मजकूर आणि सारण्या निवडण्यासाठी आणि स्क्रॅप करण्यास अनुमती देण्यासाठी एचटीएमएल. तथापि, पीडीएफमध्ये कोणतीही वास्तविक रचना नसल्यामुळे, टेबल्स हे्यूरिस्टिक्सचा वापर करून ओळखले जातात आणि त्यामुळे नेहमीच अचूक नसते.

निर्यात पर्याय

हा टॅब आपल्याला आपल्या परीणामांची एक्सेल स्प्रेडशीट, एक्सएमएल, जेएसओएन, सीएसव्ही, एसक्यूएल आदेश किंवा एचटीएमएल दस्तऐवज यासह आपले पर्याय निर्यात कसे करू इच्छिता हे निवडण्याची परवानगी देतो. या व्यतिरिक्त, हा टॅब झिप केलेल्या स्क्रॅप परिणामांच्या नावास सेट करण्यास अनुमती देतो. आपण केवळ फायली डाउनलोड करत असल्यास किंवा वेब कॅप्चर तयार करत असल्यास आपल्याला निर्यात पर्याय निवडण्याची आवश्यकता नाही कारण आपल्याला फक्त एक झिप फाइल मिळेल ज्यामध्ये आपल्याला परिणाम असतील. हा टॅब आपणास निकाल कसा पाठवायचा आहे हे निर्दिष्ट करण्याची परवानगी देतो. आपण मार्गे परिणाम पाठवू शकता ऍमेझॉन S3, ड्रॉपबॉक्स, ईमेल सूचना, FTP, आणि वेबडॅव.

अंतिम पर्याय म्हणजे एक कॉलबॅक यूआरएल, जो आमचा वापर करुन आपल्या अनुप्रयोगात स्क्रॅप परिणामांवर प्रक्रिया करण्यास अनुमती देते स्क्रॅप API.

झिप केलेल्या निकालांचे फाइलनाव किंवा प्रत्येक डेटा फाईल आपण त्यांना स्वतंत्रपणे पाठविण्याची विनंती केल्यास डिफॉल्ट फाइलनाव वापरा पर्याय अनचेक करून आणि आपले इच्छित फाइलनाव सेट करुन सेट केले जाऊ शकते. याव्यतिरिक्त, टाकून आपल्या फाईलनावमध्ये टाइमस्टॅम्प जोडला जाऊ शकतो {GrabzIt_Timestamp_UTC+1} फाईलनाव मध्ये. +1 यूटीसी कडून काही तासांत ऑफसेट सूचित करते.

आपण यावर क्लिक करून स्क्रॅपचे परिणाम देखील पाहू शकता परिणाम पहा बटण, पुढे आपली खरडपट्टी, हे कोणतेही रिअल-टाईम स्क्रॅप परिणाम दर्शवेल, तसेच मागील 48 तासात केलेले मागील परिणाम.

शेड्यूल स्क्रॅप

वेब स्क्रॅप तयार करताना शेड्यूल स्क्रॅप टॅब तुम्हाला स्क्रॅप केव्हा सुरू करायचा आहे आणि तुम्हाला ते रिपीट करायचे असल्यास, ते किती वारंवार करावे हे सेट करण्याची परवानगी देते. जेव्हा वेब पृष्ठावरील बदल आढळतो तेव्हा स्क्रॅप चालविण्यासाठी देखील कॉन्फिगर केले जाऊ शकते. हे करण्यासाठी जेव्हा वेब पृष्ठ बदलते तेव्हा प्रारंभ करा चेकबॉक्स, नंतर निरीक्षण करण्यासाठी वेब पृष्ठाची URL प्रविष्ट करा, सोबत सीएसएस निवडकर्ता आपण आहात त्या पृष्ठाच्या भागाचा interested in. विसंगत बदलांमुळे खोटे सकारात्मक टाळण्यासाठी पृष्ठाचा एक छोटासा भाग निवडणे महत्वाचे आहे.

देखरेख आणि डीबगिंग स्क्रॅप्स

एकदा वेब स्क्रॅप चालू झाले की स्थिती प्रतीक त्यामध्ये बदलेल आणि प्रक्रिया केलेली पृष्ठे कालांतराने वाढू लागतील. स्क्रॅप प्रगतीचा रिअल टाइम स्नॅपशॉट नियमितपणे तयार केला जातो लॉग साइटसह अंतिम वेबपृष्ठावरील नियमित स्क्रीनशॉटसह ज्यास स्क्रॅपरचा सामना करावा लागला. हे आपल्याला स्क्रॅप दरम्यान काय होत आहे ते पाहण्याची परवानगी देते. ही माहिती शोधण्यासाठी आपल्या स्क्रॅपच्या पुढील विस्तारित चिन्हावर क्लिक करा आणि क्लिक करा दर्शक आपण आहात खरडण्यासाठी intआपल्यास स्क्रॅप करण्याच्या सूचनांसह काही त्रुटी असल्यास त्याबद्दल हे तपशीलवार असले पाहिजे.

एकदा स्क्रॅप यशस्वीरित्या पूर्ण झाल्यावर स्थिती चिन्ह वर जाईल , जर व्ह्यूअर उघडून कोणताही निकाल लागला नाही तर लॉग आणि शेवटचा स्क्रीनशॉट काय चूक झाली ते सांगेल.

लॉगमध्ये नोंदविलेल्या सर्वात सामान्य समस्यांपैकी एक म्हणजे पृष्ठ स्क्रॅप करण्यास पुरेशी देण्यास विलंब होत नाही, बर्‍याचदा पृष्ठ लोड विलंब मध्ये आढळले स्क्रॅप पर्याय बहुतेक वेबसाइट्ससाठी टॅब पुरेसा आहे.