वेब कॅप्चर आणि रूपांतरित करण्यासाठी साधने

वेब स्क्रॅप दस्तऐवजीकरण

वेब स्क्रॅप तयार करण्यासाठी आपल्याला पुढील टॅबमध्ये पसरलेली पाच प्रकारची माहिती निर्दिष्ट करावी लागेल.

  1. स्क्रॅप पर्याय
  2. लक्ष्यित वेबसाइट्स
  3. स्क्रॅप सूचना
  4. निर्यात पर्याय
  5. शेड्यूल स्क्रॅप

स्क्रॅप पर्याय

स्क्रॅप पर्याय टॅबवरील वेब स्क्रॅप सानुकूलित करण्यासाठी खालील सर्व वैशिष्ट्ये उपलब्ध आहेत.

स्क्रॅप नाव स्क्रॅपचे नाव.

दुवे अनुसरण करा स्क्रॅपरने दुवे कसे अनुसरण करावे हे खालील पर्याय प्रदान करते:

  • आवश्यकतेनुसार - डीफॉल्ट सेटिंग आणि सुरक्षित पर्याय, यामुळे स्क्रॅपर केवळ त्यास दिलेल्या निर्देशांचे अनुसरण करेल
  • सर्व पृष्ठे - स्क्रॅपर सापडलेल्या प्रत्येक दुव्याचे अनुसरण करेल
  • प्रथम पृष्ठ - लक्ष्य म्हणून निर्दिष्ट केलेल्या पहिल्या पृष्ठावरील दुव्यांचेच अनुसरण करा
  • इथपर्यंत n प्रारंभिक पृष्ठावरील पृष्ठे - केवळ पहिल्या पृष्ठावरील निर्दिष्ट संख्येच्या पृष्ठांवर दुव्यांचे अनुसरण करा
  • फ्रेम मध्ये - फ्रेम आणि iframes मध्ये आढळलेल्या दुव्यांचे अनुसरण करा

रोबोट.टक्स्ट फाइलकडे दुर्लक्ष करा सेट केल्यास स्क्रॅपर वेबसाइटच्या मालकाद्वारे क्रॉल केल्या जाणार्‍या सामान्यत: वगळलेल्या वेब पृष्ठांना भेट देऊ शकेल.

फाईल डाउनलोडकडे दुर्लक्ष करा एकदा कोणतेही दुवे सेट केले, जे भेट दिल्यास फाइल डाउनलोड करण्यास कारणीभूत असतात.

डुप्लिकेट्सकडे दुर्लक्ष करा सेट केल्यास ते आपण सेट केलेल्या समानतेपेक्षा जास्त किंवा जास्त असलेल्या पृष्ठांकडे दुर्लक्ष करेल, उदाहरणार्थ आपण 95% समान पृष्ठे दुर्लक्षित करू शकता.

मर्यादा स्क्रॅप थांबविण्यापूर्वी वेब स्क्रॅपने किती पृष्ठे स्क्रॅप करावी हे निर्दिष्ट करण्याची आपल्याला परवानगी देते.

माझा टाईमझोन वापरा सेट केल्यास हे दर्शविते की स्क्रॅपने कोणत्याही तारखांना रुपांतरित करण्याचा वेब स्क्रॅपरने प्रयत्न केला पाहिजे into आपला स्थानिक वेळ क्षेत्र आपला टाइम झोन खाते पृष्ठावर सेट केला जाऊ शकतो.

स्थान भौगोलिक स्थानावरून वेब स्क्रॅपर येथून स्क्रॅप करेल. जर लक्ष्यित वेबसाइटवर स्थानावर आधारित निर्बंध असतील तर हे उपयुक्त ठरेल.

डीफॉल्ट तारीख स्वरूप तारखेचे रूपांतरण करताना तारीख स्वरूप निश्चित केले जाऊ शकत नाही, त्याऐवजी वेब स्क्रॅपर या निवडलेल्या स्वरुपात डीफॉल्ट जाईल.

पृष्ठ लोड विलंब हा वेळ मिलिसेकंदात आहे जेव्हा वेब विश्लेषकांनी पृष्ठ विश्लेषित करण्यापूर्वी थांबावे. पृष्ठामध्ये भरपूर AJAX असल्यास किंवा लोड करण्यास धीमे असल्यास हे खूप उपयुक्त आहे.

लक्ष्यित वेबसाइट्स

लक्ष्यित वेबसाइट्स

लक्ष्य वेबसाइट टॅबमध्ये आपण ज्या वेबसाइटवरून डेटा काढू इच्छित आहात त्या वेबसाइट निर्दिष्ट करता. वेबसाइटवरून डेटा काढण्यासाठी स्क्रॅप टूलला सांगण्यासाठी प्रथम आपण आहात अशी मुख्य URL निर्दिष्ट करावी लागेल intउदा http://www.example.com/shop/ हे असे होते की स्क्रॅपर त्याच्या स्क्रॅपला सुरुवात करेल, ते सामान्य वेबपृष्ठ, पीडीएफ दस्तऐवज, एक्सएमएल दस्तऐवज, जेएसओएन दस्तऐवज, आरएसएस फीड किंवा साइटमॅप असू शकते. ते वेबपृष्ठ किंवा पीडीएफ दस्तऐवज नसल्यास स्क्रॅपर फायलीतील सर्व दुवे शोधेल आणि प्रत्येकास भेट देईल.

केवळ लक्ष्य URL मध्ये आढळलेल्या दुव्यांचे अनुसरण करण्यासाठी आणि त्यानंतरच्या कोणत्याही पृष्ठांवर आपण सेट करू शकत नाही दुवे अनुसरण करा स्क्रॅप पर्याय ते पहिल्या पानावर. हे लक्ष्यीकरण URL फक्त उर्वरित स्क्रॅपच्या बियाण्यासाठी वापरेल.

डीफॉल्टनुसार, वेब स्क्रॅपर ज्या वेबसाइटला भेट देते त्या प्रत्येक दुव्याचे अनुसरण करते. आपण काय जोडते हे प्रतिबंधित करू इच्छित असल्यास वेब भंगार खालीलप्रमाणे, यूआरएल नमुना निर्दिष्ट करणे हा एक सोपा मार्ग आहे. नमुन्याच्या या भागात कोणतेही वर्ण उपस्थित असू शकतात हे दर्शविण्यासाठी हे तारकासह जंगली कार्ड म्हणून निर्दिष्ट करुन कार्य करते. उदाहरणार्थ http://www.example.com/*/articles/* वेबसाइटच्या मुळापासून दुसर्‍या डिरेक्टरीच्या रूपात असलेल्या कोणत्याही URL च्या वेबसाइटवर स्क्रॅप करा.

यूआरएल पीओएसटीच्या पॅरामीटर्ससह एक यूआरएल देखील निर्दिष्ट करू शकते उदाहरणार्थ उदाहरणार्थ लॉगिन फॉर्म. असे करण्यासाठी लक्ष्य URL मजकूर बॉक्समध्ये फॉर्म URL निर्दिष्ट करा आणि आवश्यक पोस्ट पॅरामीटर्स जोडा. पोस्ट व्हेरिएबल व्हॅल्यूजमध्ये विशेष ग्रॅबझिट व्हेरिएबल्स देखील समाविष्ट असू शकतात, जसे की:

  • {{day}} - दोन-अंकी मूल्य म्हणून दिवस
  • {{month}} - दोन अंकी मूल्य म्हणून महिना
  • {{year}} - चार-अंकी मूल्य म्हणून वर्ष
  • {{hour}} - दोन-अंकी मूल्य म्हणून तास
  • {{minute}} - दोन-अंकी मूल्य म्हणून मिनिट
  • {{second}} - दोन-अंकी मूल्य म्हणून दुसरा

शेवटी आपण निर्दिष्ट करू शकता बियाणे यूआरएल त्या URL स्क्रॅप केल्या आहेत याची खात्री करण्यासाठी.

बियाणे URL

बियाणे यूआरएल वापरकर्त्यास वेब स्क्रॅपद्वारे क्रॉल केल्या जाणार्‍या URL च्या सूची निर्दिष्ट करण्याची परवानगी देतात. आपण फक्त बियाणे URL हटवा सेट करू इच्छित असल्यास दुवे अनुसरण करा स्क्रॅप पर्याय ते कोणतीही पृष्ठे नाहीत स्क्रॅप पर्याय टॅबमध्ये.

लक्ष्य वेबसाइट टॅबवर बियाणे यूआरएल सेट करण्यासाठी लक्ष्य जोडा बटणावर क्लिक करा नंतर बियाणे URL सेट करा चेकबॉक्स तपासा आणि प्रत्येक यूआरएल वेगळ्या ओळीवर स्क्रॅप करण्यासाठी निर्दिष्ट करा.

टेम्पलेट URL वरून बियाणे URL तयार करा

वैकल्पिकरित्या आपण टेम्पलेट URL वापरून स्वयंचलितपणे बियाणे URL व्युत्पन्न करू शकता, ही एकल URL आहे ज्यात URL व्हेरिएबल समाविष्ट आहे. URL व्हेरिएबल पुनरावृत्ती होण्याकरिता अनेक श्रेणी निर्दिष्ट करते.

{{start number|finish number|iterate number}}

  • प्रारंभ क्रमांक URL व्हेरिएबलपासून प्रारंभ होणारी संख्या
  • शेवटचा क्रमांक URL व्हेरिएबलवर समाप्त होणारी संख्या
  • पुनरावृत्ती संख्या URL व्हेरिएबलद्वारे पुनरावृत्ती होणारी संख्या

आरंभ क्रमांक ही अशी संख्या आहे जी यूआरएल व्हेरिएबलने मोजणे सुरू केले पाहिजे, अंतिम संख्या ही एक संख्या आहे जी यूआरएल व्हेरिएबल मोजणे थांबवेल, पुनरावृत्ती संख्या ही संख्या आहे जी यूआरएल व्हेरिएबलच्या प्रत्येक पुनरावृत्तीसाठी वाढेल.

उदाहरणार्थ खालील टेम्पलेट URL साठी http://www.example.com/search?pageNo={{1|3|1}}

हे नंतर खालील बियाणे URL तयार करेल:

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

स्क्रॅप सूचना

लक्ष्य वेबसाइट स्क्रॅप करताना काय करावे याबद्दल स्क्रॅप सूचना वेब स्क्रॅपरला सांगतात. स्क्रॅप सूचना टॅब डीफॉल्टनुसार स्क्रॅप विझार्ड दर्शविते, ज्यामुळे आपल्याला आवश्यक स्क्रॅप सूचना जोडणे सोपे करते. हे विझार्ड वापरण्याचे एक चांगले उदाहरण मध्ये दर्शविले आहे उत्पादन यादी आणि तपशील स्क्रॅपिंग ट्यूटोरियल.

एकदा आपण स्क्रॅप करणे सुरू करण्यास सज्ज झाल्यानंतर नवीन स्क्रॅप सूचना जोडा दुवा.

हे विझार्ड उघडेल आणि स्वयंचलितपणे लक्ष्य URL लोड करेल, आपल्याला काय स्क्रॅप करायचे आहे ते त्वरित निवडण्याची परवानगी देते. जर एखादे वेबपृष्ठ किंवा पीडीएफ दस्तऐवज लोड केले असेल तर आपण कोणत्याही दुव्यावर क्लिक करू शकता आणि उदाहरणार्थ सामान्यपणे दुसर्‍या वेबपृष्ठावर नेव्हिगेशन करा. जोपर्यंत आपण या पॉवर स्क्रीनच्या तळाशी एक क्रिया निवडत नाहीint सामग्रीवरील कोणतेही क्लिक आपण काढू किंवा इच्छित इच्छित हाताळू इच्छित HTML घटक निवडतील.

स्क्रॅप सूचनांबद्दल समजून घेण्याची पहिली गोष्ट ती आहे की ती प्रत्येक वेबपृष्ठावर डीफॉल्टनुसार अंमलात आणली जातात. हे थांबविण्याचा मार्ग म्हणजे टेम्पलेट्सचा वापर. एखाद्या दुव्यावर क्लिक करणे यासारखी क्रिया करत असताना टेम्पलेट नियुक्त केले जाऊ शकते आणि जेणेकरून जेव्हा जेव्हा एखादा स्क्रॅपर त्या दुव्यास भेट देईल किंवा त्या बटणावर क्लिक करेल तेव्हा ते ओळखले जाईल की ते नियुक्त केलेल्या टेम्पलेटचे आहे. हे भिन्न पृष्ठ प्रकार परिभाषित करण्याची अनुमती देते. उदाहरणार्थ आपल्याकडे उत्पादन श्रेणी पृष्ठ असू शकेल ज्यात काही विहंगावलोकन माहिती आणि नंतर उत्पादन माहिती असलेले तपशील पृष्ठ असेल. दोन्ही पृष्ठांना कदाचित स्क्रॅप सूचनांच्या भिन्न संचाची आवश्यकता असेल.

स्क्रॅपर टेम्पलेट

प्रारंभ करण्यासाठी निवडा क्लिक करा कृती, नंतर एकदा आपण क्रिया करू इच्छित आयटम निवडल्यानंतर क्लिक करा पुढे बटण मध्ये टेम्पलेट नाव प्रविष्ट करा एक टेम्पलेट तयार करा आता जेव्हा जेव्हा स्क्रॅपर या क्रियांची अंमलबजावणी करते तेव्हा मजकूर बॉक्स परत केला टेम्पलेट आपण प्रदान केलेले नाव असेल.

मग स्क्रॅप सूचनांना विशिष्ट टेम्पलेट नियुक्त करण्यासाठी आपल्याला वरून इच्छित टेम्पलेट निवडण्याची आवश्यकता आहे कार्यान्वित करा ड्रॉपडाऊन सूची, ती स्क्रॅप सूचना जोडण्यापूर्वी दिसते की विंडोमध्ये दिसते. टेम्पलेट निवडताना तीन मुख्य पर्याय खालीलप्रमाणे आहेतः

  • सर्व पृष्ठे - या स्क्रॅप सूचनांसाठी टेम्पलेट वापरू नका, स्क्रॅप सूचना सर्व वेब पृष्ठांवर अंमलात आणली जाईल.
  • डीफॉल्ट टेम्पलेट - वापरकर्ता परिभाषित टेम्पलेटपैकी एक वापरू नका. स्क्रॅप सूचना कोणत्याही वेब पृष्ठावर अंमलात आणली जाईल ज्यामध्ये टेम्पलेट निर्दिष्ट केलेले नाही.
  • वापरकर्ता परिभाषित टेम्पलेट - विशिष्ट वेब पृष्ठ किंवा कृती ओळखण्यासाठी आपल्याद्वारे परिभाषित केलेल्या टेम्पलेटपैकी एक.

एकदा आपण यापैकी एक पर्याय निवडल्यानंतर, स्क्रॅप सूचना केवळ निर्दिष्ट टेम्पलेटवरच अंमलात आणली जाईल.

डेटा काढत आहे

आपण लक्षात येईल की आपण निवडल्यावर डेटा काढा क्रिया स्क्रीनचा डावा तळाचा कोपरा आपल्याला वरील विंडोमध्ये एकतर HTML घटक निवडण्यासाठी किंवा ग्लोबल पृष्ठ गुणधर्म निवडण्यासाठी आमंत्रित करतो.

ग्लोबल पृष्ठ गुणधर्म वापरण्यासाठी, क्लिक करा जागतिक पृष्ठ मालमत्ता दुवा. नंतर आपण सुरू ठेवू इच्छिता याची पुष्टी करा. आपल्याकडे आता पृष्ठावरून सरळ काढल्या जाणार्‍या गुणधर्मांची यादी असेल. उदाहरणार्थ: पृष्ठ शीर्षक.

एक निवडण्यासाठी, त्यास पर्यायांच्या सूचीतून निवडा आणि क्लिक करा पुढे मध्ये डेटा जोडण्यासाठी डेटासेट.

आपण संबंधित HTML घटकांवर क्लिक करणे आवश्यक असलेल्या संपूर्ण पृष्ठाऐवजी विशिष्ट HTML घटकांमध्ये डेटा काढू इच्छित असल्यास आपण एक किंवा अनेक आयटम निवडू शकता. तथापि आपण एकाधिक आयटम निवडत असल्यास कृपया प्रयत्न करा आणि त्या नंतर एका स्तंभातील एकाधिक पंक्तींसारख्या अनेक आयटम निवडा, कारण जर स्क्रॅपर एखादा नियम तयार करू शकत नसेल जो डेटाच्या निवडलेल्या संकलनास विशिष्टपणे ओळखू शकेल तर स्क्रॅप सूचना पाळत नाही. तयार करण्यास सक्षम व्हा. याव्यतिरिक्त आपण क्लिक करीत असलेल्या एकाधिक आयटमला आमच्या वेब स्क्रॅपर विझार्डद्वारे पुनरावृत्ती डेटा म्हणून ओळखले गेले असेल तर, त्याच गटातील सर्व पुनरावृत्ती डेटा स्वयंचलितपणे निवडल्या जातील. एकदा आपण आपले सर्व सिंगल किंवा अनेक आयटम निवडल्यानंतर स्क्रीनच्या डावीकडील डाव्या बाजूला काढण्यासाठी विशेषता निवडा आणि नंतर क्लिक करा पुढे.

डेटासेट तयार करीत आहे

डेटासेट स्क्रीन आपल्याला डेटाची प्रक्रिया कशी होते हे बदलण्याची परवानगी देते, उदाहरणार्थ आपण डेटासेट आणि त्यामधील स्तंभांचे नाव बदलू शकता, नाव बदलण्यासाठी फक्त नावावर क्लिक करा. जेव्हा आपण एका डेटासेटमध्ये स्तंभ जोडता तेव्हा आपल्याला त्यात चालविण्यासारखे टेम्पलेट देखील निवडणे आवश्यक असते. स्तंभ नावाच्या खाली असलेल्या ड्रॉप डाऊन सूचीवर क्लिक करून आपण हे बदलू शकता.

डेटा काढताना बहुतेक वेळा पुनरावृत्ती होणार्‍या वस्तूंसाठी विसंगत पुनरावृत्ती करणे सामान्य आहे, योग्य पंक्ती अद्याप एकमेकांशी संबंधित असल्याचे सुनिश्चित करण्यासाठी दुवा स्तंभ निकष, डेटासेटमधील सर्वात सुसंगत स्तंभासह विसंगत स्तंभांशी दुवा साधण्यासाठी.

डेटासेटमध्ये अधिक डेटा जोडण्यासाठी वर क्लिक करा बटण क्लिक करा किंवा क्लिक करा डेटासेटमधून डेटा काढण्यासाठी किंवा संपूर्ण डेटासेट हटविण्यासाठी. डेटासेटमध्ये डेटावर विविध निकष लागू करण्यास देखील अनुमती देते, हे करण्यासाठी वरुन इच्छित कृती निवडा आणि नंतर निकष लागू करण्यासाठी संबंधित स्तंभावर क्लिक करा. आपण निकष जोडण्यात चूक केल्यास फक्त क्लिक करा बटणावर क्लिक करा.

वेगवेगळ्या निकष प्रकारांची आणि ते कसे वापरावे याची यादी येथे आहे.

  • पंक्ती मर्यादित करा - हे वेब पृष्ठामधून काढलेल्या पंक्तींची संख्या आपण परिभाषित केलेल्या संख्येवर मर्यादित करेल. वापरण्यासाठी क्लिक करा आणि नंतर पलीकडे असलेल्या ओळीवर क्लिक करा, जी तुम्हाला कापू इच्छित आहे.
  • पुनरावृत्ती करा - स्तंभ सर्वात लांब कॉलमच्या लांबीशी जुळत नाही तोपर्यंत स्तंभ आयटमची पुनरावृत्ती करते. वापरण्यासाठी फक्त क्लिक करा आणि नंतर आपण ज्या आयटमची पुनरावृत्ती करू इच्छित आहात त्या स्तंभ क्लिक करा.
  • अनन्य बनवा - प्रविष्ट केलेल्या सर्व मूल्यांसाठी कोणतीही डुप्लिकेट मूल्ये काढते intओए स्तंभ. वापरण्यासाठी फक्त क्लिक करा आणि नंतर आपण अद्वितीय बनवू इच्छित स्तंभ क्लिक करा.
  • मूल्ये काढा - मजकूराच्या ब्लॉकमधून केवळ डेटाची जुळणारी आयटम काढण्यासाठी नमुना निर्दिष्ट करा. वापरण्यासाठी फक्त क्लिक करा , संबंधित स्तंभ निवडा आणि त्यानंतर एक नमुना तयार करण्यासाठी सूचनांचे अनुसरण करा जे संबंधित डेटा परत करेल string.
  • ट्रिम मूल्ये - अनावश्यक मजकूर ट्रिम करण्यासाठी एक नमुना निर्दिष्ट करा. वापरण्यासाठी फक्त क्लिक करा , संबंधित स्तंभ निवडा आणि नंतर मजकूर ट्रिम करेल की एक नमुना तयार करण्यासाठी सूचनांचे अनुसरण करा.
  • दुवा स्तंभ - स्तंभांना एकत्र जोडण्यास अनुमती देते. जेणेकरून डेटा काढताना, रेकॉर्ड्स परिणामांच्या संख्येमध्ये जुळत नसले तरीही दुवा साधलेल्या स्तंभात संबंधित पंक्तीच्या समान पंक्तीवर दिसतील. वापरण्यासाठी फक्त क्लिक करा , दुवा जोडण्यासाठी स्तंभ आणि नंतर दुवा साधण्यासाठी स्तंभ निवडा.
  • स्तंभ लपवा - कधीकधी आपण फिल्टर करण्यासाठी स्तंभ समाविष्ट करू इच्छित असाल परंतु अंतिम निकालामध्ये मूल्ये समाविष्ट करू इच्छित नाही. हे करण्यासाठी फक्त क्लिक करा , आपण वगळू इच्छित स्तंभ निवडा.
  • चढत्या क्रमवारी लावा - चढत्या स्तंभानुसार क्रमवारी लावा. वापरण्यासाठी क्लिक करा आणि नंतर क्रमवारी लावण्यासाठी स्तंभ निवडा.
  • उतरत्या क्रमवारी लावा - खाली उतरत्या स्तंभानुसार क्रमवारी लावा. वापरण्यासाठी क्लिक करा आणि नंतर क्रमवारी लावण्यासाठी स्तंभ निवडा.
  • यात आहे - केवळ परिभाषित मूल्य असलेल्या मूल्यांचा समावेश करा. वापरण्यासाठी क्लिक करा इच्छित स्तंभ निवडा आणि नंतर स्तंभ मूल्यांमध्ये असलेले मूल्य प्रविष्ट करा.
  • इक्वल टू - केवळ परिभाषित मूल्यांच्या बरोबरीची मूल्ये समाविष्ट करा. वापरण्यासाठी क्लिक करा इच्छित स्तंभ निवडा आणि नंतर स्तंभ मूल्ये समान असणे आवश्यक मूल्य प्रविष्ट करा.
  • समान नाही - केवळ अशा मूल्यांचा समावेश करा जे परिभाषित मूल्यांच्या बरोबरीचे नाहीत. वापरण्यासाठी क्लिक करा इच्छित स्तंभ निवडा आणि नंतर स्तंभ समान नसावा असे मूल्य प्रविष्ट करा.
  • च्या पेक्षा कमी - केवळ परिभाषित मूल्यापेक्षा कमी मूल्ये समाविष्ट करा. वापरण्यासाठी क्लिक करा इच्छित स्तंभ निवडण्यासाठी आणि नंतर स्तंभापेक्षा कमी व्हॅल्यू प्रविष्ट करा.
  • या पेक्षा मोठे - केवळ परिभाषित मूल्यापेक्षा जास्त मूल्ये समाविष्ट करा. वापरण्यासाठी क्लिक करा इच्छित स्तंभ निवडण्यासाठी आणि नंतर स्तंभ पेक्षा जास्त पाहिजे मूल्य प्रविष्ट करा.

जेव्हा आपण वरीलपैकी एक ऑपरेशन निवडले आहे जे एकाधिक स्तंभांवर परिणाम करू शकते तर ते आपल्याला केवळ त्या स्तंभांच्या उपसेटवर किंवा त्या सर्वांना प्रभावित करण्याची परवानगी देऊ इच्छित असल्यास आपल्याला विचारेल. बर्‍याच बाबतीत आपल्याला हे पाहिजे आहे की ते सर्व स्तंभांवर प्रभाव टाकू शकेल, परंतु काही परिस्थितीत स्तंभांवर परिणाम मर्यादित करणे उपयुक्त आहे. उदाहरणार्थ, आपण मालिका निवडत असल्यास लेबले आणि मूल्ये, जे वेब पृष्ठांवर स्थिती बदलते आपण सर्व लेबले आणि मूल्ये निवडू शकता. नंतर डेटासेटमध्ये इच्छित लेबलपर्यंत मर्यादीत ठेवण्यासाठी समान ऑपरेशन वापरा आणि निर्दिष्ट करा की केवळ लेबल आणि मूल्य स्तंभांवर परिणाम व्हावा. हे सुनिश्चित करेल की पंक्ती हटविल्यामुळे इतर स्तंभ अप्रभावी आहेत, पूर्णतेसाठी ते लेबल स्तंभ लपविण्यासाठी उपयुक्त ठरेल.

एकदा आपण इच्छित सर्व गोष्टी सुधारित केल्यावर क्लिक करा पुढे आणि, आपल्या स्क्रॅप सूचना स्क्रॅपवर जोडल्या जातील. त्यानंतर आपणास आपली इच्छा असल्यास पुढील स्क्रॅप सूचना समाविष्ट करण्याचा पर्याय आहे.

वेबपृष्ठ हाताळत आहे

वेबपृष्ठ स्क्रॅप करण्यापूर्वी हाताळले जाऊ शकते, ड्रॉप डाऊन वरुन मूल्ये क्लिक करून, टाइप करुन आणि निवडून. हे लक्षात ठेवणे आवश्यक आहे की जरी यामुळे लागू होणार्‍या स्क्रॅप सूचना लागू होईपर्यंत स्क्रॅप सूचना लोड करण्यास नवीन वेबपृष्ठास कारणीभूत ठरू शकते.

वेबपृष्ठ हाताळण्यासाठी एकतर निवडा घटक क्लिक करा, एव्हर एलिमेंट, स्क्रोल करा, मजकूर टाइप करा or ड्रॉप डाऊन यादी मूल्य निवडा क्रिया. आपण क्लिक क्रिया करत असल्यास आपण वेबपृष्ठावरील असंख्य घटकांवर क्लिक करू शकता. अन्यथा आपण योग्य एचटीएमएल घटक निवडणे आवश्यक आहे, उदाहरणार्थ मजकूर मजकूर बॉक्समध्ये टाइप केला जावा. मग क्लिक करा पुढे. हे एक ऑप्शन बॉक्स उघडेल जो आपल्याला क्रिया पूर्ण करण्यास अनुमती देतो. मजकूर टाइप करताना आणि टाइप करणे किंवा निवडण्यासाठी डेटा ड्रॉपडाऊनमधून निवडणे अनुक्रमे निवडले जाणे आवश्यक आहे. त्याशिवाय सर्व तीन क्रियांसाठी पर्याय समान आहेत.

आपण इच्छित असल्यास आपण टेम्पलेट निवडू शकता ही कृती अंमलात आणली पाहिजे आणि क्लिक कृतीसाठी जे टेम्पलेट लागू होते, एकदा क्लिक क्रिया पूर्ण झाल्यावर. तथापि, एकाच पृष्ठावरील एकाधिक क्लिक्स केलेल्या क्लिक कृतीत नवीन टेम्पलेट नियुक्त करणे, इनलाइन पॉपअप उघडणे किंवा गोष्टी स्क्रीनवर दिसणे यासारखी चांगली कल्पना नाही. कारण क्लिक कृती काही विशिष्ट टेम्पलेटवरच अंमलात आणल्यास प्रथम क्लिकद्वारे नियुक्त केलेले नवीन टेम्पलेट रीसेट केले जाणार नाही आणि म्हणूनच स्क्रॅप कसे लिहिले गेले यावर अवलंबून, त्याच पृष्ठावरील भविष्यातील क्लिक थांबविण्यात येऊ शकतात. आपण ही क्रिया केवळ एकदाच अंमलात आणू इच्छित असल्यास आपण परिभाषित देखील करू शकता, जर आपण लॉगिनसारखे काहीतरी करत असाल तर उपयुक्त ठरेल intवेबसाइट.

मजकूर टाइप करा किंवा निवडा ड्रॉप डाऊन यादी मूल्य कृती आपल्याला अनुक्रमे मजकूराच्या एकाधिक आयटम टाइप करण्याची किंवा एकाधिक निवड बॉक्सची निवड करण्याची परवानगी देतात. स्क्रॅप सूचनांवर क्लिक करून हे संपादित केले जाऊ शकतात बदल किंवा पहा चल डावीकडील स्क्रीनशॉटमध्ये दर्शविल्याप्रमाणे बटण.

उदाहरणार्थ आपण शोध बॉक्सवर नावांची सूची टाइप करू इच्छित असल्यास हे महत्वाचे असू शकते. शोध बॉक्समध्ये जेव्हा मूल्य असेल तेव्हाच फॉर्म सबमिट केला जाईल हे सुनिश्चित करण्यासाठी प्रत्येक वेळी मजकूर यशस्वीरित्या टाइप केल्यावर एक टेम्पलेट सेट केले जाऊ शकते intहे टेम्पलेट सेट केल्याशिवाय मजकूरबॉक्स आणि बटणावर क्लिक कृती केली जात नाही. क्लिक कृती पूर्ण झाल्यानंतर प्रक्रिया पुन्हा रीसेट करण्यासाठी टेम्पलेटमध्ये दुसर्‍या कशा प्रकारे बदल करणे आवश्यक आहे.

वेबसाइट्समध्ये फेरफार करणार्‍या क्रियांची अंमलबजावणी केल्या गेल्यानंतर, स्क्रॅप सुरू ठेवण्यापूर्वी अ‍ॅजेक्स सामग्री लोड करण्यास परवानगी देण्यासाठी कृतींनी एजेक्स कार्यक्षमता सुरू केल्यास थोडा वेळ थांबणे उपयुक्त ठरेल. मध्ये विलंब जोडून आपण हे करू शकता एक्जीक्यूशन नंतर थांबा मजकूर बॉक्स.

एकदा काही शर्ती पूर्ण झाल्यावर आपण सरळ भिन्न URL वर जाण्याची इच्छा बाळगू शकता. हे करण्यासाठी URL वर जा क्रिया, जे केवळ तेव्हाच दिसून येईल जेव्हा स्क्रॅपमध्ये कमीतकमी एक टेम्पलेट परिभाषित केले गेले असेल आणि जेव्हा तयार केले जाईल तेव्हा त्यास टेम्पलेट नियुक्त केले जाणे आवश्यक आहे.

शेवटी आपण आपल्या वेब स्क्रॅप्समध्ये ग्रॅबझिटच्या कॅप्चर एपीआयचा सर्व वापरू शकता, फक्त कॅप्चर वेबपृष्ठ क्रिया निवडा आणि आपल्या इच्छित कॅप्चरची निवड करा. एकदा आपण निवडल्यानंतर आपण अंमलात आणण्यासाठी टेम्पलेट निर्दिष्ट करुन स्क्रॅपमधील काही वेबपृष्ठे कॅप्चर करण्यासाठी आपण यावर मर्यादा घालू शकता पुढे बटणावर क्लिक करा.

प्रत्येक स्क्रॅप सूचना जोडल्यानंतर ती स्क्रॅप सूचना पॅनेलमध्ये पाहिली जाऊ शकते, स्क्रॅपच्या प्रत्येक सूचनापुढील क्रॉस स्क्रॅप सूचना हटविण्यास अनुमती देते. इतर स्क्रॅप सूचनांद्वारे आवश्यक असलेली स्क्रॅप सूचना हटविली असल्यास त्या सूचना देखील हटविल्या जातात. आपण हडपण्याच्या चिन्हासह कोणत्याही स्क्रॅप सूचना ड्रॅग करून स्क्रॅप सूचनांचे क्रम बदलू शकता.

स्क्रॅप सूचना स्वहस्ते लिहिणे

आपल्याला अधिक विशिष्ट मार्गाने स्क्रॅप सूचना सानुकूलित करण्याची आवश्यकता असल्यास किंवा आपल्याला कोड लागू करण्याची इच्छा असल्यास स्क्रॅप आधी किंवा नंतर आपल्याला स्क्रॅप सूचना स्वहस्ते बदलण्याची आवश्यकता असेल.

स्क्रॅप सूचना जावास्क्रिप्ट आधारित आहेत आणि कोड एडिटर सिंटॅक्स तपासकसह पूर्ण, स्वयंपूर्ण आणि टूलटिप शक्य तितके सुलभ करण्यासाठी.

वेब स्क्रॅपर सूचना कोड संपादकाची मुख्य कार्यक्षमता मेनू पर्यायांद्वारे प्रवेशयोग्य आहे, स्क्रीनशॉटमध्ये दर्शविल्यानुसार, प्रत्येकचा हेतू खाली स्वतंत्रपणे स्पष्ट केला आहे. आपल्या स्क्रॅप सूचनांमधील कोणत्याही वाक्यरचना त्रुटी कोड संपादकाच्या डाव्या हाताच्या गटारात दर्शविल्या गेल्या आहेत.

विझार्ड विझार्ड आपल्याला आपल्यास पृष्ठावरील काही भाग निवडण्याची परवानगी देतो ज्यास आपण अर्क घेऊ इच्छिता आणि वेब कॅप्चर तयार करणे यासारखी इतर सामान्य कार्ये करू शकता.

स्क्रॅप सूचना दर्शवा वापरकर्त्यास स्क्रॅप सूचना कोड प्रदर्शित करते.

सर्व सूचना हटवा सर्व स्क्रॅप सूचना हटविते.

वेबपृष्ठ कार्ये पृष्ठ कीवर्ड प्रविष्ट करेल into स्क्रॅप सूचना आणि स्वयं-पूर्ण उघडा, ज्यात सर्व शक्य आहे पृष्ठ कार्ये. पृष्ठ कार्ये आपल्याला वेब पृष्ठावरून डेटा काढू देतात.

डेटा कार्ये डेटा कीवर्ड प्रविष्ट करेल intओ स्क्रॅप सूचना. डेटा कार्ये आपल्याला परवानगी save माहिती.

नॅव्हिगेशनची कार्ये नेव्हिगेशन कीवर्ड प्रविष्ट करते intकोड कोड. द नॅव्हिगेशन फंक्शन्स वेब स्क्रॅपर लक्ष्य वेबसाइटवर कसे नेव्हिगेट करते हे नियंत्रित करण्याची आपल्याला परवानगी देते.

जागतिक कार्ये ग्लोबल कीवर्डमध्ये प्रवेश करते intओ स्क्रॅप सूचना. हे आपल्याला प्रवेश देते कार्ये जी विविध वेब पृष्ठे विश्लेषित करण्या दरम्यान डेटा संग्रहित करू शकते. स्क्रॅप सूचना लिहिताना हे लक्षात ठेवणे आवश्यक आहे की स्क्रॅपर वेबपृष्ठांदरम्यान फिरत असताना स्क्रॅप सूचनांमध्ये जावास्क्रिप्ट व्हेरिएबल्सची स्थिती ठेवली जात नाही, जोपर्यंत आपण ग्लोबल फंक्शन्स वापरत नाही save खाली दर्शविल्या प्रमाणे चल.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

खाली दर्शविल्या प्रमाणे ग्लोबल.सेट मेथड मध्ये पर्सिस्टंट पॅरामिटर बरोबर पर्सिस्टंट ग्लोबल व्हेरिएबल पास तयार करण्यासाठी.

Global.set("myvariable", "hello", true);

उपयुक्तता कार्ये युटिलिटी कीवर्डमध्ये प्रवेश करते intओ स्क्रॅप सूचना. हे आपल्याला वापरण्याची परवानगी देते सामान्य कार्ये जे क्वेरी जोडणे किंवा काढणे यासारखे स्क्रॅप्स लिहिणे सोपे करतेstring URL मधील मापदंड.

निकष कार्ये निकष कीवर्ड प्रविष्ट करते intओ स्क्रॅप सूचना. या कार्ये डुप्लिकेट्स काढून टाकण्यासारख्या स्क्रॅपच्या वेळी काढलेला डेटा आपल्याला परिष्कृत करण्याची परवानगी देतो.

फिल्टर आपल्याला सहजपणे एक फिल्टर तयार करण्यास अनुमती देते, वेब पृष्ठामधून विशिष्ट HTML घटक निवडण्यासाठी हे काही फंक्शनद्वारे आवश्यक आहे. आपल्या लक्ष्य घटकाची आणि / किंवा घटकाच्या पालकांनी (ती) ती घटक निवडणे आवश्यक आहे असे सहजतेने निवडा. आपण या पर्यायावर क्लिक करण्यापूर्वी आपला कर्सरदेखील फिल्टरमध्ये पास होण्यासाठी फंक्शनमध्ये योग्य ठिकाणी आहे याची खात्री करा.

स्क्रीनशॉट कार्ये आपल्याला स्क्रीनशॉट पर्याय सेट करण्याची परवानगी देते. टूलटिपने ओळखल्याप्रमाणे फंक्शनच्या योग्य भागामध्ये कर्सर ठेवा आणि स्क्रीनशॉट पर्याय दाबा. नंतर आपल्याला पाहिजे असलेले सर्व पर्याय निवडा आणि आज्ञा घाला.

स्क्रॅपच्या आधी किंवा नंतर क्रिया करणे

आपण स्क्रॅप करण्यापूर्वी किंवा नंतर स्क्रॅप सूचना टॅबच्या शीर्षस्थानी असलेल्या पर्यायांची ड्रॉप डाऊन सूची वापरुन आज्ञा चालवू शकता. कोणतीही आज्ञा प्रविष्ट केल्या तेव्हा स्क्रॅप नंतर कार्यान्वित करा निवडलेले स्क्रॅप समाप्त झाल्यानंतर चालविले जाईल. कुठल्याही कमांड एन्टर केल्या असताना स्क्रॅप करण्यापूर्वी कार्यान्वित करा निवडलेले असल्यास स्क्रॅप सुरू होण्यापूर्वी चालवले जाईल.

तथापि जेव्हा या दोनपैकी कोणत्याही विशेष मोडमध्ये स्क्रॅप सूचनांचे फक्त एक उपसेट उपलब्ध असेल. डेटा, ग्लोबल आणि नॅव्हिगेशन स्क्रॅप सूचना उपलब्ध आहेत.

स्ट्रिंग्स

Stringमजकूर परिभाषित करण्यासाठी वेब स्क्रॅप करत असताना स्क्रॅप सूचनांमध्ये एस चा वापर केला जातो. ए string दुहेरी द्वारे मर्यादा घातलेले आहे (") किंवा एकच कोट ('). जर ए string दुहेरी कोट ने सुरू केले आहे ते दुहेरी कोटसह समाप्त झाले पाहिजे, जर a string एका कोटपासून सुरू होते ते एका कोटसह समाप्त होणे आवश्यक आहे. उदाहरणार्थ:

"my-class" आणि 'my-class'

उद्भवू शकणारी सामान्य चूक म्हणजे न बंद केलेली string चूक, जेव्हा ए string वर दर्शविल्यानुसार बंद होणारा कोट नाही किंवा मध्ये लाइन ब्रेक आहे string. खालील बेकायदेशीर आहेत strings:

"my
class"

"my class

या त्रुटीचे निराकरण करणे हे आहे की त्यांच्यात लाइन ब्रेक नसतात आणि जुळणारे कोट्स नाहीत, जसे की:

"my class" आणि "my class"

कधीकधी आपल्याला ए मध्ये एकच किंवा डबल कोट दिसू इच्छित आहे string. ए मध्ये एकच कोट ठेवणे हे करण्याचा सर्वात सोपा मार्ग string ए मध्ये दुहेरी अवतरण आणि डबल कोटसह सीमांकित string एकल कोट्यांसह सीमांकित, जसे की:

"Bob's shop" आणि '"The best store on the web"'

वैकल्पिकरित्या आपण अशा कोट सुटण्यासाठी बॅकस्लॅश वापरू शकता:

'test\'s'

सामान्य मॅन्युअल स्क्रॅप कार्ये

दुवा तपासक सानुकूल दुवा तपासक तयार करा - या सोप्या सूचनांचे अनुसरण करून सानुकूल दुवा तपासक कसा तयार करायचा ते शोधा.
प्रतिमा डाउनलोड वेबसाइटवरून सर्व प्रतिमा डाउनलोड करा - संपूर्ण वेबसाइटवरून सर्व प्रतिमा कशी डाउनलोड कराव्यात ते शोधा.
डेटासेट तयार करा डेटा काढा आणि त्याचे रूपांतर करा intओए डेटासेट - आपण स्क्रॅप करीत असलेल्या वेबसाइटवरून डेटासेट कसा तयार करावा ते शोधा.
दुवे काढा वेबसाइटवरून दुवे काढा - संपूर्ण वेबसाइट वरून सर्व HTML दुवे कसे मिळवायचे ते शोधा save आपण इच्छित स्वरूपात ते.
मजकूर निवडा नमुन्यांचा वापर करून मजकूरातून मूल्ये काढत आहे - मजकूराच्या अवरोधातून मूल्ये काढण्यासाठी नमुने कसे वापरायचे ते शोधा.
OCR प्रतिमांमधून मजकूर काढा - प्रतिमांमधील मजकूर कसा काढायचा ते शोधा.
डेटासेट डेटासेट पॅड कसा करावा - पॅडिंगचा वापर करुन आपल्यास काढलेल्या डेटाचे अधिक चांगले स्वरूपित करा.
अरे अ‍ॅरे हाताळणे - स्क्रॅप्समधील अ‍ॅरे सहजपणे हाताळण्यासाठी विशेष अ‍ॅरे युटिलिटी पद्धती कशा वापरायच्या हे जाणून घ्या.
कृती स्क्रॅप दरम्यान फक्त एकदाच क्रिया करा - संपूर्ण स्क्रॅप दरम्यान फक्त एकदाच क्रिया कशी करावी हे जाणून घ्या.
परिष्कृत करा स्क्रॅप केलेला डेटा परिष्कृत करीत आहे - आपल्या स्क्रॅपमधून आवश्यक नसलेला डेटा कसा काढायचा ते शोधा.
ई-मेल पत्ता वेबसाइटवरील ईमेल पत्ते स्क्रॅप करा - वेबसाइटवरील सर्व ईमेल पत्ते कशाप्रकारे काढायचे ते शोधा.
स्क्रीनशॉट संपूर्ण वेबसाइटचा स्क्रीनशॉट into पीडीएफ किंवा प्रतिमा - संपूर्ण वेबसाइटचे प्रत्येक पृष्ठ कॅप्चर करण्यासाठी ग्रॅबझिटचे वेब स्क्रॅपर कसे वापरावे ते शोधा.
स्क्रीनशॉट अप्रबंधित मजकूरातून संरचित माहिती काढा - भावना, नावे, स्थाने आणि संस्था काढण्यासाठी GrabzIt वापरा.

HTML व्यतिरिक्त इतर सामग्री स्क्रॅप करणे

जेव्हा वेब स्क्रॅपर पीडीएफ, एक्सएमएल, जेएसओएन आणि आरएसएस वर येते तेव्हा ते त्यास एचटीएमएल अंदाजे रुपांतरित करते, जे आमच्या वेब स्क्रॅपरला त्यास अचूकपणे विश्लेषित करण्यास अनुमती देते आणि आपण कोणती सामग्री काढू इच्छिता ते निवडण्यासाठी. उदाहरणार्थ, आपण JSON डेटा विश्लेषित करू इच्छित असल्यास ते डेटा रूपांतरित करेल intबाजूला दर्शविल्याप्रमाणे ओएएआरएआरएचएल एचटीएमएल प्रतिनिधित्व. हे आपल्याला सामान्य सारखे स्क्रॅप सूचना तयार करण्यास अनुमती देते.

अशाच प्रकारे जेव्हा स्क्रॅपर पीडीएफ दस्तऐवज लोड करतो, तेव्हा पीडीएफ रूपांतरित होते into प्रतिमा, हायपरलिंक्स, मजकूर आणि सारण्या निवडण्यासाठी आणि स्क्रॅप करण्यास अनुमती देण्यासाठी एचटीएमएल. तथापि, पीडीएफमध्ये कोणतीही वास्तविक रचना नसल्यामुळे, टेबल्स हे्यूरिस्टिक्सचा वापर करून ओळखले जातात आणि त्यामुळे नेहमीच अचूक नसते.

निर्यात पर्याय

हा टॅब आपल्याला आपल्या परीणामांची एक्सेल स्प्रेडशीट, एक्सएमएल, जेएसओएन, सीएसव्ही, एसक्यूएल आदेश किंवा एचटीएमएल दस्तऐवज यासह आपले पर्याय निर्यात कसे करू इच्छिता हे निवडण्याची परवानगी देतो. या व्यतिरिक्त, हा टॅब झिप केलेल्या स्क्रॅप परिणामांच्या नावास सेट करण्यास अनुमती देतो. आपण केवळ फायली डाउनलोड करत असल्यास किंवा वेब कॅप्चर तयार करत असल्यास आपल्याला निर्यात पर्याय निवडण्याची आवश्यकता नाही कारण आपल्याला फक्त एक झिप फाइल मिळेल ज्यामध्ये आपल्याला परिणाम असतील. हा टॅब आपणास निकाल कसा पाठवायचा आहे हे निर्दिष्ट करण्याची परवानगी देतो. आपण मार्गे परिणाम पाठवू शकता ऍमेझॉन S3, ड्रॉपबॉक्स, ईमेल सूचना, FTP, आणि वेबडॅव.

अंतिम पर्याय म्हणजे एक कॉलबॅक यूआरएल, जो आमचा वापर करुन आपल्या अनुप्रयोगात स्क्रॅप परिणामांवर प्रक्रिया करण्यास अनुमती देते स्क्रॅप API.

झिप केलेल्या निकालांचे फाइलनाव किंवा प्रत्येक डेटा फाईल आपण त्यांना स्वतंत्रपणे पाठविण्याची विनंती केल्यास डिफॉल्ट फाइलनाव वापरा पर्याय अनचेक करून आणि आपले इच्छित फाइलनाव सेट करुन सेट केले जाऊ शकते.

आपण यावर क्लिक करून स्क्रॅपचे परिणाम देखील पाहू शकता परिणाम पहा बटण, पुढे आपली खरडपट्टी, हे कोणतेही रिअल-टाईम स्क्रॅप परिणाम दर्शवेल, तसेच मागील 48 तासात केलेले मागील परिणाम. .

शेड्यूल स्क्रॅप

एखादे वेब स्क्रॅप तयार करताना शेड्यूल स्क्रॅप टॅब आपल्याला स्क्रॅप कधी सुरू करायचा आहे आणि आपण त्याची पुनरावृत्ती करू इच्छित असल्यास सेट करण्यास अनुमती देते, तसे वारंवार करावे.

देखरेख आणि डीबगिंग स्क्रॅप्स

एकदा वेब स्क्रॅप चालू झाले की स्थिती प्रतीक त्यामध्ये बदलेल आणि प्रक्रिया केलेली पृष्ठे कालांतराने वाढू लागतील. स्क्रॅप प्रगतीचा रिअल टाइम स्नॅपशॉट नियमितपणे तयार केला जातो लॉग साइटसह अंतिम वेबपृष्ठावरील नियमित स्क्रीनशॉटसह ज्यास स्क्रॅपरचा सामना करावा लागला. हे आपल्याला स्क्रॅप दरम्यान काय होत आहे ते पाहण्याची परवानगी देते. ही माहिती शोधण्यासाठी आपल्या स्क्रॅपच्या पुढील विस्तारित चिन्हावर क्लिक करा आणि क्लिक करा दर्शक आपण आहात खरडण्यासाठी intआपल्यास स्क्रॅप करण्याच्या सूचनांसह काही त्रुटी असल्यास त्याबद्दल हे तपशीलवार असले पाहिजे.

एकदा स्क्रॅप यशस्वीरित्या पूर्ण झाल्यावर स्थिती चिन्ह वर जाईल , जर व्ह्यूअर उघडून कोणताही निकाल लागला नाही तर लॉग आणि शेवटचा स्क्रीनशॉट काय चूक झाली ते सांगेल.

लॉगमध्ये नोंदविलेल्या सर्वात सामान्य समस्यांपैकी एक म्हणजे पृष्ठ स्क्रॅप करण्यास पुरेशी देण्यास विलंब होत नाही, बर्‍याचदा पृष्ठ लोड विलंब मध्ये आढळले स्क्रॅप पर्याय बहुतेक वेबसाइट्ससाठी टॅब पुरेसा आहे.