वेब कॅप्चर आणि रूपांतरित करण्यासाठी साधने

वेबसाइट आणि त्याची सर्व सामग्री कशी डाउनलोड करावी?

वेबसाईट

अशी काही उदाहरणे आहेत जेव्हा संपूर्ण वेबसाइट डाउनलोड करणे महत्वाचे असते, केवळ समाप्त परिणाम नाही. परंतु एचटीएमएल वेब पृष्ठे, सीएसएस, स्क्रिप्ट आणि प्रतिमा यासारखी संसाधने.

हे कदाचित आपल्याला कोडचा बॅकअप हवा असेल म्हणून परंतु यापुढे काही कारणास्तव मूळ स्त्रोतावर येऊ शकत नाही. किंवा कदाचित आपल्याला वेळोवेळी वेबसाइट कशी बदलली गेली याबद्दल तपशीलवार रेकॉर्ड पाहिजे आहे.

सुदैवाने GrabzIt चे वेब स्क्रॅपर वेबसाइटवरील सर्व वेब पृष्ठांवर रेंगाळवून हे प्राप्त करू शकते. मग प्रत्येक वेब पृष्ठावरील स्क्रॅपर पृष्ठावरील संदर्भित कोणत्याही संसाधनांसह HTML डाउनलोड करते.

संपूर्ण वेबसाइट डाउनलोड करण्यासाठी स्क्रॅप तयार करा

आपली वेबसाइट डाउनलोड करणे शक्य तितके सोपे करण्यासाठी GrabzIt एक स्क्रॅप टेम्पलेट प्रदान करते.

प्रारंभ करण्यासाठी हे टेम्पलेट लोड करा.

मग आपल्या प्रविष्ट करा लक्ष्य URL, नंतर ही URL त्रुटी आणि आवश्यक बदल करण्यासाठी स्वयंचलितपणे तपासली जाते. ते ठेव स्क्रॅप स्वयंचलितपणे प्रारंभ करा चेकबॉक्स टिकले आणि आपला स्क्रॅप स्वयंचलितपणे सुरू होईल.

आपले स्क्रॅप सानुकूलित करीत आहे

आपण टेम्पलेट बदलू इच्छित असल्यास, अनचेक करा स्क्रॅप स्वयंचलितपणे प्रारंभ करा चेकबॉक्स एक बदल म्हणजे नियमित वेळापत्रकात स्क्रॅप चालवणे, उदाहरणार्थ वेबसाइटच्या नियमित प्रती तयार करणे. वर शेड्यूल स्क्रॅप टॅबवर, फक्त क्लिक करा पुन्हा पुन्हा स्क्रॅप करा चेकबॉक्स आणि नंतर आपण कितीदा पुन्हा स्क्रॅप पुन्हा पुन्हा इच्छित आहात ते निवडा. मग क्लिक करा सुधारणा स्क्रॅप सुरू करण्यासाठी

आपल्या डाउनलोड वेबसाइट वापरणे

एकदा स्क्रॅप समाप्त झाल्यावर आपल्याला एक झिप फाइल मिळेल. पुढे झिप फाईलचा अर्क काढा आणि त्या अंतर्गत फाइल्स नावाच्या निर्देशिकेत असलेले डाउनलोड केलेले सर्व वेब पृष्ठे आणि वेबसाइट संसाधने असतील. डिरेक्टरीच्या मुळामध्ये एक विशेष एचटीएमएल पृष्ठ देखील असेल ज्याला डेटा एचटीएमएल म्हटले जाईल. वेब ब्राउझरमध्ये ही फाईल उघडा आणि आपल्याला तीन स्तंभांसह एक HTML सारणी आढळेलः

  • स्त्रोत URL - ही वेब स्क्रॅपने संसाधनास शोधणारी URL आहे. तर उदाहरणार्थ: http://www.example.com/logo.jog
  • स्त्रोत प्रकार - हा स्त्रोत डाउनलोड झाला होता. चार प्रकारचे स्त्रोत आहेत.
    • वेब पृष्ठ
    • प्रतिमा
    • बाह्य संसाधन - दुवा टॅग वरुन डाउनलोड केलेले कोणतेही संसाधन
    • स्क्रिप्ट
  • नवीन फाइल नाव - स्त्रोत असे नवीन फाइल नाव saveअंतर्गत. लक्षात ठेवा की या स्तंभात फायलीचा दुवा देखील आहे, जे डाउनलोड केलेल्या सर्व संसाधनांची तपासणी करणे अधिक सुलभ करते.

ही फाईल आपल्याला नवीन फाइलनावे जुन्या स्थानांवर मॅप करण्यात मदत करण्यासाठी डिझाइन केली आहे. हे आवश्यक आहे कारण URL फाईल स्ट्रक्चरमध्ये थेट मॅप करणे शक्य नाही कारण URL थेट फाइल पथात संग्रहित करणे खूपच मोठे असू शकते.

तसेच बर्‍याच परवानग्या असू शकतात खासकरुन जेव्हा वेब पृष्ठ विविध क्वेरी बदलून बर्‍याच भिन्न सामग्रीचे प्रतिनिधित्व करू शकते string मापदंड! त्याऐवजी आम्ही फाईल फोल्डरमध्ये सपाट संरचनेत वेबसाइट संचयित करतो आणि या फायली मूळ रचनेवर नकाशा करण्यासाठी आपल्याला डेटा एचटीएमएल फाइल देतो.

नक्कीच यामुळे आपण डाउनलोड केलेले HTML पृष्ठ उघडू शकत नाही आणि आपण वेबवर पाहिलेले वेब पृष्ठ पाहण्याची अपेक्षा करू शकता. हे करण्यासाठी आपल्याला प्रतिमेचे पथ, स्क्रिप्ट आणि सीएसएस संसाधने इ. पुन्हा लिहिणे आवश्यक आहे जेणेकरुन HTML फाइल आपल्या स्थानिक फाइल संरचनेत सापडेल.

झिप फाईलच्या मुळामध्ये समाविष्ट केलेली आणखी एक फाईल आहे Website.csv. यात डेटा एचटीएमएल फाईलसारखीच माहिती आहे. तथापि आपण डाउनलोड केलेल्या वेबसाइटला पुन्हा तयार करण्यासाठी URL च्या फाइल्समधील मॅपिंगचा वापर करून प्रोग्रॅमॅटिकरित्या वेबसाइट डाउनलोड वाचण्याची आणि त्यावर प्रक्रिया करण्याची इच्छा असल्यास हे समाविष्ट केले आहे.