वेब कॅप्चर आणि रूपांतरित करण्यासाठी साधने

ग्रॅबझिटचा वेब स्क्रॅपर रोबोट्स.टी.टी.टी. फाईलचा आदर करतो?

आमच्या वेब स्क्रॅपरला वेबसाइट्स रोबोट.टेक्स्ट फाईलमध्ये आढळणार्‍या नियमांचा आदर करावा लागतो. छान असण्याव्यतिरिक्त यामागील मुख्य कारणांपैकी एक म्हणजे रोबोट.टेक्स्ट फाईलचे अनुसरण न करणार्‍या वेब स्क्रॅपर्सना स्वतःला हनीपॉट सेवेद्वारे काळ्या सूचीत आणले जाऊ शकते.

वेबसाइटवरून दुवा साधलेल्या एखाद्या विशिष्ट फाईलला भेट देऊ नका असे वेब स्क्रॅपरला सांगण्यासाठी या सेवा robots.txt वापरतात. वेब स्क्रॅपर अद्याप फाइलला भेट देत असेल तर भविष्यात वेब स्क्रॅपला वेबसाइटवर भेट देण्यापासून प्रतिबंधित करणारा वेब स्क्रॅपर्स आयपी पत्ता काळ्यासूचीबद्ध केलेला आहे.