सर्वप्रथम डाउनलोड प्रारंभ करण्यासाठी नमुना वेब प्रोजेक्टमध्ये असलेल्या एएसपी.नेट आणि वेबवरील स्क्रॅपर एपीपी तपासणी करा.
स्क्रॅप केलेल्या डेटावर प्रक्रिया करण्याचा सर्वात सोपा मार्ग म्हणजे जेएसओएन किंवा एक्सएमएल ऑब्जेक्ट म्हणून डेटामध्ये प्रवेश करणे, कारण यामुळे डेटा सहजपणे हाताळला जाऊ शकतो आणि चौकशी केली जाऊ शकते. JSON खालील सर्वसाधारण स्वरूपात डेटासेट नावाने ऑब्जेक्ट विशेषता म्हणून संरचित केले जाईल, ज्यात स्वतःच प्रत्येक स्तंभ नावाचे ऑब्जेक्ट्सचे अॅरे असते ज्यास दुसर्या विशेषता आहेत.
{ "Items": [ { "Column_One": "https://grabz.it/", "Column_Two": "Found" }, { "Column_One": "http://dfadsdsa.com/", "Column_Two": "Missing" }] }
सर्व प्रथम हे लक्षात ठेवणे आवश्यक आहे की हँडलरला सर्व स्क्रॅप केलेला डेटा पाठविला जाईल, ज्यामध्ये जेएसओएन किंवा एक्सएमएल ऑब्जेक्ट्समध्ये रुपांतरित न होऊ शकणारा डेटा असू शकेल. म्हणूनच प्रक्रिया करण्यापूर्वी आपण प्राप्त करीत असलेल्या डेटाचा प्रकार तपासला जाणे आवश्यक आहे.
तथापि एएसपी.नेट एपीआय सह जेएसओएन किंवा एक्सएमएल फायली वाचण्यासाठी अतिरिक्त चरण आवश्यक आहे, ज्यामध्ये वर्ग तयार केले जातात जे अपेक्षित डेटा स्ट्रक्चरशी जुळतात. खाली दिलेली JSON डेटा स्ट्रक्चर ठेवण्यासाठी दोन वर्ग परिभाषा तयार केल्याचे याचे उदाहरण खाली दिले आहे.
public class DataSet { public List<Item> Items; } public class Item { public string Column_One; public string Column_Two; }
हे वर्ग आता जेएसओएन फाइल रूपांतरित करण्यासाठी वापरले जात आहेत intवापरण्यायोग्य ऑब्जेक्ट स्ट्रक्चर. खाली स्क्रॅपरेस्ल्ट कन्स्ट्रक्टरच्या उदाहरणामध्ये एचटीपीपीकेक्वेस्ट क्लास प्राप्त होत आहे, तथापि ते एएसपी.नेट नेट एमव्हीसी वेब प्रोजेक्ट्सशी सुसंगत करण्यासाठी एचटीपीआरक्वेस्टबेस क्लास देखील स्वीकारतो.
ScrapeResult scrapeResult = new ScrapeResult(context.Request); if (scrapeResult.Extension == "json") { DataSet dataSet = scrapeResult.FromJSON<DataSet>(); foreach (Item item in dataSet.Items) { if (item.Column_Two == "Found") { //do something } else { //do something else } } } else { //probably a binary file etc save it scrapeResult.save(context.Server.MapPath("~/results/" + scrapeResult.Filename)); }
उपरोक्त उदाहरण डेटासेट वर्गाच्या सर्व परीणामांमधून पळवाट कशी काढायची हे दर्शविते आणि च्या मूल्याच्या आधारावर विशिष्ट क्रिया कसे करतात Column_Two
मालमत्ता. हँडलरकडून प्राप्त केलेली फाईल जेएसओएन फाइल नसल्यास ती फक्त योग्य आहे saveडी परिणामांची निर्देशिका. ScrapeResult क्लास सर्व पोस्ट केलेल्या फायली GrabzIt च्या सर्व्हरमधून उद्भवल्या आहेत हे सुनिश्चित करण्याचा प्रयत्न करीत असताना फायलींचा विस्तार देखील होण्यापूर्वी तपासला गेला पाहिजे. saved.
स्क्रॅपरेस्सल्ट क्लासच्या सर्व पद्धती आणि गुणधर्म खाली सूचीबद्ध केल्या आहेत ज्याचा वापर स्क्रॅप परिणामांवर प्रक्रिया करण्यासाठी केला जाऊ शकतो.
आपल्या ASP.NET हँडलर डीबग करण्याचा उत्तम मार्ग म्हणजे वरून स्क्रॅपसाठी निकाल डाउनलोड करणे वेब स्क्रॅप्स पृष्ठ, save आपणास फाईलमध्ये प्रवेश करण्यायोग्य ठिकाणी समस्या येत आहे आणि नंतर त्या फाईलचा मार्ग स्क्रॅपरेस्ल्ट क्लासच्या कन्स्ट्रक्टरकडे द्या. हे खाली दर्शविल्यानुसार प्रत्येक वेळी नवीन स्क्रॅप न करता आपल्या हँडलर डीबग करण्यास अनुमती देते.
ScrapeResult scrapeResult = new ScrapeResult("data.json"); #the rest of your handler code remains the same
गरबझीटच्या वेब स्क्रॅपर एपीआयसह आपण स्क्रॅपची ती स्थिती देखील बदलू शकता, आवश्यकतेनुसार स्क्रॅप सुरू करणे, थांबविणे किंवा अक्षम करणे. हे खाली दिलेल्या उदाहरणात स्क्रॅपचा आयडी पास करून प्रदान केलेल्या इच्छित स्क्रॅप स्थितीसह दर्शविले आहे ScrapeStatus
करण्यासाठी enum SetScrapeStatus
पद्धत
GrabzItScrapeClient client = new GrabzItScrapeClient("Sign in to view your Application Key", "Sign in to view your Application Secret"); //Get all of our scrapes GrabzItScrape[] myScrapes = client.GetScrapes(); if (myScrapes.Length == 0) { throw new Exception("You haven't created any scrapes yet! Create one here: https://grabz.it/scraper/scrape/"); } //Start the first scrape client.SetScrapeStatus(myScrapes[0].ID, ScrapeStatus.Start); if (myScrapes[0].Results.Length > 0) { //re-send first scrape result if it exists client.SendResult(myScrapes[0].ID, myScrapes[0].Results[0].ID); }
खाली सूचीबद्ध केलेल्या सर्व प्रकारच्या पद्धती आणि गुणधर्म खाली स्क्रॅप्स नियंत्रित करण्यासाठी वापरल्या जाणार्या ग्रॅबझिटस्क्रेप क्लायंट वर्गाच्या आहेत.