वेब कॅप्चर आणि रूपांतरित करण्यासाठी साधने

अप्रचलित मजकूरातून स्वयंचलितपणे संरचित माहिती कशी काढायची?

सामान्य लिखित मजकूरामध्ये बरीच माहिती समाविष्ट असू शकते जी सहज काढता येणार नाही. उदाहरणार्थ एखादे वाक्य कदाचित एखाद्या कंपनीबद्दलचे पुनरावलोकन असू शकते परंतु ते चांगले किंवा वाईट पुनरावलोकन आहे की नाही हे आपल्याला कसे समजेल?

सामान्य वेब स्क्रॅपर ही माहिती काढण्यात सक्षम होणार नाही. तथापि GrabzIt हे नैसर्गिक भाषा प्रक्रियेच्या क्षमतेत तयार केलेले वापरुन करू शकते. खाली दिलेल्या उदाहरणाप्रमाणेच, पृष्ठ मजकुराचे विश्लेषण केले गेले आहे आणि खालीलपैकी एक मूल्य खूप नकारात्मक, नकारात्मक, तटस्थ, सकारात्मक आणि खूप सकारात्मक आहे.

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

तरी GrabzIt चे वेब स्क्रॅपर भाषा शोध, स्थानांची नावे, लोकांची नावे आणि संघटनांची नावे यासह मजकूरातून बरेच काही काढू शकते. खाली दिलेली उदाहरणे.

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

आपणास यापैकी कोणतीही स्क्रॅप सूचना स्वतःच लिहिण्याची आवश्यकता नाही, कारण जेव्हा आपण आमच्या स्क्रॅपर विझार्डमध्ये लागू होणारे HTML घटक निवडता तेव्हा त्या आपोआप दिसून येतील.