एचडीएमएल दस्तऐवजांमधून डेटा स्क्रॅप करणे इतके लवचिक नाही परंतु तरीही असे बरेच मार्ग आहेत ज्याद्वारे हे शक्य आहे. GrabzIt चे वेब स्क्रॅपर. आपण वापरत असलेली पीडीएफ सामग्री खरबरीत करण्यासाठी PDF
ऐवजी कार्ये Page
कार्ये परंतु अन्यथा कार्ये समान प्रकारे कार्य करतात.
एचडीएमएल दस्तऐवजासाठी पीडीएफ दस्तऐवजासाठी फिल्टर हे अगदी सोपे आहे सर्वप्रथम आपण कोणत्या प्रकारची सामग्री काढू इच्छिता ते निर्दिष्ट करणे आवश्यक आहे: दुवे, प्रतिमा किंवा मजकूर.
//Extract images PDF.getValue({"type":"image"}); //Extract links PDF.getValue({"type":"link"}); //Extract text PDF.getValue({"type":"text"});
दुवे आणि प्रतिमांसाठी आपण कोणत्या प्रतिमा किंवा दुव्याची स्थिती निर्दिष्ट करुन परत केली आहे हे प्रतिबंधित करू शकता.
PDF.getValue({"type":"image","position":"2"});
डॉक्युमेंटमध्ये दुसरी प्रतिमा मिळते. मजकूर, प्रतिमा आणि दुव्यांसाठी आपण पृष्ठ क्रमांक निर्दिष्ट करुन परत आलेल्या डेटावर प्रतिबंधित करू शकता.
PDF.getValue({"type":"image","position":"2","page":"5"});
हे पाचव्या पृष्ठावरील दुसरी प्रतिमा परत करेल. मजकूर लाइन नंबरच्या जोडलेल्या पर्यायासह येतो, परंतु मजकूर स्थानास समर्थन देत नाही.
PDF.getValue({"type":"text","page":"5","line":"10"});
हे पाचव्या पृष्ठावरील मजकूराची दहावी ओळ मिळते. या दस्तऐवजांमधून डेटा स्क्रॅप करणे या फिल्टर पर्यायांशिवाय भिन्नता देखील अशाच प्रकारे कार्य करते एचटीएमएल दस्तऐवजांमधून डेटा स्क्रॅप करणेतथापि, आपण पीडीएफ फिल्टरने जे काढता तेवढे आपण विशिष्ट असू शकत नाही कारण आपल्याला निर्दिष्ट करणे आवश्यक आहे नमुना मजकूरातून योग्य माहिती काढण्यासाठी.