Scrapy - ภาพรวม
Scrapy เป็นเฟรมเวิร์กการรวบรวมข้อมูลเว็บแบบโอเพนซอร์สที่รวดเร็วซึ่งเขียนด้วย Python ซึ่งใช้ในการดึงข้อมูลจากหน้าเว็บด้วยความช่วยเหลือของตัวเลือกตาม XPath
Scrapy เปิดตัวครั้งแรกเมื่อวันที่ 26 มิถุนายน 2551 ได้รับอนุญาตภายใต้ BSD โดยมีการเปิดตัว 1.0 ครั้งในเดือนมิถุนายน 2558
ทำไมต้องใช้ Scrapy?
สร้างและปรับขนาดโครงการรวบรวมข้อมูลขนาดใหญ่ได้ง่ายกว่า
มีกลไกในตัวที่เรียกว่า Selectors สำหรับการดึงข้อมูลจากเว็บไซต์
จัดการคำขอแบบอะซิงโครนัสและรวดเร็ว
จะปรับความเร็วในการรวบรวมข้อมูลโดยอัตโนมัติโดยใช้กลไกการควบคุมปริมาณอัตโนมัติ
รับรองการเข้าถึงของนักพัฒนา
คุณสมบัติของ Scrapy
Scrapy เป็นโอเพ่นซอร์สและใช้กรอบการรวบรวมข้อมูลเว็บได้ฟรี
Scrapy สร้างการส่งออกฟีดในรูปแบบเช่น JSON, CSV และ XML
Scrapy มีการสนับสนุนในตัวสำหรับการเลือกและแยกข้อมูลจากแหล่งที่มาโดยใช้นิพจน์ XPath หรือ CSS
Scrapy ขึ้นอยู่กับโปรแกรมรวบรวมข้อมูลช่วยให้สามารถดึงข้อมูลจากหน้าเว็บได้โดยอัตโนมัติ
ข้อดี
Scrapy สามารถขยายได้ง่ายรวดเร็วและทรงพลัง
เป็นกรอบแอปพลิเคชันข้ามแพลตฟอร์ม (Windows, Linux, Mac OS และ BSD)
คำขอ Scrapy มีกำหนดเวลาและประมวลผลแบบอะซิงโครนัส
Scrapy มาพร้อมกับบริการในตัวที่เรียกว่า Scrapyd ซึ่งอนุญาตให้อัปโหลดโปรเจ็กต์และควบคุมสไปเดอร์โดยใช้บริการเว็บ JSON
เป็นไปได้ที่จะลบเว็บไซต์ใด ๆ แม้ว่าเว็บไซต์นั้นจะไม่มี API สำหรับการเข้าถึงข้อมูลดิบ
ข้อเสีย
Scrapy ใช้สำหรับ Python 2.7 เท่านั้น +
การติดตั้งแตกต่างกันสำหรับระบบปฏิบัติการที่แตกต่างกัน