Scrapy - ภาพรวม

Scrapy เป็นเฟรมเวิร์กการรวบรวมข้อมูลเว็บแบบโอเพนซอร์สที่รวดเร็วซึ่งเขียนด้วย Python ซึ่งใช้ในการดึงข้อมูลจากหน้าเว็บด้วยความช่วยเหลือของตัวเลือกตาม XPath

Scrapy เปิดตัวครั้งแรกเมื่อวันที่ 26 มิถุนายน 2551 ได้รับอนุญาตภายใต้ BSD โดยมีการเปิดตัว 1.0 ครั้งในเดือนมิถุนายน 2558

ทำไมต้องใช้ Scrapy?

  • สร้างและปรับขนาดโครงการรวบรวมข้อมูลขนาดใหญ่ได้ง่ายกว่า

  • มีกลไกในตัวที่เรียกว่า Selectors สำหรับการดึงข้อมูลจากเว็บไซต์

  • จัดการคำขอแบบอะซิงโครนัสและรวดเร็ว

  • จะปรับความเร็วในการรวบรวมข้อมูลโดยอัตโนมัติโดยใช้กลไกการควบคุมปริมาณอัตโนมัติ

  • รับรองการเข้าถึงของนักพัฒนา

คุณสมบัติของ Scrapy

  • Scrapy เป็นโอเพ่นซอร์สและใช้กรอบการรวบรวมข้อมูลเว็บได้ฟรี

  • Scrapy สร้างการส่งออกฟีดในรูปแบบเช่น JSON, CSV และ XML

  • Scrapy มีการสนับสนุนในตัวสำหรับการเลือกและแยกข้อมูลจากแหล่งที่มาโดยใช้นิพจน์ XPath หรือ CSS

  • Scrapy ขึ้นอยู่กับโปรแกรมรวบรวมข้อมูลช่วยให้สามารถดึงข้อมูลจากหน้าเว็บได้โดยอัตโนมัติ

ข้อดี

  • Scrapy สามารถขยายได้ง่ายรวดเร็วและทรงพลัง

  • เป็นกรอบแอปพลิเคชันข้ามแพลตฟอร์ม (Windows, Linux, Mac OS และ BSD)

  • คำขอ Scrapy มีกำหนดเวลาและประมวลผลแบบอะซิงโครนัส

  • Scrapy มาพร้อมกับบริการในตัวที่เรียกว่า Scrapyd ซึ่งอนุญาตให้อัปโหลดโปรเจ็กต์และควบคุมสไปเดอร์โดยใช้บริการเว็บ JSON

  • เป็นไปได้ที่จะลบเว็บไซต์ใด ๆ แม้ว่าเว็บไซต์นั้นจะไม่มี API สำหรับการเข้าถึงข้อมูลดิบ

ข้อเสีย

  • Scrapy ใช้สำหรับ Python 2.7 เท่านั้น +

  • การติดตั้งแตกต่างกันสำหรับระบบปฏิบัติการที่แตกต่างกัน