Web Scraping of Page Content trong 3 bước dễ dàng với Screaming Frog

Apr 10 2021

Xuất nội dung từ một trang web trong bảng tính hoặc CSV, sử dụng trích xuất tùy chỉnh trong vòng chưa đầy 5 phút

Khi giải quyết các vấn đề kinh doanh trong đời thực bằng khoa học dữ liệu và NLP, luôn cần thiết phải tạo một tập dữ liệu, trên đó bạn có thể chạy các mô hình học máy. Nói một cách đơn giản, nạo web là trích xuất dữ liệu từ web, hay cụ thể hơn - từ các trang web.

Ảnh của Harper Smith trên Unsplash

Khi giải quyết các vấn đề kinh doanh trong đời thực bằng khoa học dữ liệu và NLP, luôn cần thiết phải tạo một tập dữ liệu, trên đó bạn có thể chạy các mô hình học máy.

Nói một cách đơn giản, nạo web là trích xuất dữ liệu từ web, hay cụ thể hơn - từ các trang web.

Việc quét web với Screaming Frog không chỉ có thể được sử dụng bởi SEO mà còn bởi các nhà khoa học dữ liệu, những người muốn bỏ qua bit mã hóa để truy cập bộ dữ liệu của họ nhanh hơn.

Hướng dẫn này sẽ hướng dẫn bạn cách sử dụng tính năng trích xuất tùy chỉnh của Screaming Frog SEO Spider , để thu thập dữ liệu từ các trang web theo cách nhanh nhất và dễ dàng nhất - thông qua một CSSPath.

Một số điều (hoặc hạn chế, nếu bạn muốn) đối với phương pháp này trước khi chúng ta bắt đầu:

tính năng rút tiền của khách hàng không có sẵn trong phiên bản miễn phí của công cụ, vì vậy để có quyền truy cập vào tính năng này, bạn cần phải trả một khoản phí hàng năm (£ 149,00)
bạn chỉ có thể trích xuất văn bản từ các trang mà SEO Spider có thể thu thập thông tin, vì vậy chúng sẽ trả về mã trạng thái 200 (OK).
Bạn có thể chuyển sang chế độ kết xuất JavaScript để trích xuất dữ liệu từ HTML được kết xuất.
Hướng dẫn này sẽ không bao gồm việc trích xuất web từ HTML bằng Xpath và regex, nhưng điều này được đề cập kỹ lưỡng bởi bài đăng trên blog của riêng Screaming Frog về trích xuất tùy chỉnh.

1. Sao chép bộ chọn của phần tử bạn muốn trích xuất văn bản.

Đầu tiên, bạn cần xác định vị trí phần tử chứa văn bản trên trang và sao chép bộ chọn.

Để thực hiện việc này, trước tiên, hãy mở Pannel lập trình Kiểm tra để kiểm tra HTML.

Xác định phần tử trang chỉ chứa văn bản (hoặc phần văn bản bạn cần). Hãy nhớ rằng, chế độ nhện của Screaming Frog đã trích xuất tiêu đề, H1 và siêu dữ liệu trang khác.

Để xác định phần tử, bạn có thể đọc mã hoặc nếu bạn ít quen thuộc với HTML, bạn cũng có thể di chuột qua các phần khác nhau của trang để xem phần nào của mã tương ứng với bộ chọn trang.

Sau khi di chuột qua, các phần tử khác nhau bùng lên với màu xanh lam đậm.

Nhấp chuột phải và chọn Copy> Copy Selector.

Sao chép bộ chọn HTML của trang web, hình ảnh của tác giả

Bây giờ, hãy đến với Screaming Frog.

2. Thiết lập trích xuất tùy chỉnh trong Screaming Frog.

Mở Screaming Frog.

Nhấp vào menu Cấu hình và chọn Tùy chỉnh> Trích xuất.

Tạo trích xuất tùy chỉnh với Screaming Frog, hình ảnh của tác giả

Về cấu hình, trước tiên bạn cần đặt tên cho phần khai thác. Hãy nhớ rằng tên này sẽ là tên của cột, nơi dữ liệu được trích xuất sau này.

Trong ví dụ của tôi, tôi đã đặt tên nó là 'Nội dung'.

Sau đó, chọn ' Đường dẫn CSS ' và dán bộ chọn bạn đã sao chép ở bước 1.

Cuối cùng, chọn tùy chọn Trích xuất văn bản và nhấp vào OK.

Định cấu hình Trích xuất tùy chỉnh của bạn trong Screaming Frog, Hình ảnh của tác giả

Nhấp vào OK để đóng menu trích xuất.

Sau đó, chạy thu thập thông tin.

3. Xuất dữ liệu của bạn.

Sau khi thu thập thông tin xong, bạn có thể điều hướng đến trường trích xuất tùy chỉnh để chỉ xuất dữ liệu từ thiết lập trích xuất. Bạn cũng có thể xuất toàn bộ thu thập thông tin trong một bảng tính.

Screaming Frog cho phép xuất dữ liệu trong tệp CSV, Excel hoặc thậm chí trực tiếp sang Google Trang tính. Những khả năng là vô tận.

Như tôi đã đề cập, hướng dẫn này chỉ là sơ lược bề mặt (không có ý định chơi chữ) về những gì công cụ này có thể làm, vì vậy tôi thực sự khuyên bạn nên xem các Ví dụ về XPath để cạo trang web, do nhóm nội dung của Screaming Frog cung cấp .

Loại dữ liệu này rất dễ thực hiện phân tích dữ liệu và công cụ này có thể đặc biệt hữu ích cho NLP và các chuyên gia khoa học dữ liệu, những người chuyên về phân tích văn bản.