การประมวลผลภาพและวิดีโอ

การขูดเว็บมักเกี่ยวข้องกับการดาวน์โหลดจัดเก็บและประมวลผลเนื้อหาสื่อบนเว็บ ในบทนี้ให้เราเข้าใจวิธีการประมวลผลเนื้อหาที่ดาวน์โหลดจากเว็บ

บทนำ

เนื้อหาสื่อบนเว็บที่เราได้รับระหว่างการขูดอาจเป็นไฟล์รูปภาพเสียงและวิดีโอในรูปแบบของหน้าเว็บที่ไม่ใช่หน้าเว็บเช่นเดียวกับไฟล์ข้อมูล แต่เราสามารถเชื่อถือข้อมูลที่ดาวน์โหลดโดยเฉพาะในส่วนขยายของข้อมูลที่เรากำลังจะดาวน์โหลดและจัดเก็บไว้ในหน่วยความจำคอมพิวเตอร์ของเราได้หรือไม่? สิ่งนี้ทำให้จำเป็นต้องทราบเกี่ยวกับประเภทของข้อมูลที่เราจะจัดเก็บในเครื่อง

การรับเนื้อหาสื่อจากเว็บเพจ

ในส่วนนี้เราจะเรียนรู้วิธีที่เราสามารถดาวน์โหลดเนื้อหาสื่อที่แสดงถึงประเภทสื่อได้อย่างถูกต้องตามข้อมูลจากเว็บเซิร์ฟเวอร์ เราสามารถทำได้ด้วยความช่วยเหลือของ Pythonrequests โมดูลตามที่เราทำในบทที่แล้ว

ขั้นแรกเราต้องนำเข้าโมดูล Python ที่จำเป็นดังต่อไปนี้ -

import requests

ตอนนี้ให้ระบุ URL ของเนื้อหาสื่อที่เราต้องการดาวน์โหลดและจัดเก็บไว้ในเครื่อง

url = "https://authoraditiagarwal.com/wpcontent/uploads/2018/05/MetaSlider_ThinkBig-1080x180.jpg"

ใช้รหัสต่อไปนี้เพื่อสร้างวัตถุตอบกลับ HTTP

r = requests.get(url)

ด้วยความช่วยเหลือของบรรทัดโค้ดต่อไปนี้เราสามารถบันทึกเนื้อหาที่ได้รับเป็นไฟล์. png

with open("ThinkBig.png",'wb') as f:
   f.write(r.content)

หลังจากเรียกใช้สคริปต์ Python ด้านบนเราจะได้ไฟล์ชื่อ ThinkBig.png ซึ่งจะมีภาพที่ดาวน์โหลดมา

การแยกชื่อไฟล์จาก URL

หลังจากดาวน์โหลดเนื้อหาจากเว็บไซต์เราต้องการบันทึกลงในไฟล์ที่มีชื่อไฟล์ที่พบใน URL แต่เราสามารถตรวจสอบได้ด้วยว่ามีจำนวนชิ้นส่วนเพิ่มเติมใน URL หรือไม่ สำหรับสิ่งนี้เราต้องหาชื่อไฟล์จริงจาก URL

ด้วยความช่วยเหลือของการทำตามสคริปต์ Python โดยใช้ urlparseเราสามารถแยกชื่อไฟล์จาก URL -

import urllib3
import os
url = "https://authoraditiagarwal.com/wpcontent/uploads/2018/05/MetaSlider_ThinkBig-1080x180.jpg"
a = urlparse(url)
a.path

คุณสามารถสังเกตผลลัพธ์ที่แสดงด้านล่าง -

'/wp-content/uploads/2018/05/MetaSlider_ThinkBig-1080x180.jpg'
os.path.basename(a.path)

คุณสามารถสังเกตผลลัพธ์ที่แสดงด้านล่าง -

'MetaSlider_ThinkBig-1080x180.jpg'

เมื่อคุณเรียกใช้สคริปต์ข้างต้นเราจะได้ชื่อไฟล์จาก URL

ข้อมูลเกี่ยวกับประเภทของเนื้อหาจาก URL

ในขณะที่ดึงเนื้อหาจากเว็บเซิร์ฟเวอร์ตามคำขอ GET เราสามารถตรวจสอบข้อมูลที่เว็บเซิร์ฟเวอร์ให้มาได้ ด้วยความช่วยเหลือของการทำตามสคริปต์ Python เราสามารถกำหนดความหมายของเว็บเซิร์ฟเวอร์ด้วยประเภทของเนื้อหา -

ขั้นแรกเราต้องนำเข้าโมดูล Python ที่จำเป็นดังต่อไปนี้ -

import requests

ตอนนี้เราจำเป็นต้องระบุ URL ของเนื้อหาสื่อที่เราต้องการดาวน์โหลดและจัดเก็บไว้ในเครื่อง

url = "https://authoraditiagarwal.com/wpcontent/uploads/2018/05/MetaSlider_ThinkBig-1080x180.jpg"

บรรทัดโค้ดต่อไปนี้จะสร้างอ็อบเจกต์ตอบกลับ HTTP

r = requests.get(url, allow_redirects=True)

ตอนนี้เราสามารถรับข้อมูลประเภทเนื้อหาที่เว็บเซิร์ฟเวอร์สามารถให้ได้

for headers in r.headers: print(headers)

คุณสามารถสังเกตผลลัพธ์ที่แสดงด้านล่าง -

Date
Server
Upgrade
Connection
Last-Modified
Accept-Ranges
Content-Length
Keep-Alive
Content-Type

ด้วยความช่วยเหลือของบรรทัดโค้ดต่อไปนี้เราจะได้รับข้อมูลเฉพาะเกี่ยวกับประเภทเนื้อหาพูดประเภทเนื้อหา -

print (r.headers.get('content-type'))

คุณสามารถสังเกตผลลัพธ์ที่แสดงด้านล่าง -

image/jpeg

ด้วยความช่วยเหลือของบรรทัดโค้ดต่อไปนี้เราจะได้รับข้อมูลเฉพาะเกี่ยวกับประเภทเนื้อหากล่าวว่า EType -

print (r.headers.get('ETag'))

คุณสามารถสังเกตผลลัพธ์ที่แสดงด้านล่าง -

None

ปฏิบัติตามคำสั่งต่อไปนี้ -

print (r.headers.get('content-length'))

คุณสามารถสังเกตผลลัพธ์ที่แสดงด้านล่าง -

12636

ด้วยความช่วยเหลือของบรรทัดโค้ดต่อไปนี้เราจะได้รับข้อมูลเฉพาะเกี่ยวกับประเภทเนื้อหากล่าวว่าเซิร์ฟเวอร์ -

print (r.headers.get('Server'))

คุณสามารถสังเกตผลลัพธ์ที่แสดงด้านล่าง -

Apache

การสร้างภาพขนาดย่อสำหรับรูปภาพ

ภาพขนาดย่อเป็นคำอธิบายหรือการแสดงที่มีขนาดเล็กมาก ผู้ใช้อาจต้องการบันทึกเฉพาะภาพขนาดย่อของภาพขนาดใหญ่หรือบันทึกทั้งภาพและภาพขนาดย่อ ในส่วนนี้เราจะสร้างภาพขนาดย่อของภาพที่มีชื่อว่าThinkBig.png ดาวน์โหลดในส่วนก่อนหน้า“ การรับเนื้อหาสื่อจากหน้าเว็บ”

สำหรับสคริปต์ Python นี้เราจำเป็นต้องติดตั้งไลบรารี Python ชื่อ Pillow ซึ่งเป็นทางแยกของไลบรารี Python Image ที่มีฟังก์ชันที่มีประโยชน์สำหรับการจัดการรูปภาพ สามารถติดตั้งได้ด้วยความช่วยเหลือของคำสั่งต่อไปนี้ -

pip install pillow

สคริปต์ Python ต่อไปนี้จะสร้างรูปขนาดย่อของรูปภาพและจะบันทึกลงในไดเร็กทอรีปัจจุบันโดยนำหน้าไฟล์รูปขนาดย่อด้วย Th_

import glob
from PIL import Image
for infile in glob.glob("ThinkBig.png"):
   img = Image.open(infile)
   img.thumbnail((128, 128), Image.ANTIALIAS)
   if infile[0:2] != "Th_":
      img.save("Th_" + infile, "png")

โค้ดด้านบนเข้าใจง่ายมากและคุณสามารถตรวจสอบไฟล์ขนาดย่อในไดเร็กทอรีปัจจุบันได้

ภาพหน้าจอจากเว็บไซต์

ในการขูดเว็บงานทั่วไปคือการถ่ายภาพหน้าจอของเว็บไซต์ ในการดำเนินการนี้เราจะใช้ซีลีเนียมและเว็บไดร์เวอร์ สคริปต์ Python ต่อไปนี้จะนำภาพหน้าจอจากเว็บไซต์และจะบันทึกลงในไดเรกทอรีปัจจุบัน

From selenium import webdriver
path = r'C:\\Users\\gaurav\\Desktop\\Chromedriver'
browser = webdriver.Chrome(executable_path = path)
browser.get('https://tutorialspoint.com/')
screenshot = browser.save_screenshot('screenshot.png')
browser.quit

คุณสามารถสังเกตผลลัพธ์ที่แสดงด้านล่าง -

DevTools listening on ws://127.0.0.1:1456/devtools/browser/488ed704-9f1b-44f0-
a571-892dc4c90eb7
<bound method WebDriver.quit of <selenium.webdriver.chrome.webdriver.WebDriver
(session="37e8e440e2f7807ef41ca7aa20ce7c97")>>

หลังจากรันสคริปต์คุณสามารถตรวจสอบไดเร็กทอรีปัจจุบันของคุณสำหรับ screenshot.png ไฟล์.

การสร้างภาพขนาดย่อสำหรับวิดีโอ

สมมติว่าเราได้ดาวน์โหลดวิดีโอจากเว็บไซต์และต้องการสร้างภาพขนาดย่อเพื่อให้สามารถคลิกวิดีโอใดวิดีโอหนึ่งตามภาพขนาดย่อได้ ในการสร้างภาพขนาดย่อสำหรับวิดีโอเราจำเป็นต้องมีเครื่องมือง่ายๆที่เรียกว่าffmpeg ซึ่งสามารถดาวน์โหลดได้จาก www.ffmpeg.org. หลังจากดาวน์โหลดเราจำเป็นต้องติดตั้งตามข้อกำหนดของระบบปฏิบัติการของเรา

สคริปต์ Python ต่อไปนี้จะสร้างภาพขนาดย่อของวิดีโอและจะบันทึกลงในไดเร็กทอรีภายในของเรา -

import subprocess
video_MP4_file = “C:\Users\gaurav\desktop\solar.mp4
thumbnail_image_file = 'thumbnail_solar_video.jpg'
subprocess.call(['ffmpeg', '-i', video_MP4_file, '-ss', '00:00:20.000', '-
   vframes', '1', thumbnail_image_file, "-y"])

หลังจากเรียกใช้สคริปต์ด้านบนเราจะได้รับภาพขนาดย่อที่ตั้งชื่อ thumbnail_solar_video.jpg บันทึกไว้ในไดเร็กทอรีท้องถิ่นของเรา

การริปวิดีโอ MP4 เป็น MP3

สมมติว่าคุณดาวน์โหลดไฟล์วิดีโอบางไฟล์จากเว็บไซต์ แต่คุณต้องการเพียงเสียงจากไฟล์นั้นเพื่อตอบสนองวัตถุประสงค์ของคุณจากนั้นสามารถทำได้ใน Python ด้วยความช่วยเหลือของไลบรารี Python ที่เรียกว่า moviepy ซึ่งสามารถติดตั้งได้ด้วยความช่วยเหลือของคำสั่งต่อไปนี้ -

pip install moviepy

ตอนนี้หลังจากติดตั้ง moviepy สำเร็จด้วยความช่วยเหลือของสคริปต์ต่อไปนี้เราสามารถแปลงและ MP4 เป็น MP3

import moviepy.editor as mp
clip = mp.VideoFileClip(r"C:\Users\gaurav\Desktop\1234.mp4")
clip.audio.write_audiofile("movie_audio.mp3")

คุณสามารถสังเกตผลลัพธ์ที่แสดงด้านล่าง -

[MoviePy] Writing audio in movie_audio.mp3
100%|¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦
¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦| 674/674 [00:01<00:00,
476.30it/s]
[MoviePy] Done.

สคริปต์ข้างต้นจะบันทึกไฟล์ MP3 เสียงในไดเร็กทอรีท้องถิ่น