Grattoir de jeu pour Steam

Aug 17 2020

J'ai créé un scraper pour Steam qui obtient différentes informations sur un jeu Steam, telles que le prix, les spécifications et les plates-formes prises en charge. La raison pour laquelle j'ai fait cela est que j'ai un ordinateur portable super lent, donc regarder de nombreux jeux prendrait beaucoup de temps :)

Certaines choses que j'aimerais améliorer sont une meilleure gestion des erreurs, car le Web est un endroit désordonné et toutes les pages ne seront pas identiques.

Une autre chose que je pensais faire est d'avoir une meilleure gestion des données, comme l'utilisation de classes et d'objets pour chaque jeu au lieu de stocker toutes les valeurs dans un dictionnaire, ce qui rendrait le code plus simple et peut-être même plus court.

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support.ui import Select
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.firefox.options import Options
from sys import exit

games = {}
x = 0

# ask for games
while True:
    if x == 0:
        game = input('Type the game you want to find here: ')
    else:
        game = input('Type the game you want to find here (or enter nothing to continue): ')
    if not game:
        break
    games[game] = {}
    x += 1

# configure browser
print('Starting Browser')
firefox_options = Options()
firefox_options.headless = True
browser = webdriver.Firefox(options=firefox_options, service_log_path='/tmp/geckodriver.log')
print('Retrieving website')
browser.get('https://store.steampowered.com/')

for a_game in games:
    print('Finding info for "' + a_game + '"')

    # input & click
    print('Waiting for page to load')
    WebDriverWait(browser, 20).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "input#store_nav_search_term"))).send_keys(a_game)
    WebDriverWait(browser, 20).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "div#search_suggestion_contents>a"))).click()
    print('Navigating to game page')

    # if age-restricted:
    try:
        browser.find_element_by_css_selector('.agegate_birthday_selector')
        age_query = input('"' + a_game + '" is age-restricted, do you want to continue? y/n ')
        if age_query != 'y':
            print('Abort')
            exit()
        select = Select(browser.find_element_by_id('ageYear'))
        select.select_by_value('2000')
        browser.find_element_by_css_selector('a.btnv6_blue_hoverfade:nth-child(1)').click()
    except NoSuchElementException:
        pass

    print('Waiting for game page to load')
    # name of game
    games[a_game]['name'] = WebDriverWait(browser, 20).until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.apphub_AppName'))).text

    # supported platforms
    print('Retrieving supported platforms')
    mac = False
    linux = False
    try:
        browser.find_element_by_css_selector('div.game_area_purchase_game_wrapper:nth-child(1) > div:nth-child(1) > div:nth-child(2) > '
                                             'span:nth-child(2)')
        mac = True
    except NoSuchElementException:
        pass

    try:
        browser.find_element_by_css_selector('div.game_area_purchase_game_wrapper:nth-child(1) > div:nth-child(1) > div:nth-child(2) > '
                                             'span:nth-child(3)')
        linux = True
    except NoSuchElementException:
        pass

    if mac and linux:
        games[a_game]['platform'] = 'all'
    elif mac:
        games[a_game]['platform'] = 'mac'
    elif linux:
        games[a_game]['platform'] = 'linux'
    else:
        games[a_game]['platform'] = 'windows'

    # price
    print('Retrieving price')
    discounted = False
    try:
        games[a_game]['price'] = browser.find_element_by_css_selector('div.game_purchase_action:nth-child(4) > div:nth-child(1) > div:nth-child(1)').text
    except NoSuchElementException:
        try:
            games[a_game]['before_price'] = browser.find_element_by_class_name('discount_original_price').text
            games[a_game]['after_price'] = browser.find_element_by_class_name('discount_final_price').text
        except NoSuchElementException:
            try:
                games[a_game]['price'] = 'FREE'
            except NoSuchElementException:
                games[a_game]['bundle_price'] = browser.find_element_by_css_selector('div.game_purchase_action_bg:nth-child(2) > div:nth-child(1)')
    except Exception:
        games[a_game]['price'] = 'Error: Unable to get price'

    # system requirements
    print('Retrieving system requirements')
    games[a_game]['specs'] = browser.find_element_by_css_selector('.game_area_sys_req').text

# close browser
print('Finished Retrieving data, closing browser \n')
print('********************************************')
browser.close()

for each_game in games.keys():
    print('GAME: ' + games[each_game]['name'].upper())

    # printing supported platforms
    if games[each_game]['platform'] == 'all':
        print('Supported Platforms: Windows, Mac and Linux')
    elif games[each_game]['platform'] == 'mac':
        print('Supported Platforms: Windows and Mac')
    elif games[each_game]['platform'] == 'linux':
        print('Supported Platforms: Windows and Linux')
    else:
        print('Supported Platforms: Windows Only')
    print('\n')

    # printing price
    try:
        print('Price: Discounted ' + games[each_game]['after_price'] + ' from ' + games[each_game]['before_price'])
    except KeyError:
        print('Price: ' + games[each_game]['price'])
    except Exception:
        print('Bundled Price: ' + games[each_game]['bundle_price'])
    print('\n')

    # printing system requirements
    print('System Requirements: \n')
    print('-------------------------------- \n')
    print(games[each_game]['specs'])
    print('--------------------------------')
    input('Press enter to continue ')

print('Finished Successfully')

Réponses

4 Setris Aug 29 2020 at 09:34

Décomposer la logique en fonctions

Avoir des fonctions distinctes pour chacune des étapes suivantes rendra le code plus facile à lire.

  • Obtenir des noms de jeux
  • Grattez les informations du jeu
  • Afficher les informations sur le jeu

Protégez le point d'entrée de votre script

Je recommanderais de déplacer le flux d'exécution du script sous une if __name__ == "__main__":garde. Cela vous permet d'importer les fonctions de ce fichier dans d'autres fichiers sans exécuter le script.

Évitez d'utiliser sys.exit()pour contrôler le flux

L'appel sys.exit()arrête l'interpréteur Python, ce qui rend tout code qui l'appelle difficile à tester. Vous devez plutôt refactoriser le script afin qu'il se termine normalement pour tous les cas récupérables.

Par exemple, si l'utilisateur ne souhaite pas d'informations sur un jeu soumis à une limite d'âge, ignorez-le et passez au jeu suivant dans la liste. Je pense que cela améliorerait de toute façon l'expérience utilisateur, car si nous exit()n'arrivons pas à traiter les autres jeux restants de la liste.

Les plates-formes prises en charge doivent être une liste

Lors de la détermination et de l'impression des plates-formes prises en charge pour un jeu, vous avez des booléens macet linuxqui sont finalement traduits en une chaîne prenant l'un des all, mac, linux, windows:

if mac and linux:
    games[a_game]['platform'] = 'all'      # windows, mac, linux
elif mac:
    games[a_game]['platform'] = 'mac'      # windows, mac
elif linux:
    games[a_game]['platform'] = 'linux'    # windows, linux
else:
    games[a_game]['platform'] = 'windows'  # windows

Je pense qu'il est plus logique de modéliser cela sous forme de liste, par exemple ["windows", "mac"], il est donc plus explicite quelles plates-formes sont prises en charge. Cela vous évitera également d'écrire une logique if/elif/else supplémentaire lors de l'impression de ces derniers.

Plat vaut mieux qu'imbriqué

Les blocs try/except imbriqués dans l'étape de récupération des prix sont très difficiles à lire.

Si vous déléguez la récupération du prix à une fonction, vous pouvez structurer la logique de sorte qu'elle soit plate au lieu d'être imbriquée, comme dans le pseudocode suivant :

def get_price() -> str:
    element = find_element_for_bundle_price()
    if element:
        return element.text

    element = find_element_for_non_discounted_price()
    if element:
        return element.text

    element = find_element_for_discounted_price()
    if element:
        return element.text

    # If we don't find a price on the page, it's free?
    # Actually this is not always true, but for this example
    # we'll assume this is the case.
    return 'FREE'

Utilisation abusive de la gestion des exceptions

Le script est contagieux KeyErroret Exceptionpermet de gérer l'impression de trois types de prix différents : forfait, réduit et standard. Il s'agit sans doute d'une mauvaise utilisation de la gestion des exceptions, d'autant plus qu'attraper le général Exceptionest rarement une bonne idée car cela peut masquer d'autres erreurs auxquelles vous ne vous attendiez pas. De plus, ce n'est pas nécessaire ici; nous pouvons simplement utiliser un if/elif/else :

game_dict = games[each_game]
if 'bundle_price' in game_dict:
    # print bundle price
elif 'before_price' in game_dict and 'after_price' in game_dict:
    # print discounted price
else:
    # print standard price

Gestion de données

Vous avez mentionné que vous envisagez d'avoir des classes ou des objets pour chaque jeu au lieu d'utiliser un dictionnaire. Je pense que c'est une bonne idée. Cela ne raccourcirait peut-être pas le code, mais cela améliorerait certainement la lisibilité du code.

Un bon candidat pour cela serait un simple conteneur de données comme typing.NamedTuple. Comme @MaartenFabré l'a suggéré dans les commentaires, dataclasses.dataclassc'est un autre bon choix pour un conteneur de données comme celui-ci.

Cas marginaux non traités

Les requêtes de recherche suivantes entraîneront l'expiration du script :

  • Toute requête de recherche qui ne renvoie aucune suggestion sur Steam. Cela pourrait être quelque chose comme un jeu qui n'existe pas (encore), par exemple "funkytown", ou une chaîne non vide composée uniquement d'espaces, par exemple " ".

  • Toute requête de recherche où la première suggestion est un paquet Steam, par exemple "the witcher 3 wild hunt game of the year".

  • Toute requête de recherche où la première suggestion est un bundle Steam, par exemple "monkey island collection".

Je l'ai mentionné plus tôt, mais le script suppose à tort que si un prix n'est pas affiché sur la page, alors le jeu est gratuit. Mais il y a des jeux inédits sur Steam où le développeur n'a pas fixé de prix, et en même temps ils ne l'ont pas classé comme "gratuit" ou comme jeu "free-to-play" ("Spirit of Glace" en est un exemple concret que j'ai trouvé). Le prix à afficher dans ce cas devrait être quelque chose comme "TBD" ou "Inconnu".

Heureusement, et pour introduire la section suivante, il existe une API que nous pouvons utiliser pour faire la distinction entre gratuit et non gratuit. Cette API expose un is_freechamp indiquant truequ'un jeu est gratuit ou gratuit. Si vous sautez à la fin de cet examen, vous pouvez voir comment il est récupéré dans mon exemple de script.

Préférez les API au scraping

Avec les API, la récupération des données est plus rapide - et souvent des ordres de grandeur plus rapide que le grattage avec Selenium. Avec les API, l'extraction des données est plus facile puisque le format de la réponse est souvent JSON.

Je tiens toujours à le mentionner chaque fois que le grattage survient, car les économies potentielles de temps et d'efforts peuvent être énormes. Passez du temps à chercher une API officielle ou une API non officielle documentée. Si rien ne se passe, fouillez avec un inspecteur de trafic HTTP/S comme Fiddler ou Chrome DevTools et voyez si vous pouvez trouver des API non officielles prometteuses. Si finalement vous ne trouvez rien, revenez au grattage en dernier recours.

Dans ce cas, il existe en fait une API non officielle du Steam Store qui est disponible. Pour l'utiliser, nous avons besoin de l'ID de l'application Steam ou de l'ID du package Steam de l'élément qui nous intéresse, mais nous pouvons l'obtenir à partir de l'API qui alimente le menu déroulant de suggestion de recherche, https://store.steampowered.com/search/suggest.

Exemple de script utilisant l'API

Voici un exemple de script utilisant l'API non officielle du Steam Store.

#!/usr/bin/env python3

import re
import json
import requests
from enum import Enum
from bs4 import BeautifulSoup  # type: ignore
from typing import Any, Dict, List, Optional, NamedTuple, Union

SEARCH_SUGGEST_API = "https://store.steampowered.com/search/suggest"
APP_DETAILS_API = "https://store.steampowered.com/api/appdetails"
PACKAGE_DETAILS_API = "https://store.steampowered.com/api/packagedetails"


class Platform(Enum):
    WINDOWS = "windows"
    MAC = "mac"
    LINUX = "linux"

    def __str__(self) -> str:
        return str(self.value)


class Price(NamedTuple):
    initial: int  # price in cents
    final: int  # price in cents


class SteamGame(NamedTuple):
    app_id: int
    name: str
    platforms: List[Platform]
    is_released: bool
    is_free: bool
    price: Optional[Price]
    pc_requirements: str

    def __str__(self) -> str:
        if self.is_free:
            price = "Free"
        elif self.price:
            final = f"${self.price.final / 100}"
            if self.price.initial == self.price.final:
                price = final
            else:
                price = f"{final} (previously ${self.price.initial / 100})"
        else:
            price = "TBD"

        platforms = ", ".join(str(p) for p in self.platforms)
        is_released = "Yes" if self.is_released else "No"

        return "\n".join(
            (
                f"Name: {self.name}",
                f"Released: {is_released}",
                f"Supported Platforms: {platforms}",
                f"Price: {price}",
                "",
                "PC Requirements:",
                self.pc_requirements,
            )
        )


class SteamBundle(NamedTuple):
    bundle_id: int
    name: str
    price: Price
    application_names: List[str]

    def __str__(self) -> str:
        final = f"${self.price.final / 100}"
        if self.price.initial == self.price.final:
            price = final
        else:
            price = f"{final} (without bundle: ${self.price.initial / 100})"

        return "\n".join(
            (
                f"Name: {self.name}",
                f"Price: {price}",
                "",
                "Items included in this bundle:",
                *(f"  - {name}" for name in self.application_names),
            )
        )


class SteamPackage(NamedTuple):
    package_id: int
    name: str
    platforms: List[Platform]
    is_released: bool
    price: Optional[Price]
    application_names: List[str]

    def __str__(self) -> str:
        if self.price:
            final = f"${self.price.final / 100}"
            if self.price.initial == self.price.final:
                price = final
            else:
                initial = f"${self.price.initial / 100}"
                price = f"{final} (without package: {initial})"
        else:
            price = "TBD"

        platforms = ", ".join(str(p) for p in self.platforms)
        is_released = "Yes" if self.is_released else "No"

        return "\n".join(
            (
                f"Name: {self.name}",
                f"Released: {is_released}",
                f"Supported Platforms: {platforms}",
                f"Price: {price}",
                "",
                "Items included in this package:",
                *(f"  - {name}" for name in self.application_names),
            )
        )


SteamItem = Union[SteamGame, SteamBundle, SteamPackage]


def deserialize_bundle_data(encoded_bundle_json: str) -> Any:
    return json.loads(re.sub(r""", '"', encoded_bundle_json))


def extract_app_ids(bundle_data: Dict[str, Any]) -> List[int]:
    return [
        app_id
        for item in bundle_data["m_rgItems"]
        for app_id in item["m_rgIncludedAppIDs"]
    ]


def lookup_app_names(
    session: requests.Session, app_ids: List[int]
) -> List[str]:
    app_names = []
    for app_id in app_ids:
        params = {"appids": app_id, "filters": "basic"}
        response = session.get(APP_DETAILS_API, params=params)
        response.raise_for_status()

        app_names.append(response.json()[str(app_id)]["data"]["name"])

    return app_names


def extract_bundle_price(bundle_data: Dict[str, Any]) -> Price:
    total_price = sum(
        item["m_nFinalPriceInCents"] for item in bundle_data["m_rgItems"]
    )
    total_price_with_bundle_discount = sum(
        item["m_nFinalPriceWithBundleDiscount"]
        for item in bundle_data["m_rgItems"]
    )

    return Price(total_price, total_price_with_bundle_discount)


def extract_package_information(
    package_id: int, package_data: Dict[str, Any]
) -> SteamPackage:
    return SteamPackage(
        package_id=package_id,
        name=package_data["name"],
        platforms=[p for p in Platform if package_data["platforms"][str(p)]],
        is_released=not package_data["release_date"]["coming_soon"],
        price=Price(
            package_data["price"]["initial"], package_data["price"]["final"]
        ),
        application_names=[app["name"] for app in package_data["apps"]],
    )


def get_package(session: requests.Session, package_id: str) -> SteamPackage:
    params = {"packageids": package_id}
    response = session.get(PACKAGE_DETAILS_API, params=params)
    response.raise_for_status()

    return extract_package_information(
        int(package_id), response.json()[package_id]["data"]
    )


def extract_requirements_text(requirements_html: str) -> str:
    soup = BeautifulSoup(requirements_html, "html.parser")
    return "\n".join(tag.get_text() for tag in soup.find_all("li"))


def extract_game_information(game_data: Dict[str, Any]) -> SteamGame:
    price_overview = game_data.get("price_overview")
    price = (
        Price(price_overview["initial"], price_overview["final"])
        if price_overview
        else None
    )

    requirements = game_data["pc_requirements"]
    minimum = extract_requirements_text(requirements["minimum"])
    recommended_html = requirements.get("recommended")
    recommended = (
        extract_requirements_text(recommended_html)
        if recommended_html
        else None
    )

    minimum_requirements = f"[Minimum]\n{minimum}"
    if recommended:
        recommended_requirements = f"[Recommended]\n{recommended}"
        pc_requirements = (
            minimum_requirements + "\n\n" + recommended_requirements
        )
    else:
        pc_requirements = minimum_requirements

    return SteamGame(
        app_id=game_data["steam_appid"],
        name=game_data["name"],
        platforms=[p for p in Platform if game_data["platforms"][str(p)]],
        is_released=not game_data["release_date"]["coming_soon"],
        is_free=game_data["is_free"],
        price=price,
        pc_requirements=pc_requirements,
    )


def get_game(session: requests.Session, app_id: str) -> SteamGame:
    params = {"appids": app_id}
    response = session.get(APP_DETAILS_API, params=params)
    response.raise_for_status()

    return extract_game_information(response.json()[app_id]["data"])


def get_game_information(games: List[str]) -> Dict[str, Optional[SteamItem]]:
    game_to_info = {}

    with requests.Session() as session:
        for game in games:
            params = {"term": game, "f": "games", "cc": "US", "l": "english"}
            response = session.get(SEARCH_SUGGEST_API, params=params)
            response.raise_for_status()

            # get first search suggestion
            result = BeautifulSoup(response.text, "html.parser").find("a")

            if result:
                bundle_id = result.get("data-ds-bundleid")
                package_id = result.get("data-ds-packageid")
                app_id = result.get("data-ds-appid")

                if bundle_id:
                    name = result.find("div", class_="match_name").get_text()
                    bundle_data = deserialize_bundle_data(
                        result["data-ds-bundle-data"]
                    )
                    app_ids = extract_app_ids(bundle_data)
                    app_names = lookup_app_names(session, app_ids)
                    price = extract_bundle_price(bundle_data)

                    info: Optional[SteamItem] = SteamBundle(
                        bundle_id=int(bundle_id),
                        name=name,
                        price=price,
                        application_names=app_names,
                    )
                elif package_id:
                    info = get_package(session, package_id)
                elif app_id:
                    info = get_game(session, app_id)
                else:
                    info = None
            else:
                info = None

            game_to_info[game] = info

    return game_to_info


def display_game_information(
    game_information: Dict[str, Optional[SteamItem]]
) -> None:
    arrow = " =>"
    for game_query, game_info in game_information.items():
        result_header = f"{game_query}{arrow}"
        query_result = (
            game_info if game_info else f"No results found for {game_query!r}."
        )
        result = "\n".join(
            (
                result_header,
                "-" * (len(result_header) - len(arrow)),
                "",
                str(query_result),
                "\n",
            )
        )

        print(result)


if __name__ == "__main__":
    games = [
        "slay the spire",
        "civ 6",
        "funkytown",
        "path of exile",
        "bless unleashed",
        "the witcher 3 wild hunt game of the year",
        "divinity source",
        "monkey island collection",
        "star wars squadrons",
        "spirit of glace",
    ]
    game_info = get_game_information(games)
    display_game_information(game_info)