Meine Website hat weniger als 10 Seiten: Warum hat meine Sitemap 448 entdeckte URLs?

Dec 12 2020

Ich habe versucht, die SEO meiner Website zu verbessern, indem ich eine Sitemap an die Google Search Console gesendet habe.

Der Status ist ein Erfolg, aber ich habe 448 URLs mit weniger als 10 Seiten auf meiner Website entdeckt: clientsforcounsellors.com/sitemap.xml

Wenn ich meinen Domainnamen in die Adressleiste eingebe, gefolgt von einem Slug, z. B. clientsforcounsellors.com/sdlkgr, werde ich auf meine Homepage weitergeleitet, anstatt eine 404-Seite anzuzeigen.

Was ist das Problem hier? Haben weiche 404 etwas damit zu tun?

Antworten

4 StephenOstermiller Dec 12 2020 at 18:38

Soft 404s haben nichts mit diesem Problem zu tun, obwohl Sie aus Gründen der Benutzerfreundlichkeit und der Suchmaschinenoptimierung 404-Fehler anzeigen sollten, anstatt zur Startseite umzuleiten.

Diese Sitemap scheint von einem Crawler generiert zu werden. Das solltest du nicht tun. Google sagt, dass dies keine gute Idee ist: Google sagt, dass Sie Ihre Website nicht crawlen, um eine Sitemap-Datei zu erstellen . Wenn Ihre Site nur 10 Seiten enthält, sollten Sie eine Sitemap haben, in der nur diese 10 Seiten aufgelistet sind. Auf 10 Seiten können Sie diese Sitemap von Hand erstellen. Ihr Content-Management-System verfügt möglicherweise auch über Plugins, die aus der Datenbank eine Sitemap für Sie erstellen.

Sie sollten auch wissen, dass XML-Sitemaps fast nichts mit SEO zu tun haben. Sie können Googlebot dazu bringen, alle Ihre Seiten zu crawlen. Sie helfen jedoch nicht dabei, Ihre Inhalte zu indizieren oder gut zu bewerten. Wenn Ihre Website crawlbar ist (und Ihre Website anscheinend crawlt), kann Googlebot ohnehin alle Ihre Seiten finden und crawlen. Die Vorteile einer XML-Sitemap sind zusätzliche Statistiken in der Google Search Console und ein Signal an Google, welche URLs Sie bevorzugen (sobald Sie die Sitemap auf nur 10 Seiten reduziert haben). Weitere Informationen finden Sie im Sitemap-Paradoxon .

Es lohnt sich, einen SEO-Crawler für Ihre Website auszuführen. Das kann Probleme aufdecken, die behoben werden müssen. Der Crawler, der Ihre Sitemap generiert hat, hat Probleme beim Crawlen Ihrer Site festgestellt. Googlebot und andere Suchmaschinen-Crawler werden diese Probleme ebenfalls haben. Werfen wir einen Blick auf einige der Seiten, die in Ihre Sitemap aufgenommen wurden:

  • /blog/counsellor-needs-website.html
  • /blog/blog/counsellor-needs-website.html
  • /blog/blog/blog/counsellor-needs-website.html
  • /blog/blog/blog/blog/counsellor-needs-website.html
  • /blog/blog/blog/blog/blog/counsellor-needs-website.html
  • ...

Warum wird dieselbe Seite mehrmals mit immer mehr Wiederholungen /blogim Pfad aufgenommen? Sie haben defekte Links auf Ihrer Website. Ihre Links sehen aus wie

<a href="blog/counsellor-needs-website.html">

Das ist eine relative Verbindung. Sobald Sie sich bereits im blog/Verzeichnis befinden, wird ein weiteres Blog-Verzeichnis hinzugefügt. Es wäre besser, dies in einen "Root Relative Link" zu ändern, der mit einem Schrägstrich beginnt. Diese Art von Link bezieht sich eher auf Ihren Domain-Namen als auf die aktuelle Seite:

<a href="/blog/counsellor-needs-website.html">

Sie haben ähnliche Probleme mit Ihren Bildern und CSS. Sie sollten alle eine relative Root-Verknüpfung verwenden

  • <img src="/images/main/money-icon.png" Anstatt von <img src="images/main/money-icon.png"
  • href="/css/style.css" Anstatt von href="css/style.css"

Siehe Was ist der Zweck des führenden Schrägstrichs in HTML-URLs? und der Website-Crawler gibt Hunderte von 404 Fehlern für Seiten zurück, die nicht existieren und doppelte Verzeichnisse enthalten, in denen jemand das gleiche Problem hat, aber mit seiner Seite "Über uns".


Nachdem Ihre Website mit diesen Links veröffentlicht wurde, sollten Sie alle fehlerhaften URLs in ihre bevorzugte Form umleiten. Wenn Sie Apache verwenden, sollten Sie in der Lage sein, Folgendes oben in Ihrer .htaccessDatei zu tun :

RewriteEngine On
# Redirect /blog/blog/blog/... URLs
RewriteRule (blog/)+((blog|images|css)/.*) /$2 [R=301,L]

Wo

  • RewriteEngine Onermöglicht mod_rewrite Regeln s‘
  • (blog/)+stimmt mit einem oder mehreren der zusätzlichen /blogVerzeichnisse überein
  • (blog|images|css) stimmt mit dem endgültigen Verzeichnis überein, das aufbewahrt werden soll
  • /.* passt zu allem, was danach kommt
  • $2stimmt mit allem in der zweiten Klammer überein ( (blog|images|css)/.*)
  • [R=301] macht es zu einer permanenten Weiterleitung
  • [L] macht es zur letzten Umschreiberegel (daher versuchen auch keine späteren Umschreiberegeln anzuwenden)