Einführung und Thema des Podcasts
00:00:01
Speaker
In dieser Episode diskutieren Joel und ich darüber, ob Crawl-Statistiken die Lockfallanalyse ablösen können. Viel Spaß dabei!
00:00:23
Speaker
Einen schönen guten Morgen Mittagabend war es auch mal du, diese Episode vom Podcast für Gute Websites hörst. Wir heißen dich herzlich willkommen.
Einblicke von der SEO-Konferenz
00:00:31
Speaker
Hallo Jolle. Du hast einen Vortrag gehört auf der SEO.com und darüber wolltest du oder du hast dieses Thema mal mitgebracht, um dann über ein Thema mit mir sprechen zu wollen.
00:00:44
Speaker
Ominös. Ja, hallo André. Das stimmt, ich war auf der See gekommen. Ich habe mehr als nur einen Vortrag gehört. Den einen, über den ich dann im Newsletter auch geschrieben habe, war der über Lokfile-Analyse lite mit der Google Search Console.
00:01:04
Speaker
mit den Crawl-Stats und über den Vortrag habe ich schon genug geschwärmt an anderer Stelle, da würde ich jetzt gar nicht nochmal so tief einsteigen, aber wir haben uns halt überlegt, dass man ja tatsächlich mal in die Search-Konsole gucken könnte, was hinter den Einstellungen oder Settings, je nachdem in welcher Sprache du das eingestellt hast.
Crawl-Statistiken und API-Zugriff
00:01:20
Speaker
sich hinter den Crawl-Stats so verbirgt. Und du warst nicht abgeneigt. Ich war erstmal nicht abgeneigt, weil ich mag ja alles, was mit technischer SEO zu tun hat. Und hinter den Crawling-Statistiken verbirgt sich eigentlich, ich sage jetzt nicht eine ganze Menge, aber zumindest mal ein wenig technisches SEO-Metrics-Abgebilde. Und frage mich tatsächlich aber auch, warum dieser
00:01:48
Speaker
In meinen Augen wichtige Reports, so versteckt es. Also was hat das in Einstellungen zu tun? Warum packt man das nicht irgendwo mal ins Top-Level? Das ist eine sehr berechtigte Frage. Und warum gibt es die Daten nicht auch mit der API abzuholen? Warum zwingen Sie uns durch das User-Interface, Klickarbeit zu verrichten? Aber vielen Dank an Valentin, der auch da für eine relativ nette Browser-Extension gebaut hat,
00:02:17
Speaker
den Downloadprozess ein bisschen zu vereinfachen. Plätze natürlich. Es ist nach wie vor schlimm, in was für einem Zustand diese API ist.
Bedeutung der Crawl-Statistiken für SEO
00:02:29
Speaker
Und es gibt ja eigentlich, ich glaube, Sitemaps haben wir und die ganz normalen Google-Such-, den Leistungsreport im Endeffekt, die Informationen, die dahinterstecken. Ja. Und das Action API gibt es noch. Ja.
00:02:47
Speaker
Das ist eine Indexing-RP über die man sich streiten kann. Aber ja, es ginge mehr. Hallo Google, falls ihr zuhört. Das wäre so schön. Ich glaube ja persönlich, dass die nicht nicht wollen, sondern dass das andere Gründe hat. Bist du ein Verschwörungsmystiker? Lustig, ich hab mich mit Martin Splitt das letzte Mal erst über Verschwörungstheorien unterhalten, aber ich glaube, das ist keiner. Ich bin ganz aufgeschlossen und oh, tell me more.
00:03:18
Speaker
Wir haben über die Mondverschwörung gesprochen auf der Seehoekom abends beim Abendbrot und so hat sich das ein oder andere ergeben. Konkreter wird es nicht, ich merke es schon. Da muss man schon beim Abendbrot beisitzen.
00:03:33
Speaker
Oh, die In-Group, definitely. Genau, aber diese Crawling-Statistiken sind ja, ich sage jetzt mal auf den ersten Blick, ganz interessant. Zumindest mal, wenn man es so isoliert betrachtet, wie man es hier eben auch sehen kann. Ich sage immer Hügelgebirge zu diesen ganzen Grafen ohne Kontext.
00:03:56
Speaker
Das ist so gesehen zwar alles ganz gut, aber ich würde sofort anfangen, nachdem ich die Seite geladen habe, oben rechts auf exportieren zu drücken, damit ich dann mit den CSV-Daten arbeiten können, um mir da was rüber zu legen. Wie zum Beispiel, wie war denn die Ladezeit-Performance an dem Tag meiner Seite? Weil diese Info, die würde ich hier ganz gut tun.
Begrenzungen der Crawl-Statistiken
00:04:19
Speaker
Der Export hilft natürlich auch das nachzuhalten, denn oben jetzt in den Grafen, wo wir die Total Crawl Requests, Total Download Size und Average Response Time haben, diese drei Werte
00:04:33
Speaker
Gehen 90 Tage zurück und was ist rollierend? Und mit dem Tag verlierst du einen Tag. Beginnst einen, verlierst einen, das rauscht so durchs Fenster. Das heißt, wenn du das längerfristig wissen möchtest, kommst du um den Export nicht herum. Richtig, richtig. Und es ist ja auch so, dass lediglich die
00:04:51
Speaker
Seitenantwortzeit hier genannt wird und nicht die komplette Zeit, die benötigt wird. Und das steht ja auch da drin, wenn man da so ein Fragezeichen, wenn man da drüber hovert, dann sieht man auch, dass das nicht das Abrufen von den Seitenressourcen wie Bildern und Skripten und Co. beinhaltet. Und damit fehlt ja leider schon wieder ein ganzer Paar. Das gibt es natürlich an anderer Stelle nochmal, auch so ein bisschen Page Experience, obwohl der ja auch zurecht gestutzt wird, aber nicht hier. Da hast du recht. Genau.
00:05:19
Speaker
Man kann hier halt auch wieder übers Nutzer-Interface zu Daten kommen, aber eben nicht einfach alles irgendwie. Also es ist nicht so ein richtiges Ersporn. Aber wir wollen ja gar nicht so viel meckern. Warum ich das Thema spannend finde, ist, weil du ja nun wirklich so ein richtiger Lockpile-Wühler bist, da mehr zu Hause.
00:05:40
Speaker
Trotzdem hilft die Search Console, dass ja aus diversen Gründen kann es passieren, dass du an Logfiles nicht reinkommst, nicht weißt, wie du die Datenmengen handelst und hier mal so einen frischen Blick rein, um ungefähr auf der Höhe zu sein und zwar direkt von Google gemeldet
Erkennung von Bot-Mustern und Crawling-Problemen
00:05:57
Speaker
zu bekommen. Also eine gewisse Transparenz wird hergestellt. Auch welche Bots waren denn da und welche Seiten und welche Arten von Ressourcen werden wie häufig gecrawled?
00:06:08
Speaker
Und warum auch nicht oder so, also warum auch nicht, die Frage muss man schon vielleicht ein bisschen auch selber dann Hirnschmalz reingeben, das steht jetzt da nicht einfach so. Aber das ist ja schon mal spannend.
00:06:19
Speaker
Ja, also das sind ja auch viele Sachen, die wir letztendlich in den Logfiles uns eben anschauen. Statuscodes, welche Seiten waren das eigentlich? Welcher Bot ist da gekommen? Was ich persönlich ziemlich schön finde, ist der Zweck, der hier angegeben wird von Google hier in den Statistiken. Eben ob man etwas crawlt, um etwas aufzufinden oder zu aktualisieren.
00:06:47
Speaker
wäre mir ehrlich gesagt nicht bewusst, wie man das sonst in Lockfiles, ich denke gerade laut, aber in Lockfiles habe ich die Info ja nicht, da kommt ja nicht irgendein Zusatz im User Agent. Ein Mehrwert in der Search Console, genau. Ja, ja. Also wir decken hier gerade gemeinsam, also ich jedenfalls, einen Mehrwert in der GSC in den Crawling-Statistiken. Also das finde ich ziemlich cool.
00:07:14
Speaker
Aber auch hier würde ich gerne einen zeitlich längeren Verlauf sehen, nämlich wie sich das Verhältnis vielleicht irgendwann verschiebt, wenn die Seite irgendwann bekannt ist, ob dann Google noch regelmäßiger vorbeikommt, um etwas Neues zu entdecken. Das finde ich vor allem dann interessant, wenn ich eine Website habe, nehmen wir mal einen Onlineshop und ich veröffentliche regelmäßig neue Produkte und ich habe vielleicht
00:07:42
Speaker
Glauben wir mal kurz diesen Daten hier und ich habe vielleicht relativ wenig. Ich will gleich sagen Croibogy, aber doch tun wir mal ganz kurz so wenig Croibogy in der Auffindbarkeit, also den Zweck.
00:07:57
Speaker
dann könnte ich vielleicht ein Problem haben, neue Seiten in den Index zu bekommen. Aber das ist... Genau. Aber du solltest natürlich, also wenn du gut verlinkt hast oder eine Sitemap nutzt, solltest du natürlich dann einen Anstieg an Discovery sehen. Also eine neue Entdeckung, ich weiß gar nicht, wie es in Deutsch heißt, und nicht Refresh. Das heißt, du solltest das schon bemerken. Wenn jetzt wirklich auf dem Blog eine Menge neue URLs live gehen, solltest du da ja schon an den Tagen dann, an den kommenden
00:08:27
Speaker
eine Umkehr sehen. Es ist vor allem ganz interessant, weil man kann in den Statistiken ja auch sehen, welche Seiten das betrifft. Und da könnte man ja jetzt natürlich, aber das ist halt auch, wir wissen es ja alle, auf 1000 Datensätze begrenzt. Da kommt man jetzt so la la mit weit.
Datensicherheit und Repräsentativität in GSC
00:08:47
Speaker
Aber es ist zumindest mal eine Möglichkeit, herauszufinden, wie Google die Seite gecrawled hat im Bezug auf Auffindbarkeit.
00:08:57
Speaker
Ja, wenn du eine kleine Seite hast, kommst du natürlich extrem weit damit. Und wenn du eine sehr große Seite hast, dann weißt du nicht, ob das ein repräsentatives Sample ist. In der Regel nicht. Also du kannst natürlich schon sehen systematisch, aha, okay, hier verrennt sich der Bot, hier ist irgendwie was im Argen. Aber nicht immer. Also du weißt einfach nicht, sind das immer die besten Beispiele oder ist das jetzt einfach hier so ein Zufallsausschnitt und der Rest vom Fenster sieht ganz anders aus? Das weißt du halt nie.
00:09:25
Speaker
Aber du hast gerade schon einen guten Hinweis gegeben. Man kann halt auf alle diese Felder nochmal draufklicken und kriegt in der Regel dann Beispiel URLs. Nicht alle 1000 sind es. Auch in der Regel nochmal mit einem Timestamp, wann der Bot vorbeigekommen ist. Status-Code dazu. Das heißt, das ist schon mal praktisch. Man kann hier schon mal so weiter forsten und gucken. Die Frage, die ich mir jetzt gerade gestellt habe. Ich war hier gerade mal in der Search-Konsole eines Projektes, wo Aufwendbarkeit mit 11 Prozent ist.
00:09:54
Speaker
Find ich so la la ehrlich gesagt. Und interessant fand ich da, da waren dann 925 URLs gelistet, aber trotzdem die Überschrift Beispiele. Gut.
00:10:08
Speaker
Im UI ändern Sie halt die Überschrift nicht, wenn Sie vollständig sind. Ist die Frage, ob das nur 925 Beispiele waren oder ob die mehr haben? Also, das ist wieder diese Problematik, die man hat in der GSC. Das ist so Interpretation des User Interface.
00:10:27
Speaker
Ja, und es ist ja auch in der Regel gesampelt. Also auch aus Datenschutzgründen geben sie dir, selbst wenn sie dir alles anzeigen könnten, nicht alles, wenn es irgendwelche Rückschlüsse auf zu private Suchen oder sowas sind. Und das fällt dann da auch drunter. Hast du ein Beispiel? Was meinst du? Für so eine zu private Suche. Ja, in den Crawls setzt es jetzt weniger, aber wenn es, also wenn
00:10:51
Speaker
wollen ja auch unbedingt vermeiden, dass das passiert ja dem einen oder anderen Shop auch, dass sie irgendwie Daten, die auf den User zurückschließen lassen, weil irgendein Wert irgendwie als Parameter mitgeschrieben wurde, was hoffentlich in der Regel nicht passiert. Aber das will Google natürlich auch verhindern. Und wenn du, wenn eine Suche wirklich zu selten ist und jemand, also was weiß ich, nach irgendetwas in Kombination auch mit dem eigenen Namen oder einer Person Namen irgendwie sucht, dann wirst du das nicht in
00:11:19
Speaker
in dem Leistungsbericht sehen bei den Queries. Ah, du bist gerade bei den Queries. Ich war jetzt gerade
Verbesserung der Serverleistung durch Crawl-Statistiken
00:11:24
Speaker
bei den URLs, deswegen war ich gerade... Nee, aber bei den URLs kann es natürlich trotzdem sein, dass das irgendwelche, also falls da schlecht Daten geschützt worden sind.
00:11:35
Speaker
Du willst ja auch keine E-Mail-Adressen in der URL noch aussehen. Das stimmt. Das wär mal ein Testwert, dass man mal ein Projekt macht, wo man alle E-Mail-Adressen, alle URLs mit E-Mail-Adressen da reinpackt. Natürlich Fake-E-Mail-Adressen. Um zu gucken, ob da Google auch Filter hat. Bin ich mir sehr sicher. Ich mir auch. Aber das ist wieder so was, was mich dann wieder interessiert. Schreibt ihr das mal auf. Dann wird das abgeprüft. Mach ich dann zur Rente.
00:12:04
Speaker
Wenn wir ganz normal oben bei den Cross jetzt einfach reingehen und wir können halt oben diese drei Grafen an- und abwählen und uns gucken, wie verläuft denn die Kurve und wir sehen dann vielleicht, dass die Average Response Time irgendwie weit über 500 Millisekunden ist oder gerne noch mal über die 1000 sogar.
00:12:28
Speaker
dann weiß ich ja, ich hab irgendwie generell ein Problem. Kann ich irgendwie vielleicht am Hosting nochmal was klären oder meine Ressourcen irgendwie drosseln, kleinere Datenpakete schnüren, denn dann hab ich ein Problem. Und sowas sieht man ja schon, und das ist jetzt ja in der Regel jetzt nicht für so Redakteurinnen und Redakteur die erste Anlaufstelle. Und trotzdem hat dieses Tool schon mal Einblicke. Und es ist halt Google selbst, die es dir sagen.
00:12:53
Speaker
im Testing Tool sagt, was sagt, irgendwie deine Seite floatest oder nicht, sondern der Googlebot ist hier vorbeigekommen, hat versucht, Dinge runterzuladen. Du hast gesagt, nicht die komplette Seite, aber so ein Ping mal abgegeben. Und wenn der Server dann da schläft und überlastet ist, Google crawlt ja auch sehr webseitenbetreiberfreundlich, wenn man
00:13:14
Speaker
den Server nicht crushen will, unfreundlich, wenn man sagt, komm doch gerne häufiger vorbei, du crawls zu wenig für unseren Geschmack. Genau, aber sowas kann man ja hier sehen. Und du kannst aber unten, dann gibt es ja auch nochmal diesen Punkt Hosts und kannst dann tatsächlich ja auch nochmal eingrenzen. Vielleicht, also erstmal finde ich immer spannend, wenn man irgendwelche Staging-Geschichten dann da auch entdeckt, also
00:13:37
Speaker
Ja, von Projekten, die da vielleicht gar nicht... Wo man sich fragt, warum ist der Bot da überhaupt unterwegs? Warum kennt er unsere Dev-Umgebung? Was macht der hier? Das finde ich aus dem Grund schon mal spannend. Und dann kann man ja häufig auch noch mal wirklich eingrenzen. Oder ist er wirklich auf einer... Gibt es noch eine alte M-Dot? Und da ist viel zu viel Bewegung noch drauf. Wir verschwenden quasi Crawling-Ressourcen von Google auf einer Subdomain, die eigentlich schon längst safe hätte weiterleiten sollen und die jetzt schon gar nicht mehr geben sollen. Und trotzdem tümmelt sich der
00:14:07
Speaker
Google Bot da, das ist eben auch interessant, irgendwie das nochmal rauszufinden. Das würdest du aber natürlich mit einer normalen Lockfile-Analyse auch rausfinden. Oder besser rausfinden. Definitiv. Auch hier vielleicht noch ein kleiner Tipp für die, die jetzt diesen Report parallel mal aufgemacht haben. Und ihr seht da keine Hosts. Dann habt ihr keine Domain Property bei euch in der GSC angelegt, sondern habt nur eine normale Property. Und dann gibt es natürlich auch keine Hosts. Das ist wichtig.
00:14:35
Speaker
Das ist ein wichtiger Zusatz. Also je höher die Property angelegt, desto mehr Einblicke hab ich dann
Leistungsanalyse von CDNs und Subdomains
00:14:42
Speaker
auch. Wir haben uns, also ich hab mir jetzt hier natürlich was rausgesucht. Etwas, das tief blicken lässt. Ja, ich muss dazu sagen, es ist jetzt auch nichts, wo du mich hättest nachts wecken können und ich hätte dir das sofort sagen können, sondern beim Klicken durch die unterschiedlichen Projekte hab ich gerade gesehen, ach, das fällt da ja weg, dann wird das nur was mit Domain-Properties zu tun haben.
00:15:05
Speaker
Warum sollte denn auch ein anderer Host angezeigt werden? Wobei, ich hatte noch einen Grund, warum man auch Hosts anzeigen könnte oder sollte vielleicht, nämlich wenn ich ein CDN benutze für statische Dateien zum Beispiel. Das fällt nämlich jetzt hier komplett runter und
00:15:27
Speaker
Das stimmt. Erklär noch mal, warum fällt das so raus? Wenn ich jetzt zum Beispiel eine Website habe, die läuft unter www.gutewebsites.de zum Beispiel, und ich habe dort einen CDN für zum Beispiel CSS und JavaScript, und dann habe ich eine Subdomain noch mal für images.gutewebsites.de. Also einmal static.gutewebsites.de für den ganzen Frontendkram und einmal images für Bilder.
00:15:55
Speaker
Und wenn ich jetzt eine ganz normale Property angelegt habe in der GSC, dann, wie ich gerade schon sagte, kriege ich ja in den Crawl-Statistiken keine Hosts angezeigt, obwohl hier an der Stelle die CDN-Subdomains relevant wären. Sondern das bekomme ich halt wirklich nur dann, wenn ich eine Domain-Property anlege. Genau. Jetzt hätte garantiert jeder folgen können gerade.
00:16:22
Speaker
Also besser als wenn du nur sagst, ja, das sieht man ja dann gar nicht. Aber wenn das eine ganz andere Domain quasi ist. Genau. An der Stelle wichtig, wie gesagt, das eine, ein CDN, hat ja durchaus auch was mit einer normalen Property zu tun oder auch mit einem Subfolder. Deswegen würde ich mir schon wünschen, dass das da sichtbar wird. Und auch hier sieht man natürlich wieder die Problematik, wenn ich nur GSC habe. Da würde ich jetzt zum Beispiel
00:16:52
Speaker
Also gerade wenn ich jetzt die Performance von einem CDN messen möchte, glaube ich, ehrlich gesagt, würde ich auch gar nicht mit der GSC arbeiten, sondern würde sowieso ein explizites Tool für diese Analyse nehmen und im allergrößten Zweifel auch Screaming Frog. Da kann ich mir dann ja auch zumindest mal so die Downtime anschauen von den ganzen CDN-Subdomains.
Verwaltung des Crawl-Budgets
00:17:20
Speaker
Und wenn man sich so ein bisschen näher, du hast ja vorhin so ein bisschen gezögert, das Wort Crawl Budget in den Mund zu nehmen. Aber wenn wir jetzt dann einfach mal mit so einer Hilfsgröße arbeiten wollen, man kann natürlich sagen, Google ist Google. Und wenn die Dinge crawlen auf unserer Seite, egal ob es jetzt Bilder sind oder der AdSpot Anzeigen durchforsten möchte oder sonstige Ressourcen, da können auch
00:17:46
Speaker
Fonts, also Schriftarten und sowas dabei sein, dann gehört das ja alles irgendwie zusammen. Aber wenn ich wissen will, wie viele Dokumente habe ich denn eigentlich, dann ist es natürlich auch nochmal hilfreich, wenn man sich bei den Crawl-Requests dann auch den Filetype anguckt. Da kann man dann auch so witzige Sachen entdecken, so wenn man sagt, warum ist eigentlich der Prozentsatz von Other Filetypes, also irgendwie andere, so groß, was ist denn das? Häufig sind das JSON-Sachen, dann ist das völlig in Ordnung.
00:18:15
Speaker
Manchmal aber entdeckt man da auch Dinge, das sind keine Ressourcen, die jetzt eigentlich Google braucht, um diese Domain zu bewerten oder lesen zu können. Und dann ist das ein guter Hinweis, dass man da vielleicht mal was abklemmen kann, zur Not auch mit der robots. Und wenn ich jetzt wirklich das Crawl-Budget so ein bisschen rausfinden will, dann lohnt sich das da auf HTML mal zu filtern. Das kommt ja dann schon dem näher, was jetzt so ein HTML-Dokument ist.
00:18:43
Speaker
Wenn wir jetzt wirklich sagen, eine Webseite, die wir in den Index haben wollen und da mal zu sehen, wie viel Crawler-Requests habe ich denn da. Also wir haben jetzt hier diese 90 Tage durch drei, dann habe ich es wenigstens so auf Monatsbasis oder ich kann es natürlich auf den Tag runterrechnen und könnte mir, kann dann eben Annahmen treffen, wie lange Google denn
00:19:04
Speaker
brauchen würde, um jede meiner Dokumente auch durchzucrawlen, das auch regelmäßig. Das natürlich vor der Annahme, das ist ja nicht jede Seite gleich, ist jetzt nicht so nur, weil ich irgendwie das Budget dafür habe, dass der Googlebot alle Seiten sehen könnte. Macht er das ja noch lange nicht, wenn ich das zum Beispiel nicht anständig verlinkt habe und so auf der Homepage ist der Googlebot natürlich in der Regel häufiger unterwegs, als auf irgendeinem alten, sich niemals ändern, völlig irrelevanten Content Piece oder so.
00:19:34
Speaker
Aber auch hier habe ich ja zumindest wieder eine Auswahl. Also mit diesen Zeilenbegrenzungen muss man dann halt arbeiten. Aber ich kann schon mal sehen, wann ist denn der Bot hier auf welcher Art so ein bisschen unterwegs gewesen. Und ja, wenn ich hier durchscrolle, wird das alles noch nicht so klar. Aber wenn man sich einen Export macht und dann vielleicht auch segmentiert, guckt in den Samples von Google, habe ich dieses, was weiß ich, dieses Verzeichnis besonders häufig und dieses leider gar nicht oder so.
00:20:04
Speaker
dann kann ich ja schon feststellen, feststellen ist so eine Sache. Also das gibt mir dann einen Hinweis darauf, ob Google das andere Verzeichnis vielleicht sieht oder nicht sieht, aber dann spiele ich den Ball zurück an Andre, wenn du es wirklich wissen willst, ob bei einem anderen Verzeichnis, was hier nicht dann gelistet ist, der Google doch unterwegs gewesen ist, dann helfen dann doch wieder nur die echten Logfiles.
00:20:27
Speaker
Naja, es ist halt, du kriegst ja hier auch, also ich hab's jetzt nie ausprobiert, weil wie gesagt, das wäre nicht, also ich würde mit diesen Daten eigentlich nicht, also ich klick da nie rein.
Herausforderungen bei großen Websites
00:20:40
Speaker
Weil mir aber auch lockfalls bei jedem Projekt zur Verfügung stehen. Also das ist einfach der Punkt. Lucky you. Genau.
00:20:50
Speaker
Was dir hier natürlich fehlt ist, das hast du ja auch schon gesagt, du hast zwar hier theoretisch eine Zahl, wie viele Crawling-Anfragen gestellt worden sind, was ja aber noch lange nicht bedeuten muss, dass auch wirklich alles gecrawled wird.
00:21:07
Speaker
bringt mir ja alles nichts, wenn irgendwie von einer URL in der Woche, oder die eine URL wird in der Woche 500-mal gecrawled. Das ist zwar schön, da würde ich mich eher fragen, warum, aber wenn die eine, die genauso wichtig ist, nie gecrawled wird, dann hilft mir diese reine Zahl halt auch nicht aus. Ja. Wenn's wirklich nur die eine ist, bei der ich's wissen will, dann kann ich ja oben immer noch den Schlitz für das Inspection Tool nutzen, und da krieg ich auch die Info.
00:21:37
Speaker
Jetzt haben wir uns heute hier so ein bisschen auf diesen Report eingeschossen. Also ich habe noch so ein bisschen Möglichkeit, aber das ist ja dann händische Arbeit und bei einem großen Projekt auch einfach nicht skalierbar. Da kannst du nicht jede einzelne anlegen. Selbst wenn du nochmal mit Inspection API ein bisschen was mit dem Screaming Frog täglich abrufen kannst. Einiges kann man machen, aber also durch so richtig Millionen Seiten, dich jetzt da mit einem Inspection API 2000er pro Property Limit durchzuquälen, das ist schon mühselig.
00:22:04
Speaker
Ja, absolut. Also ich glaube auch, da ist das Tool einfach nicht das Richtige, also die GSC. Ich finde, man muss das auch mal ein bisschen schauen. Man kriegt zwar einen guten Querschnitt durch die Seite angezeigt, aber bei mittelgroßen Websites, da hört es dann schon in der Regel auf. Da wird es dann eben wirklich nur ein Querschnitt.
00:22:26
Speaker
Aber das sind ja im Verhältnis zu den Gesamtseiten, die es da so gibt und wer alles die GSC nutzt, glaube ich, sind das gar nicht so viele große Seiten, die diese Probleme haben, die ich oft habe jedenfalls. Aber es war ja auch die Initialidee mal zu sagen, komm, lass uns mal reinschauen, was können wir da eigentlich rausholen?
00:22:50
Speaker
Nur man muss an der Stelle immer wieder auch dafür sensibilisieren, dass das natürlich, was die Daten angeht, zwar alles schön und gut ist und nett ist und einem auch mehr gibt, als wenn man nichts hat. Absolut. Und man kriegt auch ein Gefühl, allerdings auch ein Gefühl von
00:23:12
Speaker
Also vor allem, wenn man jetzt nicht wie du, wie ich und vielleicht auch die Person, die dazuhört gerade hier, vielleicht mehrere Properties da in Zugriff hat und vielleicht auch innerhalb der Branche, dass man mal ein Gefühl kriegt.
00:23:28
Speaker
Ist das jetzt eigentlich gut oder ist das jetzt schlecht? Also dir fehlt halt jegliches Benchmark. Also wenn ich jetzt hier das Beispiel sagte, ich habe hier die Crawling-Anfragen gerade offen hier und dann habe ich dieses Linendiagramm, dann habe ich hier täglich irgendwie, weiß ich nicht, 10.000, 9.000 und dann habe ich an einem Tag 48.000.
00:23:52
Speaker
Das ist halt so der Klassiker. Wo dann, ich weiß nicht, früher in Seminaren immer die Frage war, wie kriege ich raus, was an dem Tag war?
Langzeit-Analyse und Datenverwaltung
00:24:03
Speaker
Ja, solche Fragen lieben wir. Aber wie du sagst, es geht auf jeden Fall mehr. Und wenn man Lockfiles hat, ist es besser. Wir haben jetzt auch gesehen, nicht alles ist in den Lockfiles besser. Also Discovery, also diese ... Wie heißt das auf Deutsch?
00:24:22
Speaker
By purpose, refresh and discovery, das ist schon spannend. Aber ich muss wirklich sagen, wir haben wirklich einfach extrem viele Kundenprojekte und nicht, also wirklich beim Bruchteil haben wir Zugriff auf die Logfiles und hier Daten direkt von Google, also von der Suchmaschine selbst. Es gibt natürlich analog auch etwas bei Bing, sowas zu bekommen und schon mal rein zu gucken und wenn man dann feststellt, hey, wir haben uns hier mal die Response Codes angeguckt und zwar nicht, was wir selber mit einem Frosch gecrawled haben,
00:24:51
Speaker
sondern tatsächlich, worüber diese Suchmaschine, bei der du ja so wahnsinnig gerne ranken möchtest, wo die drüber gestolpert ist. Und da habe ich dann irgendwie über 50 Prozent 404 Fehler. Das ist sozusagen jetzt nicht nur irgendwo im Longtail, da bei meiner Verlinkung ist irgendwas schiefgegangen, sondern das war wirklich das, wo Google unterwegs gewesen ist. Und das ist das, was wir denen anbieten. Das klingelt beim Kunden schon anders in den Ohren als
00:25:17
Speaker
als wenn ich sozusagen selber so einen Report aus einem eigenen Crawl zusammengestellt habe. Das hat Google wirklich gesehen. Das ist jetzt gerade die Perspektive auf eure Domain, die die Suchmaschine gerade hat. Das hat schon nochmal eine andere Wirkmacht.
00:25:33
Speaker
Ja, und vor allem finde ich halt auch spannend an der Stelle, gerade das, was du sagst mit dem 404. Auch das ist, glaube ich, der Alltag bei vielen Website-Betreibenden oder Verantwortlichen, dass sie gar nicht wissen, wo habe ich denn überhaupt einen 404.
00:25:50
Speaker
Und das kriege ich eben da zumindest mal in einem gewissen Maß, kriege ich hier die Daten zumindest mal als Beispiele genannt. Und vielleicht lassen sich ja hier auch Muster erkennen. Und anhand von Mustern kann man dann ja auch vorgehen, um das Problem zu lösen, exemplarisch.
00:26:08
Speaker
Ja, also ich liebe die Google Search Console wirklich. Also es gibt vieles daran, was man nicht mögen muss. Also wie du auch sagst, warum ist der Reporter eigentlich irgendwo unter den Einstellungen versteckt? Warum ist das nicht sichtbarer? Warum zeigen sie anderes viel präsenter? Viele Fragen, die man da stellen kann, aber ich arbeite super gerne mit den Daten, würde mir natürlich wünschen, dass ich sie
00:26:30
Speaker
besser daraus kriege. Wir haben jetzt doch überhaupt gar nicht das Fuzz Indexing Report aufgemacht. Der ist nämlich für die technische SEO mindestens genauso spannend, auch nochmal wirklich interessant. Ist vielleicht nichts für heute. Und was die meisten ja kennen, ist ja das, was man auch in anderen SEO-Tools so sieht, zu welchen Keywords werde ich denn eigentlich mit welchen URLs so gefunden. Das ist natürlich auch nochmal geil, das direkt von Google zu haben. Mit all den Beschränkungen, die das hat,
00:27:02
Speaker
Ich möchte sie nicht missen. Neu-Kunden-Projekte, wo ich noch keinen Zugriff auf die Search-Konsole habe, fange ich eigentlich nicht an. Wenn es dann heißt, Zugang gibt es irgendwann.
00:27:15
Speaker
audit irgendwie nicht anfangen, wenn ich diese Daten nicht habe. Absolut richtig. Also ich meine, das ist wirklich das Minimum, was man braucht, um da irgendwie ein Gefühl, nicht nur ein Gefühl, sondern um eine Datengrundlage zu haben, um eine Website erstmal
00:27:33
Speaker
zu sehen, wo man steht und wo es offensichtliche Probleme gibt, da ist die GSC, glaube ich, auf jeden Fall sehr, sehr hilfreich. Was ich zum Beispiel mache, kommen wir jetzt leider mit den Crawling-Statistiken auch nicht weiter, aber zumindest mal beim Leistungsreport. Ich habe mir ein Tool geschrieben, wo ich die ganzen Daten, die man ja auch in BigQuery automatisch reinschieben kann, und nicht jeder will mit BigQuery arbeiten, weil es dann gerade, wenn du damit arbeitest, auch teuer werden kann,
00:28:02
Speaker
gerade bei Großprojekten, mehr oder weniger täglich exportiere ich mir das in eine ganz normale, maskuelle Datenbank. Da kann man auch eine MongoDB oder SuperBase, was auch immer man machen möchte, da kann man sich die Daten reinschieben. Und das würde ich auf jeden Fall, wenn ich jetzt irgendwo als Inhouse CEO anfangen würde,
00:28:25
Speaker
oder auch langfristig als freier SEO, würde ich auf jeden Fall diese Funktion irgendwo aktivieren. Nicht weil ich jetzt heute damit arbeite, aber in dem Moment, wo ich mir diese Daten historisch eben auch abspeichere, kann ich eben später darauf zugreifen, wenn ich vielleicht sie brauchen könnte, weil auch hier gehen die ja sonst Daten verloren.
00:28:46
Speaker
Google macht das aktuell. Jetzt sind wir doch so halb im Leistungsreport drin. Aber wir machen das jetzt auch zum Teil transparent. Wie viel oder wie wenig Prozent du überhaupt hast, das finde ich ganz cool. Das hilft. Also wir wollen das auch von Kunden immer. Und dass man da eine Kreditkarte angeben muss, bremst so doll aus. Also das sorgt für Panik. Selbst wenn man sagt, ne oft das Terabyte müsst ihr erst mal kommen und wir wollen ja nicht Influence. Also wir wollen ja nicht sozusagen Analyse.
00:29:16
Speaker
live mit den Daten machen. Das kann teuer werden, sondern wir wollen nur den Export. Und das ist in der Regel auch für große Seiten. Wir müssen den Cent noch wirklich mehrfach splitten.
00:29:27
Speaker
Fall, ob du jemals da ins Kontingent kommst, wo du überhaupt zahlen musst und trotzdem muss aber die Kreditkarte hinterlegt sein. Das ist eine riesen Barriere, weil das ganz andere Prozesse so in Haus hervorruft. Da kannst du halt nicht einfach mal sagen, dann nehme ich halt meine. Und dann macht jemand dummerweise in dem Projekt doch eine Analyse. Genau. Das kannst du ja nicht.
00:29:51
Speaker
Das war es mit dem Sommerurlaub nächstes Jahr. Schade. Genau. Das ist ein Hindernis, aber wir versuchen natürlich auch, dieses Argument zu machen, denn du kriegst nur die Daten ab dem Zeitpunkt, wo du das scharf geschaltet hast. Du kriegst rückwirkend gar nichts. Und Frage an dich, manipulierst du die Daten noch oder machst du wirklich so, wie das von Google dort hinterlegt ist, auch den Ro export und arbeitest dann ab deiner Datenbank weiter?
00:30:20
Speaker
Ich liebe so Fangfragen. Tatsächlich, ich exportiere sie mir dann da erstmal tatsächlich rein. Wenn ich dann damit arbeite, dann kommt es auch immer ein bisschen drauf, also auch auf das Projekt drauf an, ob ich das machen muss.
00:30:39
Speaker
Wir haben ja schon mal über dieses horizontale Projekt gesprochen, in dem ich arbeite. Dort verändere ich durchaus die Daten, weil die sind so, also es sind halt so viele Datensätze mittlerweile, dass ich zum Beispiel mir so ein Grouping mache an, weiß ich zum Beispiel, verschiedene verschiedene
00:31:07
Speaker
Aktivitätsmuster, die packe ich in Kategorien. Und Darstellerinnen, die werden quasi in so einem Cluster Darstellerinnen gepackt und so weiter. Weil sonst kommst du auch da nicht weiter. Oder hast du die Frage anders gemeint?
00:31:28
Speaker
Nee, also ganz konkret Kollege Lars, schöne Grüße an der Stelle, hatte auch neulich wieder ein Kundenprojekt, wo wir dachten, ah cool, wir haben ja BigQuery-Daten vorliegen, auch rückwirkend. Und dann hatte das, was da an Daten dann rausfiel, einfach, war schon extrem frisiert so. Und von Rohdaten konnte man einfach nicht mehr sprechen. Und das ist dann auch, das wirft einen halt einfach im Projekt zurück, wenn du denkst, du hättest jetzt
00:31:55
Speaker
den Rohstoff. Und da sind aber, da ist dann einfach schon, da sind Filtergeschichten drauf passiert, die du aber nicht siehst. Also die einfach bei denen intern passieren und dann kommen halt andere Daten raus, wo schon irgendwas zusammengerechnet wurde oder so. Und das gibt viele Rätsel dann auf im Nachhinein. Das heißt, hat bei uns auf jeden Fall nochmal so ein bisschen die Antennen geschärft, da nochmal genau reinzugucken, wie die Daten dann aufbereitet oder eben am besten gar nicht weiter aufbereitet sind.
00:32:22
Speaker
Wie habt ihr das analysiert? Habt ihr einen Abgleich gemacht? Ist nicht mein Projekt, deswegen weiß ich es gar nicht so genau. Ich weiß nur, dass das Arbeit damit verbunden war, das nochmal zu entknoten. Ne, man muss es ja erstmal sehen. Also das ist ja der Punkt. Ja, genau. Also du kannst ja die Spalten dann einfach sehen. Also du weißt ja, was normalerweise für Spalten rausgekommen wären.
00:32:44
Speaker
Und wie die dann aussehen und haben uns dann halt gefragt, bei denen und den Abfragen irgendwie kommt hier nichts. Wir sind uns aber sehr sicher, dass die Daten eigentlich da sein müssen. Und dann sind die dem so irgendwie auf die Schliche gekommen. Du gehst jetzt aber, du redest jetzt aber ganz konkret von BigQuery. Ja. Okay, gut.
00:33:04
Speaker
Also, weil das hast du ja nicht, wenn du über die API einfach gehst und das, was da zurückkommt, einfach nimmst. Deswegen war ich jetzt gerade irritiert, wo ihr dann eine Frisierung quasi festgestellt habt. Nee, also quasi in den Spalten, die du von BigQuery dann exportierst. Die waren schon anders. Die waren nicht mehr Ruhe. Okay, okay. Also das, wie gesagt, ich pack das ... Ich verstehe deine Frage nicht ganz. Können Sie mich bitte genauer kommunieren? Hier sind ein paar Dinge, die dir helfen könnten, deine Frage klarer zu stellen.
00:33:37
Speaker
Ja, Gemini will hier mitreden. Wir haben einen Gast. Nein, ich will nichts verändern. Passt soweit. Es ist schwierig, wenn man ein Podcast über Google macht und man hat hier ein Android-Gerät liegen. Dann kann es schon sein, dass es sich einmirscht. Also das ist halt jetzt habe ich voll den Faden verloren. Herzlichen Dank. Das ist etwas, was ja, keine Ahnung. Ich weiß nicht mehr, was ich vorhin gesagt habe. Kannst du mir nochmal helfen?
00:34:08
Speaker
Ja, wir waren dabei, eigentlich war das Ding schon durch. Es ging nicht um die normalen API-Daten, sondern den BigQuery-Export. Und wir hatten einfach Verstrickung da in den Tabellen, die da rauskommen. Das habe ich noch. Das habe ich noch. Aber ich wollte gerade um das erzählen. Aber gut, mir fällt es jetzt nicht wieder ein. So ist das. Da kommt eine Stimme und zack ist der Faden weg.
00:34:33
Speaker
ist er raus. Gut, aber wir wollten ja sowieso nur über die Crawl Sets sprechen und so ein bisschen das kontrastieren mit dem, was man in der Lockfile-Analyse machen kann. Wir sind jetzt nicht besonders tief in Lockfile-Analyse reingegangen. Aber um das mal so abzugleichen, ich will nur sagen, ich mache drei Kreuze, dass ich die Crawl Sets in der Search Console habe, denn ohne wäre ich Zappenbooster. Von daher, ich bin froh, dass es sie gibt. Ja. Nämlich so.
00:35:03
Speaker
Ich auch. Na gut, dann lassen wir uns an der Stelle dabei und sagen, Winke-Winke, bis zum nächsten Mal. So sieht's aus. Macht's gut. Tschüss. Tschau.