Website-Sitemap herausfinden / Namen der Ebenen herausfinden

Th4R4t

Enthusiast
Thread Starter
Mitglied seit
07.07.2004
Beiträge
1.342
Ort
Düsseldorf
Hallo Leute,
ich habe ein kleines Problem, was ich nicht gelöst bekomme. Und zwar habe ich Website, wo ich die Namen der einzelnen html Dateien auf der untersten Ebene kenne, jedoch aber nicht die Namen der Ebenen dazwischen :(
Zum Verdeutlichen:
Das ist die Website die ich habe
http://www.sothebys.com/en/auctions/ecatalogue/2014/contemporary-art-evening-sale-n09221/lot.1.html

Ich weiß, dass die unterste Ebene immer eine "lot.1.html" Datei beinhaltet
http://www.sothebys.com/en/auctions/ecatalogue/XXX/XXXX/lot.1.html

Nun suche ich eine Möglichkeit herauszufinden was alles für XXX und XXXX-Werte gibt? Wenn ich versuche auf die "ecatalogue" Seite zu gehen (also http://www.sothebys.com/en/auctions/ecatalogue gibt es immer ein schönes "Forbidden".

Hoffe es ist einigermaßen verständlich auf was ich hinaus will :)

Schonmal Danke für eure Hilfe!
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Schnelle Antwort: Nein, keine Chance, ohne dass du die Datenbank hackst.

Edit: Kannst dir höchstens die sitemap anschauen, dann siehst du genau so viel wie Google, aber an forbidden auf Verzeichnisebene kommt man nicht vorbei.
 
Zuletzt bearbeitet:
ach mist, das ist (für mich) ärgerlich. Danke für die schnelle Antwort

edit: also wenn ich den ecatalogue link bei google eingebe (da wo ich auf forbidden gelange) erhalte ich 487,000 Treffer. Kann ich nicht anhand der Trefferliste herausfinden was es für Verzeichnisse gibt? Aber am liebsten nicht händisch alle 487,000 links durchklicken (z.B. indem man die Suchergebniss urls in ne excel datei etc. importiert?
 
Zuletzt bearbeitet:
Hier sind ne Menge Links zu den Auktionen drin: http://www.sothebys.com/index_en1.xml
(Sollte man auch exportieren können, da XML maschinell verarbeitbar ist)

Hier nochmal die ausführliche Antwort:
Das Problem ist, dass es nur nach einer Verzeichnisstruktur aussieht, es aber praktisch keine ist.
Die Verzeichnisse existieren nur virtuell, aber nicht praktisch, die URL-Struktur (/xxx/xxx/...) wird nur vom Server generiert (zur besseren Lesbarkeit), existiert so aber nicht auf dem Server.
Deswegen kannst du z.B. auf das Verzeichnis "http://www.sothebys.com/en/auctions/ecatalogue" auch nicht zugreifen, weil es nicht existiert.

Das Prinzip funktioniert so:
Der Server hat in einer Datenbank für jedes Element eine ID hinterlegt, mit einer anfrage "/2014/contemporary-art-evening-sale-xxx/lot.1.html" fragst du intern auf dem Server ab, ob es einen Eintrag mit der ID xxx in der Datenbank gibt.

Was das Schöne (Und für dich das Problem) an Datenbank-gestützten Systemen ist, die ID muss nicht zwangsläufig fortlaufend sein, d.h. die ID kann im speziellen Fall von n09221 auf d04545 springen, um solche Abfragen, wie du sie machen willst, zu unterbinden.
 
Hallo ofhouse,
danke, dass du dir die Zeit nimmst mir das alles zu erklären :) Ja, in dem Link zu der xml sind schon einige Auktionen drin und ein guter Ausgangspunkt :) und per copy und paste in die /XXX/XXXX/lot.1.html struktur funktioniert das auch wunderbar. :) Frage ist nur leider, wie viele der Auktionen wirklich in der XML datei drin sind (vor allem, weil es nix vor 2001 gibt).
Die ID zu der jeweiligen Auktion sollte sich doch (theoretisch) nicht ändern über die Jahre oder? Also angenommen, ich finde bei Google einen Link zu einer Auktion (der allerdings schon 15 jahre alt ist ^^) müsste der doch noch funktionieren. Sothebys nennt das ganze ja auch "Archive" :d

Falls du als Experte noch einen Einfall hast, wie ich über Umwege an noch mehr Auktionsnamen + ID kommen könnte bin ich ganz Ohr :)
 
Also das Einzige, was dir in der Beziehung noch weiterhelfen kann, ist die Suche auf der Seite ohne Filter (Einfach Sotheby's - Search aufrufen)

Die ID zu der jeweiligen Auktion sollte sich doch (theoretisch) nicht ändern über die Jahre oder? Also angenommen, ich finde bei Google einen Link zu einer Auktion (der allerdings schon 15 jahre alt ist ^^) müsste der doch noch funktionieren. Sothebys nennt das ganze ja auch "Archive" :d

Das kann nur der "Internet-Gott" wissen ¯\_(ツ)_/¯
Ne aber im Ernst, 15 Jahre sind für das Internet eine extrem lange Zeitspanne und man sollte eigentlich nicht davon ausgehen, dass das was man Heute im Internet sieht, noch in 2-3 Jahren dort ist, dafür ist das Internet einfach zu schnelllebig (sieht irgendwie komisch aus mit den 3 "L" ^^).
Morgen am Tag kann Sothebys z.B. eine neue Server-Infrastruktur bekommen und dann kann sich das alles wieder ändern, wenn da gute Programmierer am Werk sind, leiten sie dann veraltete Verlinkungen auf den neuen Eintrag weiter, aber davon sollte man nicht ausgehen.

Solange Sothebys keine API anbietet oder dir Admin-Rechte auf die Server gibt, wird das die einzige Möglichkeit bleiben.
Das ist das alte Problem mit dem Internet, dass das Meiste halt nur für Menschen geschrieben ist und nicht für Maschinen, sonst wären APIs deutlich verbreiteter.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh