Suchmaschinen: Reddit blockt alle bis auf Google

Thread Starter
Mitglied seit
06.03.2017
Beiträge
113.965
Reddit geht aktuell immer härter gegen Webcrawler vor. Laut einem Bericht von 404 Media hat Reddit in den letzten Wochen damit begonnen, Suchmaschinen daran zu hindern, aktuelle Beiträge und Kommentare anzuzeigen, es sei denn, die Suchmaschine zahlt dafür.
... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Ich wünschte mir gutefrage.net würde ebenso handeln, denn dann bleib ich automatisch davon verschont.
 
Wobei ich es einsehen kann dass sie für ihre dienstleistung geld wollen.
 
So, jetzt weis ich warum ich bei google seit so 3 Wochen, bei sw fragen, ständig einige reddit Ergebnisse in den top ten bekomme. Nerft, denn reddit will immer js. Die überspringe ich jetzt immer. Und in den Fällen, wo ich mal reingeschaut habe war das nicht hilfreich. Mittlerweile hat das mein google wohl erkannt.
 
Wobei ich es einsehen kann dass sie für ihre dienstleistung geld wollen.
Man könnte es aber auch anders herum betrachten. Reddits eigene Suchfunktion ist absoluter Mist. Wenn man einen bestimmten Beitrag finden möchte, geht es eigentlich nur über den Umweg mit Google.
 
Hammer, 🔨 ich fand Reddit in vielen Sachen informativ, zumal auch viele Hersteller dort Supporten.
Klar ist dort auch viel Mist zu finden, was abzustellen ist.
Bin mal gespannt, wer sich da durchsetzen wird. :rolleyes2:
 
Zuletzt bearbeitet:
Ob die sich damit am ende nicht alleine mehr Schaden. Wenn ich die Hinweise auf Reddit irgenwann nich mehr bei Google finde gehe nich drauf. Die Suche dort ist unter alle Sau wie schon oben erwähnt.
 
Zuletzt bearbeitet:
Hm? Es ist doch gerade nur noch Google, die dort nach neuen Sachen suchen dürfen.
 
Seit wann halten sich Crawler an die Einträge von der robots.txt ?

Im Falle von Reddit ist es nur

Code:
User-agent: *
Disallow: /
 
Diese widerliche Geldgier, wann hört das denn jemals auf?! Die sind gefühlt auch nur noch 2 Entscheidungen davon entfernt, das nächste Tumblr zu werden.
 
Seit wann halten sich Crawler an die Einträge von der robots.txt ?

Im Falle von Reddit ist es nur

Code:
User-agent: *
Disallow: /
"Offizielle" Crawler halten sich schon daran, also die größeren Suchmaschinen.
Aber natürlich kann man niemanden dazu zwingen, die robots.txt ist nur eine Übereinkunft und keine Vorschrift.
 
Ich hoffe reddit stirbt. Die Nummer mit den Drittanbieter-Apps war schon maximal ekelhaft.

Das jetzt schlägt in eine ähnliche Kerbe: reddit will seine Daten verkaufen. Google will seine KI füttern. Was beide außer Acht lassen: ohne die User, die den Content auf reddit kostenfrei erstellen, hätte reddit keine Daten und Google nichts für seine KI.

Der content mag rechtlich reddit gehören (Eula und so), aber ohne User wäre reddit nichts. Schade, dass wir User es nicht schaffen, auf eine alternative Plattform zu wechseln, die weniger gewinnorientiert ist.
 
"Offizielle" Crawler halten sich schon daran, also die größeren Suchmaschinen.
Schon interessant, dass sich Google in dem Fall (und evtl. auch anderen?) nicht an die robots.txt hält.
War mir nicht klar, dass die dem Googlebot punktuelle Ausnahmen ermöglicht. Aus der Google Dokumentation für Developer:
1000003434.jpg

Bedeutet dann wohl nun, dass Google nach eigener Definition nicht seriös ist. Aber ja eigentlich auch nix Neues. 😅
 
Die Zukunft ist sowieso dass man kaum noch Links zu Seiten direkt anklickt wenn man Informationen will. LLMs machens für einen und Foren die diese aussperren verschwinden in die Leere der Unbekanntheit.
 
Schade, dass wir User es nicht schaffen, auf eine alternative Plattform zu wechseln, die weniger gewinnorientiert ist.
Wozu soll das führen?
Die meisten dieser Platformen haben mal als kleines Projekt ohne jegliche Gewinnabsicht angefangen. Die Betreiber haben wohl meist anfangs sogar draufgezahlt, weil der Betrieb solcher Platformen kostet nunmal Geld. Dann wächst das irgendwann und kostet deswegen noch mehr Geld, langsam kommt neben Hardware und Stromverbrauch dann auch die rechtliche Frage dazu.
Dann will man irgendwann die Betriebskosten decken und fängt an Werbung einzuführen, Premium Accounts zu verkaufen, und sonst noch was.
Und irgendwann ist die Userbase so groß, das man es richtig monetasieren könnte. Noch mehr Werbung oder sogar Daten verkaufen. Das weckt dann natürlich auch Begehrlichkeiten bei den Urhebern der Platform.

Und wenn das mit dem Wachstum nicht klappt, stirbt die Platform irgendwo da mittendrin sowieso von selbst.

Selbst wenn jetzt die User auf eine andere Platform wechseln würden, geht das gleiche Spiel lediglich von vorne los.
 
Fazit...lasst uns unser hardwareluxx bloß in Ehren halten ✌️👍🏼
 
Schon interessant, dass sich Google in dem Fall (und evtl. auch anderen?) nicht an die robots.txt hält.
War mir nicht klar, dass die dem Googlebot punktuelle Ausnahmen ermöglicht. Aus der Google Dokumentation für Developer:
Anhang anzeigen 1014465
Bedeutet dann wohl nun, dass Google nach eigener Definition nicht seriös ist. Aber ja eigentlich auch nix Neues. 😅
Google hatte ja bereits mit Reddit eine Übereinkunft geschlossen, dass sie die Daten von Reddit fürs KI-Training benutzen dürfen. Da ist es nur noch ein kleiner Schritt, das so zu erweitern, dass das auch die Anzeige in der Suchmaschine erlaubt.

Und vielleicht müssen sie dafür auch gar nicht mehr "crawlen", sondern kriegen das direkt über eine API-Anbindung.
 
Heute mit duckduckgo etwas zu meinem rg35xx plus gesucht.
Lauter reddit Ergebnisse, in denen aber nichts steht außer wortgetreu "Vorschau nicht verfügbar da Website das nicht will".

Die Links führen trotzdem zum Ziel.

Schlimmer als das finde ich das sehr sehr sehr viel nach Discord abwandert und da Terrabytes an Wissen und Tools im www verloren gehen, da an deren Stelle immer nur auf Discord verwiesen wird. Das nervt.
 
Bereits existierende Suchergebnisse sollten davon ja nicht betroffen sein, da müsste Reddit wohl klagen (ähnlich wie Verlage hier in Deutschland mit dem Leistungsschutzrecht). Ich glaube aber nicht, dass es dafür eine rechtliche Grundlage gäbe.

Die neuen Ergebnissen seit der Änderung dürften aber eigentlich nicht mehr angezeigt werden, es sei denn, die Links zu Reddit wurden auf anderen Seiten gefunden und so indexiert. Quasi so wie die ganze Sache mal angefangen hat, mit "viele Links zu einer Seite = weit oben im Ranking", bevor die ganzen Ranking-Algorithmen zu Staatsgeheimnissen wurden.

Mit Discord gebe ich dir recht, das ist zwar recht praktisch, aber eben quasi auch eine Black-Box (Deep Web), da man explizit Bots auf jedem Server bräuchte, um den Inhalt zu indexieren. Es gibt sogar ein Open-Source Projekt dazu: https://github.com/AnswerOverflow/AnswerOverflow
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh