[Kaufberatung] data mining?

Boy2006

Banned
Thread Starter
Mitglied seit
06.10.2008
Beiträge
4.821
Da gibts ja interessante Video zum Thema "Spiegel mining" klingt interessant. Ich möchte gerne echtheitdaten die über ne normale Webpage kommen oder XML jenachdem ob ich die korrekte Schnittstelle finde. Nur welche Tool gibt es wo man einfach ein Klopfen kann was.man möchte?
Die Daten sollen gesammelt und später ausgewertet werden. Die source Daten ändern sich laufend und gespeichert soll nur der aktuelle Stand werden.
Thx
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Bitte was? Ist nicht böse gemeint, aber was genau ist jetzt deine Frage? Sieht für mich wie ein super schlecht übersetzter Google translate Text aus ohne Zusammenhänge.
 
Würde ich den Vortrag nicht kennen, ich hätte ebenfalls kein Wort verstanden.

Darum gehts:
Jemand hat alle veröffentlichen Artikel auf der Spiegel Website erfasst und die Metadaten (Wann erstellt, wie lang, welcher Autor etc) + eventuelle Schlagwörter ausgewertet. Was da rauskam ist SEHR interessant. Und der gute Boy woll nun wissen wie er eine solche Auswertung selbst vornehmen kann (also welche Software, Skripte etc).

Hier ist der Vortrag zu sehen:
 
Ich möchte von anderen Seiten die Date raus ziehen welche das ist geheim (möchte keinen blauen Brief bekommen...).
Theoretisch gibts ja die tools dafür nur kenne Ich mich noch nicht aus. Das sit wie bei jeden bei meinen anderen Projekt bin Ich auch schon weiter.
 
Du besorgst dir die Daten und lässt dann deinen Algorithmus drüber laufen.

Oder was meinst du? Es gibt ungefähr 1000 Wege sowas zu machen.
 
Genau wie ich die Daten von der Firmen page bekomme ist ja die Frage.
Im schlimmsten Fall ist das ne Webpage oder ich finde ne api für ne xml,... Ausgabe welche man auch wieder minin müsste.
Wenn es so viele Möglichkeiten gibt welche ist einfach?

Ich stelle mir das so vor das man auch sagen kann Objekt XY = Uhrzeit wenn wieder ein refresh stattfinden soll.
Die Daten werden je nach Anlass Fall aktualisiert das kann alle 60sec sein oder einmal pro Woche und das auf wx 200 Seiten paralell.
 
David erklärt in seinem Video doch das Vorgehen.

Generell musst du dir die zu untersuchende Homepage genauer anschauen (erster Ansatz ist der DOM Inspector in deinem Browser). Ich würde mal vermuten, dass du die Überschriften durch ihre gemeinsame Klasse finden kannst. Dann schreibst du dir in einer Sprache deiner Wahl (Python oder vielleicht PHP?) ein kleines Script, welches du regelmäßig startest (z.B. bei php mittels cron job). Dieses holt sich über http die aktuelle Version der Homepage und zieht sich nun die relevanten Daten (zB Überschriften der Artikel mit Link zum Artikel) und schreibt diese in eine Datenbank. In einem zweiten Schritt folgst du dann den Links zu neuen Artikeln und lädst da dann die relevanten Daten raus und speicherst sie ebenfalls in die Datenbank.
Unabhängig davon kannst du dir dann ein Programm zur Datenanalyse erstellen, je nach gewünschtem Ergebnis könnte ein R Script schon reichen. Einfach die relevanten Spalten der Datenbank als csv exportieren und Spaß haben :)
 
Na du lädst die Daten runter, per Hand, mit Skripten, mit sonstwas. Das was du kannst halt.

Hast du schon mal Algorithmen programmiert?
 
Nope und ich bin gerade dabei PHP für meinen Homepage Bau zu verstehen.
Der Punkt ist halt das ca. 200 Seiten paralell überwacht werden müssen auf Veränderung.
Nehmen wir das Beispiel F1. Da könnte man jede Rundenzeit abfragen von jeden Fahrer. Die Zeit zählt als von 0 bis zum Ende der Runde.
Also muss man den Script sagen können -> aktualisiere die Rundenzeit bis die Runde "verschwindet".
Die Frage ist ob man das so machen muss das er den aktuellen Wert in ne DB schreibt und den liest und schaut ob der neu Wert sich verändert hat.
Ich habe heute und morgen Schulung und kann nur am Handy schreiben sry dafür.
 
Ich kenne den Vortag noch nicht aber fang doch erstmal mit EINER Seite an und versuche das vorgehen da zu verstehen.

Ich habe mal für ein Projekt einen Crawler geschrieben welcher mir für gewisse Searchtags bei Geizhals und Heise alle Produkte dieser Kategorie auflistet und die Daten sortiert in eine Datenbank schreibt.
Ziel war es am Ende eine Liste z.B. aller gelisteten Kühlschränke mit allen Werten wie Ausstattung, Verbrauch, Produktionszeitraum, aktueller Preis, Volumen, Energieeffizienzklasse usw.

Das Vorgehen war dabei recht easy. Für die Funktionsweise eines Crawlers findest du genug Infos im Netz und wie du diesen baust, damit er z.B. bis zur Seitentiefe X allen Links folgt. Der liefert dir dann einen HTML Datensatz also reinen Text zurück. In diesem kannst du dann z.B. aufgrund von gewissen Klassennamen und Codemustern die Textbereiche die du benötigst parsen und diese dann wieder analysieren.

Wir können und sollten dir hier aber nicht vorkauen wie du das machst denn am Ende bist es du selber der es implementieren muss.

Welchen Daten, Werte usw du brauchst weißt ja nur du. Wie du erkennen kannst ob es etwas neues auf einer Seite gab kann man auch nicht pauschal beantworten.
 
Zuletzt bearbeitet:
Versteh erstmal PHP, dann wirst du selber auf die Lösung zu deinem Problem kommen.

Deine erwähnte XML-API könnte ein RSS-Feed sein. Aber den haben viele Seiten heutzutage nicht mehr. Also wirst du auf das vertrauen müssen, was jede News-Seite hat: HTML. Das HTML einer jeden Seite ist jedoch vollkommen unterschiedlich. Heißt du müsstest dir für jede Seite, die du crawlen möchtest, einen eigenen Parser schreiben, der dir die Daten einer jeden Seite erstmal in ein einheitliches Format bringt, damit du sie dann weiterverarbeiten und speichern kannst. Bei 200 Seiten ist das keine Frage mehr, die man hier in einem Forum "mal eben" beantwortet. Das ist eine Aufgabe wo woanders 10 Entwickler dran sitzen und trotzdem ordentlich Zeit da rein buttern.
 
Als Ergänzung:
Viele Seiten schützen sich auch gegen solche Maßnahmen. Heise um mal ein Beispiel zu nennen hat die IP nach einer gewissen Anzahl an Anfragen in Zeitraum X erstmal für ne Stunde geblockt. Damals konnte man dies aber z.B. umgehen indem man einern Timeout von glaube 1,3 bzw. 1,5 Sekunden pro "Seitenaufruf" eingebaut hat. Verlängert das Crawlen der ganezn Unterseiten natürlich extrem.
 
Zuletzt bearbeitet:
Es si d 200 Seiten der selben Firma fiktives Beispiel 200 Stationen mit echtheitdaten. Bei manchen Sachen kann man einen XML Output erzeugen mit den richtigen Parameter diese sind nicht veröffentlicht. Man müsste s hauen wie der Hersteller der Web Lösung (ohne zu sagen wieso man es braucht) kooperativ ist.
Ich hoffe heute Abend ha e ich Zeit mehr zu schreiben.

- - - Updated - - -

Aja das wird über eine anonyme Simkarte Laufen wo der Betreiber x hundert User dahinter hat.

- - - Updated - - -

Aja gibts was fertiges zum Thema RSS Auswertung? Fiktives Beispiel die Feuerwehr "am arsch der Welt" postet ihre Einsätze teilweise anonymisiert.
Jetzt möchte man zB nur die Verkehrsunfälle erfassen und Anzeigen auf ner Karte. Zb: Achtung Verkehrsunfall auf der Müller Strasse Ecke Mayer Alee Aufräumarbeiten dauern noch 2h"
Da wären die Buzz Wörter Verkehrsunfall, noch (also Zeit +), 2h.
Das schöne viele Firmen erzeugen Autonome RSS Meldungen wo man die Sachen die der Mensch braucht ignorieren kann und so wieder an die "geheimen" Daten kommt die normal nicht zugänglich sind.
 
Also ich bin lost. Und so lange du so nebulös und auch unverständlich (Telefon?) schreibst wird sich das vermutlich nicht ändern.

Du wirst wohl programmieren lernen müssen, wenn du das selber machen willst.
 
Mensch setz mal deinen Aluhut ab. Du redest dich hier schon wieder um Kopf und Kragen.
Irgendwelche Autonomen RSS Nachrichten (was auch immer das sein soll)?
Geheime Informationen in RSS Nachrichten?
Anonyme Simkarten mit mehreren hundert Usern?
XML Outputs von Firmenseiten mit was auch immer für geheimen Parametern?
Du willst irgendwelche "Hersteller" von Weblösungen ansprechen und die irgendwas fragen ohne zu sagen was du willst. Wieso sollte irgendein "Hersteller" sich gegenüber einem verwirrten Anrufer kooperativ zeigen und ihm nicht öffentliche Parameter nennen?

Keine Ahnung was du wieder für einen Quatsch vor hast aber es scheint mal wieder so zu sein, dass du wie eigentlich immer selber nicht weißt was du möchtest und dich absolut unverständlich ausdrückst.
Wenn du nichtmal in der Lage bist mit den Tipps/Keywords die wir dir hier gegeben haben herauszufinden wie deine gesuchte Lösung aussehen könnte dann fehlen dir mit Sicherheit auch die Fähigkeiten diese umzusetzen. Also setz dich hin und zeichne dir und vllt uns doch einfach mal auf was du genau vor hast. Wie schon angesprochen gibt es für deine Fragen die eh keiner versteht auch keine passende Antwort.

Also ich bin lost. Und so lange du so nebulös und auch unverständlich (Telefon?) schreibst wird sich das vermutlich nicht ändern.

Du wirst wohl programmieren lernen müssen, wenn du das selber machen willst.

Vermutlich schreiben über die anonyme Simkarte die er nutzt noch tausend andere User und deswegen kommt da so ein Brei bei raus. ;)
 
Zuletzt bearbeitet:
Du mischt wieder alles... Wenn ich daheim bin gehe ich auf deine Sachen Direkt ein.

"Geheime Daten" -> zB ne Firma postet per RSS wo das Internet ausgefallen ist das passiert zB. Autonom. Die Daten findest sonst nirgends von den abetreiber wann und wie oft wo (schon wieder) das mit Internet weg ist.

Stelle dir vor im Laden kaufst ne anonyme Sim zahlst Cash ladest Guthaben auf und aktivierst unlimited.Internet. schon sitzt du per Default hinter einer anonymen IP.
 
"Geheime Daten" -> zB ne Firma postet per RSS wo das Internet ausgefallen ist das passiert zB. Autonom. Die Daten findest sonst nirgends von den abetreiber wann und wie oft wo (schon wieder) das mit Internet weg ist.

Was ist daran jetzt geheim, wenn das öffentlich verfügbar ist?

Stelle dir vor im Laden kaufst ne anonyme Sim zahlst Cash ladest Guthaben auf und aktivierst unlimited.Internet. schon sitzt du per Default hinter einer anonymen IP.

Der Herr, die sperren keine SIM-Karte, die sperren eine IP-Adresse. Wen juckt das, ob das dein Heimanschluss oder ne Prepaid-SIM ist?!
 
Du mischt wieder alles... Wenn ich daheim bin gehe ich auf deine Sachen Direkt ein.

"Geheime Daten" -> zB ne Firma postet per RSS wo das Internet ausgefallen ist das passiert zB. Autonom. Die Daten findest sonst nirgends von den abetreiber wann und wie oft wo (schon wieder) das mit Internet weg ist.

Stelle dir vor im Laden kaufst ne anonyme Sim zahlst Cash ladest Guthaben auf und aktivierst unlimited.Internet. schon sitzt du per Default hinter einer anonymen IP.

Gut das du erkennst das du alles vermischt und wirre Dinge schreibst denn meine Sätze sind einfach nur eine Wiedergabe deines Inhaltes.

Warum sollte eine Firma per öffentlich erreichbaren RSS Feed über ihre Homepage posten wo das Internet ausgefallen ist?
Die haben ganz andere Kanäle sowas Unternehmensintern weiterzureichen als nen dummer ungesicherter RSS Feed.

Was bringt dir eine "anonyme Sim" und warum brauchst du für dein Vorhaben sowas? Ich hab damals in der Testphase immer wieder versucht das Limit zu finden ab welchem Heise meinen Crawler findet. Keine Ahnung wie oft meine IP von denen gesperrt wurde. Ich hab mit jenseits der 30 Anfragen pro Sekunde angefangen und bin dann nachher bei den besagte 1,3 Sekunden gelandet wo der Crawler langzeitstabil über Stunden hinweg Produkte aus 40 Kategorien inkl. Bilder und Co erfasst hat. Bin dabei über den Uni VPN gegangen. Da hat nie einer versucht jemanden zu verfolgen oder anzuzeigen auch wenn das nicht gern gesehen ist und eigentlich verboten bzw. vermutlich rechtliche Grauzone. Solange du einen Server nicht konstant mit Anfragen DOSed wird dir da auch keiner ans Bein pissen. 200 Unterseiten in regelmäßigen abständen anzufragen ist dagegen lächerlich was ich/wir damals bei Heise und Geizhals gemacht haben. Da reden wir von knapp 20.000 Produkten. Btw. war Geizhals noch nerviger bezüglich der IP Sperren. Dort musste man immer nach einer gewisser Anzahl Anfragen eine längere Pause (5Min+) machen da die nicht nur ein einziges Anfragelimit/Zeit haben.
Bei dir hört sich immer alles so schön illegal an obwohl es vermutlich überhaupt nichts wildes ist. Daher schalt mal den Aluhut aus. Wenn du da nen paar Seiten jede Stunde einmal anfragst wird das keinen Menschen interessieren.
 
Zuletzt bearbeitet:
Also nochmal...
Es gibt "geheim" und es gibt geheim den unterschied solltet ihr schon kennen. :sick:
Fiktives Beispiel. Eine (Freiwillige) Feuerwehr postet Regelmässig Daten zu Ihren einsetzen: wann, wieso, weshalb, wohin,... ausgerückt wurde. Diese Daten werden logischerweise veröffentlicht. Sammelt Ihr diese Daten wisst Ihr (teilweise) was die Feuerwehr wann, wo,..... gemacht hat. Würdet Ihr diese Daten aber nicht sammeln und am ende des Jahre die Feuerwehr fragen: "Hey gebt mir mal die Daten welche Einsätze Ihr wann, wo,.... gemacht habt!" wird als Antwort meistens kommen diese sein doch "Geheim" (aka Datenschutz). Ich hoffe Ihr versteht was Ich mit "geheim" meinte und wieso "geheim" nicht gleich geheim ist. :sleep:

Ihr könnt die Feuerwehr, Luftrettung, ISP oder sonst wem ersetzten der einzelne Daten veröffentlicht die aber nicht Gesamt gesehen veröffentlicht werden.

Und der gute Boy woll nun wissen wie er eine solche Auswertung selbst vornehmen kann (also welche Software, Skripte etc).
Korrekt wobei es nicht um Zeitungen geht sondern um was ganz anderes.

Bette einen Google Analytics Code ein
oke du hast es nicht verstanden. Ich möchte von Der Webseite XY Daten heraus ziehen welche diese veröffentlichen.

(erster Ansatz ist der DOM Inspector in deinem Browser)
Gut habe ich schon mal versucht gehabt.
Beispiel hier die Startseite -> Neue Forenthemen
Code:
display: inline-block;
font-family: Verdana, sans-serif;
font-size: 11px;
font-weight: 700;
line-height: 15px;
margin-left: 5px;
text-align: left;
width: 238px;

238×30
static
Box-Modell-Eigenschaften
box-sizing
content-box
display
inline-block
float
none
line-height
15px
position
static
z-index
auto
Code:
<div class="line">
<a href="/community/showthread.php?t=1086608">ASRock Z170 OC Formula (Intel Z170 Chipsatz)</a>
</div>
Code:
<a href="/community/showthread.php?t=1086608">ASRock Z170 OC Formula (Intel Z170 Chipsatz)</a>
zb das zeigt mir das Tool an. Und jetzt? :stupid:
Dann schreibst du dir in einer Sprache deiner Wahl (Python oder vielleicht PHP?) ein kleines Script
Klar klingt ja einfach wenn man sich auskennt. Das selbe wenn Ich zu dir sagen würde: Analysiere schnell mal den Tetra Channel XY in ner halben Stunde schicke mir die Ergebnisse und du "Tetra wat?!".
Für die Funktionsweise eines Crawlers findest du genug Infos im Netz
das ist es ja zu viele Infos error overload. :sick:
Versteh erstmal PHP
Ich fürchte das wird lange dauern.
Viele Seiten schützen sich auch gegen solche Maßnahmen. Heise um mal ein Beispiel zu nennen hat die IP nach einer gewissen Anzahl an Anfragen in Zeitraum X erstmal für ne Stunde geblockt. Damals konnte man dies aber z.B. umgehen indem man einern Timeout von glaube 1,3 bzw. 1,5 Sekunden pro "Seitenaufruf" eingebaut hat. Verlängert das Crawlen der ganezn Unterseiten natürlich extrem.
Gut so schlimm ist es bei mir hoffentlich nicht.
Aber deswegen sagte Ich ja Ich weiss wann das nächste Event stattfinden wird.
XML Outputs von Firmenseiten mit was auch immer für geheimen Parametern?
Wie gesagt es gibt halt Produkte von Firmen die gesetzt werden um Daten zu veröffentlichen. Wenn du den Magic Key hast kannst du den Server dazu bringen einfach mehr Daten anzuzeigen als das du über das GUI normal siehst.
Verstanden? :rofl:
Was ist daran jetzt geheim, wenn das öffentlich verfügbar ist?
Weil Einzelfälle veröffentlicht werden aber wenn du nach einer Übersicht über alle veröffentlichten Fälle haben willst heist es Geheim aka Datenschutz. Sammelst du die Daten selber hast du sie welche du nicht bekommen würdest wenn du dannach fragen würdest.
Wen juckt das, ob das dein Heimanschluss oder ne Prepaid-SIM ist?!
Weil bei ersten mein Name auf den Vertrag steht und bei letzteren nicht.
Das ist wie beim Filme sharen die können einen nur dann ne Rechnung schicken wenn sie ne Adresse haben. :fresse:

Warum sollte eine Firma per öffentlich erreichbaren RSS Feed über ihre Homepage posten wo das Internet ausgefallen ist?
das der Kunde sich nicht schon wieder darüber aufregt weil es ausgefallen ist. :sleep:
Nochmal es geht nicht um
Unternehmensintern
sondern um externe Daten die veröffentlicht werden über einen Automatismus.
Noch ein Fiktives Beispiel der Regen Sensor im Auto der die Scheibenwischer einschaltet. Auch da gibt es Systeme die halt bei einen Event (zb. Regen) eine Vordefinierte Message raus schicken: "Achtung es Regnet".
warum brauchst du für dein Vorhaben sowas?
Weil Ich auf keine Anwaltsbriefe Bock habe wo drinnen steht das Ich gegen das Copyright verstoßen haben soll oder was denen sonst noch so einfällt. Ich habe mächtige gegenspieler. In Österreich (da wo Ich lebe) ist es gefährlich gegen die Politik und deren Freunde in der Wirtschaft zu sein.
Heise und Geizhals
sind ein scheiss gegen die Firma wovor Ich angst habe.
Bei dir hört sich immer alles so schön illegal an obwohl es vermutlich überhaupt nichts wildes ist.
Unsere Monopolisten machen alles was noch sehr dunkel grau ist das sie weiterhin Monopolisten bleiben können.
 
Du willst programmieren willst aber nicht programmieren? Ich bin etwas verwirrt wie das gehen soll?

Oder sucht au jemanden der es für dich macht. In dem Fall müsstest du dann aber erzählen was du eigentlich vorhast bwaha. :fresse:
 
Ich habe mächtige gegenspieler. In Österreich (da wo Ich lebe) ist es gefährlich gegen die Politik und deren Freunde in der Wirtschaft zu sein.
sind ein scheiss gegen die Firma wovor Ich angst habe. Unsere Monopolisten machen alles was noch sehr dunkel grau ist das sie weiterhin Monopolisten bleiben können.

Besorg dir lieber einen Feuerlöscher. Da glüht grade richtig was durch.
 
Du willst programmieren willst aber nicht programmieren?
Nein stimmt ja nicht! Ich möchte wenn mir jemand eine einfache Scriptsprache empielt wo es gescheite Infos gibt wie man was macht. Bei php gibts zwar Samples aber 0 Infos was man macht damit.
Da glüht grade richtig was durch.
Dann erkläre mir mal wieso der Rotfunk nur über DVB-T2 Empfangbar ist und nicht DAB+?
 
Also wenn du HTML analysieren willst würde ich natürlich JavaScript empfehlen. Also ich würde eh JS empfehlen, von daher bin ich eventuell der falsche um die Frage zu beantworten.

Leicht gibts aber nicht. Lernen musst du sie alle erst. Also die Sprachen
 
Also wenn du HTML analysieren willst würde ich natürlich JavaScript empfehlen.
Imacros soll es auch unterstützen aber wieder mal 0 Infos wie man es umsetzt.
Das ist was mir am Sack geht für den Start gits Infos und dann steht man da und weiss nicht weiter.
 
Du möchtest ohne Grundwissen in PHP,HTML/5,CSS/3,MYSQL,Javascript/Jquery und co.. einen Page Crawler Programmieren ?
Es gibt Vorlagen im Internet! Aber auch das sind nur Vorlagen die einen helfen soll, damit man nicht alles von 0 Programmieren muss.
Solange du 0 Programmierkenntnisse hast, wird das eh nichts. Den es gibt keine Anleitung im Internet wo dir schritt für schriit beschrieben wird wie du das zu bauen hast.

Das führt hier eh zu nichts, mal sehen wie es hier weiter geht. :popcorn:
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh