Suche Freie Software (Text mining/Data mining) zum Herausfiltern von Dublikaten

dungeonlight

Neuling
Thread Starter
Mitglied seit
12.04.2013
Beiträge
26
Hi Leute,

folgende Sache:
Ich habe einen Ordner mit ca. 1.600 Text-Dokumenten; manche davon sind im .doc-Format, andere wiederum im .pdf-Format und wiederum andere im .odt-Format.
Alle Dokumente sind ein und derselbe ausgefüllte Fragebogen.
In Stichproben fiel mir auf, dass wirklich sehr, sehr viele dieser Dokumente Duplikate sind, sprich mit Ausnahme des Namens des Umfrage-Teilnehmers komplett 1:1 identisch ausgefüllt sind.
Ich will ermitteln, wie viele der insgesamt ca. 1.600 Text-Dokumente Dublikate sind, weil Dublikat-Einreichungen ungültig sind. Ziel ist, dass ich am Ende präzise und fundiert sowas
sagen kann wie "78,33 % der Einreichungen sind ungültig." .

Kennt jemand von euch Freie Software, die diese Text mining/Data mining-Aufgabe leisten kann ?


Danke schon mal im Vorraus...
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Gibt es in den Dokumenten Begriffe, die zumindest in der Theorie in jedem Dokument nur einmal vorkommen sollte? Wenn ja, müsste es eigentlich möglich sein, über die Windowssuche Dubletten zu finden.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh