dungeonlight
Neuling
Thread Starter
- Mitglied seit
- 12.04.2013
- Beiträge
- 26
Hi Leute,
folgende Sache:
Ich habe einen Ordner mit ca. 1.600 Text-Dokumenten; manche davon sind im .doc-Format, andere wiederum im .pdf-Format und wiederum andere im .odt-Format.
Alle Dokumente sind ein und derselbe ausgefüllte Fragebogen.
In Stichproben fiel mir auf, dass wirklich sehr, sehr viele dieser Dokumente Duplikate sind, sprich mit Ausnahme des Namens des Umfrage-Teilnehmers komplett 1:1 identisch ausgefüllt sind.
Ich will ermitteln, wie viele der insgesamt ca. 1.600 Text-Dokumente Dublikate sind, weil Dublikat-Einreichungen ungültig sind. Ziel ist, dass ich am Ende präzise und fundiert sowas
sagen kann wie "78,33 % der Einreichungen sind ungültig." .
Kennt jemand von euch Freie Software, die diese Text mining/Data mining-Aufgabe leisten kann ?
Danke schon mal im Vorraus...
folgende Sache:
Ich habe einen Ordner mit ca. 1.600 Text-Dokumenten; manche davon sind im .doc-Format, andere wiederum im .pdf-Format und wiederum andere im .odt-Format.
Alle Dokumente sind ein und derselbe ausgefüllte Fragebogen.
In Stichproben fiel mir auf, dass wirklich sehr, sehr viele dieser Dokumente Duplikate sind, sprich mit Ausnahme des Namens des Umfrage-Teilnehmers komplett 1:1 identisch ausgefüllt sind.
Ich will ermitteln, wie viele der insgesamt ca. 1.600 Text-Dokumente Dublikate sind, weil Dublikat-Einreichungen ungültig sind. Ziel ist, dass ich am Ende präzise und fundiert sowas
sagen kann wie "78,33 % der Einreichungen sind ungültig." .
Kennt jemand von euch Freie Software, die diese Text mining/Data mining-Aufgabe leisten kann ?
Danke schon mal im Vorraus...
Zuletzt bearbeitet: