Suche Freie Software (Text mining/Data mining) zum Herausfiltern von Dublikaten

dungeonlight · 24.05.2014

Hi Leute,

folgende Sache:
Ich habe einen Ordner mit ca. 1.600 Text-Dokumenten; manche davon sind im .doc-Format, andere wiederum im .pdf-Format und wiederum andere im .odt-Format.
Alle Dokumente sind ein und derselbe ausgefüllte Fragebogen.
In Stichproben fiel mir auf, dass wirklich sehr, sehr viele dieser Dokumente Duplikate sind, sprich mit Ausnahme des Namens des Umfrage-Teilnehmers komplett 1:1 identisch ausgefüllt sind.
Ich will ermitteln, wie viele der insgesamt ca. 1.600 Text-Dokumente Dublikate sind, weil Dublikat-Einreichungen ungültig sind. Ziel ist, dass ich am Ende präzise und fundiert sowas
sagen kann wie "78,33 % der Einreichungen sind ungültig." .

Kennt jemand von euch Freie Software, die diese Text mining/Data mining-Aufgabe leisten kann ?

Danke schon mal im Vorraus...

Gelöschtes Mitglied 53249 · 30.05.2014

Gibt es in den Dokumenten Begriffe, die zumindest in der Theorie in jedem Dokument nur einmal vorkommen sollte? Wenn ja, müsste es eigentlich möglich sein, über die Windowssuche Dubletten zu finden.

Suche

Suche Freie Software (Text mining/Data mining) zum Herausfiltern von Dublikaten

dungeonlight

Neuling

Gelöschtes Mitglied 53249

Guest