CloneKiller

dllfreak2001 · Beitrag von **dllfreak2001** » 05.11.2008 19:26

Interessant, aber wie wird der MD5-Fingerprint ermittelt?
Wenn dafür erstmal die Datei komplett durchgearbeitet wird
bringt das auch nicht direkt ein besseres Ergebnis als wenn ich den Kramm direkt in den Buffer einlese....
Bei riesigen Datenmengen könnte es interessant werden.

Aber ich werds mir merken, weil kann das grad nicht testen (kein PB hier)...

Edit: Der rödelt leider die kompletten Dateien durch, was bei großen und Voluminösen Datensammlungen nicht sinnvoll ist. Alein als endgültiger Vergleich wäre das sinnvoll, weil auf meinem nicht gerade lahmen Desktoprechner dauert es eine Eqigkeit bis er ne etwas größere Datensammlung verglichen hat.

Beitrag von **NicTheQuick** » 05.11.2008 20:38

Ich hätte es mal so gemacht:

Alle Dateien in eine Liste laden und gleichzeitig die Größe merken. Dann die Liste der
Dateigröße nach ordnen, anschließend in einem Durchlauf alle rauswerfen, deren
Dateigröße nur einmal vorkommt, und den Rest in Gruppen aufteilen, die immer aus gleich
großen Dateien bestehen.

Die folgenden Schritte dann für alle Gruppen einzeln ausführen:
Zuerst bestimmt man die Anzahl n der Dateien in der Gruppe und wählt eine maximale
Buffergröße s Bytes, die man für diese Gruppe benutzen möchte. Dann alloziert man n
Speicherbuffer der Größe (s / n) Bytes und liest diese (s / n) Bytes vom Anfang jeder
Datei der Gruppe aus. Nun vergleicht man diese Buffer untereinander. Dadurch entstehen
evtl. wieder Gruppen bzw. manche Dateien fallen aus, weil ihr Buffer sich von allen
anderen unterscheidet. Bei den neu entstandenen Gruppen führt man wieder die selben
Schritte aus, allerdings bestimmt man eine neue Buffergröße und beginnt dementsprechend
bei einem neuen Offset in der Datei.

dllfreak2001 · Beitrag von **dllfreak2001** » 05.11.2008 22:24

So ähnlich habe ich das auch schon gemacht...

Nach Größe geordnet und nur die Gruppen mit gleicher Größe verglichen.
Mit dem Buffer spielen werde ich bei der neuen Version auch, mal schauen ob man mit nem anderen Algorithmus schneller ist.

Delle · Beitrag von **Delle** » 20.12.2008 05:31

Also das Programm hat durchaus seinen Nutzen... benutze sowas auch hin und wieder.

Vielleicht kannst Du Dir von Anti-Twin ja nochwas abschauen:

http://www.aidex.de/software/antitwin/

dllfreak2001 · Beitrag von **dllfreak2001** » 20.12.2008 12:00

Der Vergleich speziell für Medientypen kommt sicher noch dazu,
allerdings wird es dann haarig nach welchen Kriterien man aussortieren soll.
Ein Bild Kann oft sehr ähnlich aussehen aber manchmal ist da doch etwas anders vielleicht nur kleine Pixel. Besonders doof wird es wenn alle Thumbnails gleich mitaussortiert werden...
Bei der Musik muss ich mich dann auch erst nochmal in die ID-Tags einarbeiten. Vor allem in die von nicht MP3-Typen. Ich denke das wird ein wichtiges Feature um vor allem seine Mediensammlung zu sortieren.