CloneKiller

Anwendungen, Tools, Userlibs und anderes nützliches.
Benutzeravatar
dllfreak2001
Beiträge: 2925
Registriert: 07.09.2004 23:44
Wohnort: Bayern

Beitrag von dllfreak2001 »

Interessant, aber wie wird der MD5-Fingerprint ermittelt?
Wenn dafür erstmal die Datei komplett durchgearbeitet wird
bringt das auch nicht direkt ein besseres Ergebnis als wenn ich den Kramm direkt in den Buffer einlese....
Bei riesigen Datenmengen könnte es interessant werden.

Aber ich werds mir merken, weil kann das grad nicht testen (kein PB hier)...

Edit: Der rödelt leider die kompletten Dateien durch, was bei großen und Voluminösen Datensammlungen nicht sinnvoll ist. Alein als endgültiger Vergleich wäre das sinnvoll, weil auf meinem nicht gerade lahmen Desktoprechner dauert es eine Eqigkeit bis er ne etwas größere Datensammlung verglichen hat.
I´a dllfreak2001
Benutzeravatar
NicTheQuick
Ein Admin
Beiträge: 8809
Registriert: 29.08.2004 20:20
Computerausstattung: Ryzen 7 5800X, 64 GB DDR4-3200
Ubuntu 24.04.2 LTS
GeForce RTX 3080 Ti
Wohnort: Saarbrücken

Beitrag von NicTheQuick »

Ich hätte es mal so gemacht:

Alle Dateien in eine Liste laden und gleichzeitig die Größe merken. Dann die Liste der
Dateigröße nach ordnen, anschließend in einem Durchlauf alle rauswerfen, deren
Dateigröße nur einmal vorkommt, und den Rest in Gruppen aufteilen, die immer aus gleich
großen Dateien bestehen.

Die folgenden Schritte dann für alle Gruppen einzeln ausführen:
Zuerst bestimmt man die Anzahl n der Dateien in der Gruppe und wählt eine maximale
Buffergröße s Bytes, die man für diese Gruppe benutzen möchte. Dann alloziert man n
Speicherbuffer der Größe (s / n) Bytes und liest diese (s / n) Bytes vom Anfang jeder
Datei der Gruppe aus. Nun vergleicht man diese Buffer untereinander. Dadurch entstehen
evtl. wieder Gruppen bzw. manche Dateien fallen aus, weil ihr Buffer sich von allen
anderen unterscheidet. Bei den neu entstandenen Gruppen führt man wieder die selben
Schritte aus, allerdings bestimmt man eine neue Buffergröße und beginnt dementsprechend
bei einem neuen Offset in der Datei.
Benutzeravatar
dllfreak2001
Beiträge: 2925
Registriert: 07.09.2004 23:44
Wohnort: Bayern

Beitrag von dllfreak2001 »

So ähnlich habe ich das auch schon gemacht...

Nach Größe geordnet und nur die Gruppen mit gleicher Größe verglichen.
Mit dem Buffer spielen werde ich bei der neuen Version auch, mal schauen ob man mit nem anderen Algorithmus schneller ist.
I´a dllfreak2001
Benutzeravatar
Delle
Beiträge: 1130
Registriert: 10.05.2005 22:48

Beitrag von Delle »

Also das Programm hat durchaus seinen Nutzen... benutze sowas auch hin und wieder.

Vielleicht kannst Du Dir von Anti-Twin ja nochwas abschauen:

http://www.aidex.de/software/antitwin/
PB 6.21 | Win 11
Benutzeravatar
dllfreak2001
Beiträge: 2925
Registriert: 07.09.2004 23:44
Wohnort: Bayern

Beitrag von dllfreak2001 »

Der Vergleich speziell für Medientypen kommt sicher noch dazu,
allerdings wird es dann haarig nach welchen Kriterien man aussortieren soll.
Ein Bild Kann oft sehr ähnlich aussehen aber manchmal ist da doch etwas anders vielleicht nur kleine Pixel. Besonders doof wird es wenn alle Thumbnails gleich mitaussortiert werden...
Bei der Musik muss ich mich dann auch erst nochmal in die ID-Tags einarbeiten. Vor allem in die von nicht MP3-Typen. Ich denke das wird ein wichtiges Feature um vor allem seine Mediensammlung zu sortieren.
I´a dllfreak2001
Antworten