Seite 1 von 1

csv Datei mit 6Mio+ Einträgen filtern

Verfasst: 04.02.2022 03:37
von spañockel
Gesundes Neues....erst mal. Ich habe da ein Projekt im Kopf und vielleicht hat jemand selbst Interesse mal etwas investigatives zu machen. Die paraguayische Regierung stellt die Daten ihrer geimpften Bevölkerung öffentlich in´s Netz und da ich ein recht kritischer Mensch bin, durchsuche ich diese regelmäßig mit Notepad++ nach Unregelmäßigkeiten. Ist sehr umständlich und so melde ich mich hier.

Vor fast 20 Jahren habe ich mal ein Projekt umgesetzt mit txt Datei als Datenbasis... ging super und war Sau schnell. Allerdings hat die Programmierung ein ambitionierter Kollege gemacht... ich dürfte hier nicht mal unter Anfänger kommentieren. :D

Auf Einzelheiten und Besonderheiten gehe ich gerne bei Interesse ein; hier kann man sich die Datei laden:

https://www.mspbs.gov.py/vacunados/vacunados.php

"descargar registros" am schnellsten in .zip ... trotzdem Geduld, die haben wohl noch Modem.

Re: csv Datei mit 6Mio+ Einträgen filtern

Verfasst: 04.02.2022 08:28
von kpeters58
Für sowas nehme ich den Emeditor, der locker eine Billion Zeilen Csv durchfiltert - und das blitzschnell

Re: csv Datei mit 6Mio+ Einträgen filtern

Verfasst: 04.02.2022 13:29
von NicTheQuick
Ich nutze für sowas einfach grep unter Linux. Hat auch wunderbar bei dem Terabytegroßen Datenleak mit Passwörtern von vor ein paar Jahren funktioniert, das ich irgendwann mal nach meinen Mailadressen und Domains durchsucht habe.

Re: csv Datei mit 6Mio+ Einträgen filtern

Verfasst: 06.02.2022 23:43
von spañockel
Danke für die Antworten. Emeditor habe ich ausprobiert und war sehr beeindruckt, ist aber eher was für Leute welche damit ihren Unterhalt verdienen. Es löst auch nicht das eigentliche Problem, genau so wenig wie grep; habe zumindest noch keine Lösung gefunden. Hier das Problem:

Im spanischen Sprachraum hat man in der Regel 4 Namen; Rufname, zweiter Vorname und traditionell erster Nachname vom Vater und Zweiter von der Mutter. In Artikeln wird überwiegend nur der Ruf- und erster Nachname genannt. Als erste Suche in der Datenbank gebe ich also Ruf- und Nachname ein und was dazwischen steht (zweiter Vorname) müßte ignoriert werden und alle Treffer ausgegeben. Dannach kommt natürlich Internetrecheche, wenn es mehrere Treffer gibt, um die Identität zweifelsfrei zuzuordnen.

Re: csv Datei mit 6Mio+ Einträgen filtern

Verfasst: 07.02.2022 15:34
von NicTheQuick
Mit grep und Regular Expressions oder zwei hintereinander geschalteter greps geht das doch ganz einfach. Dann wirst du nur wenige false-positives haben.

Re: csv Datei mit 6Mio+ Einträgen filtern

Verfasst: 04.04.2022 19:06
von spañockel
Wenn man weiß wie, geht das tatsächlich ganz einfach. Da ich eh einen Raspi mit Pihole am Laufen habe, mach ich das über den per Putty. Vielen Dank für den Hinweis. :allright:

Re: csv Datei mit 6Mio+ Einträgen filtern

Verfasst: 04.04.2022 20:23
von NicTheQuick
Hab mich schon länger gefragt, ob dein Problem damit schon gelöst werden konnte, weil es keine Nachfrage mehr gab.

Schön zu hören :-)