csv Datei mit 6Mio+ Einträgen filtern

Anfängerfragen zum Programmieren mit PureBasic.
spañockel
Beiträge: 9
Registriert: 13.05.2006 01:46
Wohnort: Mequinenza

csv Datei mit 6Mio+ Einträgen filtern

Beitrag von spañockel »

Gesundes Neues....erst mal. Ich habe da ein Projekt im Kopf und vielleicht hat jemand selbst Interesse mal etwas investigatives zu machen. Die paraguayische Regierung stellt die Daten ihrer geimpften Bevölkerung öffentlich in´s Netz und da ich ein recht kritischer Mensch bin, durchsuche ich diese regelmäßig mit Notepad++ nach Unregelmäßigkeiten. Ist sehr umständlich und so melde ich mich hier.

Vor fast 20 Jahren habe ich mal ein Projekt umgesetzt mit txt Datei als Datenbasis... ging super und war Sau schnell. Allerdings hat die Programmierung ein ambitionierter Kollege gemacht... ich dürfte hier nicht mal unter Anfänger kommentieren. :D

Auf Einzelheiten und Besonderheiten gehe ich gerne bei Interesse ein; hier kann man sich die Datei laden:

https://www.mspbs.gov.py/vacunados/vacunados.php

"descargar registros" am schnellsten in .zip ... trotzdem Geduld, die haben wohl noch Modem.
Benutzeravatar
kpeters58
Beiträge: 26
Registriert: 16.12.2014 18:51

Re: csv Datei mit 6Mio+ Einträgen filtern

Beitrag von kpeters58 »

Für sowas nehme ich den Emeditor, der locker eine Billion Zeilen Csv durchfiltert - und das blitzschnell
Benutzeravatar
NicTheQuick
Ein Admin
Beiträge: 8807
Registriert: 29.08.2004 20:20
Computerausstattung: Ryzen 7 5800X, 64 GB DDR4-3200
Ubuntu 24.04.2 LTS
GeForce RTX 3080 Ti
Wohnort: Saarbrücken

Re: csv Datei mit 6Mio+ Einträgen filtern

Beitrag von NicTheQuick »

Ich nutze für sowas einfach grep unter Linux. Hat auch wunderbar bei dem Terabytegroßen Datenleak mit Passwörtern von vor ein paar Jahren funktioniert, das ich irgendwann mal nach meinen Mailadressen und Domains durchsucht habe.
spañockel
Beiträge: 9
Registriert: 13.05.2006 01:46
Wohnort: Mequinenza

Re: csv Datei mit 6Mio+ Einträgen filtern

Beitrag von spañockel »

Danke für die Antworten. Emeditor habe ich ausprobiert und war sehr beeindruckt, ist aber eher was für Leute welche damit ihren Unterhalt verdienen. Es löst auch nicht das eigentliche Problem, genau so wenig wie grep; habe zumindest noch keine Lösung gefunden. Hier das Problem:

Im spanischen Sprachraum hat man in der Regel 4 Namen; Rufname, zweiter Vorname und traditionell erster Nachname vom Vater und Zweiter von der Mutter. In Artikeln wird überwiegend nur der Ruf- und erster Nachname genannt. Als erste Suche in der Datenbank gebe ich also Ruf- und Nachname ein und was dazwischen steht (zweiter Vorname) müßte ignoriert werden und alle Treffer ausgegeben. Dannach kommt natürlich Internetrecheche, wenn es mehrere Treffer gibt, um die Identität zweifelsfrei zuzuordnen.
Benutzeravatar
NicTheQuick
Ein Admin
Beiträge: 8807
Registriert: 29.08.2004 20:20
Computerausstattung: Ryzen 7 5800X, 64 GB DDR4-3200
Ubuntu 24.04.2 LTS
GeForce RTX 3080 Ti
Wohnort: Saarbrücken

Re: csv Datei mit 6Mio+ Einträgen filtern

Beitrag von NicTheQuick »

Mit grep und Regular Expressions oder zwei hintereinander geschalteter greps geht das doch ganz einfach. Dann wirst du nur wenige false-positives haben.
spañockel
Beiträge: 9
Registriert: 13.05.2006 01:46
Wohnort: Mequinenza

Re: csv Datei mit 6Mio+ Einträgen filtern

Beitrag von spañockel »

Wenn man weiß wie, geht das tatsächlich ganz einfach. Da ich eh einen Raspi mit Pihole am Laufen habe, mach ich das über den per Putty. Vielen Dank für den Hinweis. :allright:
Benutzeravatar
NicTheQuick
Ein Admin
Beiträge: 8807
Registriert: 29.08.2004 20:20
Computerausstattung: Ryzen 7 5800X, 64 GB DDR4-3200
Ubuntu 24.04.2 LTS
GeForce RTX 3080 Ti
Wohnort: Saarbrücken

Re: csv Datei mit 6Mio+ Einträgen filtern

Beitrag von NicTheQuick »

Hab mich schon länger gefragt, ob dein Problem damit schon gelöst werden konnte, weil es keine Nachfrage mehr gab.

Schön zu hören :-)
Antworten