Im letzten Posting habe ich die Karten mit den Standorten der Server welche in unseren Nachbarländern (DK,FI,CH,SE) zensiert werden veröffentlicht. In diesem Beitrag soll es ein bisschen um die Quellen und die technischen Aspekte dazu gehen.
Die Quellen, wo kommen die Listen her?
Die Listen sind aus folgenden Quellen:
Wie wurden die Listen bearbeitet?
Die Listen hab ich normalisiert, zusammengeführt, sortiert und doppelte Einträge gelöscht.
Ungefähr so:
cat liste_ch.txt | awk '{print $1}' >> all.txt
cat liste_dk.txt >> all.txt
...
cat all.txt | sort | uniq > all.txt.sorted
Dann hab ich die Liste mit einem perl script auf die jeweiligen Standorte (auf Länderebene) aufgelöst.
cat all.txt.sorted | ./geoip.pl
Das script gibt einem u.a. eine URL für die Google API aus, die hat dann die schönen Karten gemalt.


hm kann es sein das du ärger kriegst weil du die zusammengeführte liste hier veröffentlichst?
@1: Warum, was soll daran sein listen mit domainnamen ins webzu stellen? Die ’stehen’ doch schon im Web, das ist public domain information.
Ausserdem habe ich die Listen ja nicht geklaut oder illegal erworben, oder gegen eine Geheimhaltungserklärung verstoßen, ich hab die einfach im Internet gefunden.
hmm wie zuverlässig ist diese geoIP geschichte überhaupt? Also konkreter gefragt. Du löst die DNS einträge auf und bekommst die IPs die sich dahinter verbergen. Aber wer sagt das es sich dabei nicht um einen loadbalancer oder was anderes handelt das als relay dient?
@3: Natürlich, im Prinzip kann es sein das sich hinter solch einen IP nur ein Relay versteckt. Das dürfte allerdings in der Praxis wenig ausmachen. Erstens: Kaum ein Anbieter hat solch ein Relay, das macht ja alles arbeit und kostet Geld. Pornoanbieter arbeiten da lieber mit einer Hand voll Server und machen DNS RoundRobin das ist einfacher und billiger.
Zweitens: Aus Ermittlersicht ist es doch egal was da vorne dran steht, irgendwo muss man anfangen solch eine Infrastruktur aufzurollen, dann fängt man halt beim Relay an was belibt einem sonst auch übrig außer den Finazströmen, denen man hinterher turnen kann?
weitermachen! besser als aufklärung nur den staatsbehörden zu überlassen! danke für die mühe!
Gute Arbeit.
Ich finde, es wäre schön, das Script zum Download zu haben.
Das script steht zum download. Wer lesen kann ist klar im Vorteil.
Dir ist bewusst, dass in der final-Version noch etliche doppelten Einträge drinne sind?
Undzwar nach folgendem Schema:
google.de
google.de.
@Locke:
Ja ist mir bewusst, da hat auch schon jemand ein fix gepostet, steht unter https://scusiblog.org/?p=546#comment-434
Hmm, ich check das nicht. Wie hast Du herausbekommen, wo z.B. der Server von photolo.com steht?
Grüße
Niels
Der Server photolo.com [63.119.44.197] steht in den USA, genauer gesagt in Boston. Was checkst du denn nun nicht?
/~scusi
Na, wie Du das herausbekommst
Hab ich doch geschrieben. Mit einer GeoIP Datenbank. Um genau zu sein mit der GeoIP Datenbank von Maxmind (http://www.maxmind.com/app/ip-location). Die kann man über das Perlmodul Geo::IP (http://search.cpan.org/~borisz/Geo-IP-1.38/lib/Geo/IP.pm) in seine eigenen Programmen nutzen.
IP bzw. Hostname rein, kommt geoloacation (das Land) raus, fertig. Maxmind garantiert eine mindestens 98% ige Genauigkeit. Das heißt maximal 2 von 100 Einträgen können fehlerhaft sein.