Böse Bots finden

Via Bot-Trap - ./deifls-weblog: KLOTH.NET - Trap bad bots in a bot trap

Anhand einer robots.txt lässt sich herausfinden, welche Bots auf sie achten und welche nicht, in dem man in seiner robots.txt ein Verzeichnis mit Disallow markiert und dann zuschaut, welche Bots dieses Verzeichnis dennoch abrufen.

Diese Bots speichert man in einer Datei oder Datenbank und prüft mittels einem dynamischen Seitenelement in allem Seiten, ob der aktuelle Aufruf von einer gelisteten IP oder mit einem gelisteten UA-String* daherkommt. Wenn ja, gibts eine entsprechende Meldung und nicht den eigentlichen Inhalt der aufgerufenen Seite.

Natürlich sollte man die Liste von Zeit zu Zeit überprüfen und dynamisch vergebene IP’s löschen, sonst schließt man vielleicht jetzt gerade den Falschen aus - wenn er jedoch ein böser Bot ist, wird er eh wieder gelistet.

Damit lassen sich prima sich fiese Bots/Botbetreiber identifizieren. Das Blocken der Bots ist dabei natürlich nur eine Option, kein Muss. Vielleicht sollte man, eh man das tatsächlich scharf einsetzt, sowieso nur eine Weile beobachten, um ein Gefühl dafür zu bekommen.

Weiter kann man diese Technik in Kombination mit einer falschen aber existierenden E-Mail-Adresse dazu benutzen, Mail-Harvester zu identifizieren: in dem index.whatever-Dokument im per Disallow gesperrten Verzeichnis setzt man einen mailto:-Link auf diese Adresse und wartet ab. Wenn man Glück hat, sind die Absender-IP’s der Spammails mit denen eines Bots identisch. Wenn nicht, ist das ganze allerdings nutzlos ;-)

*) Das Ausmisten der Liste ist insbesondere in Bezug auf die UA-Strings wichtig. Im Zweifel sendet ein Bot einen korrekten UA-String, d. h. einen UA-String, den ein guter Bot oder ein normaler Browser benutzt.

Die Rache des Orients

Heise News-Ticker: Hisbollah veröffentlicht Kriegsspiel

Warum sollen nur Israelis, US-Amerikaner und Briten Kriegsspiele veröffentlichen dürfen?

Special Force wird angeblich von der Hisbollah veröffentlicht.

Ein von der libanesischen Partei und Widerstandsorganisation Hisbollah veröffentlichtes Kriegsspiel will der Demütigung der islamischen und arabischen Länder in den westlichen Computerspielen etwas entgegen setzen und für die Organisation und ihren Kampf werben. Kriegsspiele nach realen Szenarios haben spätestens seit dem Afghanistan- und dem Irakkrieg Konjunktur. Sogar die US- und die israelische Armee gaben eigene Kriegsspiele heraus, in denen nach guter alter Tradition nur der tote Araber eine guter Araber ist.

In Special Force der Hisbollah darf der Araber auch mal Sieger sein. Er ist nicht mehr der “zu vernichtende Terrorist”, sondern der Widerstands- und Freiheitskämpfer, der gegen israelische Soldaten vorgeht. Die Spielszenen basieren “auf realen Ereignissen, die während der israelischen Invasion 1982 im Südlibanon stattgefunden haben.” Der hauseigene Geheimdienst der Hisbollah lieferte dazu entsprechende Unterlagen.

Die Umlaute kommen

Gerade kam die Mail von 1&1:

Sie haben bei 1&1 WebHosting eine oder mehrere Domains mit
Umlauten (Extended Domains) vorbestellt.

Wir möchten Sie nun darüber informieren, dass wir in Kürze
wie geplant alle gewünschten Domains zur Registrierung an
die zuständige .com/.net-Registry Verisign weiterleiten werden.

Ob Ihre Domain(s) erfolgreich registriert werden konnte(n),
können Sie dann voraussichtlich ab dem 01.10.2003 in Ihrem
1&1 Konfigurationsmenü überprüfen.

Es wird ernst ;-)

eRONA Update ;-)

Heureka! Noch ist es zwar lange nicht fertig, aber es ist bereits jetzt absolut benutzbar. Im Wiki habe ich ein paar Seiten erstellt, damit man sich über eRONA austauschen kann bzw. damit ich meine Ideen nicht vergesse ;-)

Hier ein aktueller Screenshot:
1909203-index.gif

eRONA kann jetzt:

  • Feeds anhand der URL zum RSS/RDF importieren
  • Benutzerabhängige Abonnements verwalten
  • Feed-Listen via OPML ex- und importieren

Bisher ist eRONA “nur” ein x-beliebiger webbasierter Feedreader. Ziel ist es jedoch, einen Aggregator daraus zu machen.

Was jetzt noch fehlt:

  • Feed-Sammlungen öffentlich zugänglich machen
  • Suchfunktion in Feeds/Einträgen
  • Aktualisierungsstrategie erarbeiten (im Moment kann man Feeds einmal pro Stunde aktualisieren)
  • Kategorisierung von Feeds und Items

‘Keiner linkt mich’, sagt Gav

supergarv.de - garvin: Frustrierend ist…

… trotz vieler Arbeit keine Backlinks zu haben ;-)

via Alp Uçkan’s Website: Schließlich kostet ein Link nix


…wenn man die letzten Tage, die halbe Nacht und die ersten Minuten nach dem Aufstehen damit verbringt,

* sein Weblog mit Buttons+Stickern aufzurüsten

* die Stylesheets des Weblogs mal endlich was zu korrigieren

* (zig) Bugs und Features in serendipity bearbeitet

* ständig auf der Suche nach neuen, lesenswerten Blogs ist und diese in seine Liste aufnimmt

* sich in FOAF-Dokumentationen einliest und ein FOAF.RDF erstellt

und danach rausfindet, dass die Welt einfach böse zzgl. gemein ist weil

* der Technorati Link Cosmos nur einen einzigen, mickrigen Inbound Link zu meinem Blog hat

* mich kein Schwein in seiner Blogroll hat, geschweige denn in seiner Linkbox

* es keinen Blogplan von Remagen oder zumindest Bonn gibt

* ich kaum Leute mit einer FOAF-RDF kenne

* der liebe Martin seit August seine Blogroll nicht aktualisiert hat

* und trotzdem stündlich 40 verschiedene Hosts meinen RSS-Feed abrufen.

So geht es doch den meisten:

Zunächst wird alles ausprobiert, alles was man findet mal eingebaut. Schließlich stellt man ernüchtert fest, das nur 20% aller Tools, die man eingebaut hat, überhaupt genutzt werden, und von diesen 20% nur 20% nicht nur von einem selbst.

Nach diese Rechnung bleiben am Ende nur 4% aller Tools übrig. Könnte vielleicht sogar stimmen ;-) Aber man soll ja keiner Statistik trauen, die man nicht selbst gefälscht hat.

Im Zweifel sind gute Inhalte immer die beste und einzige Garantie dafür, das eine Website “genutzt”, sprich abgerufen wird. Und wenn dies - wie bei einem Blog - per RSS-Feed geschieht, ist das doch in Ordnung ;-)

Dennoch: Gav spricht hier indirekt Nicht-Zitieren tötet Blogging an.

eRONA: Accessability-Statement

C-X: eRONAAccess

Warum Frames eigentlich schlecht sind und warum ich sie dennoch für eRONA benutze.

eRONA benutzt Frames. Viele Menschen sagen, Frames wären böse. Ich denke da anders: Frames werden oft falsch benutzt.

Die üblichen Cons gegen Frames sind:

* Frames erschweren das Bookmarken.

Bei eRONA muss außer der Startseite nichts gebookmarkt werden. Etwas anderes zu bookmarken macht keinen Sinn.

* Frames erschweren das Ausdrucken von Seiten.

eRONA-Seiten sind nicht zum Ausdrucken gemacht. Eventuell werden später an Stellen, an denen es Sinn macht, Druckmöglichkeiten angeboten.

* Frames erschweren Suchmaschinen das Indexieren.

eRONA-Seiten sind für Suchmaschinen nicht einsehbar, da sie mit einer Session geschützt sind: nur wer sich einloggt, sieht eRONA-Seiten.

* Frames werden nicht in allen Browsern dargestellt.

Wer mit einem PDA surft, dem gehört es nicht besser. eRONA versucht, das Look & Feel einer Desktop-Applikation nachzuahmen. Und auf einem Desktop hat man heute mindestens 800x600 Pixel zur Verfügung. eRONA wird auch in dieser Auflösung getestet. Sollte es einmal nicht passen, Mail (am Besten mit Screenshot) an mich.

* Frames sich schwer richtig zu schreiben.

Nach knapp 6 Jahren HTML traue ich mir zu, Framesets zu definieren. Wer Fehler findet oder Verbesserungen am Frameset einbringen möchte, sei natürlich herzlich eingeladen. Man lernt nie aus.

* Frames verstoßen gegen die Grundprinzipien des WWW.

Statt einer linearen Navigation, die mittels der Vor- und Zurück-Buttons arbeiten kann und in der jede Seite eine atomare Einheit bildet, bilden Frames ein Sammelsurium von einzelnen Seiten mit einer Vielzahl - später nicht mehr nachvollziehbarer - hintereinander verschachtelter Navigationssprünge. Das gilt vielleicht für eine Homepage (ich benutze absichtlich nicht das Wort ‘Website’) oder ein Portal, nicht aber für eine integrierte Anwendung wie eRONA.

* Frames verhindern leichte Zugänglichkeit.

In den Techniques for Web Content Accessibility Guidelines 1.0 wird gesagt: Provide a text equivalent for every non-text element. Use relative rather than absolute units in markup language attribute values and style sheet property values. Describe the purpose of frames and how frames relate to each other if it is not obvious by frame titles alone. Ähnliches wird auch von der BITV gefordert: Jeder Frame ist mit einem Titel zu versehen, um Navigation und Identifikation zu ermöglichen. Alle drei Punkte werden von eRONA erfüllt. (Heute, 17.09.2003, fehlt nur noch die in longdesc verlinkte Datei mit weiteren Erläuterungen.)

Ich möchte hier nicht weiter auf die Pros eingehen: Frames haben eigentlich keine nennenswerten Pros, außer für “Spezialanwendungen” wie eRONA. Im normalen Webdesign sind Frames (fast) immer das falsche Mittel.

Mir ist durchaus bewusst, das Frames nicht der Wahrheit letzter Schluss sind (auch nicht für eRONA). Für den Moment aber wird es bei Frames bleiben, auch wenn manche das vielleicht für ‘uncool’ oder ‘nicht-100%-barriere-frei’ halten. (Mittlerweile sollte die/der werte LeserIn? mitbekommen haben, das ich mich hier fast schon rechtfertige. Ich mag Frames eigentlich auch nicht und habe in einem aktuellen Projekt für die Website des Jugendverbandes einer internationalen Hilfsorganisation Frames sogar abgelehnt, obwohl die ‘CI’ Frames vorschreibt.)

Erste eRONA-Beta

easy RSS

Das DB-Modell ist ok so wie es ist ;-) Manchmal macht man einfach nur die Pferde scheu. Management der Feeds und Registrierungsmöglichkeit ist eingebaut, damit ist eRONA schoneinmal rudimentär nutzbar! Beta 1 sozusagen ;-) Am OPML bin ich dran, ebenso an “Siehe-Auch” und anderen netten Spielereien. Wichtigster nächster Meilenstein: streng geheim ;-) Wers wissen will, schickt mir eine Mail.