Wenn Wolfgang schon mit dem Zaunpfahl winkt, muss ich wohl ran ;)
Außerdem ein paar Gedanken zu dynamischen Inhalten und mod_rewrite sowie dem Sinn von generischen Auswertungsstrategien für große, dynamische Websites.
Erfahren habe ich nichts wirklich neues, lediglich, das Visitors tatsächlich ein tolles Tool ist. Es cruncht mein phpBB.de-Test-Log (01.01.04 bis 31.08.04), das immerhin 9GB groß ist, in knapp 12 Minuten - das sind 13MB pro Sekunde.
Man beachte auch, das Visitors mit einer so großen Datei überhaupt zurecht kommt. Analog beispielsweise bricht nach ein paar hunderttausend Zeilen die Verarbeitung ab und generiert einen leeren Report.
Ansonsten bietet Visitors nichts wesentlich umwerfendes - bis auf den GraphViz-Export und eine geniale Visualisierung der Hauptlastzeiten.
Visitors bietet einen Report namens Trails an. Die Idee dabei ist, die häufigsten Klickpfade zu identifizieren. Visitors kann eine Ausgabe dieses Reports generieren, aus der man mittels des GraphViz-Tools dot ein eine Grafik zaubern kann. Das sieht dann zum Beispiel so aus.
Was mir wirklich sehr gut gefällt ist die Visualisierung der Hauptlastzeit. Das ist doch wahrlich intuitiv. Damit erkennt man auf einen Blick die Hot Spots (oder Hott Schpotts, Grüße an Volker).
Die Stärke von Visitors liegt für mich in drei Punkten:
- Schnell!
- Informative und sinnvolle graphische Ausgaben.
- Open Source.
Nun zum Thema mod_rewrite.
Leider funktioniert ein Tracking wie das der GraphViz-Auswertung auf Dateinamenebene aus einem Serverlog heraus nur bei Websites, deren Inhalte statisch in einzelnen Dateien abgelegt sind. Bei Websites wie phpBB.de, die zum größten Teil aus dynamisch zusammengestellten Inhalten bestehen, ist eine solche Analyse kaum möglich.
Zwar haben wir Dank mod_rewrite statische Dateinamen wie topic5426.html oder forum4.html. Damit handeln wir uns allerdings ein anderes Problem ein. Man erinnere sich an das Thema URL-Design: eine Resource, eine URL. Durch mod_rewrite haben wir nun zwei URL pro Resource: das Original viewtopic.php?t=5426 und die Kopie topic5426.html. Beide tauchen im Serverlog auf, und werden von den Auswertungstools als unterschiedliche Resourcen betrachtet.
Abgesehen davon wird die Auswertung solch großer Websites (phpBB.de bietet über 250.000 Inhalte) durch die schiere Menge an Informationseinheiten erschwert. Solche Websites mit einem generischen Tool auszuwerten kann nur zu sehr allgemeinen Aussagen führen. Man müsste eine Website wie phpBB.de in Sektionen zerlegen, zum Beispiel Gruppen von Foren, und funktional unabhängige Teile wie die Knowledge Base oder den Downloadbereich getrennt betrachten - zumal wir in den verschiedenen Sektionen unterschiedliche Fragestellungen durch die Auswertung beantworten wollen.
Stellt sich weiterhin die Frage, ob es nicht sinnvoller wäre, dieses Logging auf Applikationsebene durchzuführen. Dadurch könnte man nicht nur den technischen Vorgang einer Anfrage an den Webserver loggen, sondern auch komplexere Abläufe wie zum Beispiel Sessions abdecken.
Wah, schon so spät? www.ab-ins-bett.de ;)
One comment