Welche Informationen ein Logfile enthalten kann

Wenn Sie am Rechner arbeiten, auf dem Tablet surfen oder eine Website auf einem Server betreiben, finden zahlreiche Prozesse unbemerkt im Hintergrund statt. Kommt es zu Problemen, treten Fehler auf oder wollen Sie nachvollziehen, welche Aktionen das Betriebssystem oder die verschiedenen Programmen und Dienste ausführen, können Ihnen die sogenannten Log-Dateien Auskunft geben. Sie werden von nahezu allen Anwendungen, Servern, Datenbanken und Systemen automatisch geführt und protokollieren alle relevanten Prozesse.

Generell werden Logfiles nur sehr selten ausgewertet – sie erfüllen eine ähnliche Funktion wie ein Flugschreiber, der nur in dringlichen Fällen inspiziert wird. Aufgrund der detaillierten Datenerfassung sind Log-Dateien allerdings auch eine erstklassige Quelle für umfassende Untersuchungen von Programm- und Systemfehlern sowie zur Erfassung des Nutzerverhaltens. Das macht sie nicht nur für Software-Hersteller, sondern auch für Website-Betreiber interessant, die aus der Log-Datei ihres Webservers interessante Informationen beziehen können.

Was ist ein Logfile?

Bei Logfiles, die man auch als Ereignisprotokolldateien bezeichnet, handelt es sich um gewöhnliche Textdateien. In ihnen sind alle Prozesse festgehalten, die vom Programmierer der jeweiligen Anwendung als relevant definiert worden sind. Im Falle der Log-Datei einer Datenbank sind das beispielsweise alle Änderungen von korrekt abgeschlossenen Transaktionen. Werden Teile der Datenbank gelöscht, z. B. im Falle eines Systemabsturzes, dient das Logfile als Basis für die Wiederherstellung des korrekten Datenbestands.

Log-Dateien werden gemäß der jeweiligen Programmierung automatisch erzeugt; es ist aber auch möglich, eigene Protokolldateien zu erstellen – sofern das notwendige Know-how vorhanden ist. Generell enthält eine Zeile eines Logfiles die beiden folgenden Angaben:

  • Erfasstes Ereignis (z. B. ein Programmstart)
  • Zeitstempel, der dem Ereignis Datum und Uhrzeit zuordnet

Typischerweise wird die Zeitangabe vorangestellt, um die chronologische Abfolge der Ereignisse wiederzugeben.

Typische Anwendungsgebiete von Log-Dateien

Betriebssysteme erstellen standardmäßig mehrere Protokolldateien, in denen die verschiedenen Prozesstypen kategorisiert festgehalten werden. Windows-Systeme führen beispielsweise Protokolle über Anwendungsereignisse, Systemereignisse, sicherheitsbezogene Ereignisse, Set-up-Ereignisse und weitergeleitete Ereignisse. Administratoren erhalten durch einen Blick in die entsprechende Log-Datei Informationen, die ihnen bei der Fehlerbehebung weiterhelfen können. Außerdem zeigen die Windows-Logfiles, welcher Nutzer sich wann auf dem System an- bzw. abgemeldet hat. Neben dem Betriebssystem sind es die folgenden Programme und Systeme, die ihrerseits ganz unterschiedliche Daten sammeln:

  • Hintergrundprogramme wie z. B. Mail-, Datenbank- oder Proxyserver erzeugen Log-Dateien, die in erster Linie Fehlermeldungen, Ereignismeldungen und Hinweise aufzeichnen. Hintergrund sind vor allem die Sicherung und eine mögliche Wiederherstellung der Daten.
  • Installierte Software wie Office-Programme, Spiele, Instant Messenger, Firewalls oder Virenscanner speichern ganz unterschiedliche Daten im Logfile. Dabei kann es sich beispielsweise um Konfigurationen oder Chat-Nachrichten handeln. Vor allem aber steht auch hier die Sammlung von Programmabstürzen zugunsten einer raschen Fehlerbehandlung im Vordergrund.
  • Server (insbesondere Webserver) protokollieren relevante Netzwerkaktivitäten, die nützliche Informationen über die User und deren Verhalten im Netzwerk beinhalten. Unter anderem erfahren berechtigte Administratoren, welcher Nutzer zu welchem Zeitpunkt eine Anwendung gestartet oder eine Datei angefordert hat, wie lange er die jeweilige Aktivität in Anspruch genommen hat und welches Betriebssystem dazu verwendet wurde. Die Webserver-Logfile-Analyse ist eine der ältesten Methoden des Web-Controllings und das beste Beispiel für die Möglichkeiten von Log-Dateien.

Das Musterbeispiel für das Log-Dateien-Potenzial: Webserver-Logfiles

Ursprünglich diente die Protokolldatei von Webservern wie Apache oder Microsoft IIS der standardmäßigen Aufzeichnung und Behebung von Fehlern im Prozessablauf. Schnell entdeckte man allerdings, dass das Webserver-Logfile noch viel wertvollere Daten liefern kann – etwa Informationen über die Beliebtheit und Usability der auf dem Server gehosteten Website inklusive nützlicher Angaben über die Besucher wie zum Beispiel:

  • Zeitpunkt der Seitenaufrufe
  • Anzahl der Seitenaufrufe
  • Dauer der Sitzung
  • IP-Adresse und Hostname der Nutzer
  • Informationen über den anfragenden Client (in der Regel Browser)
  • genutzte Suchmaschine inklusive Suchanfrage
  • verwendetes Betriebssystem

Ein typischer Eintrag einer Webserver-Log-Datei sieht so aus:

183.121.143.32 - - [18/Mar/2003:08:04:22 +0200] "GET /images/logo.jpg HTTP/1.1" 200 512 "http://www.wikipedia.org/" "Mozilla/5.0 (X11; U; Linux i686; de-DE;rv:1.7.5)"

Die einzelnen Parameter erläutert:

Bedeutung Beispielwert Erläuterung
IP-Adresse 183.121.143.32 Die IP-Adresse des anfordernden Hosts
Unbelegt - Standardmäßig nicht ermittelte RFC-1413-Identität
Wer? - Verrät den Nutzernamen, sofern eine HTTP-Authentifizierung stattgefunden hat; bleibt ansonsten wie in diesem Fall frei
Wann? [18/Mar/2003:08:04:22 +0200] Zeitstempel, bestehend aus Datum, Uhrzeit und Zeitverschiebungsangabe
Was? GET /images/logo.jpg HTTP/1.1 Das stattgefundene Ereignis, in diesem Fall die Anforderung eines Bildes via HTTP
Ok 200 Bestätigung der erfolgreichen Anfrage (HTTP-Statuscode 200)
Wie viel? 512 Falls gegeben: Menge der übertragenen Daten in Byte
Woher? http://www.wikipedia.org/ Webadresse, von der die Daten angefordert werden
Womit? Mozilla/5.0 (X11; U; Linux i686; de-DE;rv:1.7.5) Technische Angaben zum Client: Browser, Betriebssystem, Kernel, User-Interface, Sprachausgabe, Version

Um die Flut an Informationen auszuwerten, wurden Tools wie Webalizer oder W3 Statistics entwickelt, die die erhobenen Daten in aussagekräftige Statistiken, Tabellen und Grafiken umwandeln. Aus diesen lassen sich beispielsweise Tendenzen über das Wachstum der Website, die Benutzerfreundlichkeit der einzelnen Seiten oder relevante Keywords und Themen ableiten.

Auch wenn die Webserver-Logfile-Analyse weiterhin praktiziert wird, wurde sie doch zum Großteil von neueren Methoden der Webanalyse wie Cookies oder Page-Tagging abgelöst. Die Ursachen dafür liegen zum einen in der hohen Fehleranfälligkeit der Protokolldatei-Analyse bei der Zuordnung von Sitzungen, zum anderen in der Tatsache, dass Betreiber einer Website oftmals gar nicht auf die Log-Datei des Webservers zugreifen können. Dafür werden alle Fehlermeldungen unmittelbar registriert. Außerdem bleiben die Daten, die aus einer Logfile-Analyse gewonnen werden, direkt beim Unternehmen.