von deerwood » 14 Jul 2010, 04:47
Moin,
schön, dass einige das interessiert.
Ich muss mich zunächst korrigieren: ich habe nicht 10.000, sondern etwa 20.000 Dateien. Heute, nach 3 Tagen, wurden '14.860 different pages-url' ausgewiesen ... das zeigt, dass TVB nur die benötigten, neuen, Dateien holt. Wenn die Statistik mehrere Wochen/Monate läuft, wird die Anzahl der verschiedenen URLs aber wohl höher als 20.000 werden.
Jo hat geschrieben:Da interessiert mich immer, welche Sender eigentlich am meisten genutzt werden
. Aber das wird schon dadurch verfälscht, dass die verschiedenen Sendergruppen verschiedene Mirrors haben mit unterschiedlicher Priorität. Da müssten dann schon alle Mirror-Betrieber Auswertungen machen. Viel zu aufwändig.
Ich gebe Dir Recht, zumal mein Mirror auch ein sehr kleiner ist (niedrige Priorität). Einer der großen Mirrors, der alles mit gleicher, hoher Prorität hostet, sollte die Auswertung fahren, dann hätte man zwar nicht die Gesamtzahlen, aber statistisch nicht ganz falsche Tendenzen, oder?
Ich habe heute eine Custom Section hinzugefügt, die versucht, die Sender zu zählen. Dabei zähle ich bewusst die Dateien/URLs, die 'picture' im Namen haben nicht mit, um nicht Sender, die Bilder zur Verfügung stellen, zu bevorzugen.
Dennoch ist diese Statistik sicher nicht korrekt, weil TVB das schwer macht:
Ich zähle alle 'nicht picture' URLs und summiere sie unter 'country_channel' (de_zdf, at_3sat, ch_sfdres1 usw). Ich ignoriere also das Datum und auch die Datei-Varianten
- base_full
- base_update_N (N = 1, 2, 3, ...)
- more00-16_full
- more00-16_update_N (N = 1, 2, 3, ...)
- more16-00_full
- more16-00_update_N (N = 1, 2, 3, ...)
Dabei gehe ich davon aus, dass es sich bei '*base*' um die oben erwähnten 254 Sendungen handelt, die auch ganz alte TVBs verstehen und bei '*more*' um die "angehäkelten" Sendungen morgens/abends. Schon das verfälscht die Statistik: Sender ohne '*more*' werden halt nur 1 mal gezählt, Sender mit more werden 3 mal gezählt.
Noch schlechter wird die Zählung durch die '*update*' Dateien: manche Sender haben gar keine Updates, andere haben (im Moment) bis zu 7 Updates.
In der Essenz: Sender/Channels, die häufig geändert werden, erhalten einen unerwünschten Bias.
Aus Sicht der Auswertung würde ich ebenfalls für ein neues Dateiformat plädieren: EINE Datei pro Tag und Channel, die SÄMTLICHE (Text-) Änderungen enthält; dito für die Bilder.
Das würde auch die Anzahl der zu hostenden Dateien deutlich reduzieren (versucht doch mal ein 'ls -l', so wie es jetzt ist, für Manipulationen muss man immer auf 'find . | xargs <some_command> ausweichen). Ich glaube auch, dass die Performance der Server/Mirrors dadurch deutlich gesteigert werden könnte: zwar sind die Dateien größer, aber der WEB-Server kann sie dann "am Stück" ausliefern .. darin sind WEB-Server gut. Mit der jetzigen Stückelung pro Tag/Channel in viele einzelne kleine Dateien erfordert der Netzwerk/HTTP-Protokoll-Overhead vermutlich mehr Bandbreite, als die Daten selbst.
Trotz allem hier meine neue "Custom Section":
Code: Alles auswählen
ExtraSectionName4="TV-Browser Channels (pictures not counted)"
ExtraSectionCodeFilter4="200 304"
ExtraSectionCondition4="URL,\/+\d{4}\-\d{2}\-\d{2}_[^_]+_[^_]+_(?!picture)"
ExtraSectionFirstColumnTitle4="TVB Channel"
ExtraSectionFirstColumnValues4="URL,\/+\d{4}\-\d{2}\-\d{2}_([^_]+_[^_]+)_"
ExtraSectionFirstColumnFormat4="%s"
ExtraSectionStatTypes4=PHBL
ExtraSectionAddAverageRow4=0
ExtraSectionAddSumRow4=1
MaxNbOfExtra4=100
MinHitExtra4=1
Die Ausgabe sieht dann so aus (nach einem Tag, also wieder NICHT repräsentativ):
- TVB_AWStats_channels.png (26.11 KiB) 16981 mal betrachtet
Siggi hat geschrieben:Die Auswertung könnte man monatlich in kurzer Form hier ins Forum stellen.
Wie oben erwähnt: mein Server hat niedrige Priorität und ist nicht repräsentativ.
Ich weise auch darauf hin, dass man die "life" AWStats Auswertung NICHT allgemein zur Verfügung stellen sollte, weil sie (in einigen Reports) IP-Adressen anzeigt. Datenschutz und Wahrung der Privatsphäre haben jedenfalls Vorrang! Bei mir werden die Apache-Logs kurz nach Auswertung gelöscht, damit auch die IPs ... und dennoch finden sich einige IPs in den Auswertungen.
LG, Georg
Moin,
schön, dass einige das interessiert.
Ich muss mich zunächst korrigieren: ich habe nicht 10.000, sondern etwa 20.000 Dateien. Heute, nach 3 Tagen, wurden '14.860 different pages-url' ausgewiesen ... das zeigt, dass TVB nur die benötigten, neuen, Dateien holt. Wenn die Statistik mehrere Wochen/Monate läuft, wird die Anzahl der verschiedenen URLs aber wohl höher als 20.000 werden.
[quote="Jo"]Da interessiert mich immer, welche Sender eigentlich am meisten genutzt werden ;-). Aber das wird schon dadurch verfälscht, dass die verschiedenen Sendergruppen verschiedene Mirrors haben mit unterschiedlicher Priorität. Da müssten dann schon alle Mirror-Betrieber Auswertungen machen. Viel zu aufwändig.[/quote]
Ich gebe Dir Recht, zumal mein Mirror auch ein sehr kleiner ist (niedrige Priorität). Einer der großen Mirrors, der alles mit gleicher, hoher Prorität hostet, sollte die Auswertung fahren, dann hätte man zwar nicht die Gesamtzahlen, aber statistisch nicht ganz falsche Tendenzen, oder?
Ich habe heute eine Custom Section hinzugefügt, die versucht, die Sender zu zählen. Dabei zähle ich bewusst die Dateien/URLs, die 'picture' im Namen haben nicht mit, um nicht Sender, die Bilder zur Verfügung stellen, zu bevorzugen.
Dennoch ist diese Statistik sicher nicht korrekt, weil TVB das schwer macht:
Ich zähle alle 'nicht picture' URLs und summiere sie unter 'country_channel' (de_zdf, at_3sat, ch_sfdres1 usw). Ich ignoriere also das Datum und auch die Datei-Varianten
[list]
[*]base_full
[*]base_update_N (N = 1, 2, 3, ...)
[*]more00-16_full
[*]more00-16_update_N (N = 1, 2, 3, ...)
[*]more16-00_full
[*]more16-00_update_N (N = 1, 2, 3, ...)[/list]
Dabei gehe ich davon aus, dass es sich bei '*base*' um die oben erwähnten 254 Sendungen handelt, die auch ganz alte TVBs verstehen und bei '*more*' um die "angehäkelten" Sendungen morgens/abends. Schon das verfälscht die Statistik: Sender ohne '*more*' werden halt nur 1 mal gezählt, Sender mit more werden 3 mal gezählt.
Noch schlechter wird die Zählung durch die '*update*' Dateien: manche Sender haben gar keine Updates, andere haben (im Moment) bis zu 7 Updates.
In der Essenz: Sender/Channels, die häufig geändert werden, erhalten einen unerwünschten Bias.
Aus Sicht der Auswertung würde ich ebenfalls für ein neues Dateiformat plädieren: EINE Datei pro Tag und Channel, die SÄMTLICHE (Text-) Änderungen enthält; dito für die Bilder.
Das würde auch die Anzahl der zu hostenden Dateien deutlich reduzieren (versucht doch mal ein 'ls -l', so wie es jetzt ist, für Manipulationen muss man immer auf 'find . | xargs <some_command> ausweichen). Ich glaube auch, dass die Performance der Server/Mirrors dadurch deutlich gesteigert werden könnte: zwar sind die Dateien größer, aber der WEB-Server kann sie dann "am Stück" ausliefern .. darin sind WEB-Server gut. Mit der jetzigen Stückelung pro Tag/Channel in viele einzelne kleine Dateien erfordert der Netzwerk/HTTP-Protokoll-Overhead vermutlich mehr Bandbreite, als die Daten selbst.
Trotz allem hier meine neue "Custom Section":
[code]
ExtraSectionName4="TV-Browser Channels (pictures not counted)"
ExtraSectionCodeFilter4="200 304"
ExtraSectionCondition4="URL,\/+\d{4}\-\d{2}\-\d{2}_[^_]+_[^_]+_(?!picture)"
ExtraSectionFirstColumnTitle4="TVB Channel"
ExtraSectionFirstColumnValues4="URL,\/+\d{4}\-\d{2}\-\d{2}_([^_]+_[^_]+)_"
ExtraSectionFirstColumnFormat4="%s"
ExtraSectionStatTypes4=PHBL
ExtraSectionAddAverageRow4=0
ExtraSectionAddSumRow4=1
MaxNbOfExtra4=100
MinHitExtra4=1
[/code]
Die Ausgabe sieht dann so aus (nach einem Tag, also wieder NICHT repräsentativ):
[attachment=0]TVB_AWStats_channels.png[/attachment]
[quote="Siggi"]Die Auswertung könnte man monatlich in kurzer Form hier ins Forum stellen.[/quote]
Wie oben erwähnt: mein Server hat niedrige Priorität und ist nicht repräsentativ.
Ich weise auch darauf hin, dass man die "life" AWStats Auswertung NICHT allgemein zur Verfügung stellen sollte, weil sie (in einigen Reports) IP-Adressen anzeigt. Datenschutz und Wahrung der Privatsphäre haben jedenfalls Vorrang! Bei mir werden die Apache-Logs kurz nach Auswertung gelöscht, damit auch die IPs ... und dennoch finden sich einige IPs in den Auswertungen.
LG, Georg