[spip-dev] [statistiques] MSIE 6 est-il un robot ?

From : cedric@... , the 15th November 2014 10:33

Hello, depuis septembre on constate une forte divergence des stats SPIP avec  les stats Google Analytics sur un grand nombre de sites SPIP. Après analyse il s'avère que c'est le fait de BotNets qui utilisent de  vieux IE6 zombies. Cela se verifie aisement dans les logs apache : # cat acces.log | grep -v "local/" | grep -v "IMG/" | grep -v "/ecrire/"  | grep -v "plugins/" | grep -v "plugins-dist/" | grep -v "action=cron" |  grep -v "bot" > acces_pages.log # grep GET acces_pages.log | wc -l 280072 # grep POST acces_pages.log | wc -l 47540 # grep POST acces_pages.log | grep -v "MSIE 6" | wc -l 329 # grep GET acces_pages.log | grep -v "MSIE 6" | wc -l 201727 # grep GET acces_pages.log | grep "MSIE 6" | wc -l 78345 # grep POST acces_pages.log | grep "MSIE 6" | wc -l 47211 On trouve donc que 80000/280000 pages vues en GET sont le fait de MSIE6  soit plus de 28% du total ce qui est totalement hors de proportion par  rapport à la part de marché de IE6. Mais plus encore on voit que ces MSIE6 font plus de 47000 POST durant le  même temps, là ou tous les autres utilisateurs confondus ne font que 329  POST. Ces MSIE6 sont donc clairement utilisés pour du spam massif via des  BotNets. Ils se contentent de faire des successions de GET + POST. En effet, on peut voir que quasi aucun ne charge de CSS ni de JS : # grep "MSIE 6" acces.log | grep css | wc -l 147 # grep "MSIE 6" acces.log | grep js | wc -l 24 Les POST génèrent très certainement une forte charge serveur à eux  seuls, mais on ne peut pas y faire grand chose a priori (investigations  complémentaires nécessaires en tout cas). Mais au final les GET de ces MSIE 6 sont comptés dans les visites de  manière impropre. Je propose de manière un peu osée d'ajouter "MSIE 6.0" à la preg de detction des bots. Les utilisateurs sous MSIE 6 seront du coup comptés comme des robots et  exclus des stats. Il me semble que c'est plus près de la vérité que de  les compter comme des utilisateurs normaux. Est-ce que cela convient à tout le monde, ou certains auraient des parcs  de vrais utilisateurs MSIE6 dans leurs visiteurs qui necessiterait que  cela reste une option activable/desactivable ? --  Cédric