Indexation page web, comment echapper aux yeux de google

Chaque jour, la même scène se répète : des visiteurs restent plantés au milieu du hall d'accueil, comme hypnotisés. Au lieu de se diriger vers les hôtesses, de se présenter et de récupérer un badge, ils demeurent ainsi figés plusieurs minutes, médusés par l'immense écran suspendu derrière la réception. Dessus, défilent très lentement, dans toutes les langues, les requêtes formulées sur Google en temps réel par les internautes du monde entier. Fascinant ! Nous sommes dans GooglePlex, l'immense siège social californien du célèbre moteur de recherche

Si les visiteurs restent prostrés devant cet écran, c'est qu'il réveille le côté voyeur de chacun d'entre nous. Certaines des requêtes sont parfois sibyllines. Mais les résultats, toujours surprenants. Tapez, par exemple, « intitle:index.of paye.xls », et vous accédez à des fiches de paie ; « inurl: indexframe.shtml Axis » affiche l'image en temps réel de centaines de caméras de vidéosurveillance ; quant à la requête « «téléphone * * *» «adresse*» «e-mail» intitle: "curriculum vitae " », elle récupère toutes sortes de curriculum vitae, d'adresses et de numéros de téléphone. La liste pourrait continuer indéfiniment. Car Google, de même que beaucoup de moteurs de recherche, accepte des requêtes par mots clés et reconnaît des opérateurs aussi avancés que ceux des bases de données. Ainsi, un filtre comme « site: » restreint la recherche à un nom de domaine précis. Un autre comme « filetype: » ne remonte qu'un type de fichiers particulier. Ne reste plus alors qu'à être créatif.

Avec les moteurs de recherche, obtenir des informations confidentielles devient extrêmement simple. Plus besoin d'être un pirate chevronné. Il suffit de retenir une ou deux requêtes avancées. Les plus fainéants peuvent même en trouver des toutes faites sur le web. Il existe comme cela toute une série de sites, sur lesquels des petits malins s'échangent leurs trouvailles. Plusieurs livres expliquent aussi par le menu comment récupérer des trésors sur n'importe quel site web. On y apprend, entre autres, comment utiliser Google pour détecter la version des logiciels serveurs d'un site.

Cela permet d'en connaître les vulnérabilités pour mieux déclencher une attaque. On y décrit également une méthode simple pour récupérer un mot de passe : il suffit de lancer une requête qui retrouve un nom d'utilisateur et le numéro de téléphone de la hotline. Le bagout fait le reste. « Bonsoir, je suis le responsable du département ventes. J'ai une présentation à faire dans cinq minutes, et je n'arrive pas à me connecter. Dépêchez-vous de réinitialiser mon mot de passe ou ça va barder ! » C'est bien plus rapide et plus efficace que de tenter une intrusion sur un serveur

Mais comment Google parvient-il à récupérer toutes ces informations ? Les moteurs de recherche utilisent des robots qui parcourent automatiquement les pages

du web. De serveur en serveur, ils suive] les liens hypertextes et indexent tout si leur passage. Du coup, un serveur FTP, u portail collaboratif, voire un disque loc, peuvent se retrouver dans la base de Go gle, pour peu qu'ils soient accessibles d puis le web. Mais il y a pire. Selon Johm Long, auteur du livre Google Hacking, « i utilisant VAPI Google, il est possible de sca ner des ports CGI, et d'obtenir des informatiUi sur'les pare-feu et les détecteurs d'intrusions sans se faire repérer On appelle cela le Google Scan ». Sachant cela, comment éviter que ses secrets soient indexés par Google et exposés aux yeux de tous ?
Par chance, les moteurs de recherche se sont fixé un code de bonne conduite. Avant d'indexer un site, ils valident toute une série d'autorisations par le biais d'un fichier Robots.txt, situé sur la racine du serveur web. A l'intérieur, chaque ligne « Disallow » précise les fichiers ou les répertoires à ne pas indexer. De même, les balises « Meta » indiquent les fichiers à ne pas conserver dans les archives (cache). Dell aurait donc pu facilement éviter ses déboires en ajoutant une simple ligne dans un fichier texte.

L'essentiel consiste à ne pas tout laisser sur le serveur web public. Les informations sensibles ont leur place dans des pages protégées par mot de passe ou derrière le pare-feu, sur des serveurs privés sécurisés, là où les robots ne pénètrent pas. Bien entendu, toutes ces actions doivent être chapeautées par une politique de sécurité, et avec des correctifs régulièrement appliqués. Si, en dépit de cela, des informations parvenaient à filtrer, il est toujours possible de contacter Google pour lui demander de retirer une page de l'index ou des archives. A noter que l'opération prend jusqu'à cinq jours...tous les moteurs de recherche sont concernés. Mais aujourd'hui Google s'avère le plus utilisé , et son index est le plus important ( 10 milliards de pages, assorties d'images, de messages, de fichiers et de vidéos). Les techniques décrites dans l'article restent d'ailleurs reproductibles sur d'autres moteurs..............................................Source 01informatique

Comment echapper aux robots d'indexation de google ?