Memex, le moteur de recherche du Web profond de la défense américaine

Ce qu’est le Web profond et pourquoi les moteurs classiques n’y accèdent pas

Avec les années, Google est devenu un moteur de recherche redoutable, permettant de trier ses résultats selon les dates, les langues, les pays, les sites Web, les types de fichier ou encore la géolocalisation.

Mais quel que soit le volume des résultats que l’on trouve par le biais d’un moteur de recherche, pour qu’un site soit visible effectivement il n’existe qu’une alternative :

  • soit son Webmaster n’interdit pas son indexation (c’est-à-dire qu’il autorise le robot de Google à faire des recherches sur son site),
  • soit un site indexé intègre un lien vers le site non-indexé.

Dans le cas contraire, ni Google ni aucun autre moteur de recherche ne peut théoriquement accéder au site et donc aux informations qu’il contient car pour un moteur de recherche, un site non-indexé n’existe pas.

Dès lors, notre vision du Web est fondamentalement tronquée par les résultats des moteurs de recherche ce qui induit qu’un espace plus ou moins vaste reste inaccessible par les moyens les plus classiques (mais qui peut l’être par d’autres biais, qu’il s’agisse de forums, de liens sur les réseaux sociaux ou des échanges privés).

Cet espace difficile d’accès représente le Web profond (Deep Web en anglais) : un ensemble de sites, de pages et autres fichiers non-indexés. Rendu célèbre par l’analogie de l’iceberg (le Web visible représente 5% du Web entier, à la façon de la partie immergée d’un iceberg), le Web profond est supposé renfermer une mine d’or d’informations : de la base de données cachée aux documents sensibles stockés de façon hasardeuse sur un site. Une théorie à laquelle adhèrent les ingénieurs de Memex, qui évoquent près de 60 millions de pages Web créées en deux ans.

Le Web profond abrite évidemment son lot d’activités illicites (bien qu’il soit loin de se limiter à cela), ce qu’on appelle, par néologisme ou sensationnalisme, le Dark Web – une sous-partie du Deep Web régulièrement confondu avec les Dark Nets.

 

Le site de vente de produits illicites Silk Road était une figure iconique du Dark Net

silk_road_memex

Pour s’attaquer aux échanges illégaux, le département de la défense américain est en train de développer Memex, une sorte de super Google qui va fouiller dans ces pans non explorés du Web. Il est encore difficile de savoir comment il procède, mais en toute vraisemblance l’outil choisit de passer outre le fichier robots.txt qui est généralement utilisé sur le Web pour bloquer l’accès à certaines parties d’un site Internet.

 

Memex : un outil de Big Data entre Analyst’s Notebook, Google et Gephi

En pratique, le fichier robots.txt agit comme le “cerbère” d’un site Web. Quand un moteur de recherche “crawle” un site (c’est-à-dire qu’il recherche à l’intérieur des pages disponibles sur ce dernier la réponse à la requête d’un utilisateur), le fichier robots dudit site va lui dire à quelle page il a accès et quelles pages lui sont interdites. Cela ne signifie pas que celles-ci ne sont pas accessibles à l’utilisateur si celui possède un lien directvers ces dernières. En quelque sorte, ces sites sont comme des lieux qui ne sont visibles sur aucune carte et auxquels il n’est possible d’accéder que si on en connait le chemin, à la façon du mythe tibétain de la cité perdue de Shambhala.

 

Comment Google crawle un site Web

Memex vs Google robots

Ici, le fichier robots.txt “refuse” à Google tout ou partie d’un site Web, ce qui fait que 25, 50 ou 100% dudit site peut être totalement “invisible”. En ignorant le fichier robots.txt, Memex fait une indexation plus complète des parties cachées du site. Il va également essayer d’accéder aux parties cachées du Web ou accessibles uniquement par lien direct (cela inclut aussi les sites en .onion accessibles par TOR). Pour ce faire, le moteur de recherche semble fusionner les fonctionnalités de plusieurs outils différents :

  • Les capacités de recherche/crawl/reconnaissance d’images de Google, avec la différence que Memex peut fouiller de façon plus précise dans le texte, les images et les photos (avec la possibilité de décoder un terme ou un numéro), les coordonnées de géolocalisation (latitude/longitude). Sa logique d’indexation va aussi à contre-courant de Google qui se veut de plus en plus un “moteur de réponse“. A cela s’ajoute notre impression, très personnelle, que Memex ne tient pas compte du fichier robots.txt,
  • Les capacités de data vizualisation de Gephi, car Memex n’affiche pas ses résultats sous forme de titres, d’URLs et de chapô, à la manière de Google, mais sous forme de graphique. Cette approche plus visuelle permet d’identifier et d’analyser des réseaux directement pendant sa recherche : un peu comme si Memex était un Gephi qui proposait des données en temps réel,
  • Les fonctionnalités de traitement de données d’Analyst’s Notebook, outil d’investigation permettant de trier les données disparates, d’identifier des personnes, de comprendre des structures de réseaux et d’analyser des données complexes (numéros de téléphone, adresses…). Pour faire simple, Analyst’s Notebook traite les données brutes que l’on peut récupérer via des moteurs de recherche : fusionner les fonctionnalités de ces deux outils allaient donc de soi.

Comment Memex fonctionne

Memex-interface

Dans le cas de Memex, la fonctionnalité de reconnaissance des images semble par ailleurs extrêmement puissante. Pour un nombre important d’acteurs, le recours aux messages via images permet de rester sous le radar de la surveillance. Certains internautes avaient réussi à déjouer le monitoring de l’Etat turc en privilégiantdes messages par capture d’écran. Hélas, ces techniques sont également utilisées dans la traite illégale d’êtres humains, le narcotrafic ou la contrefaçon. Face à ces pratiques, Memex est capable de déchiffrer ce qui est écrit sur un papier ou repérer des motifs récurrents (par exemple le papier-peint d’un hôtel). Cela permet notamment de repérer des hôtels qui abritent parfois de la prostitution déguisée ou encore d’identifier des réseaux de trafic grâce à un numéro de téléphone. Selon le département de la défense américain, Memex aurait ainsi réussi à fermer près de vingt réseaux de traite d’êtres humains sur l’année écoulée grâce à Memex.

Memex fait donc figure d’outil trois-en-un qui couvre chaque aspect d’une enquête Web : recherche de données, visualisation et traitement. Pour autant, la puissance de l’outil fait frémir.

 

Memex, un outil puissant qui pose plusieurs questions

Memex n’est pas sans rappeler Palantir dont la technicité et le coût d’installation (10 millions de dollars) fait qu’il est réservé aux Etats ou aux services de renseignement. Il en sera de même pour Memex, qui sera utilisé par les forces de l’ordre dans le cadre bien défini des enquêtes. L’arrivée de ce super-moteur dans deux ans (pour l’instant, il demeure en phase bêta) pose néanmoins plusieurs questions, notamment de loi et de sécurité.

Sur le plan juridique :

Il existe des sociétés françaises capables de crawler le Web profond à la manière de Memex. C’est le cas deCybelAngel, lauréate du prix de l’innovation du Forum International de la Cybercriminalité 2014, dont la solution scrute le Web profond pour prévenir de la fuite des données sensibles. Pour autant, le cas de Memex est différent car il flotte sur un vide juridique : celui-ci ne part pas à la recherche de données qui appartiennent à une entreprise mais va explorer les données non-propriétaires (nom, adresse, numéro de téléphone…) et ce sans mandat, tant que ces données sont disponibles de façon publique, c’est-à-dire non protégées par un mot de passe.

Sur la sécurité des entreprises :

Comme nous avons pu le voir, la vraie force de Memex réside dans sa capacité à fusionner plusieurs outils en un, ce qui est à la fois une prouesse technique mais aussi une démonstration de force. Mais la recherche, la mise en relief et le traitement de données demandent des moyens considérables en termes de serveurs et de supercalculateurs. De fait, un outil comme Memex ne sera pas exploitable dans le privé avant un certain temps, si tant est que cela arrive un jour.

Pour autant il pose toujours un danger réel et ce à double titre :

  • D’abord, parce que dans un monde où la guerre économique n’est pas une vue de l’esprit, comme certaines révélations sur les pratiques de la NSA l’ont démontré, il convient de savoir se protéger au mieux. Le Web profond, parent pauvre de la sécurité pour beaucoup d’entreprises, doit dès lors être vu comme un espace potentiellement vulnérable.
  • Ensuite, la médiatisation de Memex doit nécessairement faire prendre conscience que les pratiques de sécurité liées au Web et les initiatives d’évangélisation des autorités sur la cybersécurité ne doivent pas être prises à la légère. De nombreuses entreprises, grandes ou petites, continuent par exemple de stocker des fichiers sensibles sur la base de données de leurs sites Internet sans les degrés de protection nécessaire, ce qui permet parfois à des individus expérimentés et mal intentionnés de récupérer des données sensibles (pour plus d’informations, lire à ce sujet le guide d’hygiène informatique de l’ANSSI).

La possibilité de crawler le Web profond tient de moins en moins du mirage à la mesure où les outils s’affinent. Avec la montée en puissance du risque cyber, les entreprises doivent aussi prendre en compte ces problématiques de sécurité liées au Deep Web, soit en développant des solutions locales, soit en se faisant accompagner jusqu’à ce qu’elles soient autonomes.

Source Diplomatie Digitale