1. Introduction

1.1. Cours 1/2

(Réduire le cours)

video Le web, c'est sans doute l'application informatique qui a rencontré le plus grand succès.

C'est une utilisation particulière d'internet. Il a été inventé par Tim Berners Lee au début des années 90. C'est d'abord un moyen de communication entre personnes qui permet de s'échanger des informations décrites dans des documents . Il est fréquent de constater une confusion entre Internet et le Web. Or, si le web utilise Internet, il n'est pas la seule application à le faire, le mail par exemple est un autre service qui utilise Internet. Socialement, le web a pris une place considérable dans nos vies. Sur cette application au départ très simple se sont bâties d'autres applications dans tous les domaines d'activités : pour le commerce, le marketing, la recherche d'emploi, le travail à distance et la collaboration... C'est un vecteur important de développement économique aujourd'hui. C'est aussi par des applications web que l'état et les administrations offrent leurs services aux citoyens. C'est encore par les applications sociales du web que nous communiquons dans notre vie privée. Maîtriser les technologies du web est important pour comprendre les enjeux, saisir des opportunités, éviter des pièges... Naviguer sur le web fait aujourd'hui partie du quotidien de chacun d'entre nous. Ce chapitre propose d'en expliquer le fonctionnement pour nous permettre d'avoir des comportements responsables et de garder la maîtrise de ce que nous faisons.

(Réduire le cours)
(Montrer la suite)

video Le web, c'est sans doute l'application informatique qui a rencontré le plus grand succès.

C'est une utilisation particulière d'internet. Il a été inventé par Tim Berners Lee au début des années 90. C'est d'abord un moyen de communication entre personnes qui permet de s'échanger des informations décrites dans des documents . Il est fréquent de constater une confusion entre Internet et le Web. Or, si le web utilise Internet, il n'est pas la seule application à le faire, le mail par exemple est un autre service qui utilise Internet. Socialement, le web a pris une place considérable dans nos vies. Sur cette application au départ très simple se sont bâties d'autres applications dans tous les domaines d'activités : pour le commerce, le marketing, la recherche d'emploi, le travail à distance et la collaboration... C'est un vecteur important de développement économique aujourd'hui. C'est aussi par des applications web que l'état et les administrations offrent leurs services aux citoyens. C'est encore par les applications sociales du web que nous communiquons dans notre vie privée. Maîtriser les technologies du web est important pour comprendre les enjeux, saisir des opportunités, éviter des pièges... Naviguer sur le web fait aujourd'hui partie du quotidien de chacun d'entre nous. Ce chapitre propose d'en expliquer le fonctionnement pour nous permettre d'avoir des comportements responsables et de garder la maîtrise de ce que nous faisons.

1.2. Cours 2/2

(Réduire le cours)

video

Alors, qu'est-ce réellement que le web ? Le Web est avant tout un service qui permet de s'échanger des ressources. Celles-ci peuvent être très variées et prendre de nombreuses formes. Dans un premier temps, nous considérerons pour simplifier que ce sont uniquement des documents qui contiennent soit du texte soit des images. Le succès du web est sans doute lié à la notion de document hypertexte. C'est à dire la possibilité d'intégrer à l'intérieur d'un document des liens, qui sont des parties de texte cliquables permettant d'accéder à d'autres ressources. Cela a été rendu possible grâce à l'utilisation du fameux langage HTML - Hyper Text Markup Language - inventé par Tim Berners Lee en 1991. L'ensemble des documents ainsi que les liens qui les relient forment alors un réseau de documents. Cette multitude de liens a fait naître l'image bien connue de la toile d'araignée. En anglais : le web

(Réduire le cours)
(Montrer la suite)

video

Alors, qu'est-ce réellement que le web ? Le Web est avant tout un service qui permet de s'échanger des ressources. Celles-ci peuvent être très variées et prendre de nombreuses formes. Dans un premier temps, nous considérerons pour simplifier que ce sont uniquement des documents qui contiennent soit du texte soit des images. Le succès du web est sans doute lié à la notion de document hypertexte. C'est à dire la possibilité d'intégrer à l'intérieur d'un document des liens, qui sont des parties de texte cliquables permettant d'accéder à d'autres ressources. Cela a été rendu possible grâce à l'utilisation du fameux langage HTML - Hyper Text Markup Language - inventé par Tim Berners Lee en 1991. L'ensemble des documents ainsi que les liens qui les relient forment alors un réseau de documents. Cette multitude de liens a fait naître l'image bien connue de la toile d'araignée. En anglais : le web

1.3. Compréhension

La toile et ses fils

Dans l'image du web représentée par une toile d'araignée, les fils sont :

  • des liens

  • des câbles du réseau internet

La toile et ses noeuds

Dans l'image du web représentée par une toile d'araignée, les nœuds sont :

  • des ressources

  • des ordinateurs

Les échanges sur le web

Que s'échangent les ordinateurs sur le Web ?

  • Des ressources

  • Des images

  • Des textes

1.4. Activité avancée

Tim Berners-Lee

En vous aidant par exemple de cette ressource :

http://home.web.cern.ch/fr/topics/birth-web

Faites quelques recherches sur Tim Berners-Lee et l'origine du web et répondez aux questions suivantes :

  1. Quelle était la spécialité professionnelle de Tim Berners-Lee ?
  2. Que contenait le premier site web ?
  3. En quelle année a-t-il été créé ?

Qui dirige le Web ?

Le 30 avril 1993, le CERN annonce que le « World Wide Web » sera libre d'utilisation pour tout le monde.

Ressources :

Le web n'appartient à personne, en revanche chaque site est sous la responsabilité d'un auteur (le rédacteur des pages) et d'un hébergeur (le propriétaire du serveur). Les seules lois qui le régissent sont les lois sur la diffusion de contenu dans des média, comme par exemple dans la presse ou l'audiovisuel.
Si des contenus inappropriés, insultants, diffamants, ... font l'objet d'une plainte, l'auteur est responsable et l'hébergeur est tenu de les effacer. Aucun contenu ne se retrouve donc a priori sans responsable, il se trouve toujours hébergé sur un serveur avec un numéro IP officiel et donc une identité physique répertoriée.
Évidemment, dans la pratique, certains serveurs peuvent être physiquement dans des pays où les autorités sont très laxistes, et les contenus s'en trouvent quasi intouchables. Le web n'a pas de frontière, la localisation géographique d'un serveur n'a aucune conséquence sur son accessibilité, les internautes que nous sommes n'avons en général pas conscience du lieu où est hébergé le site que nous consultons, pourtant les lois en vigueur ne sont pas les mêmes dans tous les pays.
Par exemple Wikileaks est interdit d'hébergement sur des serveurs américains, mais a trouvé des pays qui acceptent de l'héberger.

Questions
  1. Qu'est-ce que Wikileaks ?
  2. Qui en est le fondateur ?
  3. Exprimez-vous en quelques lignes sur votre position citoyenne (intérêt, légalité, ...) de ce genre de sites.

2. Clients et serveurs

2.1. Le modèle client/serveur

(Réduire le cours)

video Le Web, et bien d'autres applications d'internet, fonctionnent selon un modèle très simple : le modèle client/serveur.

Celui-ci peut s'illustrer par un petit exemple du quotidien. Dans la vie de tous les jours, si je me promène en ville et que j'ai envie d'un café ou d'une boisson rafraîchissante, j'entre dans une brasserie et j'interpelle un serveur. S'engagent alors des échanges, qui suivent un protocole assez convenu dans une langue commune.

Dès que je lui ai passé ma commande, il s'empresse de me faire savoir qu'il a compris et vient me servir à condition évidemment qu'il ait à sa disposition ce que je lui ai demandé. Si je demande un pneu de vélo ou les œuvres complètes de Karl Marx, ou simplement une marque de bière qu'il ne possède pas, il me répondra gentiment qu'il ne peut pas répondre à ma demande.Dans tous les autres cas, il va s'empresser de me servir et dès qu'il aura fini, il sera à nouveau disponible pour d'autres clients ou une nouvelle demande de ma part. En l'absence de clients, le serveur attend patiemment que quelqu'un l'interpelle.

Sur Internet, les clients et les serveurs sont toujours des programmes qui s'exécutent sur des ordinateurs. Nous avons décidé de représenter les serveurs par des tours et les clients par des ordinateurs portables afin d'être plus clairs, mais il va de soi que n'importe quel type d'ordinateur peut potentiellement jouer le rôle de client ou de serveur.

Dans le cadre du web, les clients sont les navigateurs qui nous permettent d'accéder à des sites constitués de ressources hébergées par des serveurs . Ils respectent pour leurs échanges un langage et des règles communes qu'on appelle le protocole http pour hypertext transfer protocol. Chaque ressource fait l'objet d'un échange demande/retour entre le client et le serveur. Certaines demandes n'aboutissent pas, quand la ressource demandée n'existe pas par exemple. Ce sont les fameuses erreurs 404.

(Réduire le cours)
(Montrer la suite)

video Le Web, et bien d'autres applications d'internet, fonctionnent selon un modèle très simple : le modèle client/serveur.

Celui-ci peut s'illustrer par un petit exemple du quotidien. Dans la vie de tous les jours, si je me promène en ville et que j'ai envie d'un café ou d'une boisson rafraîchissante, j'entre dans une brasserie et j'interpelle un serveur. S'engagent alors des échanges, qui suivent un protocole assez convenu dans une langue commune.

Dès que je lui ai passé ma commande, il s'empresse de me faire savoir qu'il a compris et vient me servir à condition évidemment qu'il ait à sa disposition ce que je lui ai demandé. Si je demande un pneu de vélo ou les œuvres complètes de Karl Marx, ou simplement une marque de bière qu'il ne possède pas, il me répondra gentiment qu'il ne peut pas répondre à ma demande.Dans tous les autres cas, il va s'empresser de me servir et dès qu'il aura fini, il sera à nouveau disponible pour d'autres clients ou une nouvelle demande de ma part. En l'absence de clients, le serveur attend patiemment que quelqu'un l'interpelle.

Sur Internet, les clients et les serveurs sont toujours des programmes qui s'exécutent sur des ordinateurs. Nous avons décidé de représenter les serveurs par des tours et les clients par des ordinateurs portables afin d'être plus clairs, mais il va de soi que n'importe quel type d'ordinateur peut potentiellement jouer le rôle de client ou de serveur.

Dans le cadre du web, les clients sont les navigateurs qui nous permettent d'accéder à des sites constitués de ressources hébergées par des serveurs . Ils respectent pour leurs échanges un langage et des règles communes qu'on appelle le protocole http pour hypertext transfer protocol. Chaque ressource fait l'objet d'un échange demande/retour entre le client et le serveur. Certaines demandes n'aboutissent pas, quand la ressource demandée n'existe pas par exemple. Ce sont les fameuses erreurs 404.

2.2. Les clients

(Réduire le cours)

video

Le client quant à lui, émet les requêtes vers le serveur et réceptionne les ressources qui sont envoyées en réponse. Les clients que nous utilisons sont les navigateurs web.Ce sont donc des logiciels qui s'exécutent sur nos propres machines sous notre contrôle.

Il en existe des centaines mais les plus connus du grand public sont Firefox, Chrome, Safari, Opera ou Internet Explorer.

D'autres clients moins connus sont pourtant les plus actifs sur le web. Il s'agit des programmes robots des moteurs de recherche, sorte de mini navigateurs automatiques.

Une remarque importante doit être signalée. Le terme naviguer peut prêter à confusion. Si vous nous avez bien entendu, les clients ne se déplacent pas chez le serveur. Ce sont plutôt les ressources qui sont copiées du serveur vers le client à travers le réseau. Cela signifie donc que lorsque vous visitez un site web, le serveur envoie une copie des pages que vous demandez et votre navigateur vous les présente.

(Réduire le cours)
(Montrer la suite)

video

Le client quant à lui, émet les requêtes vers le serveur et réceptionne les ressources qui sont envoyées en réponse. Les clients que nous utilisons sont les navigateurs web.Ce sont donc des logiciels qui s'exécutent sur nos propres machines sous notre contrôle.

Il en existe des centaines mais les plus connus du grand public sont Firefox, Chrome, Safari, Opera ou Internet Explorer.

D'autres clients moins connus sont pourtant les plus actifs sur le web. Il s'agit des programmes robots des moteurs de recherche, sorte de mini navigateurs automatiques.

Une remarque importante doit être signalée. Le terme naviguer peut prêter à confusion. Si vous nous avez bien entendu, les clients ne se déplacent pas chez le serveur. Ce sont plutôt les ressources qui sont copiées du serveur vers le client à travers le réseau. Cela signifie donc que lorsque vous visitez un site web, le serveur envoie une copie des pages que vous demandez et votre navigateur vous les présente.

2.3. Les serveurs

(Réduire le cours)

video

Un serveur est un logiciel (un programme) qui s'exécute sur une machine le plus souvent 24/24 et 7/7 et attend qu'un client l'interpelle, par exemple c'est le cas du serveur web www.univ-lille.fr qui distribue les ressources du site de l'université de Lille. Dans ces journaux, de nombreuses informations à propos des clients sont mémorisées : leur adresse IP, des dates de visites, la ressource demandée... Notons que, l'envoi d'une ressource, est en fait l' envoi d'une copie de la ressource, l'original restant disponible pour d'autres requêtes identiques. En plus de ce service de distribution, le serveur garde l' historique de toutes les requêtes qui lui ont été adressées dans des journaux d'activité : les logs en anglais. Ces journaux sont autant de traces que nous laissons et qui peuvent être analysées et exploitées. Son rôle est de distribuer les ressources dont il dispose, c'est-à-dire qui sont stockées sur ses disques, aux clients qui les demandent .

(Réduire le cours)
(Montrer la suite)

video

Un serveur est un logiciel (un programme) qui s'exécute sur une machine le plus souvent 24/24 et 7/7 et attend qu'un client l'interpelle, par exemple c'est le cas du serveur web www.univ-lille.fr qui distribue les ressources du site de l'université de Lille. Dans ces journaux, de nombreuses informations à propos des clients sont mémorisées : leur adresse IP, des dates de visites, la ressource demandée... Notons que, l'envoi d'une ressource, est en fait l' envoi d'une copie de la ressource, l'original restant disponible pour d'autres requêtes identiques. En plus de ce service de distribution, le serveur garde l' historique de toutes les requêtes qui lui ont été adressées dans des journaux d'activité : les logs en anglais. Ces journaux sont autant de traces que nous laissons et qui peuvent être analysées et exploitées. Son rôle est de distribuer les ressources dont il dispose, c'est-à-dire qui sont stockées sur ses disques, aux clients qui les demandent .

2.4. Compréhension

Erreur 404!

Que signifie le code d'erreur 404 dans le protocole HTTP

  • La ressource a été déplacée sur un autre serveur

  • La ressource n’existe pas sur le serveur
  • Le client ne peut pas communiquer avec le serveur

le meilleur Navigateur

Avec quel navigateur peut-on accéder au plus grand nombre de sites ?

  • Firefox

  • Internet Explorer

  • Chrome

  • Safari

  • Tous

Les clients

Qu'est-ce qu'un client web ?

  • Tout logiciel qui demande des ressources à un serveur web

  • un navigateur

  • un robot de moteur de recherche

  • une page HTML

Les logs c'est quoi ?

Qu'est-ce qu'un fichier de logs d'un serveur web ?

  • la liste des noms des gens qui ont consulté le site hébergé sur le serveur
  • un journal des activités du serveur
  • la liste de toutes les ressources stockées sur ce serveur

Les protocoles

Par quel protocole les clients et serveurs dialoguent-ils ?

  • HTML

  • HTTP

La distribution

Quand un serveur a envoyé une image à un client, il doit attendre que ce client l'ait rendue avant de la distribuer à un autre client.

  • Vrai
  • Faux

3. Exemple et récapitulatif

3.1. Cours

(Réduire le cours)

video

Exemple

Commençons par un exemple très simple pour comprendre le mécanisme de base. Si à l'aide d'un client web tel que Firefox, je saisis l'adresse :

 http://culturenumerique.univ-lille3.fr/PageExemple

Que se passe -t-il ?

Mon client interprète ma saisie comme l'interrogation par le protocole http du serveur situé sur la machine culturenumerique.univ-lille3.fr pour lui demander la ressource /PageExemple

Comme nous l'avons vu précédemment, l'adresse IP de ma machine sera nécessaire pour communiquer avec le serveur. Mais mon navigateur va également réunir un certain nombre d'autres informations disponibles sur ma machine (informations que nous verrons plus loin) et les joindre à la requête envoyée au serveur qui héberge la ressource. Le serveur reçoit cette requête, la comprend car elle est formulée selon les règles définies dans ce fameux protocole http , norme utilisée pour que les clients web et les serveurs web puissent communiquer.

Une part du succès du web repose sur le fait que http est utilisé par TOUS les serveurs web et TOUS les clients WEB, quels qu'ils soient et leur permet donc de dialoguer et de s 'échanger des informations.

Le serveur fait alors une copie de la ressource demandée et la renvoie au client, celui-ci n'a plus qu'à afficher le contenu de la ressource dans la fenêtre du navigateur.

Notons qu'une adresse du type : http://culturenumerique.univ-lille3.fr/PageExemple s'appelle une URL pour Uniform Resource Locator, c'est-à-dire en français l'adresse d'une ressource. Le mot uniform suggère une convention d'écriture de ces adresses et une uniformisation de l'écriture de ces adresses. Il est important de noter que cette URL contient à la fois le nom du serveur (la machine culturenumerique.univ-lille3.fr dans notre exemple) qui héberge la ressource ET le nom de la ressource sur ce serveur (ici /PageExemple ).

Récapitulatif

Retenons dans un premier temps les notions suivantes :

  • le web permet à des clients d'accéder à des copies de ressources hébergées sur des serveurs.
  • les ressources sont toutes repérées par des URLs.
  • les ressources de type texte sont décrites dans un langage normalisé, le html qui permet de créer des hyperliens pour faciliter notre navigation.
  • les programmes appelés serveurs (on ne les « voit » pas) et clients (les navigateurs) parlent tous la même langue : le protocole http .
  • comme pour beaucoup de communications sur internet, ces échanges entre client et serveurs ne sont pas confidentiels, et le protocole ne peut même pas garantir que les clients et les serveurs sont bien ceux qu'ils annoncent être.

Une évolution du protocole http remédie à ces problèmes en ajoutant le cryptage des communications pour assurer la confidentialité, et l'authentification des protagonistes dans ces échanges.C'est le protocole https .

En conclusion, dès que vous transmettez des données confidentielles veillez bien à la présence du petit verrou qui indique l'utilisation du protocole https .

(Réduire le cours)
(Montrer la suite)

video

Exemple

Commençons par un exemple très simple pour comprendre le mécanisme de base. Si à l'aide d'un client web tel que Firefox, je saisis l'adresse :

 http://culturenumerique.univ-lille3.fr/PageExemple

Que se passe -t-il ?

Mon client interprète ma saisie comme l'interrogation par le protocole http du serveur situé sur la machine culturenumerique.univ-lille3.fr pour lui demander la ressource /PageExemple

Comme nous l'avons vu précédemment, l'adresse IP de ma machine sera nécessaire pour communiquer avec le serveur. Mais mon navigateur va également réunir un certain nombre d'autres informations disponibles sur ma machine (informations que nous verrons plus loin) et les joindre à la requête envoyée au serveur qui héberge la ressource. Le serveur reçoit cette requête, la comprend car elle est formulée selon les règles définies dans ce fameux protocole http , norme utilisée pour que les clients web et les serveurs web puissent communiquer.

Une part du succès du web repose sur le fait que http est utilisé par TOUS les serveurs web et TOUS les clients WEB, quels qu'ils soient et leur permet donc de dialoguer et de s 'échanger des informations.

Le serveur fait alors une copie de la ressource demandée et la renvoie au client, celui-ci n'a plus qu'à afficher le contenu de la ressource dans la fenêtre du navigateur.

Notons qu'une adresse du type : http://culturenumerique.univ-lille3.fr/PageExemple s'appelle une URL pour Uniform Resource Locator, c'est-à-dire en français l'adresse d'une ressource. Le mot uniform suggère une convention d'écriture de ces adresses et une uniformisation de l'écriture de ces adresses. Il est important de noter que cette URL contient à la fois le nom du serveur (la machine culturenumerique.univ-lille3.fr dans notre exemple) qui héberge la ressource ET le nom de la ressource sur ce serveur (ici /PageExemple ).

Récapitulatif

Retenons dans un premier temps les notions suivantes :

  • le web permet à des clients d'accéder à des copies de ressources hébergées sur des serveurs.
  • les ressources sont toutes repérées par des URLs.
  • les ressources de type texte sont décrites dans un langage normalisé, le html qui permet de créer des hyperliens pour faciliter notre navigation.
  • les programmes appelés serveurs (on ne les « voit » pas) et clients (les navigateurs) parlent tous la même langue : le protocole http .
  • comme pour beaucoup de communications sur internet, ces échanges entre client et serveurs ne sont pas confidentiels, et le protocole ne peut même pas garantir que les clients et les serveurs sont bien ceux qu'ils annoncent être.

Une évolution du protocole http remédie à ces problèmes en ajoutant le cryptage des communications pour assurer la confidentialité, et l'authentification des protagonistes dans ces échanges.C'est le protocole https .

En conclusion, dès que vous transmettez des données confidentielles veillez bien à la présence du petit verrou qui indique l'utilisation du protocole https .

3.2. Compréhension

Composition d'une URL

Quelles informations sont indiquées dans une URL ?

  • le nom du serveur

  • le nom d'une ressource

  • le protocole utilisé

  • si la ressource est une image ou un texte

  • l’adresse du client

HTTP vs HTTPS

Quelle est la différence entre HTTP et HTTPS ? Grâce à HTTPS :

  • mes communications avec le serveur sont cachées

  • le contenu de mes communications avec le serveur est crypté

  • je peux m’assurer que le serveur est celui auquel je veux m’adresser

Les informations échangées entre clients et serveurs

Quelles autres informations que l’URL peuvent être échangées dans un échange entre un client et un serveur Web ?

  • l’adresse IP du client

  • le nom du navigateur web : firefox, opera, internet explorer, ….

  • la page présentée dans le navigateur au moment où la requête est effectuée

Une page web

Quand on regarde une page web, toutes les informations viennent du même serveur.

  • oui

     

  • non

Une URL

Qu'est-ce qu'une URL ?

  • une ressource

  • l'adresse d'une ressource
  • un fichier

4. HTML

4.1. HTML: contenu, structure, liens

(Réduire le cours)

video Allons maintenant voir plus en détail le fonctionnement ; le langage html a plusieurs caractéristiques très intéressantes. Nous avons vu qu'il permettait d'introduire des hyperliens dans un document, mais il possède d'autres atouts.

C'est un langage de description de document , c'est à dire qu'il permet d'expliquer comment le document est construit et donc comment un logiciel comme un navigateur peut l'afficher. Concrètement, html permet d'ajouter au contenu texte des éléments de structure du type : ce paragraphe est un titre, celui-là est un sous-titre, c'est une légende, ce mot doit être mis en exergue... Cette distinction contenu/structure est essentielle, elle est présente dans de nombreux domaine et nous y reviendrons souvent. La structure permet d'ajouter du sens aux parties de textes et à l'aide de règles de présentation de rendre une page html affichable sur de nombreux types d'écrans. Le navigateur calcule alors la présentation adaptée, par exemple pour une tablette, un smartphone ou un grand écran d'ordinateur.

En français la traduction de html est : langage de balisage pour documents hypertexte. Les balises vont indiquer la structure du document en titres, paragraphes etc ainsi que des liens vers d'autres ressources du Web. Les documents sont donc des textes décrivant des documents hypertexte. Mais que fait ensuite le client, le navigateur avec ce document hypertexte qu'il vient de recevoir ?

Grâce à la description faite du document et en fonction de ses capacités le navigateur va pouvoir recomposer le document et vous l'afficher. Les pages web que votre navigateur affiche sont des textes avec le plus souvent des images, formant un document complet. En fait ce document est réalisé par l'assemblage de nombreuses ressources. En effet, le langage html permet également de spécifier l'insertion d'images (ou d'autres ressources) à différents endroits d'un document. Les images ne sont pas à proprement parler insérées dans le document principal, mais un balisage indique qu'à cet endroit il faudra insérer une image.

(Réduire le cours)
(Montrer la suite)

video Allons maintenant voir plus en détail le fonctionnement ; le langage html a plusieurs caractéristiques très intéressantes. Nous avons vu qu'il permettait d'introduire des hyperliens dans un document, mais il possède d'autres atouts.

C'est un langage de description de document , c'est à dire qu'il permet d'expliquer comment le document est construit et donc comment un logiciel comme un navigateur peut l'afficher. Concrètement, html permet d'ajouter au contenu texte des éléments de structure du type : ce paragraphe est un titre, celui-là est un sous-titre, c'est une légende, ce mot doit être mis en exergue... Cette distinction contenu/structure est essentielle, elle est présente dans de nombreux domaine et nous y reviendrons souvent. La structure permet d'ajouter du sens aux parties de textes et à l'aide de règles de présentation de rendre une page html affichable sur de nombreux types d'écrans. Le navigateur calcule alors la présentation adaptée, par exemple pour une tablette, un smartphone ou un grand écran d'ordinateur.

En français la traduction de html est : langage de balisage pour documents hypertexte. Les balises vont indiquer la structure du document en titres, paragraphes etc ainsi que des liens vers d'autres ressources du Web. Les documents sont donc des textes décrivant des documents hypertexte. Mais que fait ensuite le client, le navigateur avec ce document hypertexte qu'il vient de recevoir ?

Grâce à la description faite du document et en fonction de ses capacités le navigateur va pouvoir recomposer le document et vous l'afficher. Les pages web que votre navigateur affiche sont des textes avec le plus souvent des images, formant un document complet. En fait ce document est réalisé par l'assemblage de nombreuses ressources. En effet, le langage html permet également de spécifier l'insertion d'images (ou d'autres ressources) à différents endroits d'un document. Les images ne sont pas à proprement parler insérées dans le document principal, mais un balisage indique qu'à cet endroit il faudra insérer une image.

4.2. Rassembler les ressources

(Réduire le cours)

video

Rappelons qu'une page affichée dans votre navigateur est en fait un assemblage de nombreuses ressources. Il faut donc dans un premier temps les rassembler.

Une image est une ressource au même titre que les autres documents. Elle est donc désignée par une URL. Notez bien que ce mécanisme d'URLs permet de désigner des images dans les pages web comme autant de ressources indépendantes. En conséquence, les images ne se trouvent pas forcément sur le même serveur que le document principal.

Examinons alors plus en détail ce qui se passe lorsque je clique sur un lien qui pointe vers une ressource de type texte mais qui cette fois contient des liens vers des images, ce que nous faisons tous les jours et qui constitue l'essentiel des pages que nous consultons. Le début du processus est rigoureusement identique à l'exemple précédent, mais au moment du calcul du résultat, (i.e. de l'affichage de la page Web par le navigateur), le client rencontre dans la description de sa page, un lien vers une ressource image . Il ne peut pas afficher cette image directement puisque le fichier n'est pas inclus, seul le lien vers cette ressource est spécifié.

Alors, sans rien nous demander, il effectue une autre requête (identique à la précédente mais avec l'url de l'image) pour obtenir cette ressource. La réponse à cette requête est une copie du fichier image demandé. Le client peut alors l'intégrer à l'affichage de la page.

Ce processus se répète autant de fois qu'il y a d'images dans le document et ce, quelles que soient leurs tailles.

Cette remarque prendra tout son sens lorsque nous nous intéresserons aux traces que nous laissons et à la préservation de notre vie privée.

(Réduire le cours)
(Montrer la suite)

video

Rappelons qu'une page affichée dans votre navigateur est en fait un assemblage de nombreuses ressources. Il faut donc dans un premier temps les rassembler.

Une image est une ressource au même titre que les autres documents. Elle est donc désignée par une URL. Notez bien que ce mécanisme d'URLs permet de désigner des images dans les pages web comme autant de ressources indépendantes. En conséquence, les images ne se trouvent pas forcément sur le même serveur que le document principal.

Examinons alors plus en détail ce qui se passe lorsque je clique sur un lien qui pointe vers une ressource de type texte mais qui cette fois contient des liens vers des images, ce que nous faisons tous les jours et qui constitue l'essentiel des pages que nous consultons. Le début du processus est rigoureusement identique à l'exemple précédent, mais au moment du calcul du résultat, (i.e. de l'affichage de la page Web par le navigateur), le client rencontre dans la description de sa page, un lien vers une ressource image . Il ne peut pas afficher cette image directement puisque le fichier n'est pas inclus, seul le lien vers cette ressource est spécifié.

Alors, sans rien nous demander, il effectue une autre requête (identique à la précédente mais avec l'url de l'image) pour obtenir cette ressource. La réponse à cette requête est une copie du fichier image demandé. Le client peut alors l'intégrer à l'affichage de la page.

Ce processus se répète autant de fois qu'il y a d'images dans le document et ce, quelles que soient leurs tailles.

Cette remarque prendra tout son sens lorsque nous nous intéresserons aux traces que nous laissons et à la préservation de notre vie privée.

4.3. Mise en forme

(Réduire le cours)

video

Revenons maintenant à l'affichage de la page dans mon navigateur.

Le document que le client/navigateur reçoit contient du texte et des images (en lien) et il est structuré . Mais a priori aucune indication n'est donnée pour définir comment les éléments doivent être affichés. Un titre doit-il être en rouge, en noir, en gras, de quelle taille, aligné à gauche ou centré ? Or, tous les fichiers étant décrit dans une norme commune , le langage HTML , tous les navigateurs proposent une mise en forme par défaut de chacun des éléments possibles d'un document. Cette mise en forme est généralement basique et pas très esthétique mais elle permet de proposer sur n'importe quelle machine un affichage du contenu. Lorsque nous surfons tous les jours, nous voyons bien qu'au contraire, les sites proposent des affichages très graphiques beaucoup plus sophistiqués que l'affichage par défaut. C'est l'utilisation de feuilles de styles qui sont associées au document qui permet cela. Une feuille de styles définit les règles de présentation d'un document. Ces feuilles de styles, qui constituent à nouveau une ressource avec leur propre url redéfinissent l'affichage des différents éléments de contenu en utilisant par exemple une charte graphique aux couleurs de l'organisation responsable du site. Concrètement, dans le fichier du document principal, un lien particulier vers une ressource/feuille de style, déclenche pour le navigateur une requête pour obtenir cette feuille de style qui sera utilisée à la place des styles par défaut.

Le triptyque structure/contenu/présentation est fondamental pour la compréhension de ce qu'est un document numérique. Il est réalisé par le couple HTML/feuilles de style sur le Web. Mais une bonne utilisation du traitement de texte passe également par la maîtrise de cette décomposition en 3 parties.

(Réduire le cours)
(Montrer la suite)

video

Revenons maintenant à l'affichage de la page dans mon navigateur.

Le document que le client/navigateur reçoit contient du texte et des images (en lien) et il est structuré . Mais a priori aucune indication n'est donnée pour définir comment les éléments doivent être affichés. Un titre doit-il être en rouge, en noir, en gras, de quelle taille, aligné à gauche ou centré ? Or, tous les fichiers étant décrit dans une norme commune , le langage HTML , tous les navigateurs proposent une mise en forme par défaut de chacun des éléments possibles d'un document. Cette mise en forme est généralement basique et pas très esthétique mais elle permet de proposer sur n'importe quelle machine un affichage du contenu. Lorsque nous surfons tous les jours, nous voyons bien qu'au contraire, les sites proposent des affichages très graphiques beaucoup plus sophistiqués que l'affichage par défaut. C'est l'utilisation de feuilles de styles qui sont associées au document qui permet cela. Une feuille de styles définit les règles de présentation d'un document. Ces feuilles de styles, qui constituent à nouveau une ressource avec leur propre url redéfinissent l'affichage des différents éléments de contenu en utilisant par exemple une charte graphique aux couleurs de l'organisation responsable du site. Concrètement, dans le fichier du document principal, un lien particulier vers une ressource/feuille de style, déclenche pour le navigateur une requête pour obtenir cette feuille de style qui sera utilisée à la place des styles par défaut.

Le triptyque structure/contenu/présentation est fondamental pour la compréhension de ce qu'est un document numérique. Il est réalisé par le couple HTML/feuilles de style sur le Web. Mais une bonne utilisation du traitement de texte passe également par la maîtrise de cette décomposition en 3 parties.

4.4. Compréhension

Exercice

Rendez-vous sur la page http://culturenumerique.univ-lille3.fr/activitesWeb/html/
Lisez, observez, gardez les pages ouvertes dans des onglets, puis répondez aux questions du quizz suivant

Les balises HTML

Quel est le rôle des balises en HTML ?

  • de délimiter des parties de texte

  • de décrire la structure des documents

  • de signaler aux internautes des pages dangereuses

  • d'accélérer internet

Au delà du contenu

Pourquoi peut-on créer facilement une table des matières ou construire la liste des liens d’un document HTML ?

Comprendre les balises

Nous vous avons expliqué que les balises < section > ... < section /> servaient à délimiter les parties, les balises < h1 > ... < /h1 > délimitent les titres de premier niveaux, à votre avis que signifient les balises < p > ... < /p > ?

Repérer la feuille de styles

Comparez les codes sources des 2 premières pages, seule une ligne supplémentaire a été insérée, elle précise l'utilisation d'une feuille de styles pour l'affichage du contenu. Indiquez le numéro de la ligne qui a changé et recopiez-la également.

Décrire un document

Pourquoi s’échanger une description de document plutôt qu’un document lui-même est plus adéquat au Web ?

  • tous les clients n’ont pas la même capacité d’affichage

  • la description contient plus d’informations : structure + contenu

  • la structure permet d'ajouter du sens (ceci est un titre, etc...) explicitement.

Exemple de mise en forme

Observez la mise en forme du titre principal dans la deuxième version et indiquez les caractéristiques d'affichage qui ont été choisies dans cette feuille de styles (ce qui change par rapport à la première version).

  • la typo (la police de caractères)
  • l'ordre des mots a été changé
  • la couleur des caractères
  • l'alignement du paragraphe
  • les caractères ont été transformés en majuscule
  • l'orthographe a été modifié

Les feuilles de style

Une feuille de style...

  • décrit le contenu d'un document HTML

  • ermet de décrire la présentation graphique d'un document

  • décrit par exemple la couleur du texte, la taille des marges

  • coordonne automatiquement les couleurs d'une page web

  • contrôle si on écrit comme Flaubert ou Blazac

Structure et contenu

Le langage HTML permet de décrire des documents en indiquant leur structure et leur contenu. Comment la structure est-elle décrite ?

  • Par un balisage du texte
  • Par des couleurs et du gras ou la taille des caractères

Une page Web

Pour qu’un client affiche une page Web,...

  • une seule requête vers un unique serveur suffit toujours

  • arfois plusieurs requêtes sont nécessaires mais toujours vers le même serveur

  • arfois plusieurs requêtes vers plusieurs serveurs sont nécessaires

Expressivité de HTML

Le langage HTML permet de représenter une image.

  • Vrai
  • Faux

4.5. Activité avancée

Activité sur les serveurs

Rendez-vous sur la page : pageServeurs.html

Lisez, observez et répondez aux questions posées...

5. Les Cookies

5.1. Cours

(Réduire le cours)

video

Les cookies, une technique très utile...

Rappelons la conclusion importante du chapitre précédent.

Une page web telle que nous la voyons dans notre navigateur, notre client, est en fait la composition de plusieurs ressources. Chacune d'elles fait l'objet d'une requête de la part de notre client vers un serveur. Plusieurs serveurs peuvent être sollicités pour obtenir l'ensemble des ressources présentes dans une page web unique. Mais le web est finalement un peu plus que la consultation de quelques ressources et pages web.

Aujourd'hui c'est un moyen pour réaliser de nombreuses démarches administratives, ou pour faire des achats, ou pour échanger sur des réseaux sociaux. Ce sont des services aux usagers du web qui nécessitent pour les mettre en place, un grand nombre d'échanges de pages web, dans un ordre bien précis, avec des contenusspécifiques à chaque fois.

Prenons l'exemple de l'inscription à l'université. Dans un schéma très simplifié, vous devez tour à tour recevoir :

  • étape 1 : la page qui permet de lire la marche à suivre
  • étape 2 : la page qui permet d'indiquer à quelle formation vous vous inscrivez
  • étape 3 : la page qui permet de payer votre inscription
  • étape 4 : la page qui comprend un accusé de réception du paiement.

Ces étapes peuvent être abandonnées, recommencées... et le serveur de l'université qui prend en charge les inscriptions répond en même temps à toutes les demandes, quelles que soient les étapes et les étudiants. Il est donc nécessaire pour chacun des clients utilisés par les (futurs) étudiants, de communiquer à quelle étape ils sont arrivés.

Les cookies sont exactement conçus pour cela. Un cookie contient une donnée qui sera enregistrée par le client sur la machine du client à la demande du serveur. Dans notre exemple, le cookie pourrait contenir un nombre entre 1 et 4 pour signifier la dernière étape effectuée. Le cookie sera renvoyé aux prochaines requêtes du client vers ce même serveur.

Une autre image est celle d'une carte de fidélité de magasin, que nous avons dans notre poche et que nous montrons à notre commerçant lors de nos visites.Le cookie est la carte de fidélité et la donnée associée au cookie est notre numéro de client.

Les cookies tiers

Parfois certains services proposés par un site sont délocalisés. C'est-à-dire qu'une partie des ressources d'une page sont en fait hébergées sur un autre serveur, un serveur tiers.

Ce peut être le cas par exemple, d'un serveur qui "compte" les points d'un joueur et se souvient entre 2 parties de son score. Ce type de service peut être utilisé par de nombreux sites de jeux, qui utilisent tous le même serveur partenaire. Ce qui leur évite de développer eux-mêmes le service.Celui-ci peut aussi utiliser des cookies.

Ce qui signifie qu'un serveur tiers, qui n'est pas celui qui héberge le site principal dont l'adresse est indiquée dans la barre d'URL, stocke des cookies sur notre machine. Son adresse n'est pas visible et le dépôt du cookie se fait donc à l'insu de l'utilisateur.Dans ce cas, on parle de cookie tiers.

Utilisation des cookies

On voit bien que les techniques qui se sont développées et qui continuent d'évoluer sur le Web sont puissantes et nous rendent beaucoup de services. En revanche, leur utilisation dans certains cas peut poser de graves questions de citoyenneté. Bien souvent, la donnée associée au cookie est un numéro d'identification permettant au serveur de retrouver dans ses bases des données propres à l'utilisateur. Dans notre exemple de démarche d'inscription, ce pourrait être, l'étape à laquelle il est arrivé, son nom, ses choix de formation... Il est très important de comprendre qu'un tel numéro d'identification est un moyen très commun utilisé sur le web aussi bien que dans la vie non numérique.

C'est la technique utilisée par la sécurité sociale (avec le numéro de sécurité sociale), pour vous suivre toute notre vie dans nos démarches de couverture sociale.

C'est aussi ce qui se cache derrière les cartes d'achat ou promotionnelles des magasins, proposées avant tout pour nous suivre et assurer du marketing direct.

Donc bien des numéros nous identifient.

Mais dès lors que ces numéros d'identification sont rapprochés ou unifiés, la technique devient si puissante qu'on l'estime menaçante pour nos libertés.

Si bien que par exemple, le parlement a dû légiférer il y a plus de 30 ans pour empêcher ou limiter l'usage du numéro de sécurité sociale dans les autres administrations de l'état. Naturellement, avec l'avènement du numérique ce rapprochement de numéros d'identification devient très facile techniquement. Il convient de redoubler de vigilance...

(Réduire le cours)
(Montrer la suite)

video

Les cookies, une technique très utile...

Rappelons la conclusion importante du chapitre précédent.

Une page web telle que nous la voyons dans notre navigateur, notre client, est en fait la composition de plusieurs ressources. Chacune d'elles fait l'objet d'une requête de la part de notre client vers un serveur. Plusieurs serveurs peuvent être sollicités pour obtenir l'ensemble des ressources présentes dans une page web unique. Mais le web est finalement un peu plus que la consultation de quelques ressources et pages web.

Aujourd'hui c'est un moyen pour réaliser de nombreuses démarches administratives, ou pour faire des achats, ou pour échanger sur des réseaux sociaux. Ce sont des services aux usagers du web qui nécessitent pour les mettre en place, un grand nombre d'échanges de pages web, dans un ordre bien précis, avec des contenusspécifiques à chaque fois.

Prenons l'exemple de l'inscription à l'université. Dans un schéma très simplifié, vous devez tour à tour recevoir :

  • étape 1 : la page qui permet de lire la marche à suivre
  • étape 2 : la page qui permet d'indiquer à quelle formation vous vous inscrivez
  • étape 3 : la page qui permet de payer votre inscription
  • étape 4 : la page qui comprend un accusé de réception du paiement.

Ces étapes peuvent être abandonnées, recommencées... et le serveur de l'université qui prend en charge les inscriptions répond en même temps à toutes les demandes, quelles que soient les étapes et les étudiants. Il est donc nécessaire pour chacun des clients utilisés par les (futurs) étudiants, de communiquer à quelle étape ils sont arrivés.

Les cookies sont exactement conçus pour cela. Un cookie contient une donnée qui sera enregistrée par le client sur la machine du client à la demande du serveur. Dans notre exemple, le cookie pourrait contenir un nombre entre 1 et 4 pour signifier la dernière étape effectuée. Le cookie sera renvoyé aux prochaines requêtes du client vers ce même serveur.

Une autre image est celle d'une carte de fidélité de magasin, que nous avons dans notre poche et que nous montrons à notre commerçant lors de nos visites.Le cookie est la carte de fidélité et la donnée associée au cookie est notre numéro de client.

Les cookies tiers

Parfois certains services proposés par un site sont délocalisés. C'est-à-dire qu'une partie des ressources d'une page sont en fait hébergées sur un autre serveur, un serveur tiers.

Ce peut être le cas par exemple, d'un serveur qui "compte" les points d'un joueur et se souvient entre 2 parties de son score. Ce type de service peut être utilisé par de nombreux sites de jeux, qui utilisent tous le même serveur partenaire. Ce qui leur évite de développer eux-mêmes le service.Celui-ci peut aussi utiliser des cookies.

Ce qui signifie qu'un serveur tiers, qui n'est pas celui qui héberge le site principal dont l'adresse est indiquée dans la barre d'URL, stocke des cookies sur notre machine. Son adresse n'est pas visible et le dépôt du cookie se fait donc à l'insu de l'utilisateur.Dans ce cas, on parle de cookie tiers.

Utilisation des cookies

On voit bien que les techniques qui se sont développées et qui continuent d'évoluer sur le Web sont puissantes et nous rendent beaucoup de services. En revanche, leur utilisation dans certains cas peut poser de graves questions de citoyenneté. Bien souvent, la donnée associée au cookie est un numéro d'identification permettant au serveur de retrouver dans ses bases des données propres à l'utilisateur. Dans notre exemple de démarche d'inscription, ce pourrait être, l'étape à laquelle il est arrivé, son nom, ses choix de formation... Il est très important de comprendre qu'un tel numéro d'identification est un moyen très commun utilisé sur le web aussi bien que dans la vie non numérique.

C'est la technique utilisée par la sécurité sociale (avec le numéro de sécurité sociale), pour vous suivre toute notre vie dans nos démarches de couverture sociale.

C'est aussi ce qui se cache derrière les cartes d'achat ou promotionnelles des magasins, proposées avant tout pour nous suivre et assurer du marketing direct.

Donc bien des numéros nous identifient.

Mais dès lors que ces numéros d'identification sont rapprochés ou unifiés, la technique devient si puissante qu'on l'estime menaçante pour nos libertés.

Si bien que par exemple, le parlement a dû légiférer il y a plus de 30 ans pour empêcher ou limiter l'usage du numéro de sécurité sociale dans les autres administrations de l'état. Naturellement, avec l'avènement du numérique ce rapprochement de numéros d'identification devient très facile techniquement. Il convient de redoubler de vigilance...

5.2. Compréhension

Cookie tiers

Un cookie tiers c'est ...

  • est un cookie découpé en 3 parties

  • un cookie partagé entre trois sites

  • un cookie déposé à la demande d'un serveur qui n'est pas celui de la page web visitée

Possible ou impossible

Cochez toutes les affirmations vraies ou possibles. Certaines questions peuvent demander une petite recherche sur Internet.

  • on peut supprimer tous les cookies stockés sur sa machine

  • on peut refuser tous les cookies

  • on peut refuser les cookies de certains sites

  • on peut refuser les cookies tiers

  • un serveur A peut voir les cookies déposés par un serveur B différent de A

  • les cookies peuvent servir à constituer des profils à l'insu des internautes

  • les cookies ne servent qu'à la publicité

  • il n'y a pas de cookies sur les smartphones

Un cookie

Un cookie  est une information

  • stockée sur un serveur web à la demande d'un client

  • stockée sur un client à la demande d'un serveur

5.3. Activité avancée

Rendez-vous sur les pages suivantes, lisez et effectuez les manipulations demandées :

Notez si vous le souhaitez vos remarques ci-dessous (réponse non obligatoire)

5.4. La messagerie électronique et les cookies

(Réduire le cours)

Le cas des mails

Le mail est un autre exemple de système client/serveur et les programmes qui nous servent à lire nos messages sont des clients mail. Il en existe de nombreuses sortes mais leurs fonctionnalités sont comparables. Parmi les options possibles, ils proposent tous de choisir si les messages que l'on envoie et surtout ceux qu'on lit s'affichent au format texte ou au format HTML.

En effet, lorsque cette application de messagerie a été inventée, bien avant l'invention du web, les mails ne pouvaient contenir que du texte sans aucune mise en forme. Mais cette norme a évolué et il est possible de modifier la présentation du texte de nos messages et même d'y inclure des éléments de structure, d'y insérer des images ou d'autres ressources exactement comme dans une page web.

Lors de la lecture d'un tel message, le client mail qui a en charge l'affichage se comporte exactement comme un client web. Les différentes ressources font l'objet de requêtes HTTP telles que nous les avons décrites précédemment.

Les remarques sur les cookies et les mouchards s'appliquent donc comme pour le web. Très concrètement, la simple lecture d'un message au format HTML, peut donc envoyer beaucoup d'informations à des serveurs tiers du type : le mail a été lu, nous avons cliqué sur tel ou tel lien, etc, autant de choses qui ne sont pas possibles si le message n'est qu'un simple texte.

Les boutons de réseaux sociaux ont également la même fonction que sur les pages web.

Par exemple, à la réception d'une newsletter envoyée en masse, l'expéditeur peut savoir si nous avons lu le message ou pas, ce qui dans le cas de liste de diffusion de plusieurs dizaines de milliers d'adresses, permet de trier les adresses valides des adresses abandonnées. Les listes d'adresses valides (quelqu'un la lit régulièrement) se revendent très chères et sont entre autres à l'origine de nombreux spams.

Vous pouvez paramétrer votre client mail pour lire les messages comme si ils n'avaient pas été écrits en HTML mais comme un simple texte. Ou vous pouvez lui indiquer de ne jamais réaliser de requête web : vous ne verrez peut être pas les images et peut être que la mise en forme ne sera pas agréable ou optimale. En contrepartie aucune requête ne sera alors faite vers une ressource extérieure. Personne ne pourra donc « pister » vos actions. À vous de régler votre lecteur de mail avec les paramètres qui correspondent à ce que voulez faire.

De la même manière, vous pouvez paramétrer votre client mail pour envoyer des messages soit en texte seul soit au format HTML.

Le cas des pièces jointes

Notons qu'une pièce jointe fait partie d'un message, il est envoyé avec le corps du message et ne constitue pas une ressource externe. On peut donc s'échanger des messages avec des images en pièce jointe sans utiliser l'affichage HTML.

(Réduire le cours)
(Montrer la suite)

Le cas des mails

Le mail est un autre exemple de système client/serveur et les programmes qui nous servent à lire nos messages sont des clients mail. Il en existe de nombreuses sortes mais leurs fonctionnalités sont comparables. Parmi les options possibles, ils proposent tous de choisir si les messages que l'on envoie et surtout ceux qu'on lit s'affichent au format texte ou au format HTML.

En effet, lorsque cette application de messagerie a été inventée, bien avant l'invention du web, les mails ne pouvaient contenir que du texte sans aucune mise en forme. Mais cette norme a évolué et il est possible de modifier la présentation du texte de nos messages et même d'y inclure des éléments de structure, d'y insérer des images ou d'autres ressources exactement comme dans une page web.

Lors de la lecture d'un tel message, le client mail qui a en charge l'affichage se comporte exactement comme un client web. Les différentes ressources font l'objet de requêtes HTTP telles que nous les avons décrites précédemment.

Les remarques sur les cookies et les mouchards s'appliquent donc comme pour le web. Très concrètement, la simple lecture d'un message au format HTML, peut donc envoyer beaucoup d'informations à des serveurs tiers du type : le mail a été lu, nous avons cliqué sur tel ou tel lien, etc, autant de choses qui ne sont pas possibles si le message n'est qu'un simple texte.

Les boutons de réseaux sociaux ont également la même fonction que sur les pages web.

Par exemple, à la réception d'une newsletter envoyée en masse, l'expéditeur peut savoir si nous avons lu le message ou pas, ce qui dans le cas de liste de diffusion de plusieurs dizaines de milliers d'adresses, permet de trier les adresses valides des adresses abandonnées. Les listes d'adresses valides (quelqu'un la lit régulièrement) se revendent très chères et sont entre autres à l'origine de nombreux spams.

Vous pouvez paramétrer votre client mail pour lire les messages comme si ils n'avaient pas été écrits en HTML mais comme un simple texte. Ou vous pouvez lui indiquer de ne jamais réaliser de requête web : vous ne verrez peut être pas les images et peut être que la mise en forme ne sera pas agréable ou optimale. En contrepartie aucune requête ne sera alors faite vers une ressource extérieure. Personne ne pourra donc « pister » vos actions. À vous de régler votre lecteur de mail avec les paramètres qui correspondent à ce que voulez faire.

De la même manière, vous pouvez paramétrer votre client mail pour envoyer des messages soit en texte seul soit au format HTML.

Le cas des pièces jointes

Notons qu'une pièce jointe fait partie d'un message, il est envoyé avec le corps du message et ne constitue pas une ressource externe. On peut donc s'échanger des messages avec des images en pièce jointe sans utiliser l'affichage HTML.

5.5. Compréhension

La messagerie électronique et HTML

Sélectionnez les affirmations vraies.

  • les messages électroniques sont toujours écrits en HTML

  • les messages comprenant des pièces jointes sont écrits en HTML

  • les messages écrits en rose sont en HTML

  • les messages avec des images dans le texte (pas en pièce jointe) ou dans la signature sont en HTML.

Messagerie électronique et cookies

Sélectionnez la bonne réponse ...

  • la lecture d'un message écrit en HTML provoque toujours l'envoi de cookies

  • la lecture de messages en texte (non HTML) peut provoquer l'envoi de cookies

  • si la lecture d'un message provoque l'envoi de cookies, c'est uniquement vers l'expéditeur du message

  • Tout est faux

6. Profils et réseaux sociaux

6.1. Cours

(Réduire le cours)

Votre âge, votre adresse, vos achats récents, vos goûts musicaux, vos films préférés, vos amis, etc, toutes ces données peuvent intéresser de nombreuses sociétés et organisations soit pour vous surveiller soit pour vous vendre quelque chose. Rassemblées, elles contribuent à définir votre /profil/.

Profils et cookies

Grâce aux cookies contenant des numéros d'identification, des sites ou des jeux, sur PC, en ligne ou sur smartphone peuvent contribuer à créer et compléter nos profils. Souvent c'est même à notre insu, en mémorisant nos parcours sur le site, les pages visitées, etc.. Cette collecte peut même être assurée par le biais de sites partenaires grâce à la technique des cookies tiers.

Les réseaux sociaux - pistage systématique

Les réseaux sociaux sont parmi les plus grands adeptes de la création de profils. Bien évidemment de nombreuses informations personnelles s'y trouvent, directement données par l'utilisateur, vous-même. Mais la collecte s'étend même au delà des pages du réseau social lui-même.

Les petits boutons /j'aime/, /G+/ et autre /tweeter/ qui proposent de nous faciliter le partage sont en fait des mouchards très puissants. Présents sur une multitude de sites, ce sont des ressources tierces, provenant des serveurs des réseaux sociaux eux-mêmes. En effet, les boutons cachent souvent des petits programmes appelés scripts qui informent systématiquement Facebook ou Google de votre passage sur les sites où le bouton est présent, même si vous ne cliquez pas dessus, ...

Dès que vous affichez sur votre navigateur une page n'ayant pourtant rien à voir avec Facebook ou Google mais contenant l'un de ces boutons de réseau social, le script associé envoie toutes les informations disponibles au serveur (l'ip, le type de navigateur, ... et surtout le site consulté). En plus, même si vous n'êtes pas à ce moment là connecté à Facebook, ou même si vous n'êtes pas membre de ce réseau, toutes ces informations sont associées à votre profil. Ainsi même si vous ne /likez/ pas de pages, Facebook et Google savent beaucoup de choses sur votre navigation et vos habitudes. Votre profil prend alors de la valeur sur le marché publicitaire.

Nos profils mis aux enchères

Enfin, pour conclure, nous allons expliquer comment nous sommes mis aux enchères en permanence. La plupart des sites commerciaux qui affichent de la publicité travaillent avec des régies publicitaires. Ces régies publicitaires travaillent elles-mêmes avec une multitude d'annonceurs.

À chaque fois qu'un espace de publicité est disponible dans une page, la régie soumet à ses différents clients (les annonceurs donc) le profil de l'internaute. En fonction des caractéristiques du profil, les annonceurs sont prêts à payer plus ou moins cher cet espace. La régie organise donc une vente aux enchères de notre profil. Le plus généreux remporte le droit d'afficher sa publicité sur notre écran.

Tout cela se déroule de manière automatique grâce à des algorithmes sophistiqués en quelques fractions de seconde. Ainsi la page qui héberge la publicité est payée par un annonceur qui a choisi le meilleur prix pour son annonce et la régie prend son pourcentage au passage. Le web est envahi par ce système complexe mais très efficace. C'est ce qui explique que n'avons pas tous les mêmes publicités qui s'affichent pour une même page.

La minute citoyenne

Le web est une formidable source d'informations, un lieu d'échanges, qui regroupe un ensemble d'outils très performants et utiles. C'est aussi un facteur de développement économique. Mais nous l'avons illustré, c'est également un moyen de surveillance pour les états, les entreprises. C'est un facteur de dissémination de notre vie privée et de collecte d'information à notre sujet, parfois,... souvent, à notre insu.

Vous avez maintenant les clés pour comprendre ces questions. Vous pouvez en toute connaissance de cause, et c'est bien le droit de chacun, laisser faire les mouchards, les régies publicitaires et tous les collecteurs d'informations privées.

En revanche, si vous considérez que vos données vous appartiennent et que vous n'avez pas envie d'être pisté ni ciblé, alors vous pouvez utiliser les connaissances vues dans ce cours pour paramétrer votre navigateur et avoir des stratégies qui visent à vous protéger. Vous pouvez interdire systématiquement tous les cookies sur votre navigateur, mais dans ce cas, très peu de sites continueront à fonctionner correctement, car les cookies sont aussi utiles. Mais votre navigateur permet un paramétrage plus fin. Vous pouvez étudier ces paramètres et par exemple :

  • interdire les cookies tiers (ils sont souvent autorisés par défaut),
  • limiter la conservation des cookies et même les effacer régulièrement

Vous pouvez également installer des modules complémentaires bloquant les publicités, les boutons de réseaux sociaux, ou les mouchards en tout genre, ...

Enfin, si vous pensez que vos droits de citoyens sont bafoués sur le web, c'est sûrement sur le plan juridique que la bataille doit avoir lieu. Vous êtes maintenant mieux armés pour rejoindre les différentes associations d'utilisateurs, ou pour interpeller les élus, participer aux débats publics sur les questions de respect de la vie privée.

(Réduire le cours)
(Montrer la suite)

Votre âge, votre adresse, vos achats récents, vos goûts musicaux, vos films préférés, vos amis, etc, toutes ces données peuvent intéresser de nombreuses sociétés et organisations soit pour vous surveiller soit pour vous vendre quelque chose. Rassemblées, elles contribuent à définir votre /profil/.

Profils et cookies

Grâce aux cookies contenant des numéros d'identification, des sites ou des jeux, sur PC, en ligne ou sur smartphone peuvent contribuer à créer et compléter nos profils. Souvent c'est même à notre insu, en mémorisant nos parcours sur le site, les pages visitées, etc.. Cette collecte peut même être assurée par le biais de sites partenaires grâce à la technique des cookies tiers.

Les réseaux sociaux - pistage systématique

Les réseaux sociaux sont parmi les plus grands adeptes de la création de profils. Bien évidemment de nombreuses informations personnelles s'y trouvent, directement données par l'utilisateur, vous-même. Mais la collecte s'étend même au delà des pages du réseau social lui-même.

Les petits boutons /j'aime/, /G+/ et autre /tweeter/ qui proposent de nous faciliter le partage sont en fait des mouchards très puissants. Présents sur une multitude de sites, ce sont des ressources tierces, provenant des serveurs des réseaux sociaux eux-mêmes. En effet, les boutons cachent souvent des petits programmes appelés scripts qui informent systématiquement Facebook ou Google de votre passage sur les sites où le bouton est présent, même si vous ne cliquez pas dessus, ...

Dès que vous affichez sur votre navigateur une page n'ayant pourtant rien à voir avec Facebook ou Google mais contenant l'un de ces boutons de réseau social, le script associé envoie toutes les informations disponibles au serveur (l'ip, le type de navigateur, ... et surtout le site consulté). En plus, même si vous n'êtes pas à ce moment là connecté à Facebook, ou même si vous n'êtes pas membre de ce réseau, toutes ces informations sont associées à votre profil. Ainsi même si vous ne /likez/ pas de pages, Facebook et Google savent beaucoup de choses sur votre navigation et vos habitudes. Votre profil prend alors de la valeur sur le marché publicitaire.

Nos profils mis aux enchères

Enfin, pour conclure, nous allons expliquer comment nous sommes mis aux enchères en permanence. La plupart des sites commerciaux qui affichent de la publicité travaillent avec des régies publicitaires. Ces régies publicitaires travaillent elles-mêmes avec une multitude d'annonceurs.

À chaque fois qu'un espace de publicité est disponible dans une page, la régie soumet à ses différents clients (les annonceurs donc) le profil de l'internaute. En fonction des caractéristiques du profil, les annonceurs sont prêts à payer plus ou moins cher cet espace. La régie organise donc une vente aux enchères de notre profil. Le plus généreux remporte le droit d'afficher sa publicité sur notre écran.

Tout cela se déroule de manière automatique grâce à des algorithmes sophistiqués en quelques fractions de seconde. Ainsi la page qui héberge la publicité est payée par un annonceur qui a choisi le meilleur prix pour son annonce et la régie prend son pourcentage au passage. Le web est envahi par ce système complexe mais très efficace. C'est ce qui explique que n'avons pas tous les mêmes publicités qui s'affichent pour une même page.

La minute citoyenne

Le web est une formidable source d'informations, un lieu d'échanges, qui regroupe un ensemble d'outils très performants et utiles. C'est aussi un facteur de développement économique. Mais nous l'avons illustré, c'est également un moyen de surveillance pour les états, les entreprises. C'est un facteur de dissémination de notre vie privée et de collecte d'information à notre sujet, parfois,... souvent, à notre insu.

Vous avez maintenant les clés pour comprendre ces questions. Vous pouvez en toute connaissance de cause, et c'est bien le droit de chacun, laisser faire les mouchards, les régies publicitaires et tous les collecteurs d'informations privées.

En revanche, si vous considérez que vos données vous appartiennent et que vous n'avez pas envie d'être pisté ni ciblé, alors vous pouvez utiliser les connaissances vues dans ce cours pour paramétrer votre navigateur et avoir des stratégies qui visent à vous protéger. Vous pouvez interdire systématiquement tous les cookies sur votre navigateur, mais dans ce cas, très peu de sites continueront à fonctionner correctement, car les cookies sont aussi utiles. Mais votre navigateur permet un paramétrage plus fin. Vous pouvez étudier ces paramètres et par exemple :

  • interdire les cookies tiers (ils sont souvent autorisés par défaut),
  • limiter la conservation des cookies et même les effacer régulièrement

Vous pouvez également installer des modules complémentaires bloquant les publicités, les boutons de réseaux sociaux, ou les mouchards en tout genre, ...

Enfin, si vous pensez que vos droits de citoyens sont bafoués sur le web, c'est sûrement sur le plan juridique que la bataille doit avoir lieu. Vous êtes maintenant mieux armés pour rejoindre les différentes associations d'utilisateurs, ou pour interpeller les élus, participer aux débats publics sur les questions de respect de la vie privée.

6.2. Compréhension

Les profils

Vrai ou faux ? Pour chaque affirmation ci-dessous cochez la case correspondante pour indiquer qu'elle est vraie.

  • une partie de l'économie du web repose sur la collecte de données personnelles

  • quand un service sur le web est gratuit alors il se finance par la collecte de données personnelles

  • Les cookies et cookies tiers sont les seuls outils de la création de profils

6.3. Activité avancée

Cookies tiers or not cookies tiers ?

Les navigateurs doivent-ils par défaut autoriser les cookies tiers ?

Remarque: pour cette question et les suivantes, répondez d'abord dans un document séparé, puis collez les réponses dans les zones prévues une fois votre travail terminé.

J'aime ou j'aime pas ?

Un webmaster doit-il prévenir les internautes lorsqu'il décide d'inclure sur sa page un bouton associé à un script qui collecte des informations pour un tiers ?

Pister or not pister ?

Trouvez-vous normal qu'un réseau social piste ses adhérents sans les prévenir ?

Question de loyauté

Écoutez l'enregistrement "Quand nos smartphones sont espionnés" depuis cette page puis répondez à la question qui suit.

Exemple d'application qui ne respecte pas la loyauté

Donnez un exemple d'application citée dans l'enregistrement qui ne respecte pas les principes de base de loyauté entre éditeur d'application et utilisateur.

7. Moteurs de recherche

7.1. Cours

(Réduire le cours)

Des ressources qui n'existent que quand on les demande...

Prenons l'exemple de l'URL suivante :

http://www.univ-lille3.fr/etudes/orientation-emploi/.

Rappelons que la partie etudes/orientation-emploi désigne une ressource sur le serveur web www.univ-lille3.fr . Il est possible que ce soit un document composé par une personne du service des études puis enregistré sur les disques durs de ce serveur web pour le mettre à disposition des internautes. Mais à vrai dire, c'est un processus de conception à la mise en ligne de ressources aujourd'hui de plus en plus rare. Dans le web moderne, de plus en plus souvent, ces ressources sont composées par des programmes informatiques, à partir d'éléments pris dans de nombreuses sources de données. Ces programmes sont par exemple des outils de publication web, systèmes de gestion de contenu (CMS en anglais), des wiki, des moteurs de blogs...

Mais un autre exemple évident de la génération automatique de ressources est celui des moteurs de recherche. Lorsque vous appuyez sur le bouton de recherche après avoir saisi vos mots clefs, le document qui apparaît dans votre navigateur a évidemment été construit juste pour vous, au moment de votre demande.

Un annuaire de toutes les ressources

Le web est un immense ensemble de ressources reliées entre elles. On pouvait imaginer à ses débuts parcourir cet ensemble et trouver son chemin vers la ressource souhaitée. On a donc commencé à construire des annuaires et des répertoires à l'image de ce qui peut se faire dans des bibliothèques. Tim Berners Lee, inventeur du web, a même maintenu une liste de serveurs web à cette époque. Mais cet idéal a rapidement été abandonné. La taille du web a grandi tellement vite qu'il est devenu impossible de consigner les adresses de toutes les ressources, ou même seulement les plus importantes. C'est alors que sont entrés en jeu les moteurs de recherche.

Comment fonctionne un moteur de recherche aujourd'hui

Comment fonctionne un moteur de recherche ? C'est à la fois simple dans certains principes généraux et complexe pour de nombreux détails importants. C'est à la fois connu dans sa généralité et bien caché dans ses détails. Nous nous contentons ici de simples généralités.

Les moteurs de recherche construisent constamment, car le web évolue sans cesse, un index. L'index, c'est comme dans un livre, un moyen d'aller directement à une page à partir d'un mot. Pour construire un tel index, il faut avoir lu toutes les pages du livre et consigné pour tous les mots, la liste des pages où ils se trouvent. Les moteurs de recherche téléchargent toutes les ressources du web en permanence pour extraire la liste des mots qu'on y trouve et garder l'énorme liste des URLs où ces mots se trouvent. Ce ne sont pas des hommes qui parcourent le web pour eux, mais des programmes, appelés des robots. Les robots sont les clients des serveurs web les plus nombreux et réguliers... et de loin!

Mais afficher simplement la liste de ces ressources quand l'internaute saisit quelques mots dans le formulaire de recherche n'est pas satisfaisant. La liste est bien trop longue. Le deuxième ingrédient du moteur de recherche est le programme qui permet d'interroger cet index, simplement en lui donnant quelques mots, et qui construit une liste, présentée par ordre d'importance, d'URLs désignant les ressources où ces mots se trouvent.

La magie des moteurs de recherche tient dans les détails qui permettent à l'ensemble de fonctionner tels que l'existence d'un index à jour, la forme de l'index qui permet d'y retrouver extrêmement rapidement les pages associées à un mot, ou encore l'ordre d'importance dans lequel les résultats de l'interrogation de l'index apparaissent.

L'avance technologique des grands moteurs de recherche se cache dans les détails de la construction de l'index mais surtout du programme qui permet de l'interroger et de la détermination de l'ordre des URLs affichées en retour. Ces détails sont protégés par de nombreux secrets industriels.

Collecte de données d'usage

Mais un avantage qui rend la mise en concurrence des grands moteurs de recherche actuels presque impossible tient à un dernier paramètre. C'est la disponibilité d'énormes quantités de données d'usage, parfois personnalisées. En effet le résultat (l'ordre d'apparition des ressources) des requêtes au moteur dépend aujourd'hui fortement de ce qu'ont fait leurs utilisateurs : sur quels liens ont-ils cliqué ? À l'inverse des ressources du Web derrière les URLs, ces données d'usage ne sont pas publiques, mais sont tout aussi cruciales pour générer des réponses aux requêtes dans un ordre pertinent.

En conséquence, les moteurs de recherche collectent sans cesse des données à propos de vos recherche. La tendance actuelle est de rendre les réponses personnalisées, ce qui entraîne une collecte de données personnelles rendue possible à la fois par les techniques de cookies et l'utilisation de comptes chez ces opérateurs de recherche.

Modèle économique du moteur de recherche

Pour une institution qui veut être visible sur internet, if faut assurer sa présence dans l'index. Mais cela n'est pas suffisant : il faut être en haut de la liste et donc apparaître important aux yeux du moteur de recherche.

De bonnes pratiques en matière de conception de pages web peuvent y contribuer. Puisque toute la chaîne de traitement est automatique, les ressources que le moteur analyse et indexe doivent être parfaitement intelligibles par la machine. Il est donc très important d'écrire correctement ses pages web dans ce but de traitement automatisé autant que dans le but de se faire comprendre de ses lecteurs humains. Parfois des conseillers un peu charlatans tentent de se faire passer pour des gourous qui vont propulser des sites en première page des résultats de recherche.

Il faut s'en méfier car pour le moteur de recherche, une des premières sources de revenu est de vendre ces places. Cela se traduit littéralement par des /ventes de mots/. Une deuxième source de revenu est liée à la collecte des données personnelles des utilisateurs. Tirer des informations à l'insu ou non de ses usagers n'est pas une pratique réservée aux moteurs de recherche. De nombreux autres acteurs du web fonctionnent sur ce même principe.

Aller plus loin

Cette petite introduction des moteurs de recherche est volontairement très succinte et parcellaire. Des éléments techniques essentiels ne sont pas mentionnés comme - les pré-traitements des textes et la sélection du vocabulaire, le traitement des majuscules, des accents etc... - le calcul du score de pertinence sur lequel repose cet ordre d'affichage des réponses, et bien-sûr - l'un des algorithmes les plus connus qu'est PageRank utilisé par Google.

Nous vous invitons à suivre les cours d'option transversale en licence, les options de master sur les humanités numériques, ou les prochains cours de culture numérique qui aborderont sans doute ces questions beaucoup plus précisément.

(Réduire le cours)
(Montrer la suite)

Des ressources qui n'existent que quand on les demande...

Prenons l'exemple de l'URL suivante :

http://www.univ-lille3.fr/etudes/orientation-emploi/.

Rappelons que la partie etudes/orientation-emploi désigne une ressource sur le serveur web www.univ-lille3.fr . Il est possible que ce soit un document composé par une personne du service des études puis enregistré sur les disques durs de ce serveur web pour le mettre à disposition des internautes. Mais à vrai dire, c'est un processus de conception à la mise en ligne de ressources aujourd'hui de plus en plus rare. Dans le web moderne, de plus en plus souvent, ces ressources sont composées par des programmes informatiques, à partir d'éléments pris dans de nombreuses sources de données. Ces programmes sont par exemple des outils de publication web, systèmes de gestion de contenu (CMS en anglais), des wiki, des moteurs de blogs...

Mais un autre exemple évident de la génération automatique de ressources est celui des moteurs de recherche. Lorsque vous appuyez sur le bouton de recherche après avoir saisi vos mots clefs, le document qui apparaît dans votre navigateur a évidemment été construit juste pour vous, au moment de votre demande.

Un annuaire de toutes les ressources

Le web est un immense ensemble de ressources reliées entre elles. On pouvait imaginer à ses débuts parcourir cet ensemble et trouver son chemin vers la ressource souhaitée. On a donc commencé à construire des annuaires et des répertoires à l'image de ce qui peut se faire dans des bibliothèques. Tim Berners Lee, inventeur du web, a même maintenu une liste de serveurs web à cette époque. Mais cet idéal a rapidement été abandonné. La taille du web a grandi tellement vite qu'il est devenu impossible de consigner les adresses de toutes les ressources, ou même seulement les plus importantes. C'est alors que sont entrés en jeu les moteurs de recherche.

Comment fonctionne un moteur de recherche aujourd'hui

Comment fonctionne un moteur de recherche ? C'est à la fois simple dans certains principes généraux et complexe pour de nombreux détails importants. C'est à la fois connu dans sa généralité et bien caché dans ses détails. Nous nous contentons ici de simples généralités.

Les moteurs de recherche construisent constamment, car le web évolue sans cesse, un index. L'index, c'est comme dans un livre, un moyen d'aller directement à une page à partir d'un mot. Pour construire un tel index, il faut avoir lu toutes les pages du livre et consigné pour tous les mots, la liste des pages où ils se trouvent. Les moteurs de recherche téléchargent toutes les ressources du web en permanence pour extraire la liste des mots qu'on y trouve et garder l'énorme liste des URLs où ces mots se trouvent. Ce ne sont pas des hommes qui parcourent le web pour eux, mais des programmes, appelés des robots. Les robots sont les clients des serveurs web les plus nombreux et réguliers... et de loin!

Mais afficher simplement la liste de ces ressources quand l'internaute saisit quelques mots dans le formulaire de recherche n'est pas satisfaisant. La liste est bien trop longue. Le deuxième ingrédient du moteur de recherche est le programme qui permet d'interroger cet index, simplement en lui donnant quelques mots, et qui construit une liste, présentée par ordre d'importance, d'URLs désignant les ressources où ces mots se trouvent.

La magie des moteurs de recherche tient dans les détails qui permettent à l'ensemble de fonctionner tels que l'existence d'un index à jour, la forme de l'index qui permet d'y retrouver extrêmement rapidement les pages associées à un mot, ou encore l'ordre d'importance dans lequel les résultats de l'interrogation de l'index apparaissent.

L'avance technologique des grands moteurs de recherche se cache dans les détails de la construction de l'index mais surtout du programme qui permet de l'interroger et de la détermination de l'ordre des URLs affichées en retour. Ces détails sont protégés par de nombreux secrets industriels.

Collecte de données d'usage

Mais un avantage qui rend la mise en concurrence des grands moteurs de recherche actuels presque impossible tient à un dernier paramètre. C'est la disponibilité d'énormes quantités de données d'usage, parfois personnalisées. En effet le résultat (l'ordre d'apparition des ressources) des requêtes au moteur dépend aujourd'hui fortement de ce qu'ont fait leurs utilisateurs : sur quels liens ont-ils cliqué ? À l'inverse des ressources du Web derrière les URLs, ces données d'usage ne sont pas publiques, mais sont tout aussi cruciales pour générer des réponses aux requêtes dans un ordre pertinent.

En conséquence, les moteurs de recherche collectent sans cesse des données à propos de vos recherche. La tendance actuelle est de rendre les réponses personnalisées, ce qui entraîne une collecte de données personnelles rendue possible à la fois par les techniques de cookies et l'utilisation de comptes chez ces opérateurs de recherche.

Modèle économique du moteur de recherche

Pour une institution qui veut être visible sur internet, if faut assurer sa présence dans l'index. Mais cela n'est pas suffisant : il faut être en haut de la liste et donc apparaître important aux yeux du moteur de recherche.

De bonnes pratiques en matière de conception de pages web peuvent y contribuer. Puisque toute la chaîne de traitement est automatique, les ressources que le moteur analyse et indexe doivent être parfaitement intelligibles par la machine. Il est donc très important d'écrire correctement ses pages web dans ce but de traitement automatisé autant que dans le but de se faire comprendre de ses lecteurs humains. Parfois des conseillers un peu charlatans tentent de se faire passer pour des gourous qui vont propulser des sites en première page des résultats de recherche.

Il faut s'en méfier car pour le moteur de recherche, une des premières sources de revenu est de vendre ces places. Cela se traduit littéralement par des /ventes de mots/. Une deuxième source de revenu est liée à la collecte des données personnelles des utilisateurs. Tirer des informations à l'insu ou non de ses usagers n'est pas une pratique réservée aux moteurs de recherche. De nombreux autres acteurs du web fonctionnent sur ce même principe.

Aller plus loin

Cette petite introduction des moteurs de recherche est volontairement très succinte et parcellaire. Des éléments techniques essentiels ne sont pas mentionnés comme - les pré-traitements des textes et la sélection du vocabulaire, le traitement des majuscules, des accents etc... - le calcul du score de pertinence sur lequel repose cet ordre d'affichage des réponses, et bien-sûr - l'un des algorithmes les plus connus qu'est PageRank utilisé par Google.

Nous vous invitons à suivre les cours d'option transversale en licence, les options de master sur les humanités numériques, ou les prochains cours de culture numérique qui aborderont sans doute ces questions beaucoup plus précisément.

7.2. Compréhension

Combien de sites Web ?

Quelle est l'estimation actuelle du nombre de sites Web dans le monde ?

Faites quelques recherches pour trouver un ordre de grandeur.

Recherche avancée 1

Faites une recherche Google avec les deux mots université Lille . Notez le nombre de pages trouvées.

Faites maintenant une recherche avec "université Lille" (en incluant les guillemets). Avez vous autant de résultats ? Décrivez-les.

Recherche avancée 2

Faites une recherche avec "université lille" -3 -2 -1 . Que se passe-t-il ?

7.3. Activité avancée

Activité de recherche et réflexion

Attention, vous n'avez droit qu'à une seule tentative. Pour les questions ouvertes, répondez d'abord dans un document séparé, puis collez les réponses dans les zones prévues une fois votre travail terminé.

neutralité 1

Consultez l'interview suivante et expliquez en quoi il est important pour un moteur de recherche de donner une réponse neutre. http://www.inria.fr/actualite/actualites-inria/la-neutralite-ne-suffit-pas

neutralité 2

Le gouvernement français travaille sur un projet de loi " pour une République numérique ", consultable sur https://www.republique-numerique.fr
Nous vous invitons à enrichir vos connaissances en consultant ce site en détail.

Expliquez en quoi l'article consultable ici répond au moins en partie à ce que souligne Serge Abiteboul dans son interview à la question sur la neutralité des moteurs de recherche. Pour cela recopiez une phrase de l'interview et une phrase de l'explication de l'article de loi.

neutralité 3

Le gouvernement français travaille sur un projet de loi " pour une République numérique ", consultable sur https://www.republique-numerique.fr
Nous vous invitons à enrichir vos connaissances en consultant ce site en détail.

Testez vos connaissances en répondant aux 14 questions du quizz ( http://www.gouvernement.fr/quiz-le-projet-de-loi-numerique ) et répondez ci-dessous à la question suivante: quelles sont les deux questions dont les réponses vous ont le plus surpris ?

Attention, l'abus de Google est dangereux pour la planète !

Attention, vous n'avez droit qu'à une seule tentative. Répondez d'abord dans un document séparé, puis collez les réponses dans la zone prévue une fois votre travail terminé.

Conséquences d'une recherche

Comparez ces deux usages:

1. Dans la barre de recherche (ou barre d'URL) je saisis :
université de lille 3
et ensuite dans la page de résultats affichée je clique sur le lien vers l'université (lien vers http://www.univ-lille3.fr)

2. Dans la barre d'URL (attention de ne pas confondre avec la barre de recherche !), je saisis :
http://www.univ-lille3.fr .

Questions: Quelles sont les incidences de ces actions dans chacun des cas. Existe-t-il une différence en terme de consommation énergétique, ou de préservation de la vie privée ?

Des moteurs de recherche moins intrusifs...

Attention, vous n'avez droit qu'à une seule tentative. Répondez d'abord dans un document séparé, puis collez les réponses dans la zone prévue une fois votre travail terminé.

DuckDuckGo

Utilisez maintenant un nouveau moteur de recherche https://duckduckgo.com/ , testez-le :

Qu'obtenez vous avec le mot : Go

Qu'obtenez vous avec le mot : Go!wfr

Qu'obtenez vous avec le mot : Go!gfr

Décrivez les réponses obtenues et après quelques recherches personnelles, expliquez ce qu'est DuckDuckGo et pourquoi certains utilisateurs préfèrent l'utiliser.

8. Autres informations sensibles et bilan

8.1. Autres informations

(Réduire le cours)

video On voit bien que les techniques qui se sont développées et qui continuent d'évoluer sur le Web sont puissantes et nous rendent beaucoup de services. En revanche, leur utilisation dans certains cas peut poser de graves questions de citoyenneté. Bien souvent, la donnée associée au cookie est un numéro d'identification permettant au serveur de retrouver dans ses bases des données propres à l'utilisateur. Dans notre exemple de démarche d'inscription, ce pourrait être, l'étape à laquelle il est arrivé, son nom, ses choix de formation...

Il est très important de comprendre qu'un tel numéro d'identification est un moyen très commun utilisé sur le web aussi bien que dans la vie non numérique. C'est la technique utilisée par la sécurité sociale (avec le numéro de sécurité sociale), pour vous suivre toute notre vie dans nos démarches de couverture sociale. C'est aussi ce qui se cache derrière les cartes d'achat ou promotionnelles des magasins, proposées avant tout pour nous suivre et assurer du marketing direct. Donc bien des numéros nous identifient.

Mais dès lors que ces numéros d'identification sont rapprochés ou unifiés, la technique devient si puissante qu'on l'estime menaçante pour nos libertés. Si bien que par exemple, le parlement a dû légiférer il y plus de 30 ans pour empêcher ou limiter l'usage du numéro de sécurité sociale dans les autres administrations de l'état. Naturellement, avec l'avènement du numérique ce rapprochement de numéros d'identification devient très facile techniquement. Il convient de redoubler de vigilance...

(Réduire le cours)
(Montrer la suite)

video On voit bien que les techniques qui se sont développées et qui continuent d'évoluer sur le Web sont puissantes et nous rendent beaucoup de services. En revanche, leur utilisation dans certains cas peut poser de graves questions de citoyenneté. Bien souvent, la donnée associée au cookie est un numéro d'identification permettant au serveur de retrouver dans ses bases des données propres à l'utilisateur. Dans notre exemple de démarche d'inscription, ce pourrait être, l'étape à laquelle il est arrivé, son nom, ses choix de formation...

Il est très important de comprendre qu'un tel numéro d'identification est un moyen très commun utilisé sur le web aussi bien que dans la vie non numérique. C'est la technique utilisée par la sécurité sociale (avec le numéro de sécurité sociale), pour vous suivre toute notre vie dans nos démarches de couverture sociale. C'est aussi ce qui se cache derrière les cartes d'achat ou promotionnelles des magasins, proposées avant tout pour nous suivre et assurer du marketing direct. Donc bien des numéros nous identifient.

Mais dès lors que ces numéros d'identification sont rapprochés ou unifiés, la technique devient si puissante qu'on l'estime menaçante pour nos libertés. Si bien que par exemple, le parlement a dû légiférer il y plus de 30 ans pour empêcher ou limiter l'usage du numéro de sécurité sociale dans les autres administrations de l'état. Naturellement, avec l'avènement du numérique ce rapprochement de numéros d'identification devient très facile techniquement. Il convient de redoubler de vigilance...

8.2. Bilan: du pour, du contre

(Réduire le cours)

video

Il faut donc avoir conscience que la consultation d'une page laisse des traces sur mon disque dur et sur le réseau. Toutes ces traces peuvent être considérées à divers degrés comme des informations personnelles.

Celles qui résident sur l’ordinateur que vous utilisez, qui peut appartenir à votre employeur, à l’université ou à un cybercafé sont techniquement lisibles par les administrateurs ou les propriétaires de l’ordinateur. Les traces qui sont laissées à travers les réseaux, puis sur des serveurs que vous consultez ou des serveurs tiers sont potentiellement exploitables par de nombreux acteurs. Il ne s’agit pas de dénoncer ces pratiques comme si elles étaient des malversations.

La mise en cache nous permet de gagner du temps, l’historique est un outil pratique pour rechercher des informations vues récemment, et les cookies sont indispensables au bon fonctionnement d’une très grande quantité de sites. Par ailleurs, une bonne partie des sites que nous visitons n’existeraient plus si ils n’étaient pas financés par la publicité. En revanche, il nous semble important que chacun ait conscience de ce qui se passe. Aujourd’hui beaucoup croient surfer incognito dès lors qu’on ne voit pas leur écran sans penser qu’un simple clic sur le menu de l’historique peut révéler bien des choses. Une infime minorité des internautes a conscience que les pratiques de web-marketing agressives que nous venons de décrire sont abondamment utilisées. Une question essentielle dont nous devons tous prendre conscience est celle de la pseudo-gratuité du web :

Qui finance les services et les contenus qui sont à notre disposition sur le web ? La publicité est-elle le seul moyen de financement ? Jusqu’où sommes-nous prêts à laisser les publicitaires nous cibler ? Que considérons-nous relever de la vie privée et des données confidentielles ? Les pratiques de ciblage comportemental vous paraissent-elles légitimes dès lors que nous n’en sommes pas informés ?

On peut tous avoir des avis différents sur ces questions, et chacun devrait être libre de surfer en connaissance de cause. Aujourd’hui, pour une bonne part du web, on peut considérer que : “SI C’EST GRATUIT, C’EST QUE LE PRODUIT C’EST VOUS”. Vous avez néanmoins la possibilité de choisir les traces que vous êtes prêts à laisser derrière vous.

Les activités associées à ce module vont entre autre vous permettre de voir comment paramétrer votre navigateur pour faire vos propres choix.

(Réduire le cours)
(Montrer la suite)

video

Il faut donc avoir conscience que la consultation d'une page laisse des traces sur mon disque dur et sur le réseau. Toutes ces traces peuvent être considérées à divers degrés comme des informations personnelles.

Celles qui résident sur l’ordinateur que vous utilisez, qui peut appartenir à votre employeur, à l’université ou à un cybercafé sont techniquement lisibles par les administrateurs ou les propriétaires de l’ordinateur. Les traces qui sont laissées à travers les réseaux, puis sur des serveurs que vous consultez ou des serveurs tiers sont potentiellement exploitables par de nombreux acteurs. Il ne s’agit pas de dénoncer ces pratiques comme si elles étaient des malversations.

La mise en cache nous permet de gagner du temps, l’historique est un outil pratique pour rechercher des informations vues récemment, et les cookies sont indispensables au bon fonctionnement d’une très grande quantité de sites. Par ailleurs, une bonne partie des sites que nous visitons n’existeraient plus si ils n’étaient pas financés par la publicité. En revanche, il nous semble important que chacun ait conscience de ce qui se passe. Aujourd’hui beaucoup croient surfer incognito dès lors qu’on ne voit pas leur écran sans penser qu’un simple clic sur le menu de l’historique peut révéler bien des choses. Une infime minorité des internautes a conscience que les pratiques de web-marketing agressives que nous venons de décrire sont abondamment utilisées. Une question essentielle dont nous devons tous prendre conscience est celle de la pseudo-gratuité du web :

Qui finance les services et les contenus qui sont à notre disposition sur le web ? La publicité est-elle le seul moyen de financement ? Jusqu’où sommes-nous prêts à laisser les publicitaires nous cibler ? Que considérons-nous relever de la vie privée et des données confidentielles ? Les pratiques de ciblage comportemental vous paraissent-elles légitimes dès lors que nous n’en sommes pas informés ?

On peut tous avoir des avis différents sur ces questions, et chacun devrait être libre de surfer en connaissance de cause. Aujourd’hui, pour une bonne part du web, on peut considérer que : “SI C’EST GRATUIT, C’EST QUE LE PRODUIT C’EST VOUS”. Vous avez néanmoins la possibilité de choisir les traces que vous êtes prêts à laisser derrière vous.

Les activités associées à ce module vont entre autre vous permettre de voir comment paramétrer votre navigateur pour faire vos propres choix.

8.3. Compréhension

Les données locales

Cochez les bonnes affirmations dans cette liste

  • le cache permet d'accélérer l'affichage des pages web déjà visitées

  • le cache permet de naviguer sur le web icognito

  • Si quelqu'un accède à mon ordinateur, il a techniquement la possibilité de connaître les sites web que j'ai récemment visités

  • Grâce à l'historique vous pouvez retrouver la liste des sites que vous avez visités récemment

  • Grâce à l'historique vous pouvez revoir le contenu exact des pages que vous avez visitées récemment

  • Grâce à l'historique vous pouvez, ré-ouvrir une fenêtre ou un onglet du navigateur récemment fermé

  • Si une page est dans l'historique, vous pouvez la retrouver dans le cache

8.4. Activité avancée

Vider le cache et l'historique

Faites une capture de la fenêtre du navigateur qui propose de vider le cache et les autres données locales. Enregistrez l'image sur votre compte owncloud (ou un autre service de partage d'image), puis collez le lien de l'image après en avoir activé le partage par lien public.

L'intermédiation: votre analyse

Pour terminer ce cours, nous vous proposons de regarder une vidéo d'une présentation par Stéphane Grumbach qui explique les impacts du web et des données numériques d'un point de vue sociétal.

https://www.liglab.fr/evenements/keynote-speeches/stephane-grumbach-leconomie-lintermediation (1h11mn).

Citez les éléments dans ce séminaire de Stéphane Grumbach qui vous ont le plus surpris. Remarque: cette question est ouverte, répondez d'abord dans un document séparé, puis collez votre réponse dans la zone prévue une fois votre travail terminé.

Annexe : réutiliser ce module

Archive IMS CC utilisable dans les LMS Moodle, Claroline, Blackboard, etc: module2.imscc.zip

Archive EDX : module2_edx.tar.gz