Chapitre 2 : Web (World Wide Web)


Dernière mise à jour  17  avril  1998 Auteur Gilles Maire
Serveur  http://www.ungi.com/web.htm Adresse Gilles.Maire@UNGI.com

L'outil qui rendit populaire l'Internet, c'est incontestablement le 3W, le WWW, le World Wide Web en un mot le Web. Le mot Web désigne en anglais la toile d'araignée et World Wide Web désigne donc la toile d'araignée couvrant le monde entier. L'outil est graphique, il est puissant, englobe Gopher, les News, ftp, telnet et d'autres. Il est très facile à utiliser, il est beau, et il ne coûte pas cher. Par le Web vous pouvez visiter une exposition, lire votre journal, apprendre l'anglais, commander une Pizza. De plus tous les connectés ont leur page Web personnelle, et vous aurez peut-être envie d'écrire la vôtre après la lecture de ce guide.

D'un point de vue technique, le WWW relie des serveurs HTTPqui envoient des pages HTML  à des postes dotés d'un navigateur. Le protocole de communication entre les navigateurs et les serveurs est basé sur le principe des hypertextes (Hyper Text Transfert Protocol). Le langage permettant de décrire les pages Web est le HTML (Hyper Text Markup Language). Ce langage à balise permet de doter certains mots, ou images d'une propriété d'hyperlien, constitué d'une adresse que vous atteindrez en cliquant dessus.

Voilà défini le World Wide Web : une toile d'araignée de serveurs d'informations reliés les uns aux autres par  des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes). Ces liens hypertextes permettent de voyager d'un serveur à l'autre sur le réseau Internet.

Et le plus spectaculaire dans les Web est bien  la large utilisation de ces liens  hypertextes ; ce sont des textes de couleur différente (bleu en général) ou des images sur lesquelles vous cliquez pour vous retrouver dans un autre document. Ces hypertextes rendent votre lecture plus dynamique : si vous lisez un article traitant de « l'invention du téléphone sans fil » et que votre article cite ATT, un hypertexte vous permettra de voir une présentation d'ATT en cliquant simplement sur le mot ATT.

Dans un document on reconnaît un hypertexte par sa couleur différente du reste du document. Après avoir cliqué sur un hypertexte pour vous rendre sur un autre point du réseau Internet, si vous revenez sur votre page initiale vous voyez que la couleur de l'hypertexte a changé. C'est normal, c'est pour vous prévenir que vous êtes déjà passé par là. Le mécanisme de changement de couleur est assez sophistiqué, en effet, prenons un document qui s'appelle A, et dans ce document prenons deux liens, l'un sur B et l'autre sur C... Si vous cliquez sur B depuis A, vous partez sur B... et si vous revenez sur A vous pouvez voir dans A le lien sur B avec une couleur différente (en général violet). Maintenant si on va sur C et si dans C il y a un lien sur B, la magie s'opère, le lien sur B dans le document C a également changé de couleur. Cela vous évite dans les recherches de parcourir plusieurs fois un même document. Ce mécanisme est bien sûr géré localement par votre lecteur de pages Web et ne nécessite pas d'échange réseaux et il fait partie des normes en matière de Web.

Vous vérifierez ce phénomène avec les liens sur l'index. Si vous allez chercher un mot dans l'index, il aura désormais une autre couleur dans toutes les pages où il apparaîtra, ce qui ne vous empêchera d'ailleurs pas d'y revenir autant de fois que vous voudrez... La seule chose à savoir c'est que vous êtes informé que le lien a déjà été parcouru.

Des documents contiennent ainsi des références à d'autres documents, créant une toile d'araignée de documents recouvrant le monde. D'un point de vue théorique, les Web sont autant de points d'informations se recoupant par des liens et garantissant au NetSurfer (c'est à dire celui qui se promène de Web en Web) des informations toujours mises à jour.

Il y a environ 20 millions de Web dans le monde à ce jour sans compter les Web personnels réalisés par les utilisateurs passionnés.

Les Hypertextes peuvent adresser d'autres documents de type Web mais aussi des serveurs de fichier, des serveurs de News etc.

Pour accéder à une adresse depuis votre lecteur de Web, vous avez trois possibilités :

2.1 - Les URL

Introduction

Les URL (Uniform Resource Locators) sont les noms donnés aux hypertextes.  Un URL peut être un serveur ftp, un fichier sur votre disque, un serveur gopher, une image, une adresse courrier, un serveur de News, un serveur telnet et bien sûr un serveur http, c'est-à-dire un serveur de Web.

Un exemple d'URL est http://www.xerox.fr:8080

un autre est ftp://inria.ftp.fr

En général, vous n'avez pas à connaître précisément les adresses de service puisque vous avez à cliquer sur un texte de couleur vous y conduisant. Ainsi le Web numéro 1 vous conduit au Web numéro 2 qui vous conduit au Web numéro 3 et ainsi de suite.

Attention! Un des points sensibles de monde du  Web réside dans le fait  que les adresses pointées par les URL ont tendance à changer souvent, soit parce que le propriétaire du Web a déménagé son site , soit parce que le serveur est devenu saturé. Donc il n'est pas exclu qu'en surfant vous tombiez sur quelques impasses!

Il se peut que vous vouliez aller un peu plus vite, et atteindre directement une page HTML sans progresser de proche en proche. Ce sera possible en donnant l'adresse URL de votre cible. Ceci se fait dans la majorité des cas en cliquant sur le menu Fichier et ouvrir URL de votre lecteur de Web.

Parfois vous aurez des références d'adresses de la forme : http://serveur/directory/fichier.html
fichier.html est un nom de fichier HTML sur le serveur de Web (html signifiant HyperText Markup Language).

En général pour trouver le Web d'une compagnie commerciale, par exemple Compaq il suffit de taper l'adresse de cette société de la sorte http://www.compaq.com. Ceci se vérifie pour Microsoft, Xerox, IBM et bien d'autres.

La plupart du temps vous n'aurez pas à taper ces longues syntaxes car :

Types d'URL

On trouve plusieurs types d'URL, chacun représentant un service donné. Il est important de garder présent à l'esprit que l'architecture WWW permet de couvrir l'ensemble des services cités. Les noms d'URL utilisent les lettres de l'alphabet en général en minuscules, sachant que les noms en majuscules et minuscules sont équivalents. Les chiffres sont autorisés.

 Certains caractères / . : # ont une signification particulière et enfin certains caractères sont dit non sûrs dans la mesure où ils sont interprétés : les blancs, les étoiles, etc.

Avant de passer en revue les URL les plus usités, regardons la forme générale d'un URL.

Un URL est de la forme
service://<user>:<password>@<host>:<port>/<url-path>

Mais nous ne donnerons pas l'identificateur de password (mot de passe) et de user (nom de login) pour ne pas compliquer l'exposé.

file

file:///repertoire/fichier.txt

Ce type d'URL permet d'accéder à un fichier ici fichier.txt, présent sur votre disque.

 Ce type d'URL n'est pas très normalisé et on trouvera :

http

http://serveur:port/repertoire/fichier.html

Ce type d'URL permet d'accéder à un serveur Web, généralement présent sur une autre machine.

Le plus souvent ni le port, ni les noms de répertoires, ni le nom de fichier ne sont mentionnés. Ils ont des valeurs par défaut.

Note : l'URL d'un serveur http peut être suivie d'un point d'interrogation et d'une chaîne de caractères servant de chaîne de requête sur le serveur http.

ftp

ftp://serveur/repertoire/fichier

Ce type d'URL permet d'accéder à un serveur ftp et:

Un service ftp vous permet d'écrire ou de lire des fichiers à distance sur une autre machine du réseau.
 
 

Note : l'URL peut être terminé par la séquence ;type=<typecode> où typecode peut être le caractère i, a, ou d pour binaire, ascii ou déterminer automatiquement.

mailto

mailto:nom@organisation.domaine

Ce type d'URL permet d'écrire un courrier électronique à l'utilisateur dont l'adresse figure dans l'URL.

 Certains navigateurs acceptent la syntaxe étendue :

 mailto:nom@organisation.domaine?subject=SUJET

permettant de renseigner la zone sujet dans le courrier.

telnet

telnet://Nom:Password@serveur:port

Ce type d'URL permet d'ouvrir une session telnet

Une session telnet est une fenêtre représentant la console d'une machine distante présente sur Internet.
 
 

gopher

gopher://serveur:port/repertoire/fichier#marqueur

Ce type d'URL permet d'ouvrir un menu Gopher.

Un menu Gopher est une arborescence de fichiers plus animée que celle que l'on trouve sur ftp.
 
 

news

news:nom.de.la.news
news:numero de news

Ce type d'URL permet d'ouvrir une News sur le serveur de News paramétré dans votre logiciel.

Les news sont des forums où des courriers restent stockés par thème pendant une durée de quelques jours.

Notes : lorsque l'URL est demandé avec le nom de la news, il est possible de mettre des caractères *, pour spécifier un ensemble de news, par exemple news:alt.binaries.* affichera toutes les News commençant par alt.binaries.

Serveur de News

newsrc://serveur:port/repertoire/nom.de.la.news

Ce type d'URL permet d'accéder à une News non pas sur le serveur de News configuré sur le lecteur de Web du client mais bien sur un serveur de News défini.

Base WAIS

wais://<host>:<port>/<database>
wais://<host>:<port>/<database>?<search>
wais://<host>:<port>/<database>/<t;wtype>/<wpath>

 Ce type d'URL permet d'accéder à un serveur de base de données WAIS

Directory prospero

prospero://serveur:port/repertoire

Ce type d'URL permet d'accéder à un service particulier appelé service de répertoire Prospero.

Autres

En principe d'autres services peuvent être déclarés par les serveurs http et le lecteur de pages Web peut être configuré pour accéder à ces nouveaux services. En pratique aucun serveur http n'utilise d'autres services que ceux décrits ci-dessus sauf pour expérimentation.

 Un service expérimental doit avoir un nom commençant par x-

2.2 - Les logiciels de lecture de Web

Les logiciels de lecture de Web sont appelés des fureteurs, des navigateurs, des butineurs ou des browsers. Le terme préféré est aujourd'hui navigateur.

Le premier logiciel lecteur de Web graphique connu par le public fut Mosaic du NCSA (National Center for Supercomputing Applications) de l'université de l'Illinois. Il fut cependant précédé de logiciels précurseurs comme tkWWW , violaWWW et midaswww dans l'année 1992. Ces logiciels, s'ils possédaient des options très en avance sur ceux d'aujourd'hui, n'ont pas connu le succès du logiciel du NCSA.

Le logiciel Lynx naquit à peu prêt à cette époque et aujourd'hui encore si vous ne disposez pas d'une interface graphique celui-ci vous permet de vous connecter à un serveur Web de façon textuelle, sans afficher les images. Ce logiciel n'utilise pas non plus la souris, mais la touche de tabulation permet d'aller d'URL en URL dans le texte.
Lynx le fureteur en mode texte parfois utile pour lire une page HTML en telnet

Le logiciel Netscape vint détrôner Mosaïc en 1994 et domina le marché au moins techniquement jusqu'en 1999, puis son concurrent Internet Explorer de la société Microsoft,  trouva la voie royale et solitaire qu'avaient connu Word et  Excel quelques années auparavant.

On trouve des Navigateurs plus ou moins multimédia, qui permettent d'afficher jusqu'aux séquences vidéo, nous citerons Opera sous Windows mais surtout Kfm de l'environnement KDE sous Linux.
le navigateur de Kde sous Linux est un gestionnaire de fichier et un navigateur

Notons enfin,  que certains navigateurs proposent des possibilités d'ajout de composantes logicielles appelées Plugs-In, capables d'effectuer des tâches évoluées.  Les plus avancés d'entre eux reconnaissent aujourd'hui les langages JAVA, VRML, mais nous reviendrons sur ces points.

Les logiciels lecteurs de Web permettent de charger des fichiers par ftp, de lire des News, d'envoyer une session telnet et ont tendance à remplacer les multiples programmes utilisés hier.

2.3 - Un bon logiciel de lecture de Web

WindowsMacintosh : Netscape

Version freeware : versions Beta

Page officielle : Netscape [http://www.netscape.com/]

Désormais toutes les versions du navigateur Netscape sont gratuites.

Originalités :

Netscape que l'on trouve aussi bien sous Windows, Macintosh ou Linux

Le choix de Netscape comme meilleur logiciel de navigation n'est pas facile tant Internet Explorer est proche mais citons les petits points qui en font le meilleur choix:

2.4 - Les Web chercheurs d'informations

Il existe des Web spécialisés dans la recherche d'information sur l'Internet. Ces Webs sont couplés avec des bases de données qui sont alimentées en permanence.

Ils permettent de retrouver n'importe quel type d'information, que ces informations soient stockées sur un Web ou sur un serveur ftp. En pratique, ils sont loins d'être exhaustifs dans le monde des Web, et encore assez pauvres dans le monde des serveurs ftp.

Il est important que vous mettiez un de ces chercheurs dans votre liste de pages favorites après les avoir utilisés et choisi celui qui vous convenait le mieux.

 Le chapitre sur les Web chercheurs d'information vous donne la liste de ces services.

Principe de fonctionnement

Le but de cette section est de s'intéresser au mode de fonctionnement de ces différents moteurs de recherche.

D'un point de vue théorique

Les moteurs de recherche, au sens véritable du terme, sont ceux qui effectuent eux-mêmes la recherche et l'indexation des pages Web sans intervention humaine.

 Les sites d'indexation automatique, comprennent tous :

Nous allons expliciter brièvement le fonctionnement d'un programme de mise à jour en sachant que ceci mériterait un chapitre à part entière. Ces logiciels de mise à jour, sont appelés Robots  nom qui indique bien qu'ils correspondent à des programmes automatiques.

 Un robot est un programme simple dans le principe, mais que les optimisations rendent complexes dans leur programmation.

 Tout d'abord, ces programmes ont deux missions essentielles :

La première de ces deux étapes est facilement compréhensible; elle permet de faire de l'indexation textuelle qui revient à mémoriser des mots clés, éventuellement les phrases dans lesquelles ils apparaissent et surtout leur localisation, c'est-à-dire leur adresse URL.

 La recherche des mots clés se fait par des logiciels comme Glimse, agrep ou free Wais qui sont plus ou moins performants et qui ont des fonctionnalités plus ou moins évoluées.

 Ces logiciels lisent donc un fichier et mettent dans un index les mots lus dans le fichier.

 Dans cette lecture, ils analysent parmi les mots rencontrés les adresses d'URL de façon à connaître de nouvelles adresses de Web à explorer par la suite. Cette analyse doit être assez fine pour prendre en compte les aspects suivants :

C'est ainsi que les programmes de recherche scrutent en permanence Internet. Et lorsque vous demandez à Lycos de chercher un mot clé, il effectue la recherche non pas sur Internet mais dans son fichier de recherche.

Pour en savoir plus

Ces quelques pages en langue anglaise vous donneront des points précis sur le sujet.

2.5 - Références

Pour connaître les nouveautés sur le réseau, il vous faut aller dans la rubrique What is new d'un moteur de recherche comme défini dans le chapitre sur la recherche d'information par le Web.

Vous trouverez également les nouveaux services dans les groupes de Nouvelles (News) alt.internet.services [news:alt.internet.services] et comp.infosystems.www.announce [news:comp.infosystems.www.announce].

N'oublions pas de mentionner le groupe de Nouvelles (News) français fr.comp.infosystemes.www.annonces

Vous trouverez la FAQ correspondante au MIT
[ftp://rtfm.mit.edu/pub/usenet/news.answers/www/faq].

Si vous voulez créer votre propre Web un chapitre vous expliquera comment vous y prendre un peu plus loin.

2.6 - Histoire de Web

Le Web est un protocole très nouveau qui est basé sur des concepts assez anciens. Regardons de plus près cette histoire du Web qui débuta avant le nom.

1945 Vannevar Bush, conseiller de Roosevelt publie une note concernant des toiles conceptuelles d'information.

1965 Ted Nelson donne naissance à l'Hypertexte. Puis un logiciel de navigation hypertexte qui ne fonctionnera jamais.

1987 Hypercard logiciel d'Apple utilisant les Hypertextes est lancé.

Mars 1989 Tim Berners-Lee du CERN publie l'article « Hypertexte et le CERN »

Octobre 1991 Le premier Web fonctionne au CERN en mode texte et sous NExT Step avec le premier navigateur intitulé World Wide Web. Cette première version de navigateur sur ce système d'exploitation confidentiel mais ô ! combien en avance sur son temps, comprenait également une partie éditeur HTML Wysiwyg.

Janvier 1993 Il existe une cinquantaine de serveurs http dans le monde. Le CERN lance la version alpha du premier browser graphique pour Xwindows et Macintosh.

Février 1993 Marc Andreessen édite la première version du browser Mosaic par le NCSA. Elle fonctionne sous Xwindows UNIX.

Octobre 1993 NCSA lance la première version des browsers Mosaic sous Macintosh et PC Windows.

Mars 1993 Andreessen et Clark (le fondateur de Silicon Graphics) s'unissent pour développer Netscape.

Juillet 1993 Le Cern et le MIT puis l'INRIA créent le WWW Consortium pour guider à la normalisation du Web.

Octobre 1994 Netscape est lancé en beta test sur PC, Macintosh et XWindows.

Février 1995 4 millions d'utilisateurs de Netscape. 75% des browsers sont des Netscape.

Mai 1995 Microsoft annonce la distribution de Spry, un autre browser sur les versions de Windows 95.

Novembre 1995 Netscape sort la version 2.03b de son logiciel, qui devient opérationnelle, supporte les News, le courrier (envoi et lecture) et supporte le langage JAVA.

Décembre 1995 Microsoft lance sa version Internet Explorer 2.0

Mars 1996 Microsoft annonce que la version d'Internet Explorer 3.0 supportera Java, JavaScript, les liens OLE2, les Frames. La guerre Microsoft-Netscape est déclarée.

Octobre 1996 La guerre Internet Explorer 3.0 contre Netscape 3.0 fait rage. Microsoft à grand renfort d'annonces sur sa technologie Active X se rapproche à grands pas de la technologie Netcape One.

Décembre 1996 Tout le monde ne parle plus que des versions Netscape 4 et de Office 97, qui transforment votre PC en un navigateur. On pense que les systèmes d'exploitation de demain seront à base de navigateur. Les machines Java arrivent. On oublie juste que les utilisateurs ne suivent plus, ne chargent plus les dernières versions qui font plusieurs dizaines de méga octets et que les sociétés en sont encore à Windows 3.11.

Septembre 1997 Le Web est stabilisé dans sa technologie du moins provisoirement. La loi anti-trust américaine demande à Microsoft de retirer son navigateur des versions Windows 98.

Octobre 1997 Suite à l'arrêt des Chroniques de Cyberie, l'un des Web de contenu les plus anciens dans le monde francophone,  plusieurs centaines de sites  ferment leur porte pendant une semaine. 2500 signatures marquent la première grève du Web, elle est partie de France.

Janvier 1998 Netscape annonce que les versions de son Navigateur sont toutes libres d'utilisation. Netscape compte sur la communauté des développeurs en fournissant les sources de son navigateur. Netscape licencie en même temps 400 personnes. Personne ne souligne encore la nouvelle donne d'Internet dans l'économie de la fabrication des logiciels. La grande déferlante des logiciels contributifs changera-t-elle les donnes de l'économie informatique de demain?


HautHautSuivantSommaireRechercheFenêtreGlossaireNouveauBientôtCourrierSouscriptionAideCopyright