Menu Content/Inhalt
Revue des outils de recueil et des métriques d'utilisabilité Imprimer Envoyer
Jeudi, 13 Mars 2008 10:00
Article 2 de la série L’automatisation dans les analyses ergonomiques
Les progrès réalisés dans les outils de tracking ont permis d’accroître les informations collectées au cours du parcours web des utilisateurs, en se libérant de la charge de travail requise par les techniques ergonomiques traditionnelles. Une fois cette somme de donnée rendue disponible, des métriques ont été proposées afin de les analyser, dont certaines visant à évaluer la qualité ergonomique de l’interface considérée.

Cet article passe en revue les outils de collecte existant et les métriques développées pour exploiter leurs données.

Techniques de recueil de données

Avant de traiter des métriques, il est indispensable de préciser les données sur lesquelles elles s’appuient. Ces données sont caractérisées ci-dessous selon deux axes. Le premier concerne les solutions techniques développées par les outils de Web Analytics. Le second traite ensuite les techniques ergonomiques potentiellement visées par l’automatisation.

Le principe de base des outils de Web Analytics est de recueillir des traces de la navigation des utilisateurs sur le site web. Plusieurs techniques sont utilisées, avec chacune ses forces et faiblesses, parfois de manière complémentaire :

  • Utilisation des logs serveurs : chaque fois qu’un utilisateur clic sur un lien hypertexte menant à une nouvelle page, une requête est envoyée au serveur du site, qui renvoie les pages demandées. Les logs serveurs sont les fichiers dans lesquels une trace est gardée de toutes ces requêtes. Quand un cookie est déposé sur l’ordinateur de l’utilisateur, cette information est renvoyée avec chaque requête au serveur et donc enregistrée dans les logs. En analysant ces fichiers logs, il est alors possible de retracer les pages visitées par chaque personne et le temps écoulé entre deux requêtes. Cette technique est très utilisée car elle présente l’avantage d’être très facile à mettre en œuvre, simplement en configurant le serveur, et qu’un format a même été défini (http://www.w3.org/TR/WD-logfile). Par contre, tout ce qu’il se passe entre ces deux requêtes aux serveurs reste invisible (notamment les clics dans la page). De plus, la navigation dans les pages déjà visitées et gardées dans le cache du navigateur ne nécessite pas de requête et reste également invisible.
  • Utilisation de tags : un tag est un fragment de code qui est inséré dans les pages du site web à tracer. Ce tag contient ou appelle le programme, souvent sous la forme de fonctions java scripts, qui se charge de recueillir, mettre en forme et transmettre les données. Cette technologie est également très utilisée, éventuellement en conjonction avec la première, car elle présente l’intérêt de permettre le recueil de données beaucoup plus riche sur la navigation intra page (incluant par exemple les clics souris, des captures d’écran, etc.). Par contre, cette solution nécessite des moyens beaucoup plus sophistiqués qui prennent en compte les différents navigateurs et technologies web (flash posant par exemple des problèmes particuliers). De plus, il est nécessaire de disposer d’un serveur dédié à la réception des données, souvent celui de la société de Web Analytics qui fournit le code, pour recueillir et conserver les données afin de fournir les rapports mis en formes.
  • Utilisation d’un proxy : un serveur (proxy) se glisse entre le client et le serveur pour intercepter les interactions. Ainsi les liens sur lesquels peut cliquer l’utilisateur sont modifiés pour que la requête n’aille pas sur serveur du site mais arrive sur le serveur proxy. Le proxy enregistre alors la demande, la transmet au serveur du site, récupère la page en réponse, change les liens dans la page et la renvoie au navigateur de l’utilisateur. Un des problèmes est cependant de s’assurer qu’aucune requête n’échappe au proxy pour aller directement sur le serveur du site, auquel cas le contact est rompu. Cette solution n’est semble-t-il pas utilisée dans les offres commerciales et se limite à des réalisations universitaires (Hong and Landay 2001) dont une permet également d’ajouter un tag dans la page interceptée (Atterer, Wnukand Schmidt, 2006).

Certaines techniques ergonomiques « traditionnelles », supposant l’accompagnement d’utilisateurs par un ergonome, ont également été transposées dans des modalités de recueil automatique. Cela permet leur déploiement à plus grande échelle, ce qui est nécessaire pour obtenir des données quantitatives fiables. Le lecteur pourra se référer à une revue systématique de l’automatisation des techniques d’évaluation de l’utilisabilité (Ivory and Hearst 2001). Ce passage de l’homme à la machine amène cependant des discussions sur la qualité des données recueillies. S’il existe de nombreuses techniques et variantes, il est possible de citer :

  • Les observations : Les observations directes permettent d’obtenir des données très détaillées (notamment par l’utilisation d’un enregistrement vidéo). Par contre obtenir des données quantitatives suppose un codage systématique, qui implique un effort rédhibitoire quand il s’agit d’atteindre un volume de données significatif.
  • Le recueil des verbalisations : Un entretien menés par un ergonome expérimenté au cour, ou après une activité donnée permet d’obtenir des verbalisations renseignant sur l’état d’esprit, les interprétations et les attentes qu’avait l’utilisateur au cours d’une difficulté constatée. Selon la compétence de l’interviewer, c’est le moyen le plus précis et fiable permettant de qualifier l’écart entre l’information proposée par le site web et les attentes de l’utilisateur. Les entretiens plus directifs n’offrent quand à eux pas la même souplesse mais peuvent être automatisés par des questionnaires en ligne, même si l’absence d’un accompagnateur peut avoir des conséquences sur le résultat des données. De plus, les questions fermées permettent également un traitement automatisé de ce type de données, qu’il s’agisse d’échelles graduées (Likert scale) ou de formats plus évolués (voir une comparaison par Tullis and Stetson, 2004).
  • La passation de test : En scénarisant l’interaction entre l’utilisateur et le site web, c'est-à-dire en proposant à l’utilisateur de réaliser des tâches données, il est possible d’obtenir des données de type quantitatives. En effet la confrontation avec un objectif ciblé permet de définir un critère de réussite ou d’échec et la durée de l’essai. La significativité de la mesure dépend alors de la taille de l’échantillon sur laquelle porte la mesure. Pour augmenter cet échantillon, la méthode d’automatisation la plus simple consiste à amener l’utilisateur sur le site à tester et à lui présenter une consigne. La réussite peut être évaluée par exemple par une question sur l’information à trouver (Tullis, Fleischman, McNuly, Cianchette and Bergel, 2002 ; West and Lehmna, 2006) ou par l’emploi conjoint de méthode de tracking permettant de détecter le passage de l’utilisateur sur la page où se trouve l’information. Ces techniques d’automatisation permettent également de collecter les retours d’utilisateurs sous forme de questionnaires d’évaluation et/ou de commentaires libres (e.g. West and Lehmna op.cit.). Si ces techniques d’automatisation permettent d’augmenter la taille de l’échantillon testé, il faut néanmoins garder en tête que la qualité de ces données dépend bien évidemment du cadre écologique des scénarios et de la situation de test. Si ceux-ci sont trop éloignés des situations réelles d’utilisation, les mesures établies perdent de leur pertinence.

Au-delà de la définition « technique » des données recueillies, les conditions de leur capture prend également une importance considérable. D’un coté, les techniques de Web Analytics s’intéressent généralement au trafic réel, ce qui permet d’éviter d’éventuel biais dû à un protocole ou à des conditions d’observation. Cependant, elles ne permettent pas d’obtenir plus d’information sur l’origine, les habitudes ou l’état d’esprit de l’utilisateur que ce qu’il est possible d’inférer du croisement de son adresse IP, de la présence de cookies, des pages visitées, etc. (en n’oubliant pas que le croisement de données amène des contraintes légales, encadrées en France par la CNIL). D’un autre coté, les études ergonomiques d’interfaces impliquent généralement un recrutement et l’intrusion de l’ergonome dans leur activité. Si cela peut amener des biais éventuels dans l’activité observée (qui différerait de l’activité en situation réelle) la définition du protocole détaillant les modalités de recrutement et de passation offre également un moyen de délimiter et de qualifier l’activité qui sera observée, et donc mesurée. Il est alors possible de jouer sur des facteurs tels que la constitution du panel, les zones et fonctionnalités de l’interface explorées (induites par les tâches choisies) pour contrôler le domaine de l’activité sur lesquelles portent les mesures. En outre, l’utilisation d’un cadre de test offre un facteur supplémentaire déterminant. En effet, la proposition aux utilisateurs de tâches à réaliser permet d’inférer leurs objectifs lors de l’observation et de l’analyse de leurs parcours.

Métriques existantes

Chaque métrique d’utilisabilité recensée ci-dessous est caractérisée par rapport aux données utilisées, parmi celles détaillées plus haut, mais aussi par rapport à leur objectif principal. Leur principales forces et faiblesses sont également présentées.

Métrique globale d’utilisabilité : le taux de conversion

Dans le standard proposé récemment par la Web Analytics Association (WAA) qui définie 26 métriques web, le taux de conversion est celui qui peut être appliqué le plus immédiatement à une problématique d’utilisabilité. Un taux de conversion se définit comme la proportion d’utilisateurs réalisant un objectif donné, comme par exemple arriver à la page de validation d’un achat. Cette métrique, proposée en standard par les outils de Web Analytics est facile à utiliser. Il suffit de définir comme critère de réussite la détection de la visite de la page donnée, information fournie par les différentes techniques de tracking. En raison de sa nature synthétique, le taux de conversion peut également être très facilement intégré dans des processus décisionnels de l’entreprise.

Sa principale limitation est bien sur que si un utilisateur n’accomplit pas l’objectif, ce n’est pas forcement parce qu’il en a été empêché mais peut être tout simplement parce que cela ne l’intéressait pas. Au final, les taux de conversion doivent être utilisés avec grandes précautions. L’hypothèse que la quantification des pertes constitue une mesure de l’utilisabilité ne semble réaliste que dans les cas bien précis où le taux est mesuré par rapport à une population entamant une procédure nécessitant une motivation certaine. Par exemple, des pertes excessives dans le « tunnel d’achat », la série de questionnaire à remplir pour valider un achat en ligne, peut effectivement indiquer des problèmes d’utilisabilité.

Les métriques de performance

L’utilisation de données recueillies lors de la réalisation de tâches dotées d’objectifs précis permet de mesurer la performance des utilisateurs et donc de la performance du site, dans la limite de la significativité de l’échantillon. L’intérêt est tout d’abord que l’orientation de l’activité donnée par la consigne, pour peu que le protocole ait été préparé et validé avec soin, permet d’inférer raisonnablement que les échecs à la tâche sont bien dus à des difficultés d’utilisation du site web. De plus, ces métriques permettent de localiser les problèmes d’utilisabilité. Il est en effet possible de différentier et de comparer le niveau de réussite selon les tâches et les groupes d’utilisateurs recrutés. La mise en place du protocole permet donc d’adapter la métrique pour couvrir les objectifs principaux et la population cible du site web.

Une métrique de performance couramment utilisée (West et Lehman, op.cit. ; Tullis et al., op. cit. ; jeng 2005) s’inspire de la définition de l’utilisabilité par la norme ISO 9241 (1998). Elle intègre différentes composantes, basées sur les types de données qu’il est possible de recueillir lors des tests :

  • Pour l’efficacité, le taux de réussite de chaque tâche = le nombre d’utilisateurs ayant réussi (selon un critère défini comme le passage sur une page donnée et/ou la réponse à une question) par rapport au nombre total d’utilisateurs.
  • Pour l’efficience, le temps nécessaire moyen pour réaliser la tâche (ce qui suppose une norme pour la comparaison)
  • Pour la satisfaction, une mesure obtenue à partir d’un questionnaire de satisfaction.

Des propositions ont également été faites pour agréger ces indicateurs, ainsi que d’autre dans une métrique unique (Sauro et Kindlund, 2005). Cela permet de définir un indicateur synthétique destiné par exemple à comparer des solutions au cours d’un benchmark, mais qui repose sur le choix des métriques retenues et des poids relatifs qui leurs sont associés.

Les « micro-métriques »

Pour aller plus loin dans l’identification des problèmes d’utilisabilité il est nécessaire d’obtenir des informations plus riches que les mesures de performances, qui ne qualifient que le parcours d’une tâche dans sa globalité.

Une première possibilité est d’utiliser les verbalisations des utilisateurs à propos des difficultés rencontrées (questionnaire en ligne). Cette solution présente néanmoins deux inconvénients. Tout d’abord il est nécessaire d’analyser les données à la main ce qui représente un effort important et limite les possibilités et l’exhaustivité d’une quantification. Mais le problème principal est que la verbalisation libre des utilisateurs est souvent en décalage important avec leurs actions, même réalisée quelques minutes auparavant.

Une seconde possibilité est d’utiliser des données fines sur le comportement des utilisateurs, telles que celles fournies par les techniques de Web Analytics, dans le but d’inférer la présence de problème d’utilisabilité. Par contre, les données recueillies de manière automatique ne constituent pas immédiatement une mesure révélatrice du comportement. Il est alors nécessaire d’effectuer un travail d’analyse et de recouper ces données avec des connaissances du site évalué ou liées au cadre de test.

Les patterns suivant sont citées comme permettant d’identifier des difficultés d’utilisation :

  • Ratio de sortie élevé (nombre d’utilisateur sortant à cet endroit / nombre de visite) pour des pages ne présentant pas la destination problème des utilisateurs.
  • Plusieurs utilisations successives d’un moteur de recherche.
  • Dans un cadre de performance, la visite de pages s’écartant de l’objectif peut indiquer des problèmes de guidage du site.
  • Faible utilisation d’éléments de navigation lors de l’analyse des nuages de clics sur une page, ce qui peut indiquer des problèmes de visibilité ou de compréhension.

Conclusion

Il existe effectivement une variété d’outils et de techniques permettant de définir des métriques touchant à l’utilisabilité. Les données très riches que peuvent fournir les techniques de Web Analytiques ne doivent pas masquer la nécessité d’effectuer un travail de paramétrage et d’analyse avant de pouvoir inférer des conclusions en termes d’utilisabilité. L’automatisation des techniques de passation de test fournie des mesures de performance également intéressantes. A nouveau, leur pertinence repose sur le travail de préparation du protocole, notamment en ce qui concerne le recrutement et la définition des tâches. Finalement, la combinaison des techniques de recueil de données fines, de type Web Analytics, et l’utilisation d’un cadre de passation de test fournit la solution la plus complète pour mettre en place une métrique de performance de l’utilisabilité d’un site web [1].

A partir de cet état des lieux, le prochain article s’attachera à préciser la définition d’une métrique dédiée spécifiquement à mesurer l’utilisabilité d’un site web. Il creusera également les prérequis et les limites d’une telle métrique.

Bibliographie

Atterer, R., Wnuk, M., and Schmidt, A. (2006). Knowing the user's every move: user activity tracking for website usability evaluation and implicit interaction. In Proceedings of the 15th International Conference on World Wide Web (Edinburgh, Scotland, May 23 - 26, 2006). WWW '06. ACM Press, New York, NY, 203-212.

Hong, J. I. and Landay, J. A. (2001). "WebQuilt: A Framework for Capturing and Visualizing the Web Experience." In Proceedings of The Tenth International World Wide Web Conference (WWW10), Hong Kong, May 2001, pp. 717-724

ISO 9241-11:1998, Exigences ergonomiques pour travail de bureau avec terminaux à écrans de visualisation (TEV) – Partie 11: lignes directrices relatives à l’utilisabilité.

Ivory, M. Y. and Hearst, M. A . (2001). "The State of the Art in Automated Usability Evaluation of User Interfaces." In ACM Computing Surveys, 33(4), December 2001, pp. 1-47

Jeng, J (2005). “Usability Assessment of Academic Digital Libraries: Effectiveness, Efficiency, Satisfaction, and Learnability,” Libri 55 (2005): 96–121,
http://www.librijournal.org/pdf/2005-2-3pp96-121.pdf

Sauro, J. and Kindlund, E. (2005). A method to standardize usability metrics into a single score. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (Portland, Oregon, USA, April 02 - 07, 2005). CHI '05. ACM, New York, NY, 401-409

Tullis, T. S., Fleischman, S., McNulty, M., Cianchette, C., and Bergel, M. (2002) An Empirical Comparison of Lab and Remote Usability Testing of Web Sites. Usability Professionals Association Conference, July 2002, Orlando, FL.
http://home.comcast.net/%7Etomtullis/publications/RemoteVsLab.pdf

Tullis, Thomas S., and Stetson, Jacqueline N. (2004). “A Comparison of Questionnaires for Assessing Website Usability,” Juin 7, 2004.
http://home.comcast.net/%7Etomtullis/publications/UPA2004TullisStetson.pdf

West, R. and Lehman, K. 2006. Automated summative usability studies: an empirical evaluation. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (Montréal, Québec, Canada, April 22 - 27, 2006). R. Grinter, T. Rodden, P. Aoki, E. Cutrell, R. Jeffries, and G. Olson, Eds. CHI '06. ACM, New York, NY
[1]  La combinaison d'un cadre de test avec tâches, pour définir des taux de performance, et d'outils de type Web Analytics, pour établir finement les problèmes rencontrés, est l'approche qui a été choisie à Yuseo pour développer son outil d'étude quantitative.
 
designed by made your web.com