Evaluer la charge de travail en UX research : retour d’expérience sur le NASA-TLX

Yannick Daviaux 15 janvier 2021

On vous propose aujourd’hui un retour d’expérience sur un questionnaire visant à évaluer la charge de travail. Il est simple, rapide, et éprouvé dans de nombreux secteurs de l’industrie : le NASA-TLX (NASA task load index).

La définition de la charge de travail étant sujette à controverses et discussions¹. Nous l’accepterons ici comme « le résultat de la mise en relation entre les exigences d’une tâche à un moment donné (contraintes) et les conséquences de cette tâche (astreintes) se répercutant sur l’organisme »². Les dimensions cognitives et physiques sont vues comme des sous-composantes de la charge de travail.

Pourquoi caractériser la charge de travail en UX ?

Caractériser la charge de travail associée à un produit, une interface, ou un service trouve son intérêt dans différents contextes. Lors d’une démarche de création, d’optimisation, ou de refonte, par exemple. Cette caractérisation permet d’identifier des éléments à fort impact sur l’utilisabilité (au sens de la norme ISO 9241-11³). Pour cela, on la croise avec des retours verbaux d’utilisateur et des marqueurs de la performance (ex. taux de réussite).

Quelle approche pour caractériser la charge de travail en UX ?

Il serait tentant d’utiliser des indicateurs physiologiques (ex. dilatation de la pupille) pour évaluer la charge de travail. De même pour la biomécanique (ex. niveau d’activation musculaire). En effet, l’alliance de la technologie et de l’affichage de signaux sur un écran rassure par son fort pouvoir marketing. Mais outre le coût des outils associés, l’expertise et le temps nécessaires à leur analyse en font des approches lourdes. Cela semble peu compatible avec une réelle utilisation efficiente en UX.

Aussi, la précision utile à la création ou la refonte d’un projet concernent souvent la tâche globale. Les outils subjectifs tels que les questionnaires restent des investissements temps/résultats judicieux. Le questionnaire NASA-TLX fait partie de ces outils.

Retour d’expérience sur le NASA-TLX

Pour ceux qui désireraient tout connaître du NASA-TLX, nous vous invitons à consulter ce bel article de vulgarisation⁴. Pour les autres, retenez que le NASA-TLX est un questionnaire composé de 6 composantes de la charge de travail. Celles-ci sont : la demande mentale, demande physique, demande temporelle, de performance auto-estimée, d’effort, et de frustration. Chaque item est présenté sous forme d’échelles allant de « faible » à « élevé ». Soit 21 graduations non numérotées, se traduisant en notes allant de 0 à 20.

Et de manière pratique, que peut-on dire de ce questionnaire ?

Passation

La méthode d’origine prévoit une passation en 2 étapes. Il est possible de s’affranchir de l’étape de pondération (voir le paragraphe “analyse”).

Auto-évaluation

Suite à la phase de pondération, les utilisateurs positionnent un trait ou une croix sur les graduations pour autoévaluer leur ressenti. Cette étape est répétée après chaque tâche (ou séquence de tâches) réalisée. Le temps total de remplissage excède rarement 2 minutes, mais il faut retenir quelques points de vigilance :

1) les utilisateurs doivent placer leurs traits / croix sur les graduations, et non pas entre les graduations. Le risque ? revenir à une échelle de 20 points (et donc un score allant de 0 à 19) ;

2) l’item « demande temporelle » est souvent mal compris. En re-qualifiant à l’oral par « pression temporelle » pour aboutir aux objectifs, les utilisateurs n’ont plus de doute et répondent facilement ;

3) l’item « effort » est souvent mal compris, car perçu comme redondant par rapport aux items « demande mentale / demande physique / demande temporelle ». Il convient d’indiquer que cet item correspond à une sensation générale pour faciliter la compréhension ;

4) les utilisateurs font souvent l’erreur de coter les bonnes performances autoévaluées en plaçant leurs traits vers l’extrémité droite de l’échelle. Une explication à ça ? De manière contre-intuitive, l’échelle est construite de gauche à droite d’un « 0 » pour « bonne performance » vers un « 20 » pour « mauvaise performance ». Et ce n’est pas une erreur de construction d’échelle ! En effet, du point de vue de la charge cognitive, les labels des extrémités droites correspondent tous à des charges de travail élevées. Soyez donc vigilants et assurez-vous que vos utilisateurs ont bien intégré cette subtilité.

Pondération

Les items sont présentés par couple : le participant doit indiquer lequel des 2 items prévaut dans son ressenti de la charge de travail associée à la tâche. Prenons un exemple pour une partie d’échecs. Le premier couple présenté sera “demande mentale vs demande physique”. L’utilisateur doit indiquer si la charge de travail ressentie lors de la partie d’échecs était plutôt associée à la demande mentale ou à l’effort physique. Une petite idée non ? Oui, sauf que c’est beaucoup moins intuitif si l’on s’intéresse au pilotage d’une Formule 1 ! D’où l’intérêt de cette phase.

On répète ensuite le même procédé pour chaque couple d’items possible : “demande mentale vs demande temporelle”, puis “demande mentale vs performance auto-estimée”, et ainsi de suite. Au total, l’utilisateur effectue 15 comparaisons. Cette phase permettra de pondérer les scores de chaque item lors de la phase d’analyse.

Il est à noter que dans la version originale, la pondération s’effectuait après l’autoévaluation par dimension. On trouve depuis des références indiquant un ordre inverse. On vous laisse vous faire votre avis !

Analyse

Si vous ne faites pas passer le questionnaire sur un ordinateur (ou tablette/smartphone), vous devrez relever vous-même les scores des échelles respectives sur les questionnaires papier. Une astuce pour gagner du temps : imprimez les questionnaires avec des échelles de 20 cm de long. Vous n’aurez qu’à vous servir d’un double décimètre pour relever les scores pointés par les utilisateurs, au lieu de compter les graduations. Un questionnaire est ainsi analysé en 1 minute, en minimisant les erreurs (et en diminuant la charge de travail 😅).

Qu’en est-il des scores obtenus pour chaque item : faut-il les additionner ? Les moyenner ? Les retenir indépendamment ? Deux éléments de réponse :

La phase de pondération décrite précédemment permet d’allouer un poids à chaque item. Ce poids peut-être considéré 1) comme un moyen de prioriser les items les uns par rapport aux autres lorsque les items sont interprétés indépendamment, ou 2) comme un moyen de pondérer les scores obtenus par item dans le calcul d’une valeur globale de charge de travail. Dans ce second cas, le score global additionne les scores des items respectivement multipliés par leur poids (le nombre de fois où l’item a été choisi comme celui le plus approprié à décrire la charge de travail associée à la tâche). Le nombre total est divisé par la somme des poids (15) pour aboutir à un score sur 20 puis multiplié par 5 pour aboutir à un score sur 100.

Également, il a été rapporté que les 6 items étaient corrélés entre eux⁵, ce qui laisse penser l’auteur de l’analyse que les 6 items mesurent probablement un même processus sous-jacent. Bien qu’il s’agisse donc de rester prudent et jusqu’à preuve du contraire, il est possible d’utiliser les items indépendamment et sans pondération (gain de temps et facilité d’analyse), en vue de l’interprétation des résultats.

L’astuce pour le relevé des réponses dans la version papier du protocole 🙂

Interprétation

Il n’existe pas aujourd’hui de valeur seuil à partir de laquelle il est possible d’affirmer qu’une tâche induit une charge de travail trop élevée. En conséquence, il conviendra de coupler les résultats chiffrés avec les verbatims et les marqueurs de performance pour qu’ils nourrissent la réflexion autour de la charge de travail.

Par exemple :

De manière intuitive, si le score au NASA-TLX est élevé et associé à une mauvaise performance à la tâche. Une piste pourrait être de réduire la charge de travail à la tâche pour tendre vers une meilleure performance;
inversement, si le score au NASA-TLX est bas et associé à une mauvaise performance à la tâche, une piste pourrait être de complexifier la tâche pour élever la charge de travail et atteindre de meilleurs niveaux d’engagement à la tâche.

Il s’agit aussi de se rappeler qu’un tel score trouve un intérêt dans les campagnes d’A/B testing : bien qu’on ne soit pas capable d’affirmer si les projets A et B sont trop / ne sont pas assez impactant en termes de charge, on est capable de dire si l’un l’est plus que l’autre en comparant les scores.

Une piste pour dépasser la difficulté liée à l’inexistence actuelle d’une valeur seuil serait de comparer la tâche à explorer avec une condition de référence. Cela reviendrait à un A-B testing, où A serait une tâche de référence et B la tâche à évaluer.

Pour finir

La majorité des points soulevés précédemment peuvent être dépassés en appliquant le test sur tablette / smartphone / ordinateur. Cependant, il a été montré que les versions papier et digitale ne rapportent pas strictement les mêmes résultats. Veillez donc à conserver les mêmes méthodes de mesures entre les utilisateurs, entre les tâches, et entre les sessions de tests !

Côté AKIANI, nous utilisons ce questionnaire depuis maintenant pas mal de temps, en particulier dans nos activités de neuroergonomie (ex. pour l’entrainement cognitif chez les e-sportifs) mais aussi en UX (ex. pour la conception d’interfaces pour le véhicule autonome).

Alors, vous tentez le coup ?

Références

1 – Laussu, J. (2018). Charge de travail et ergonomie : histoire et mobilisation d’une notion. Revue des conditions de travail.

2 – Leplat, J. (1977). Les facteurs déterminant la charge de travail : rapport introductif. Le Travail Humain, 40:2.

3 – www.iso.org/fr/standard/63500.html

4 – measuringu.com/nasa-tlx/

5 – Hart, SG (2006). NASA-Task Load Index (NASA-TLX); 20 years later. Human Factors and Ergonomics Society Annual Meeting Proceedings, 5:9

Précédent Risques et défis dans l’environnement de travail à distance

Suivant Le Legal Design : entre clarté et transparence

Yannick Daviaux

Docteur en Sciences et Techniques des Activités Physiques et Sportives, Yannick est spécialiste des mesures témoignant des interactions entre l’Homme et son environnement. Son approche inspirée des neurosciences, de la physiologie et la biomécanique offre une pluridisciplinarité permettant à l’agence de traiter les projets avec une approche intégrative visant une meilleure compréhension des facteurs humains associés aux performances motrices, cognitives et émotionnelles.