L'Analyse par tableaux

I – Principes

de Michel Lemaire

professeur retraité de l'Université d'Ottawa (Canada)

 

bullet

L'Entrée du texte

bullet

Le Signalement du corpus

bullet

L'Extraction des données

bullet

L'Annotation du texte

bullet

L'Interprétation

bullet

L'Exemple de Boule de suif

 

     La méthode d'analyse de texte proposée ici consiste à placer un texte dans un tableau informatique afin de l'annoter et de tirer des déductions de ces annotations. Le texte est donc décomposé en unités constituantes qui sont placées chacune dans une cellule d'une même colonne. Cette colonne de texte est ensuite entourée de colonnes de signalements, de colonnes d'extractions et de colonnes de déductions. Ce tableau peut être créé dans différents logiciels courants: des traitements de texte comme Word mais surtout des tableurs comme Excel, logiciels qui fourniront des facilités de traitement et des instruments d'analyse beaucoup plus diversifiés. Je prendrai ici mes exemples dans Excel 2003, je dois dire cependant que j'ai commencé à réfléchir sur cette méthodologie il y a déjà plusieurs années à partir de tableaux créés dans le logiciel de traitement de texte WordPerfect. Le premier intérêt de cette méthode est de permettre de travailler à partir de logiciels courants et connus; j'engage donc le lecteur à transposer les indications pratiques que je donnerai ci-dessous, afin de les adapter au programme dans lequel il travaille habituellement.

    Les traitements de textes et les tableurs sont généralement des outils familiers à l'usager de l'ordinateur et constituent peut-être par là, des intermédiaires, des médiateurs, moins intimidants, moins distanciants que les programmes d'analyse de texte spécialisés. Les capacités des logiciels de traitement de texte, comme Word, dans la manipulation des corpus, dépassent largement leur utilisation courante de machine à dactylographier perfectionnée. Et les tableurs, comme Excel, peuvent opérer sur des textes tout aussi bien que sur des nombres. Par opposition avec les logiciels spécialisés, l'avantage du tableur, dans les procédures que je vais illustrer, est de garantir, par la transparence des manipulations, un contact constant avec le texte étudié. Lorsqu'il est placé dans une «feuille» Excel, le corpus peut être manipulé en toute liberté, à la convenance et selon les besoins du chercheur. Celui-ci peut l'annoter, le découper, en extraire des éléments significatifs; il peut effectuer des requêtes, afficher des concordances; il peut aussi, à partir des éléments du texte comme à partir de ses annotations, produire des statistiques et des graphiques. Le tableur constitue ainsi un instrument d'assistance à l'analyse littéraire, facile d'accès et remarquablement productif, voilà du moins ce que je vais tenter de démontrer.

 

bullet

I - L'Entrée du texte

    La première étape de cette méthode d'analyse de texte consiste à entrer le corpus dans une feuille Excel. On doit d'abord s'assurer de disposer d'une version numérique du texte à analyser qui soit fiable, normalisée et nettoyée. Premier principe qui me paraît incontournable pour réaliser l'analyse d'un texte littéraire donné: il faut partir d'une version reconnue et complète de ce texte. Or les oeuvres littéraires offertes sur l'Internet ne présentent pas toujours ces garanties, il est donc nécessaire de vérifier avant toute chose la qualité du texte sur lequel on travaillera. Les études statistiques portant sur de vastes corpus peuvent peut-être se permettre d'être moins exigeantes sur ce point, mais l'étude littéraire d'une oeuvre unique doit se baser sur un texte sûr.

    Ce texte de base, recueilli par exemple dans Word ou dans un autre traitement de texte, sera ensuite normalisé, c'est-à-dire que sa graphie, sa ponctuation et sa présentation seront standardisées afin de prévenir les erreurs résultant de divergences à ces niveaux. Par exemple, les guillemets seront unifiés, les majuscules accentuées ou les lettres liées systématisées dans un sens ou dans l'autre. Si le texte de base est sérieux, cette étape devrait être franchie facilement.

    Enfin le texte de base sera nettoyé, c'est-à-dire débarrassé de tous les éléments paratextuels qui n'entreront pas dans l'analyse à venir. Ainsi les titres, sous-titres, dédicaces, exergues seront effacés. De même, tous les blancs entre les paragraphes, les chapitres et ailleurs, seront supprimés. Evidemment, ce nettoyage dépendra du type de texte sur lequel on travaille ainsi que du type d'analyse qu'on entend effectuer. Je ne prétends pas ici qu'un titre ne fait pas partie d'un texte; il peut, au contraire, être extrêmement significatif, mais, en général, on l'exclura des analyses que nous allons envisager. Pour les manipulations futures, je conseille cependant de conserver, à cette étape, les titres de section, de chapitre, de poème, ou les mentions d'acte, de scène et de personnage dans une pièce de théâtre.

    Le texte de base ainsi nettoyé est alors placé dans une feuille Excel. Cette entrée du texte se réalise de manière relativement aisée puisqu'elle est à peu près automatisée dans Excel, ceci dépendant toutefois du type de texte. On distinguera les textes en vers et les textes en prose. Dans le cas d'un texte en vers – recueil de poème, pièce de théâtre -, il suffit de faire un copier-coller du texte complet (Ctrl+A, Ctrl+C dans Word, puis Ctrl+V dans la feuille Excel): chaque vers se place alors dans une cellule de la première colonne de la feuille. On adapte la largeur de la colonne à la longueur des vers, et le tour est joué.

    Dans le cas d'un texte en prose, on divisera d'abord le texte en unités identifiables par le logiciel. Je crois que la phrase représente une unité d'analyse extrêmement riche dans le cadre de cette méthode. Bien sûr, la phrase est un concept qui prête à discussion, mais pas plus que le concept de mot. Et les disputes autour du concept de mot n'ont pas empêché l'analyse statistique du texte littéraire de réaliser des études éclairantes sur cette base. Si on définit sommairement la phrase comme un groupe de mots délimité par un point, un point d'exclamation ou un point d'interrogation (1), on commencera par réaliser, dans Word, trois recherches-remplacements successives: remplacer tous les points suivis d'un espace par un point suivi d'un retour de chariot (touche Entrée), tous les points d'interrogation par un point d'interrogation suivi d'un retour et tous les points d'exclamation par un point d'exclamation suivi d'un retour (on effectuera par la suite, «à la main», dans Excel, les corrections nécessaires). Un copier-coller placera ce texte modifié dans la feuille Excel. Je conseillerais enfin d'agrandir cette colonne de texte à la largeur d'un tiers d'écran environ.

 

bullet

II – Le Signalement du corpus

    La deuxième étape consiste à identifier et à localiser les unités constituantes du corpus qui forment la colonne texte. Ce signalement individuel de chaque unité permettra par la suite d'identifier ou de retrouver n'importe quelle unité textuelle malgré les bouleversements qui pourront être apportés dans le corpus à travers le processus d'analyse. Pour ce faire, je préconise de créer trois colonnes (ou plus) avant la colonne texte: un clic droit de la souris dans l'en-tête de la colonne ouvre un menu contextuel où l'on clique sur la commande «Insertion» (procédure que l'on répète le nombre de fois nécessaire).

    La première colonne ainsi créée servira à la numérotation des unités textuelles: ainsi une sélection d'unités copiée dans une autre feuille conservera des numéros d'ordre qui permettront de toujours les situer. Pour créer cette colonne, il suffit de taper les chiffres 1, 2, 3, dans les premières cellules, puis de «saisir» avec la souris la «poignée de recopie» (le petit carré noir dans le coin inférieur droit de la cellule «3»): le curseur se transforme de croix blanche en croix noire, on descend cette croix noire jusqu'à la fin du texte. Ce type de remplissage automatique est une fonctionnalité d'Excel qui pourra être utilisée de diverses manières dans les manipulations d'un corpus. Toutefois, avant de remplir cette première colonne, je conseille de s'occuper d'abord des colonnes 2 et 3.

    Les colonnes 2 et 3 (et plus si nécessaire) serviront à identifier la section et les sous-sections auxquelles appartient chaque unité textuelle. Dans le cas d'un vers, ce sera le titre de la partie du recueil et le titre du poème, par exemple. Dans le cas d'un roman, le titre de la partie et le titre ou le numéro du chapitre. Si on n'a pas effacé ces indications à l'étape de nettoyage du texte, le remplissage de ces colonnes se réalisera comme suit. On fait un couper-coller de l'information pertinente encore contenue dans la colonne texte pour la déplacer dans la colonne choisie au niveau de la première unité de cette section ou sous-section. Puis on saisit la poignée de recopie afin de répéter l'information jusqu'au niveau de la dernière unité de cette section.

    Le cas d'une pièce de théâtre sera plus complexe mais portera des fruits potentiels plus nombreux. Dans la colonne 2, on placera le numéro de l'acte et le numéro de la scène (par exemple: «I-1» ou «V-3»). Dans la colonne 3, le nom du personnage qui prend la parole. Malgré les poignées de recopie, ceci pourra constituer une tâche assez longue, mais la colonne ainsi constituée permettra, par exemple, d'extraire d'une pièce toutes les interventions d'un protagoniste.

    Ce travail laissera des lignes blanches dans la feuille. On peut choisir de les conserver afin de mieux distinguer visuellement les sections du corpus. On peut choisir de les effacer, ce qui facilitera certaines manipulations subséquentes. Si on les supprime, le remplissage de la colonne de numérotation qui arrive maintenant, ne comptera pas de lignes blanches, ce qui peut paraître plus pertinent. Toutefois, cette numérotation des unités n'a pas pour but d'en faire la somme, ce qui peut se faire plus facilement autrement, mais de fournir à chaque unité un identifiant numérique. On en arrive ainsi à une colonne texte ne contenant plus que le texte à analyser lui-même.

    Voici maintenant une illustration de ce travail, à l'étape où nous sommes arrivés, avec une mise en tableau des Fleurs du mal de Charles Baudelaire (2).

Figure 1. Début des Fleurs du mal.

On remarquera que j'ai attribué un titre à chaque colonne; ceci est indispensable pour les filtres que nous utiliserons par la suite. La colonne «Section» est ici vide puisque que le poème «Au lecteur» précède la première partie du recueil «Spleen et idéal».

    Le travail de signalement qui vient d'être produit aurait pu l'être d'autres manières sans avoir à utiliser une feuille Excel. Par exemple en plaçant des «étiquettes» à l'intérieur même du texte en format Word ou RTF. Effectivement, mais l'étiquetage du texte n'est ni l'objectif ni l'intérêt premier de la méthode que je présente. Disons simplement ici que l'étiquetage à l'aide de colonnes Excel me paraît plus rapide et plus aisé que par d'autres méthodes.

 

bullet

III – L'Extraction des données

    Avec cette troisième étape, nous arrivons au coeur de la méthode proposée et ce qui en fait, il me semble, l'originalité. A droite de la colonne texte, nous allons créer un nombre variable de colonnes qui contiendront ce que le chercheur veut bien y mettre en fonction des besoins de sa recherche. Autrement dit, ces colonnes pourront contenir à peu près n'importe quoi, du moment que le contenu de chacune répond à des critères d'homogénéité. Le chercheur ne sera donc pas limité par l'utilisation d'un jeu d'étiquettes prédéfini ou entravé par la nécessité de suivre un code rigide et impitoyable.

    Je distinguerai deux grandes catégories de contenus: les extractions et les annotations. On pourra d'abord créer une ou des colonnes contenant des extraits du corpus. Ces extraits seront textuels ou interprétés. Les extraits textuels pourront être le résultat de copier-coller successifs ou produits directement par Excel en fonction d'une formule préétablie. Par exemple, on peut demander à Excel de constituer une colonne contenant le premier mot de chaque cellule de la colonne texte. Les extraits interprétés, plus originaux, seront le résultat de la lecture du texte par le chercheur.

    Si je désire, par exemple, identifier la présence d'un personnage dans un roman, je ne peux me contenter de demander à l'ordinateur d'extraire du corpus toutes les mentions du nom du personnage ou toutes les phrases contenant le pronom «il» (s'il est de sexe masculin): les «il» peuvent renvoyer à toutes sortes de personnes ou de choses, le personnage peut être présent sans être identifié par son nom (s'il en possède un). En fait, le romancier peut référer à son personnage par son nom, par un pronom personnel, par des expressions faisant référence à la situation narrative (l'autre, le dernier, celui-ci, etc.), mais surtout par un nombre infini de métaphores ou de métonymies. Le père Goriot sera ainsi Monsieur Goriot, le père, le vermicellier, le bonhomme, le vieillard… La seule manière de reconnaître toutes ces occurrences du personnage est une lecture humaine du texte. Dans notre tableau, une colonne «Goriot» contiendra soit une simple marque (un «X» ou plutôt le chiffre «1» qui permettra de faire des calculs) indiquant la présence du personnage, soit l'identifiant du personnage dans cette phrase; le choix se faisant en fonction des besoins futurs de la recherche.

    Je tiens à m'arrêter ici sur ce point qui est primordial pour comprendre la méthode que je propose: le contenu original de ces colonnes n'est pas le résultat d'une extraction plus ou moins sophistiquée confiée à l'ordinateur, il est le résultat d'une interprétation du texte par le chercheur. L'ordinateur n'est pas utilisé ici pour fournir des données mais simplement pour enregistrer dans un format pratique des données issues d'une lecture humaine.

    La démarche suggérée est le contre-pied de ce que l'on demande habituellement à l'ordinateur: il ne s'agit pas de fournir à la machine des données et des procédures dans l'espoir qu'elle régurgite des réponses «objectives», des chiffres en particulier, mais essentiellement de faciliter l'entrée de données «subjectives». Cependant, le rôle de la machine deviendra par la suite plus important puisque le tableau ainsi créé non seulement aura permis un déchiffrement du corpus systématique et rigoureux, mais, dans une étape subséquente, constituera l'espace de manipulation de ces données. A première vue, ce retournement peut paraître un renoncement aux capacités de calcul énormes de l'ordinateur. Je proposerai toutefois le paradoxe suivant: que fait-on, en recherche littéraire du moins, des résultats d'un calcul informatique: on les soumet au jugement du chercheur ou du public. Si ces résultats correspondent au jugement des gens cultivés, on considère la procédure valable, sinon, on en essaie une autre. L'ordinateur confirme une lecture, il ne sait toujours pas lire. Ainsi, trop souvent, en recherche littéraire assistée par ordinateur, la machine accouche d'une souris.

    Afin d'illustrer ce processus d'extraction des données, je vais prendre l'exemple simple d'une étude de la comparaison dans les Fleurs du mal. Plus précisément, je restreindrai ici ma recherche à l'utilisation des comparaisons dont la charnière est le mot-outil «comme». Je vais donc d'abord demander à Excel d'extraire du corpus tous les vers contenant «comme»: menu «Données», commande «Filtrer», choisir «Filtre automatique». Excel place dans la cellule titre de chaque colonne une icône contenant un petit triangle bleu, un clic sur ce triangle dans la colonne texte affiche une liste de possibilités dans laquelle on choisit «Personnalisé». La boîte de dialogue qui s'ouvre alors offre plusieurs choix intéressants: les premiers concernent les données chiffrées, mais on découvre ensuite: «commence par», «se termine par» et «contient», ainsi que leurs négatifs, qui permettent de traiter des données textuelles. Après avoir sélectionné «contient», on entre le mot recherché (ici «comme») et on clic sur «OK» pour obtenir la sélection ainsi filtrée.

Figure 2. Début de la concordance de «comme».

 

    Je ferai remarquer, avant d'aller plus loin, que cette boîte de dialogue offre aussi la possibilité de rechercher deux suites de signes liées par les opérateurs «Et» ou «Ou». Et que l'on peut utiliser les «jokers» astérisque et point d'interrogation. Les sélections permises sont donc très diverses. On obtient ainsi une «concordance» de tous les vers des Fleurs du mal contenant le mot «comme» (que l'on s'empressera de copier sur une autre feuille). Le fait que le corpus est filtré est indiqué dans Excel par la mise en bleu du triangle de l'icône de filtre et de la numérotation automatique des lignes (à l'extrême gauche du tableau). Pour faire réapparaître la totalité du corpus, on n'a qu'à répéter la procédure de filtre en choisissant «Tous» dans la liste déroulante.

 

bullet

IV – L'Annotation du texte

    La liste de vers contenant «comme» aurait pu être obtenue par un logiciel de concordance, mais non la suite de ce travail. Excel est en effet un instrument extrêmement flexible et diversifié, mais surtout, il offre des colonnes vierges dans lesquelles le chercheur pourra ajouter toutes les sélections ou annotations qu'il souhaite, tout en conservant constamment sous les yeux le corpus à l'étude. Cette liste de «comme» contient, à côté des «comme» de comparaison, des «comme» qui peuvent avoir d'autres sens; il faudra donc effectuer un filtrage supplémentaire. De plus, cette liste de vers ne nous dit pas ce qui est comparé d'un côté et de l'autre des «comme» de comparaison, quel est le «comparant», quel est le «comparé». Cela, même pour une recherche sur une figure aussi simple que la comparaison, l'ordinateur ne peut nous le dire, puisqu'il ne sait toujours pas lire, c'est-à-dire comprendre le texte.

    Le chercheur doit donc intervenir pour lire le texte filtré, éliminer les «comme» non comparatifs et déterminer les comparants et les comparés. La liste fournie par Excel permet de restreindre cette analyse à cette sélection (quoique souvent la comparaison débordera sur deux ou trois vers, le chercheur devra donc retourner au texte complet, conservé sur une première feuille d'Excel; la relation entre les deux feuilles se faisant grâce à la numérotation des vers). On créera donc une nouvelle colonne, à droite de celle contenant les «comme», pour recueillir les résultats de l'analyse humaine. Ces données découleront d'une interprétation personnelle, discutable donc, mais permettront d'extraire du texte des informations qui se situent au-delà de son simple lexique. Prenons par exemple la première comparaison des Fleurs du mal:

Et nous alimentons nos aimables remords,
Comme les mendiants nourrissent leur vermine.

On a affaire ici en fait à une double comparaison: le «nous» est comparé à des «mendiants» et les «remords» sont comparés à de la «vermine». La seconde comparaison est plus simple, mais comment l'ordinateur aurait-il pu relier le «plaisir» et l'«orange»?

Nous volons au passage un plaisir clandestin
Que nous pressons bien fort comme une vieille orange.

Figure 3. Comparés et comparants.



    Pour aller plus loin dans l'étude des comparaisons, on pourra ensuite décider de distinguer les comparants et les comparés ainsi déterminés et de les trier. Excel sera capable de créer de telles listes à partir de la colonne «humaine» intitulée ici «Comparaison». Cette colonne a en effet été remplie par le chercheur selon son bon vouloir mais en suivant une règle stricte: chaque cellule contient le comparé puis le mot «comme» et enfin le comparant. Dans la boîte de dialogue du filtre personnalisé, la commande «contient» et le contenu «je * comme», par exemple, permettront d'obtenir la liste de tous les comparants du comparé «je». Ou voici la liste des comparaisons impliquant le «remords».

Figure 4. Les Comparaisons du remords.

 

    Excel permettra ensuite de présenter ces résultats sous forme de tableaux plus ou moins élaborés. Ainsi le tableau ci-dessous oppose les comparaisons concernant le poète et celles concernant la femme (plus précisément les «je» se rapportant au locuteur masculin d'une part, et, d'autre part, les «elle» et les «tu» reliés à la femme en plus du mot «femme» lui-même).

Figure 5. Lui et elle.

 

bullet

V- L'Interprétation

    Excel offre ainsi la possibilité, par un jeu d'extractions, de déductions, de filtres et de tris (menu «Données», commande «Trier»), de progresser systématiquement dans la réflexion sur le corpus choisi. Ce faisant, on prendra soin de multiplier les colonnes, afin de conserver à chacune un contenu cohérent, et de multiplier les feuilles, afin de conserver la trace de toutes les étapes de l'analyse. Lorsque le contenu d'une feuille devient trop large pour l'écran (ce qui arrive rapidement lorsque les colonnes contiennent du texte), Excel permet de n'afficher que certaines sections de la feuille grâce à la commande «Figer les volets» du menu «Fenêtre» (pour réafficher l'ensemble de la feuille, retourner au menu «Fenêtre», la commande «Figer» est devenue «Libérer les volets»).

    A cette étape, Excel propose de nombreux outils pour chiffrer les résultats de ce travail, que ce soit au niveau des extractions ou des annotations. L'instrument de calcul le plus simple est la commande «Somme automatique». On peut ainsi mesurer l'évolution d'un phénomène en comptant ses occurrences dans chaque section et sous-section du corpus (bouton «Somme automatique» et commande «Sous-totaux» du menu «Données»). La commande «Somme automatique» permet d'additionner des données chiffrées (par un clic sur l'icône Sigma); cependant, un clic sur le triangle à droite du symbole Sigma ouvre une liste déroulante qui offre les choix suivants: «Somme, Moyenne, Compteur, Maximum, Minimum» (le «Compteur» donne le nombre d'occurrences d'une donnée, qu'elle soit numérique ou non). La manière la plus aisée d'utiliser ces fonctions est de sélectionner la plage sur laquelle on désire que porte le calcul: le résultat apparaît en bas à droite dans la «barre d'état»; d'un clic droit sur ce résultat (ou dans la zone, si elle est vide) on sélectionne une autre des options de la commande «Somme automatique».

    On peut demander à Excel de compter les cellules non vides d'une plage (fonction NBVAL); on obtient ainsi le nombre de marques qu'on a placées dans une colonne d'annotation. On peut aussi lui demander de compter le nombre d'entrées distinctes dans une plage ou de créer un tableau présentant la liste et le nombre de chaque entrée distincte dans une plage ou une colonne. Pour donner un exemple simple, la formule «=nbval(d2:d100)» me donnera le nombre de cellules que j'ai remplies dans la colonne D entre les lignes 2 et 100; si cette plage contient des marques de l'apparition de tel personnage dans tel chapitre, j'ai obtenu le nombre de phrases où il est présent; je mettrai ensuite ce nombre en relation avec le total des phrases du chapitre.

    Je conseillerais de reporter ensuite les chiffres obtenus sur une autre feuille, afin de les transformer en pourcentages et d'en tirer un graphique. Excel permet de transformer tout tableau chiffré en graphiques de différents types (menu «Insertion», commande «Graphique»). Il permet aussi d'adapter la présentation visuelle de ces données et de la «coloriser». Voici par exemple l'histogramme présentant l'évolution des occurrences des comparaisons dans les Fleurs du mal (il s'agit du pourcentage de vers de chaque section contenant un «comme» de comparaison; le résultat ici n'a rien de bien excitant).

Figure 6. Les Comparaisons dans les Fleurs du mal.


 

    Excel fournit enfin un certain nombre de fonctions statistiques plus sophistiquées. Celles-ci n'apparaissent pas dans les menus après une installation standard du programme. On doit donc les activer avant de pouvoir les utiliser. Pour ce faire, on se rend dans le menu «Outils» pour ouvrir la boîte «Macros complémentaires»; dans la liste, on choisit «Utilitaire d'analyse». La commande «Utilitaire d'analyse» se place à la fin du menu «Outils»; elle ouvre une liste déroulante qui va de l'«analyse de variance» au «test de la différence significative minimale (z-test)» où l'on pige d'après ses besoins et ses connaissances.

 

bullet

VI – L'Exemple de Boule de suif

    Pour faire la synthèse de la méthode qui vient d'être proposée, en donner une illustration différente qui aidera peut-être à clarifier les choses, et en arriver à la phase des déductions finales, je vais étudier le mouvement des personnages dans Boule de suif de Guy de Maupassant. On se souviendra que cette longue nouvelle a été publiée dans le recueil collectif des Soirées de Médan en 1880. Maupassant y peint un groupe de personnages (représentant les différentes classes de la société) qui quittent la ville de Rouen en diligence, durant la guerre de 1870. Nous avons donc affaire à un huis-clos: comme dans une pièce de théâtre, les personnages sont enfermés les uns avec les autres (ici dans une diligence puis dans une auberge). Il est toujours intéressant, dans un tel cas, d'analyser l'évolution des relations entre les personnages, leurs «mouvements» réciproques, ce que j'ai appelé la danse des personnages.

    Pour atteindre cet objectif, une fois le texte vérifié et nettoyé, j'ai cherché quel était le personnage sujet de chaque phrase. J'entends, pour les besoins de cette recherche, «sujet» au sens de sujet grammatical, d'acteur principal ou de propos de la phrase. J'ai donc constitué une liste de tous les personnages du corpus, liste à laquelle j'ai ajouté les étiquettes «Singulier» et «Pluriel» pour les phrases ne concernant pas un personnage spécifique. Dans la catégorie «Voyageurs» (tous les passagers de la diligence), j'ai ensuite distingué des phrases «Voyageurs» et «Voyageurs - Boule de suif» (signe négatif: sans Boule de suif), lorsque ma réflexion sur le texte m'a amené à distinguer dans le groupe des voyageurs le sous-groupe qui s'est formé face à Boule de suif. Sujet, dans le sens où je l'utilise ici, n'est bien sûr pas un concept défini avec une grande rigueur théorique. Mais l'important pour la méthode est uniquement que l'utilisation qui en sera faite soit systématique et productive. Par exemple, toutes les phrases ci-dessous seront placées sous l'étiquette «Sujet: Boule de suif»:

La femme, une de celles appelées galantes, était célèbre par son embonpoint précoce qui lui avait valu le surnom de Boule de suif.
Elle était de plus, disait-on, pleine de qualités inappréciables.
Boule de suif, à plusieurs reprises, se pencha comme si elle cherchait quelque chose sous ses jupons.
J'avais ma maison pleine de provisions, et j'aimais mieux nourrir quelques soldats que m'expatrier je ne sais où.
Il a fallu me cacher après ça.
Il veut coucher avec moi! cria-t-elle.
La grosse fille avait un enfant élevé chez des paysans d'Yvetot.

Inversement, les phrases suivantes, contenant le même sujet grammatical «On», seront placées sous des étiquettes différentes:

On lui était reconnaissant de ce sentiment; puis on pouvait, un jour ou l'autre, avoir besoin de sa protection. > Pluriel.
On partit. > Voyageurs.
Cependant on n'attelait pas la voiture. > Singulier.

    Voici le début de la mise en tableau de Boule de suif, avec les premières catégorisations «Sujet».

Figure 7. Les Sujets dans Boule de suif.

 

    Excel fournit de l'aide pour remplir une colonne avec une série d'annotations personnelles: la saisie semi-automatique. D'une part, Excel «devine» (en fonction des entrées précédentes) le mot qu'on est en train de dactylographier et fait une proposition d'après les premières lettres tapées; selon les cas, cette aide peut accélérer le travail (il suffit de passer à la cellule suivante dès que le mot désiré s'affiche) ou peut au contraire faire perdre du temps en détournant l'attention. D'autre part, Excel constitue la liste des entrées précédentes de la colonne en cours, et permet de choisir dans cette liste plutôt que de retaper un mot ou une phrase: il suffit de faire un clic droit dans la cellule à remplir puis de choisir, dans le menu contextuel qui s'est ouvert, la commande «Liste déroulante de choix»; on sélectionne alors l'entrée désirée.

    Cette liste déroulante me paraît particulièrement utile non seulement parce qu'elle accélère l'entrée des données mais surtout parce qu'elle assure des entrées standardisées et systématiques. En effet, pour que les colonnes d'annotations puissent être traitées ensuite par le programme, elles doivent constituer des ensembles cohérents. L'avantage de la méthode proposée est la complète liberté du chercheur dans la constitution de ses jeux d'étiquettes, il n'empêche que, pour être productives, ces étiquettes doivent être standardisées (c'est-à-dire toujours semblables à elles-mêmes; par exemple, on ne peut référer à Boule de suif par «Boule» ou «BDS» ou «Personnage1» mais toujours par une étiquette exactement identique) et elles doivent être systématiques (c'est-à-dire que les étiquettes d'une colonne donnée doivent former entre elles un système, être en relation les unes avec les autres; par exemple la colonne «Personnages» ne contiendra que des noms de personnages).

    Puisque le texte ne contient pas de sections ou de chapitres, j'ai ensuite subdivisé le corpus en sections de vingt phrases, afin de distinguer l'évolution de la présence des personnages au fur et à mesure que l'histoire progresse. Puis j'ai compté les occurrences de chaque étiquette sujet dans chacune des sections. A partir de ce tableau chiffré, j'ai créé avec Excel un graphique représentant la présence de chaque sujet par une courbe. Le tableau global qui en découle est passablement confus.

Figure 8. La Danse des sujets.

 

    Toutefois, on peut demander à Excel de restreindre le graphique ainsi créé à certaines données afin de vérifier une hypothèse ou une autre. L'ordinateur permet ainsi de vérifier, de confirmer ou d'infirmer, et de chiffrer les intuitions résultant de la lecture. Regardons par exemple l'évolution des deux courbes des phrases «Singulier» et des phrases «Pluriel».

Figure 9. Singuliers et pluriels.


 

A l'examen de ces phrases, on constate que Maupassant débute sa narration en se plaçant à un niveau global: les phrases «Pluriel» présentent des groupes sociaux définis (l'armée en déroute, les soldats en haillons) ou des mouvements de population indéfinis pour lesquels le sujet «On» est bien pratique. On découvre ensuite que les phrases «Singulier» contiennent en général des descriptions ou surtout des réflexions non attribuées. Le graphique permet ainsi de vérifier que les phrases plurielles dominent au début du texte puis disparaissent tandis que les phrases singulières persistent manifestant que le narrateur, bien qu'invisible, demeure toujours présent.

    Demandons maintenant à Excel de restreindre le graphique aux courbes traduisant l'interaction entre les voyageurs de la diligence (en tant que groupe) et Boule de suif.

Figure 10. Boule de suif et les autres.


 

On découvre que les voyageurs apparaissent, après les considérations générales formées de phrases plurielles et singulières, d'abord comme un groupe indistinct. Puis Boule de suif est présentée et devient l'acteur principal: les autres voyageurs la reconnaissent, ont un mouvement de recul face à la prostituée, réaction qui ne les empêche pas de profiter de la collation qu'elle seule a songé à apporter. Le soir à l'auberge, l'officier prussien fait demander à Boule de suif de pouvoir profiter de ses faveurs; par patriotisme, celle-ci refuse. La diligence ne pourra repartir tant que l'héroïne persistera dans son refus. A partir de ce point, le groupe des voyageurs se divise nettement: d'un côté Boule de suif et de l'autre tous ces bons Français qui conspirent pour l'amener à accepter, et retrouver ainsi leur liberté. On constate clairement que les courbes «Voyageurs» et «Boule de suif» s'écrasent tandis que la courbe «Voyageurs sans Boule de suif» devient prépondérante.

    On pourrait, de cette manière, faire apparaître les courbes de tels ou tels personnages afin de vérifier leurs relations (proximité, distance, collaboration, opposition) et surtout l'évolution de ces relations au fil du texte. Certes le tableau chiffré caché en arrière de ces graphiques a été assez long à construire, mais il est devenu la source d'informations précises. Les sentiments, intuitions ou hypothèses du chercheur peuvent maintenant s'appuyer sur une description mathématique (un «modèle») du phénomène étudié. Et surtout, cette description mathématique n'est pas isolée du corpus: Excel permet un constant aller-retour entre les annotations et les graphiques d'une part et le texte lui-même d'autre part. Et c'est dans ce trajet alternatif que progresse solidement l'analyse, toujours en contact avec le texte, toujours lecture personnelle de l'oeuvre, mais étayée par une annotation méthodique et par des calculs assurés.

    Examinons, pour terminer, un dernier aspect de cette évolution des personnages dans Boule de suif. L'héroïne elle-même, que fait-elle et que devient-elle? Pour l'évaluer, concentrons-nous sur les phrases étiquetées «Boule de suif»: on demande à Excel de filtrer ces phrases et on regarde ce qui est dit, dans chacune, de Boule de suif ou l'action qu'elle réalise. Cette nouvelle lecture produit une nouvelle colonne d'annotations qui apparaît dans le tableau ci-dessous.

Figure 11. Boule de suif acteur.

Cette liste de verbes traduit l'évolution du personnage dans la nouvelle de Maupassant: au début, elle est décrite, vue de l'extérieur; puis, dans la diligence, elle se raconte, s'affirme; ensuite, face à la demande de l'officier, elle s'enferme dans une attitude de refus; enfin, elle se défait, vaincue, et l'histoire s'achève dans ses larmes.

    On a pu constater que la mise en tableau d'un texte offre une grille de travail extrêmement modulable qui permet d'en extraire des données et de l'annoter de manière ordonnée et systématique. Le tableau électronique est un instrument ouvert qui laisse le chercheur organiser sa matière comme il le désire en fonction des objectifs qu'il s'est fixés. Un tableur comme Excel offre de nombreux outils de tri et de calcul qui peuvent être adaptés à un objet textuel; je n'ai présenté ici que les plus simples. Toutefois, en deçà de ses possibilités de manipulation et de calcul, ce qui me paraît le plus porteur de résultats dans l'utilisation d'un tableur, est l'espace vierge mais structuré qu'il propose au chercheur. A première vue, cette feuille blanche réglée sur laquelle s'ouvre Excel est passablement intimidante; mais, une fois qu'on y a placé un texte à analyser, cette feuille offre, tout autour de ce texte, d'immenses marges où l'on peut inscrire les commentaires et analyses que l'on veut, avec l'assurance que toutes ces bribes s'organisent pour produire les meilleurs résultats. Ce qui a été proposé dans les pages qui précèdent, est l'utilisation d'un tableur comme instrument de lecture et d'analyse; tout instrument, toute méthode dirigent l'analyste dans une certaine direction; l'avantage du tableur est de le faire de manière structurée, tout en préservant un espace de liberté remarquable.

 

Notes

1 - Je reviendrai ailleurs sur cette définition de la phrase.

2 - Edition de 1861, texte fourni par la bibliothèque virtuelle Athena. Adresse: http://un2sg4.unige.ch/athena/html/francaut.html

 

2006

 

 

Voir dans l'Encyclopédie de l'Astrolabe:

L'Analyse par tableaux. II – Applications à la poésie

L'Analyse par tableaux. III - Applications à la prose

L'Herméneutique numérique

Visualisation scientifique et analyse de texte

WordPerfect comme instrument de recherche