{"id":4106,"date":"2013-02-04T00:01:14","date_gmt":"2013-02-03T23:01:14","guid":{"rendered":"http:\/\/sciencetonnante.wordpress.com\/?p=4106"},"modified":"2024-07-23T22:19:01","modified_gmt":"2024-07-23T20:19:01","slug":"pourquoi-moby-dick-est-un-livre-exceptionnel-et-autres-enseignements-de-la-litterature-numerique","status":"publish","type":"post","link":"https:\/\/scienceetonnante.com\/blog\/2013\/02\/04\/pourquoi-moby-dick-est-un-livre-exceptionnel-et-autres-enseignements-de-la-litterature-numerique\/","title":{"rendered":"Pourquoi Moby Dick est un livre exceptionnel (et autres enseignements de la litt\u00e9rature num\u00e9rique&#8230;)"},"content":{"rendered":"<p style=\"text-align: justify;\"><img decoding=\"async\" class=\"aligncenter wp-image-4116 size-full lazyload\" data-src=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/02\/moby-dick-rockwell-kent-illus.jpg\" alt=\"\" width=\"300\" height=\"171\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 300px; --smush-placeholder-aspect-ratio: 300\/171;\" \/>Le livre <em>Moby Dick<\/em>, publi\u00e9 par Hermann Melville en 1851, ne connut semble-t-il qu&rsquo;un succ\u00e8s modeste lors de sa premi\u00e8re parution. Ce n&rsquo;est qu&rsquo;apr\u00e8s la Premi\u00e8re Guerre mondiale &#8211; et plus de 20 ans apr\u00e8s la mort de Melville &#8211; que le livre fut finalement acclam\u00e9 par le public et la critique.<\/p>\n<p style=\"text-align: justify;\">Moby Dick fait partie aujourd&rsquo;hui des \u0153uvres majeures de la litt\u00e9rature anglo-saxonne, et est consid\u00e9r\u00e9 comme un livre unique, \u00e0 la langue et au style bien particulier. L&rsquo;alliance de la num\u00e9risation massive des livres et des techniques d&rsquo;analyse de donn\u00e9es permet aujourd&rsquo;hui de comprendre pourquoi.<!--more--><\/p>\n<h3 style=\"text-align: justify;\">La densit\u00e9 de vocabulaire<\/h3>\n<p style=\"text-align: justify;\">C&rsquo;est une \u00e9vidence, tous les livres ne contiennent pas la m\u00eame quantit\u00e9 de vocabulaire : on se doute bien qu&rsquo;il y a plus de mots diff\u00e9rents dans <em>Les Mis\u00e9rables<\/em> et que dans <em>Tchoupi va sur le pot.<\/em> Et pourtant jusqu&rsquo;\u00e0 une \u00e9poque r\u00e9cente, il \u00e9tait assez difficile de quantifier pr\u00e9cis\u00e9ment la richesse de vocabulaire d&rsquo;une oeuvre. Aujourd&rsquo;hui, rien de plus simple avec la num\u00e9risation des livres !<\/p>\n<p style=\"text-align: justify;\">C&rsquo;est ce qu&rsquo;a voulu calculer le chercheur\/artiste Zack Booth Simpson. Pour cela <strong>il s&rsquo;est servi des livres num\u00e9ris\u00e9s du Projet Gutenberg et a compt\u00e9 pour chacun d&rsquo;eux le nombre total de mots, et le nombre de mots diff\u00e9rents<\/strong>, c&rsquo;est-\u00e0-dire la taille de son vocabulaire. Parmi les livres faisant partie de l&rsquo;\u00e9chantillon (et en excluant les dictionnaires), le plus riche est <em>Histoire de la d\u00e9cadence et de la chute de l&rsquo;Empire romain<\/em>, publi\u00e9 par l&rsquo;historien Edward Gibbon \u00e0 la fin du XVIII\u00e8me si\u00e8cle, avec 43 113 mots de vocabulaire diff\u00e9rents !<\/p>\n<p style=\"text-align: justify;\">Toutefois il y a un biais : le livre de Gibbon comporte 6 volumes et plus d&rsquo;un million et demi de mots ! Pour avoir une mesure plus pertinente, il faut diviser par le nombre total de mots : on a ainsi une mesure de la <strong>densit\u00e9 de vocabulaire<\/strong>. Et l\u00e0, on trouve que le livre le plus dense est &#8230; Moby Dick ! Avec 17 227 mots diff\u00e9rents pour un total de 211 763, cela signifie que Melville introduit un nouveau mot quasiment \u00e0 chaque ligne ! Zack Booth Simpson pr\u00e9cise d&rsquo;ailleurs <a href=\"http:\/\/www.mine-control.com\/zack\/guttenberg\/index.html\" target=\"_blank\" rel=\"noopener\">sur sa page<\/a> que c&rsquo;est la lecture de Moby Dick qui lui a donn\u00e9 l&rsquo;envie de faire cette analyse. Ci-dessous un petit graphique que j&rsquo;ai fait \u00e0 partir des donn\u00e9es publi\u00e9es sur sa page.<\/p>\n<p style=\"text-align: justify;\"><img decoding=\"async\" class=\"aligncenter wp-image-4111 size-full lazyload\" data-src=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/02\/densitecc81_vocabulaire.png\" alt=\"\" width=\"549\" height=\"340\" data-srcset=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/02\/densitecc81_vocabulaire.png 549w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/02\/densitecc81_vocabulaire-300x186.png 300w\" data-sizes=\"(max-width: 549px) 100vw, 549px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 549px; --smush-placeholder-aspect-ratio: 549\/340;\" \/><\/p>\n<p style=\"text-align: justify;\">On peut aussi regarder \u00e0 l&rsquo;autre bout de l&rsquo;\u00e9chelle, et chercher <strong>le livre le moins dense, qui s&rsquo;av\u00e8re \u00eatre la Bible<\/strong> : 12 867 mots de vocabulaire pour 790 126 mots au total, soit une densit\u00e9 5 fois plus faible que Moby Dick.<\/p>\n<h3 style=\"text-align: justify;\">Une carte de l&rsquo;univers des livres<\/h3>\n<p style=\"text-align: justify;\"><img decoding=\"async\" class=\"aligncenter wp-image-4107 size-full lazyload\" data-src=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/02\/melville_cluster.png\" alt=\"\" width=\"498\" height=\"397\" data-srcset=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/02\/melville_cluster.png 498w, https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/02\/melville_cluster-300x239.png 300w\" data-sizes=\"(max-width: 498px) 100vw, 498px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 498px; --smush-placeholder-aspect-ratio: 498\/397;\" \/>Plus r\u00e9cemment, le linguiste Matthew Jockers a port\u00e9 l&rsquo;analyse beaucoup plus loin. En partant d&rsquo;une base de donn\u00e9es de 3600 livres num\u00e9ris\u00e9s, il a pour chaque livre calcul\u00e9 pr\u00e8s de 500 caract\u00e9ristiques diff\u00e9rentes bas\u00e9es sur le vocabulaire, mais aussi la ponctuation, les th\u00e8mes trait\u00e9s, etc. L&rsquo;ensemble de ces caract\u00e9ristiques d\u00e9finissent des coordonn\u00e9es pour les livres, et <strong>on peut alors calculer la distance entre 2 livres dans cet immense espace<\/strong>.<\/p>\n<p style=\"text-align: justify;\">L&rsquo;image ci-contre montre une repr\u00e9sentation de cette carte des ouvrages, dans laquelle deux points sont d&rsquo;autant plus proches que les livres se ressemblent. <strong>Le petit agr\u00e9gat isol\u00e9 dans le coin sup\u00e9rieur gauche repr\u00e9sente les \u0153uvres de Melville<\/strong> : des livres qui se ressemblent, mais ne ressemblent \u00e0 aucun autre !<\/p>\n<p style=\"text-align: justify;\">En utilisant le m\u00eame jeu de donn\u00e9es (qui, pr\u00e9cisons-le, ne comporte que des livres du XVIIIe et XIXe), Jockers a montr\u00e9 qu&rsquo;on pouvait assez facilement deviner si un livre avait \u00e9t\u00e9 \u00e9crit par un homme ou une femme : les livres d&rsquo;hommes ont tendance a \u00eatre bien s\u00e9par\u00e9s de ceux des femmes sur la carte.<\/p>\n<p style=\"text-align: justify;\">Enfin il a \u00e9galement \u00e9tudi\u00e9 les relations d&rsquo;influence (repr\u00e9sent\u00e9es par les lignes sur son diagramme), et conclut que les deux auteurs les plus influents et les plus originaux \u00e9taient Walter Scott (qui a \u00e9crit entre autres <em>Ivanhoe<\/em>) et Jane Austen (auteur d&rsquo;<em>Orgueil et pr\u00e9jug\u00e9s<\/em>).<\/p>\n<h3 style=\"text-align: justify;\">Mots rares et mots fr\u00e9quents<\/h3>\n<p style=\"text-align: justify;\">Pour aller plus loin qu&rsquo;un simple comptage, quand on analyse le vocabulaire d&rsquo;un livre, <strong>on peut se demander quels sont les mots qui reviennent souvent<\/strong>. Ca n&rsquo;est pas forc\u00e9ment passionnant car on va trouver in\u00e9vitablement des mots comme \u00ab\u00a0le\u00a0\u00bb, \u00ab\u00a0et\u00a0\u00bb ou \u00ab\u00a0il\u00a0\u00bb. Ce qui est plus int\u00e9ressant, c&rsquo;est de se demander <strong>ceux qui reviennent <em>anormalement<\/em> souvent<\/strong> par rapport \u00e0 leur fr\u00e9quence habituelle dans le langage. C&rsquo;est ce qu&rsquo;a fait Zach Booth Simpson : dans le cas de Moby Dick, il a trouv\u00e9 que les mots anormalement fr\u00e9quents \u00e9taient <em>whale<\/em>, <em>harpooneer <\/em>et<em> sperm<\/em> (pour ceux qui s&rsquo;imaginent qu&rsquo;il y a du porno dans Moby Dick, sachez que \u00ab\u00a0cachalot\u00a0\u00bb se dit \u00ab\u00a0sperm whale\u00a0\u00bb en anglais).<\/p>\n<p style=\"text-align: justify;\">Pour la Bible, les mots anormalement fr\u00e9quents sont <em>lord, israel, shall, god, moses, jesus, david, offering, tabernacle. <\/em>Pour <em>le Manifeste du Parti communiste<\/em> de Marx et Engels, il s&rsquo;agit de <em><i>bourgeois, proletariat, communists<\/i>.<\/em> Bon, vous allez me dire : rien de bien \u00e9tonnant dans tout \u00e7a !<\/p>\n<p style=\"text-align: justify;\">Ce qui est plus intriguant : <strong>les mots anormalement rares<\/strong>. Ce sont des mots qui apparaissent avec une fr\u00e9quence trop faible dans un livre, par rapport \u00e0 sa fr\u00e9quence habituelle dans les autres livres. Pour Moby Dick, on a <i>fortune, happiness, smiled, angry, enemies<\/i>, pour la Bible <i>girl, boy, school, success, condition, listen, princess, <\/i>et pour le Manifeste\u00a0<i><i>said, love, why, heart, mother, poor, felt<\/i><\/i>. Amusant, non ? La liste plus compl\u00e8te sur la page de <a href=\"http:\/\/www.mine-control.com\/zack\/guttenberg\/index.html\" target=\"_blank\" rel=\"noopener\">Zach Booth Simpson<\/a>. Son analyse est assez ancienne, je me demande si on peut en faire une version mise \u00e0 jour avec des oeuvres plus r\u00e9centes ! En attendant, je pense que je vais abandonner l&rsquo;id\u00e9e de lire Moby Dick en version originale&#8230;<\/p>\n<h3 style=\"text-align: justify;\"><em>Pour aller plus loin&#8230;<\/em><\/h3>\n<p style=\"text-align: justify;\"><em>Si vous voulez aller plus loin, commencez par aller voir <a href=\"http:\/\/lasaineportfolio.blogspot.com\/2007\/10\/moby-dick.html\" target=\"_blank\" rel=\"noopener\">les sublimes dessins de Paul Lasaine<\/a> sur Moby Dick. Il raconte sur sa page que Dreamworks a un temps envisag\u00e9 d&rsquo;en faire un film d&rsquo;animation, et qu&rsquo;il a pr\u00e9par\u00e9 ces dessins \u00e0 cette fin. D&rsquo;habitude je suis peu regardant quand j&rsquo;ai besoin d&rsquo;images pour mes billets, mais l\u00e0 c&rsquo;est trop beau et le respect d\u00fb \u00e0 l&rsquo;artiste m&rsquo;interdit un brutal copier\/coller.<\/em><\/p>\n<p style=\"text-align: justify;\"><em><img decoding=\"async\" class=\"aligncenter wp-image-4118 size-full lazyload\" data-src=\"https:\/\/scienceetonnante.com\/blog\/wp-content\/uploads\/2013\/02\/moby_dick_zipf.gif\" alt=\"\" width=\"300\" height=\"286\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 300px; --smush-placeholder-aspect-ratio: 300\/286;\" \/><\/em><em>Ensuite concernant le travail de Matthew Jockers, j&rsquo;aimerai bien pouvoir creuser, mais malheureusement c&rsquo;est pour l&rsquo;instant impossible : il semble que plut\u00f4t que de passer par le processus habituel de publication dans des revues scientifiques, Jockers ait choisi de pr\u00e9senter ses analyses d&rsquo;abord dans la presse grand public (<a href=\"http:\/\/www.nbcnews.com\/technology\/futureoftech\/data-mining-classics-makes-beautiful-science-954577\" target=\"_blank\" rel=\"noopener\">ici<\/a> pour NBC) pour annoncer un livre \u00e0 para\u00eetre en 2013 et intitul\u00e9 Macroanalysis: Digital Methods and Literary History. J&rsquo;ai tendance \u00e0 \u00eatre m\u00e9fiant avec ce genre de proc\u00e9d\u00e9 pour faire conna\u00eetre des travaux scientifiques ! <\/em><\/p>\n<p style=\"text-align: justify;\"><em>Enfin pour ceux qui se poseraient la question, oui Moby Dick suit bien <a href=\"http:\/\/webinet.cafe-sciences.org\/articles\/zipf-law\/\" target=\"_blank\" rel=\"noopener\">la loi de Zipf <\/a>! (ci-contre). Quant \u00e0 la loi qui relie la taille du vocabulaire \u00e0 la taille totale du texte, elle est connue empiriquement sous le nom de loi de Heaps, et s&rsquo;exprime comme \\(V = k n^{\\beta}\\) o\u00f9 V est la taille du vocabulaire, n la taille du texte, k est un coefficient qui vaut typiquement entre 10 et 100, et l&rsquo;exposant \\(\\beta\\) est proche de 1\/2.<br \/>\n<\/em><\/p>\n<p style=\"text-align: justify;\"><em>Pour les vraiment motiv\u00e9s : <a href=\"http:\/\/www.ualberta.ca\/~baayen\/publications\/baayenCUPstats.pdf\" target=\"_blank\" rel=\"noopener\">analyse de donn\u00e9es linguistiques avec R<\/a>.<\/em><\/p>\n<p style=\"text-align: justify;\"><em><a href=\"http:\/\/www.mine-control.com\/zack\/index.html\" target=\"_blank\" rel=\"noopener\">La page de Zach Booth Simpson<\/a> est assez \u00e9tonnante : il s&rsquo;agit d&rsquo;un programmeur de jeux vid\u00e9os, pass\u00e9 \u00e0 l&rsquo;art et \u00e0 la science. Un des rares cas de gens qui finissent par publier dans les revues scientifiques en arrivant de l&rsquo;ext\u00e9rieur du s\u00e9rail !<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Le livre Moby Dick, publi\u00e9 par Hermann Melville en 1851, ne connut semble-t-il qu&rsquo;un succ\u00e8s modeste lors de sa premi\u00e8re parution. Ce n&rsquo;est qu&rsquo;apr\u00e8s la Premi\u00e8re Guerre mondiale &#8211; et plus de 20 ans apr\u00e8s la mort de Melville &#8211; que le livre fut finalement acclam\u00e9 par le public et la critique. Moby Dick fait<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[11],"tags":[84,69,33],"class_list":{"0":"post-4106","1":"post","2":"type-post","3":"status-publish","4":"format-standard","6":"category-sciences-sociales","7":"tag-art","8":"tag-langage","9":"tag-statistiques"},"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"post_mailing_queue_ids":[],"_links":{"self":[{"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/posts\/4106","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/comments?post=4106"}],"version-history":[{"count":4,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/posts\/4106\/revisions"}],"predecessor-version":[{"id":9810,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/posts\/4106\/revisions\/9810"}],"wp:attachment":[{"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/media?parent=4106"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/categories?post=4106"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/tags?post=4106"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}