
Doc(k)s & VBL
Mon intérêt pour les langues a commencé très tôt ! Je me souviens quand j’étais scolarisé à Olmetu en maternelle, avec mes frère et sœur, on nous apprenait une langue que mes parents maîtrisaient à peine.
Nous arrivions du Portugal, nous apprenions le français en même temps que mes parents. Eux aussi étaient en train d’acquérir cette langue, mais sans pouvoir compter sur l’école, juste grâce à leur effort personnel et à leur insertion professionnelle. Je me souviens que ma mère avait acheté un dictionnaire et un Bescherelle.
C’était un peu étonnant comme situation car la logique veut que les parents savent plus de choses que leurs enfants, en particulier sur le plan linguistique. Chez nous c’était le contraire, ma mère s’en remettait à nous. Elle nous disait toujours « corrigez-moi si je prononce mal ! » Nos rôles étaient inversés en quelque sorte. Cela surprenait d’ailleurs toujours mes amis quand je reprenais ma mère en public ; ils pensaient que ça ne se faisait pas, mais chez nous c’était normal. L’objectif c’était que tout le monde parle le mieux possible la langue du pays dans lequel nous vivions. D’ailleurs, à la maison nous parlions en français, ce qui est je crois est assez rare dans les familles portugaises installées en France.
Donc oui, l’intérêt pour les langues s’est développé très tôt. C’est vite devenu mon principal outil d’expression à l’adolescence : l’écriture, en français et en portugais.
Nous arrivions du Portugal, nous apprenions le français en même temps que mes parents. Eux aussi étaient en train d’acquérir cette langue, mais sans pouvoir compter sur l’école, juste grâce à leur effort personnel et à leur insertion professionnelle. Je me souviens que ma mère avait acheté un dictionnaire et un Bescherelle.
C’était un peu étonnant comme situation car la logique veut que les parents savent plus de choses que leurs enfants, en particulier sur le plan linguistique. Chez nous c’était le contraire, ma mère s’en remettait à nous. Elle nous disait toujours « corrigez-moi si je prononce mal ! » Nos rôles étaient inversés en quelque sorte. Cela surprenait d’ailleurs toujours mes amis quand je reprenais ma mère en public ; ils pensaient que ça ne se faisait pas, mais chez nous c’était normal. L’objectif c’était que tout le monde parle le mieux possible la langue du pays dans lequel nous vivions. D’ailleurs, à la maison nous parlions en français, ce qui est je crois est assez rare dans les familles portugaises installées en France.
Donc oui, l’intérêt pour les langues s’est développé très tôt. C’est vite devenu mon principal outil d’expression à l’adolescence : l’écriture, en français et en portugais.
Vous pouvez préciser votre rapport au corse ?
Quand ma famille est venue s’installer en Corse au début des années 80, je devais avoir un peu plus d’un 1 an et j’en suis reparti vers 5 ou 6 ans. On pourrait considérer que ça représente bien peu de temps, mais c’est en Corse que j’ai tous mes premiers souvenirs ! Tout ce que j'ai vécu en Corse a été fondateur. J’ai des images nettement gravées : mon village et ses ruelles escarpées, la vue sur la baie de Propriano, la neige incroyable de l’année 1986…
Et puis nous sommes repartis, cette fois pour la région parisienne ; il a fallu se réadapter. C’était dur pour moi de quitter un environnement qui me plaisait vraiment beaucoup.
C’était comme un double exil ! Le premier, je l’avais vécu nourrisson, je ne m’en souviens donc pas du tout, mais le second oui, il m’a marqué. Surtout qu’à notre arrivée en Ile-de-France, nous avions fatalement un fort accent corse qui nous a valu bien des moqueries. Cela semblait bizarre à tout le monde de voir arriver des immigrés portugais mais qui linguistiquement parlant étaient corses !
Petit, je parlais corse, m’a souvent répété mon père. Lui aussi le parlait, tout comme nos cousins de Porto-Vecchio aussi, toujours présents sur l’île. Mon père l’avait appris au travail, dans la carrière de granite des Mozziconacci. Comme il avait aussi des collègues arabes, il aimait aussi nous sortir quelques mots arabes qu’il connaissait. Il avait un rapport très ouvert aux langues, ça lui plaisait de nous surprendre à table pour nous demander du khobz (du pain) en arabe. De passage en Espagne, il travaillait son castillan pendant le voyage avec une joie non dissimulée. Ailleurs, en croisant des Italiens, il parlait avec eux en utilisant sa langue corse !
Bref, le corse est une langue que j’ai gardée un peu comme une relique familiale. Une relique que j’ai rouverte grâce à ma pratique artistique fondée initialement sur la poésie. De fil en aiguille, de l’écriture au numérique, j’ai commencé à m’intéresser de près à l’intelligence artificielle, au début comme un outil à détourner dans mes installations artistiques et puis comme un véritable levier pour enrichir la connaissance des langues.
Depuis plusieurs années, je mène un projet qui s’appelle Fabla, qui cherche à emmener un maximum d’enfants vers la lecture. L’application transforme les dessins des enfants en histoires audio. Un petit jeu qui génère chez eux une envie de lire inédite. Le ludique s’invite ainsi dans l’apprentissage de la langue.
En cela, l’IA est un outil fantastique. Mais au fil de l’eau, je me suis aussi rendu compte qu’il y avait un gros trou dans la raquette de ces modèles. Ils marginalisent encore plus les langues dites minorées, car c’est dans les langues majoritaires qu’on a le plus de données et c’est donc elles qui bénéficient en priorité des avancées technologiques.
Et puis nous sommes repartis, cette fois pour la région parisienne ; il a fallu se réadapter. C’était dur pour moi de quitter un environnement qui me plaisait vraiment beaucoup.
C’était comme un double exil ! Le premier, je l’avais vécu nourrisson, je ne m’en souviens donc pas du tout, mais le second oui, il m’a marqué. Surtout qu’à notre arrivée en Ile-de-France, nous avions fatalement un fort accent corse qui nous a valu bien des moqueries. Cela semblait bizarre à tout le monde de voir arriver des immigrés portugais mais qui linguistiquement parlant étaient corses !
Petit, je parlais corse, m’a souvent répété mon père. Lui aussi le parlait, tout comme nos cousins de Porto-Vecchio aussi, toujours présents sur l’île. Mon père l’avait appris au travail, dans la carrière de granite des Mozziconacci. Comme il avait aussi des collègues arabes, il aimait aussi nous sortir quelques mots arabes qu’il connaissait. Il avait un rapport très ouvert aux langues, ça lui plaisait de nous surprendre à table pour nous demander du khobz (du pain) en arabe. De passage en Espagne, il travaillait son castillan pendant le voyage avec une joie non dissimulée. Ailleurs, en croisant des Italiens, il parlait avec eux en utilisant sa langue corse !
Bref, le corse est une langue que j’ai gardée un peu comme une relique familiale. Une relique que j’ai rouverte grâce à ma pratique artistique fondée initialement sur la poésie. De fil en aiguille, de l’écriture au numérique, j’ai commencé à m’intéresser de près à l’intelligence artificielle, au début comme un outil à détourner dans mes installations artistiques et puis comme un véritable levier pour enrichir la connaissance des langues.
Depuis plusieurs années, je mène un projet qui s’appelle Fabla, qui cherche à emmener un maximum d’enfants vers la lecture. L’application transforme les dessins des enfants en histoires audio. Un petit jeu qui génère chez eux une envie de lire inédite. Le ludique s’invite ainsi dans l’apprentissage de la langue.
En cela, l’IA est un outil fantastique. Mais au fil de l’eau, je me suis aussi rendu compte qu’il y avait un gros trou dans la raquette de ces modèles. Ils marginalisent encore plus les langues dites minorées, car c’est dans les langues majoritaires qu’on a le plus de données et c’est donc elles qui bénéficient en priorité des avancées technologiques.
C’est ce constat qui vous a décidé à travailler sur des projets d’intelligence artificielle autour des langues minorées ?
La menace de disparition des langues n’est pas nouvelle, mais avec l’intelligence artificielle et le développement des LLM, il y a un risque d’accélération phénoménal. Même pour des langues nationales non minorées, on observe une standardisation de la langue, et donc un risque d’essentialisation. Une IA c’est forcément une essentialisation de la langue, une réduction. Si on ne fait pas l’effort de faire exister des modèles de langage plus petits, on accélère la perte de connaissance de savoir, et on amenuise les chances de pouvoir mettre en place des outils éducatifs sur les langues minorées.
Forcément je trouve ça dommage et je pense qu’il faut éviter cette standardisation. En m’intéressant de plus près au sujet, j’ai vu qu’il y avait quelques chercheurs de-ci de-là qui travaillent sur des territoires linguistiques fragiles, mais je n’ai jamais vu de projet global. Ça m’a donné envie de réveiller ou de susciter des collectifs sur ce sujet. Le studio m’aide en partie à structurer et soutenir ces démarches.
Forcément je trouve ça dommage et je pense qu’il faut éviter cette standardisation. En m’intéressant de plus près au sujet, j’ai vu qu’il y avait quelques chercheurs de-ci de-là qui travaillent sur des territoires linguistiques fragiles, mais je n’ai jamais vu de projet global. Ça m’a donné envie de réveiller ou de susciter des collectifs sur ce sujet. Le studio m’aide en partie à structurer et soutenir ces démarches.
Vous pouvez nous rappeler ce qu’est un modèle de langage, qu’on appelle aussi en anglais Large Language Model (LLM) ?
Un modèle de langage c’est un grand logiciel qui est capable de reproduire le langage humain. Grâce aux mathématiques, aux statistiques en particulier. Par exemple, pour un LLM en français, si je prononce la syllabe « pa » ; statistiquement il y a de grandes chances que « papa » soit très haut dans les statistiques tandis que « palindrome » sera beaucoup moins usité.
Par ce jeu, on arrive à reproduire les structures des langues. Cette reconstruction mathématique va de pair avec un entraînement. LLM ça signifie « Large Language model », c’est-à-dire qu’il faut énormément de données à mettre dans la casserole !
D’où le défi technique d’aller créer des LLM sur des corpus plus petits ! Il faut chercher à étoffer le corpus existant via de la traduction et de la mise à jour. Pour les langues latines, on pourrait fantasmer un grand modèle et le greffer ensuite sur des plus petits et l’adapter… comme une sorte de chirurgie musculaire qui permettrait de viabiliser un modèle de langage corse.
Il y a quelques années, bien avant ChatGPT, j’avais bricolé un petit modèle de langage à partir d’un corpus de textes de Jean de la Fontaine. Cela a donné naissance à une œuvre intitulée “Les Fabulations de la Fontaine ” avec laquelle le public peut interagir : en donnant deux noms d’animaux à une plume robotisée, le modèle s’évertue à écrire une nouvelle fable — que j’appelle fabulation — avec une morale finale.
Au début, j’arrivais à le faire écrire en alexandrins, mais cela restait approximatif. Formellement, du point de vue de la versification, c’était correct, mais en termes de sens, l’IA peinait à tenir l’histoire de A à Z. J’ai un temps trouvé un subterfuge qui consistait à traduire le français du XVIIe siècle en anglais pour générer des fables dans la langue de Shakespeare avant de les retraduire dans la langue de Molière. Les LLM anglais étant les plus travaillés, mes fables s’en trouvaient grandement améliorées.
Bien entendu, depuis l’arrivée de ChatGPT et des autres IA génératives, on arrive plus rapidement à ses fins ! Plus personne ou presque ne bâtit from scratch sa base de données pour interagir avec un modèle de langage. Le travail à fournir est laborieux : il faut collecter les données, les labelliser, les entraîner. Il faut un long travail de jardinier en collaboration avec un data scientist pour récolter les fruits du verger et voir enfin se dessiner l’architecture d’une langue.
Par ce jeu, on arrive à reproduire les structures des langues. Cette reconstruction mathématique va de pair avec un entraînement. LLM ça signifie « Large Language model », c’est-à-dire qu’il faut énormément de données à mettre dans la casserole !
D’où le défi technique d’aller créer des LLM sur des corpus plus petits ! Il faut chercher à étoffer le corpus existant via de la traduction et de la mise à jour. Pour les langues latines, on pourrait fantasmer un grand modèle et le greffer ensuite sur des plus petits et l’adapter… comme une sorte de chirurgie musculaire qui permettrait de viabiliser un modèle de langage corse.
Il y a quelques années, bien avant ChatGPT, j’avais bricolé un petit modèle de langage à partir d’un corpus de textes de Jean de la Fontaine. Cela a donné naissance à une œuvre intitulée “Les Fabulations de la Fontaine ” avec laquelle le public peut interagir : en donnant deux noms d’animaux à une plume robotisée, le modèle s’évertue à écrire une nouvelle fable — que j’appelle fabulation — avec une morale finale.
Au début, j’arrivais à le faire écrire en alexandrins, mais cela restait approximatif. Formellement, du point de vue de la versification, c’était correct, mais en termes de sens, l’IA peinait à tenir l’histoire de A à Z. J’ai un temps trouvé un subterfuge qui consistait à traduire le français du XVIIe siècle en anglais pour générer des fables dans la langue de Shakespeare avant de les retraduire dans la langue de Molière. Les LLM anglais étant les plus travaillés, mes fables s’en trouvaient grandement améliorées.
Bien entendu, depuis l’arrivée de ChatGPT et des autres IA génératives, on arrive plus rapidement à ses fins ! Plus personne ou presque ne bâtit from scratch sa base de données pour interagir avec un modèle de langage. Le travail à fournir est laborieux : il faut collecter les données, les labelliser, les entraîner. Il faut un long travail de jardinier en collaboration avec un data scientist pour récolter les fruits du verger et voir enfin se dessiner l’architecture d’une langue.
Avec ce projet, vous vous écartez de la dimension artistique ?
Ma pratique artistique utilise depuis longtemps les accès et les excès du numérique. Avec ce projet de recherche et développement, l’objectif consiste justement à fabriquer un bien commun numérique pour créer de l’accès. De mon point de vue, je continue de travailler sur mes fondamentaux, que cela prenne une forme artistique ou non.
Si un jour, combinés à ceux de toute une communauté linguistique, mes efforts permettent de voir émerger un LLM corse ou breton, j’aurais la même fierté à le voir générer des discussions tout comme je le fais avec une œuvre d’art. Et puis, à vrai dire, on peut aussi changer de regard sur ce qui fait œuvre : autorisons-nous à regarder la création d’un LLM comme une forme d’art collectif. C’est rendre vivant notre patrimoine que de le remettre en circulation.
Je crois que le moment est venu de produire cet effort, de mêler l’IA aux connaissances linguistiques du Corse pour en faciliter son inventaire, son évolution et en faciliter aussi son apprentissage. Avec le studio, je me suis rapproché de pas mal d’acteurs liés aux langues régionales, en Bretagne, au Pays Basque, en Corse, en Occitanie. Récemment un accord a été conclu au Cameroun, qui compte plus de 400 langues et qui travaille depuis à la création d’un musée des langues.
Si un jour, combinés à ceux de toute une communauté linguistique, mes efforts permettent de voir émerger un LLM corse ou breton, j’aurais la même fierté à le voir générer des discussions tout comme je le fais avec une œuvre d’art. Et puis, à vrai dire, on peut aussi changer de regard sur ce qui fait œuvre : autorisons-nous à regarder la création d’un LLM comme une forme d’art collectif. C’est rendre vivant notre patrimoine que de le remettre en circulation.
Je crois que le moment est venu de produire cet effort, de mêler l’IA aux connaissances linguistiques du Corse pour en faciliter son inventaire, son évolution et en faciliter aussi son apprentissage. Avec le studio, je me suis rapproché de pas mal d’acteurs liés aux langues régionales, en Bretagne, au Pays Basque, en Corse, en Occitanie. Récemment un accord a été conclu au Cameroun, qui compte plus de 400 langues et qui travaille depuis à la création d’un musée des langues.
À côté des projets de LLM, vous êtes aussi le créateur d’une œuvre qui travaille davantage sur l’évolution et l’hybridation des langues.
C’est vrai qu’initialement pour faire un modèle de langage, il faut figer un corpus à un « instant T », mais oui, une langue c’est aussi d’une certaine manière un “être” vivant qui est constamment en train de se réinventer, notamment via le contact entre les langues elles-mêmes : ce que j'appelle la pollinisation entre les langues.
En fait, je crois que c’est mon plus vieux projet artistique, même s’il n’existe que depuis deux ans, sous la forme d’un dictionnaire des langues fusionnées : le Fusionnaire.org.
Je devais avoir 7 ans quand j’en ai eu l’idée. Ça devait faire un an que j’étais en région parisienne ; je riais souvent des mots que ma mère inventait. Vous voyez ces inversions ou conversions typiques de ceux qui apprennent une langue. Elle bricolait des mots français par déduction, par analogie avec le portugais. Elle fusionnait sans arrêt ses deux langues. Ces inventions sont souvent perçues comme des barbarismes, des erreurs, alors qu’elles possèdent une dimension poétique, humoristique et symbolique inouïes. Ces créations viennent raconter l’histoire de familles qui se transforment. Chacun et chacune ayant sa propre protéine linguistique constamment en cours d’évolution. Langue régionale, nationale ou étrangère, nous créons tous et toutes des mots de toutes pièces. Cet aspect distribué de la création — linguistique ou autre — m’intéresse au plus haut point et c’est cela que je souhaite valoriser.
Le projet m’est revenu à l’esprit il y a deux ans, au moment où pour la première fois, une de mes œuvres entrait dans la collection d’un musée ; en l’occurrence au Palais de la Porte Dorée, Musée de l’Histoire de l’Immigration. À leur contact, ma propre histoire familiale s’est rappelée à ma mémoire. En grandissant, j’avais appris que cette créativité et cette poésie de la langue était commune à tous les êtres humains et que donc ce dictionnaire ne devait pas uniquement renfermer les mots de mère, mais bien les mots de toutes celles et ceux qui portent en eux cette douce et universelle créolisation du Monde.
Désormais le Fusionnaire existe en ligne, il est enrichi de manière participative, ouvert à toutes les langues. Un jour, je l’espère, il prendra la forme d’un dictionnaire papier qui ira se nicher sous le sapin de Noël pour ma mère. En attendant, j’ai la joie de le voir exposé cette année au Musée de l’Homme à Paris, et il compte même plusieurs occurrences en francorsu, français régional de corse.
Propos recueillis par Vannina Bernard-Leoni
En fait, je crois que c’est mon plus vieux projet artistique, même s’il n’existe que depuis deux ans, sous la forme d’un dictionnaire des langues fusionnées : le Fusionnaire.org.
Je devais avoir 7 ans quand j’en ai eu l’idée. Ça devait faire un an que j’étais en région parisienne ; je riais souvent des mots que ma mère inventait. Vous voyez ces inversions ou conversions typiques de ceux qui apprennent une langue. Elle bricolait des mots français par déduction, par analogie avec le portugais. Elle fusionnait sans arrêt ses deux langues. Ces inventions sont souvent perçues comme des barbarismes, des erreurs, alors qu’elles possèdent une dimension poétique, humoristique et symbolique inouïes. Ces créations viennent raconter l’histoire de familles qui se transforment. Chacun et chacune ayant sa propre protéine linguistique constamment en cours d’évolution. Langue régionale, nationale ou étrangère, nous créons tous et toutes des mots de toutes pièces. Cet aspect distribué de la création — linguistique ou autre — m’intéresse au plus haut point et c’est cela que je souhaite valoriser.
Le projet m’est revenu à l’esprit il y a deux ans, au moment où pour la première fois, une de mes œuvres entrait dans la collection d’un musée ; en l’occurrence au Palais de la Porte Dorée, Musée de l’Histoire de l’Immigration. À leur contact, ma propre histoire familiale s’est rappelée à ma mémoire. En grandissant, j’avais appris que cette créativité et cette poésie de la langue était commune à tous les êtres humains et que donc ce dictionnaire ne devait pas uniquement renfermer les mots de mère, mais bien les mots de toutes celles et ceux qui portent en eux cette douce et universelle créolisation du Monde.
Désormais le Fusionnaire existe en ligne, il est enrichi de manière participative, ouvert à toutes les langues. Un jour, je l’espère, il prendra la forme d’un dictionnaire papier qui ira se nicher sous le sapin de Noël pour ma mère. En attendant, j’ai la joie de le voir exposé cette année au Musée de l’Homme à Paris, et il compte même plusieurs occurrences en francorsu, français régional de corse.
Propos recueillis par Vannina Bernard-Leoni
Pour aller plus
Le site de l'artiste https://www.filipevilasboas.com/