Synchronisation Thunderbird – Android

La synchronisation entre Thunderbird et Android peut être un frein au passage à une distribution GNU/Linux. Il l’a été pour moi, il l’est pour des personnes que l’on peut rencontrer sur les salons.

Sous Windows, il existe deux applications qui peuvent faire le travail très simplement. Je me souviens d’avoir, sur une RMLL, posé la question « comment synchroniser agenda et téléphone en passant à GNU/Linux ». J’ai eu deux types de réponses, l’une, que je qualifierais d’obscène « suffit d’avoir un compte Gmail », l’autre inacceptable « il te faut un serveur », sous-entendu « tu te montes un serveur dans ta cuisine ». Je n’ai pas eu, par contre, le troisième type, la réponse facile « Framasoft ».

Comme j’ai eu des soucis de synchronisation il y a peu, j’ai trouvé que c’était une bonne idée (relative au temps que ça m’a pris) de rédiger un tutoriel complet sur la question.

La bonne nouvelle c'est que cela fonctionne même avec un vieux téléphone pourri (le mien et probablement son OS, datent de 2013).

Pourquoi les trois réponses sont inadaptées

Personnellement, j’ai commencé ma dégooglisation en 2013, avant que Framasoft ne commence à mettre en ligne ses services. C’était dans la lancée des diverses questions qui émergeaient sur l’hégémonisme et les mauvaises manières de Google, donc rien d’innovant en ce qui me concerne, cela devait d’ailleurs coïncider avec la phase préparatoire de lancement de la dégooglisation par Framasoft.

L’idée c’est de rester maître de ses données. En choisissant un compte Gmail, on ne l’est pas et on reste dépendant d’une solution unique. Pour tout dire, en ce qui me concerne « logiciel libre » et Google sont des mots qui ne vont vraiment pas ensemble du tout.

Concernant la réponse « il te faut un serveur », elle me semble inacceptable, car elle est trop lapidaire et, de fait, n’aide pas, voire fait fuir. La dernière fois que j’ai eu cette question sur une manifestation en faveur du logiciel libre, j’ai répondu « le plus simple, c’est de prendre un abonnement auprès d’un serveur qui va héberger vos données » en parlant de « cloud », en indiquant les excellents tutoriels de Zaclys et en évoquant les CHATONS.

S’agissant de la réponse facile, elle est à éviter parce qu’il ne s’agit pas de remplacer et d’être dépendant d’une solution unique par une autre, fût elle aussi sympathique que Framasoft, mais bien de pouvoir rester autonome et de changer de crèmerie si et quand on veut. C’est d’ailleurs, toute l’idée des CHATONS.

Ce qu’on trouvera dans le tutoriel

Les pré-requis

Côté ordinateur, Thunderbird plus Lightning et Cardbook ou Thunderbird plus TbSync et Provider for CalDAV & CardDAV, le tutoriel explique la démarche pour les deux types de synchronisation.
À savoir : Lightning est intégré à Thunderbird depuis les dernières versions.

Côté téléphone, le magasin d’applications F-Droid pour récupérer Davx5 qui est le nouveau nom de DAVdroid.

Pour faire le lien entre tout ça, un accès à un serveur Nextcloud, qu’on choisira par exemple dans la liste de ceux offerts par les CHATONS.

Les précautions d’usage

Sauvegarder, c’est-à-dire exporter agenda et carnet d’adresses de Thunderbird, de cette façon on peut y aller sans risque de tout perdre.

Les paramètres de Thunderbird et de Nextcloud et l’ordre des opérations

  • Création de l’agenda et du carnet d’adresses d’abord sur le serveur pour pouvoir copier son URL dans Thunderbird.
  • Création ensuite de l’agenda et du carnet d’adresses Cardbook ou configuration de TbSync.
  • Dans Thunderbird configuration des paramètres, soit de Lightning et de Cardbook, soit de TbSync pour pouvoir faire la synchronisation.
  • La manipulation à faire dans Thunderbird depuis les dernières mises à jour pour que la synchronisation fonctionne, à savoir : dans l’Éditeur de configuration, passer de true à false le paramètre network.cookie.same-site.enabled

Sur le téléphone

Lancer DAVdroid (ou Davx5), appuyez sur le signe + et Ajouter un compte. L’adresse de connexion à une URL étant l’adresse WebDAV fournie par le serveur auquel on est abonné. Il faut, évidemment, aussi les identifiants de connexion au dit serveur.

En complément

Le tutoriel indique, assez rapidement, les éléments susceptibles de varier si on vient d’un autre logiciel de courrier électronique : les formats d’export ainsi que la structure des carnets d’adresses.

Sinon, il y a aussi la solution Memotoo que je n’ai pas testée, mais qu’on m’a signalée pour sa capacité à synchroniser n’importe quoi avec presque tout. Et il y a, évidemment, les tutoriels de Zaclys dont j’ai déjà parlé.

Pour terminer

Cet article a été mis en ligne le 14 février 2018 et signalé sur mes comptes Diaspora et Mastodon où il a fait l’objet de diverses remarques qui ont été ajoutées dans le tutoriel : TbSync dont j’ignorais l’existence et Memotoo ou encore le nouveau nom de DavDROID. Je remercie encore une fois ceux et celles qui m’ont lu pour leurs remarques.

Accessoirement, le tutoriel sera bientôt ajouté au wiki de Mageia ou de MLO (je ne sais pas trop lequel encore).

Télécharger ce contenu au format Epub

Commentaires : voir le flux atom ouvrir dans le navigateur

Libre à vous ! Radio Cause Commune - Transcription de l'émission du 12 février 2019


Frédéric Couchet

Titre : Émission Libre à vous ! diffusée mardi 12 février 2019 sur radio Cause Commune
Intervenants : Roberto Di Cosmo, Software Heritage - Jean-François Clair, SNES - Jean-Christophe Becquet, April - Frédéric Couchet, April
Lieu : Radio Cause Commune
Date : 12 février 2019
Durée : 1 h 30 min
Écouter ou télécharger le podcast
Page des références utiles concernant cette émission
Licence de la transcription : Verbatim
Illustration : Bannière radio Libre à vous - Antoine Bardelli ; licence CC BY-SA 2.0 FR ou supérieure ; licence Art Libre 1.3 ou supérieure et General Free Documentation License V1.3 ou supérieure. Logo radio Cause Commune, avec l'accord de Olivier Grieco
NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

logo cause commune

Transcription

Voix off : Libre à vous !, l’émission pour comprendre et agir avec l’April, l’association de promotion et de défense du logiciel libre.

Frédéric Couchet : Bonjour à toutes. Bonjour à tous. Vous êtes sur la radio Cause Commune 93.1 en Île-de-France et partout ailleurs sur le site causecommune.fm. La radio dispose d’un webchat, donc utilisez votre navigateur web, connectez-vous sur le site de la radio, cliquez sur « chat » et rejoignez-nous sur le salon web.
Nous sommes mardi 12 février 2019, nous diffusons en direct, mais vous écoutez peut-être une rediffusion ou un podcast.

Soyez les bienvenus pour cette nouvelle édition de Libre à vous !, l’émission pour comprendre et agir avec l’April, l’association de promotion et de défense du logiciel libre. Je m’appelle Frédéric Couchet, je suis le délégué général de l’April.
Le site web de l’April est april.org, a, p, r, i, l point org et vous y trouvez déjà une page consacrée à cette émission avec tous les liens et références utiles, les détails sur les pauses musicales et toute autre information utile en complément de l’émission. Vous pouvez également nous faire des retours pour nous indiquer ce qui vous a plu mais aussi des points d’amélioration. Je vous souhaite une excellente écoute.

Nous allons passer maintenant au programme de cette émission.
Nous allons commencer dans quelques secondes par une chronique de Jean-Christophe Becquet, président de l’April, intitulée « Pépites libres ». Normalement Jean-Christophe est avec nous au téléphone, bonjour Jean-Christophe.

Jean-Christophe Becquet : Bonjour Fred. Bonjour à tous.

Frédéric Couchet : On se retrouve d’ici quelques secondes.
D’ici une quinzaine de minutes notre sujet principal portera sur le projet Software Heritage avec Roberto Di Cosmo qui est avec nous en studio. Bonjour Roberto.

Roberto Di Cosmo : Bonjour Fred.

Frédéric Couchet : Et en fin d’émission, nous parlerons du projet de loi pour une école de la confiance et des amendements proposant d’inscrire dans la loi la priorité au logiciel libre dans l’Éducation.

Je salue à la réalisation de l’émission, pour sa première, notre camarade Patrick Creusot sous la surveillance et l’aide d’Étienne Gonnu, de Charlotte Boulanger et d’une autre personne dont je ne connais pas le prénom, j’en suis désolé.

Tout de suite nous allons passer au premier sujet avec la seconde édition de la chronique de Jean-Christophe Becquet, président de l’April, chronique qui s’appelle « Pépites Libres ». Dans cette chronique, Jean-Christophe nous présente une ressource sous une licence libre – texte, image, vidéo ou base de données – sélectionnée pour son intérêt artistique, pédagogique, insolite, utile et les auteurs de ces pépites ont choisi de mettre l’accent sur les libertés accordées à leur public.
La chronique du jour, Jean-Christophe, porte sur le dessin animé de Nina Paley, Copier n’est pas voler.

Jean-Christophe Becquet : Oui. Dans ma chronique du mois de janvier je vous invitais à découvrir la conférence Un Faible Degré d’Originalité d’Antoine Defoort dont la vidéo est disponible sous licence libre. Parmi ses sources d’inspiration j’évoquais Nina Paley et c’est sur elle que j’aimerais revenir aujourd’hui.
Nina Paley est une artiste américaine auteur de bandes dessinées et de dessins animés.
J’ai donc choisi de vous parler d’un dessin animé de Nina Paley Copier n’est pas voler ou Copying Is Not Theft en anglais. Il s’agit d’une vidéo très courte, elle dure à peine une minute. De manière ludique et en chansons, Nina Paley dénonce l’amalgame entre le vol et la copie.
En effet, le vol concerne des objets matériels alors que la copie s’applique aux idées et aux œuvres de l’esprit qui, elles, sont intangibles et immatérielles. Et c’est cette escroquerie intellectuelle que dénoncent les petits personnages de Nina Paley.
Dans le code pénal français, le vol est défini comme la soustraction frauduleuse de la chose d’autrui ; c’est l’article 321.1. Donc le vol est une soustraction, c’est-à-dire qu’il prive sa victime de l’objet dérobé, alors que pour la copie c’est complètement différent : copier c’est multiplier. Je sais que le logiciel libre préserve vos libertés et je vous le dis. Alors nous sommes plusieurs à le savoir sans que je sois privé de ma connaissance initiale. On voit bien qu’il n’y a pas soustraction ! Les idées que je partage à travers cette chronique sont multipliées par le nombre d’auditeurs. En faisant le choix d’une licence libre pour ses émissions, Cause Commune encourage cette multiplication.

Les héros du dessin animé de Nina Paley s’amusent à comparer le vol et la copie d’un vélo. En effet, dans leur monde immatériel, il est possible très facilement de faire des copies : un simple coup de crayon, deux clics de souris, et chacun peut enfourcher une copie du vélo. Ils échappent à ce qu’on appelle la rivalité des biens matériels, c’est-à-dire le fait que chacun prenne une copie d’un objet nécessite une quantité importante de ressources et d’énergie.
À l’inverse, depuis l’avènement d’Internet, la copie est grandement facilitée et son coût est devenu marginal. C’est un problème pour les défenseurs de l’ancien système basé sur des rentes indexées sur le nombre de copies. C’est une formidable opportunité pour l’humanité. De plus en plus d’auteurs choisissent de partager leur travail sous licence libre.
Aujourd’hui j’ai envie de dire : copions et multiplions toutes ces pépites libres !

Frédéric Couchet : Merci Jean-Christophe. Donc ce dessin animé de Nina Paley dure à peu près une minute. Les références sont sur le site de l’April avec la version originale qui est en anglais, une version française ; il y aussi un lien vers des versions modifiées parce que dès le départ, Nina Paley qui a diffusé ce dessin animé sous licence, de mémoire, CC BY SA, Creative Commons Partage à l’identique, a encouragé les personnes à faire des modifications, à mettre leurs propres musiques. Donc il y a un certain nombre de versions modifiées avec des musiques assez sympas.
Ces petits personnages rappelleront les cartoons qu’on connaît avec notamment les petits personnages qui ont quatre doigts au lieu de cinq doigts. Ce dessin animé date de quelle époque ? Est-ce que tu te souviens ?

Jean-Christophe Becquet : C’est relativement ancien, en fait, ça date de 2010.Ça a dix ans et effectivement, comme tu l’as dit, parce que Nina Paley a choisi une licence libre, ce dessin animé a fait l’objet d’un grand nombre de reprises, d’adaptations, de traductions d’abord. On le trouve dans un grand nombre de langues. On a mis le lien vers la version française, mais il y aussi des versions en espagnol, en allemand. Il y a des adaptations avec d’autres styles de musique et on peut aussi télécharger les paroles, la partition. L’intérêt de la démarche de Nina Paley c’est que toutes les briques de sa création sont libres et qu’elle encourage effectivement la création et la réutilisation. Du coup, en dix ans d’ancienneté de cette vidéo, il y en a eu un grand nombre.

Frédéric Couchet : Et ce n’est pas la première animation que Nina Paley a libérée parce qu’en 2006 ou 2008, peut-être, elle avait distribué un dessin animé beaucoup plus long, son animation Sita Sings the Blues sous licence Creative Commons Partage à l’identique et, en plus, elle avait explicitement interdit la pause de verrous numériques, les DRM qu’on a déjà évoqués dans une précédente émission. Donc Nina Paley est une personne qui milite vraiment, on va dire depuis 2008-2010 au moins, pour un mouvement de ce qu’on peut appeler la culture libre. Sur son site ninapaley.com on peut retrouver ses différentes productions en plus, effectivement, de ce dessin animé Copier n’est pas voler dont tu nous as parlé. Quel est le lien avec le logiciel libre ?

Jean-Christophe Becquet : En fait c’est que ces licences libres qui sont aujourd’hui utilisées pour les œuvres de Nina Paley, donc les licences Creative Commons, sont les héritières des licences du logiciel libre. C’est-à-dire que le Libre est né avec le logiciel libre, Richard Stallman en 1984 et, en fait, avec le temps, d’autres personnes ont eu envie de libérer d’autres ressources que des logiciels et se sont mises à réfléchir à des licences adaptées à des ressources non-logicielles. Donc ça a donné la licence Art libre, par exemple, qu’on utilise à l’April, les licences Creative Commons dont certaines sont considérées comme libres et d’autres licences qui s’inspirent des libertés du logiciel libre, mais pour les transposer à d’autres œuvres comme des textes, des images, des livres ou des films et dessins animés dans le cas de Nina Paley.

Frédéric Couchet : Et le principe de non-rivalité que tu as expliqué et qui est explicité dans cette vidéo est évidemment valable pour toute œuvre de l’esprit qui est une ressource non exclusive et non rivale, c’est-à-dire que tout le monde a un libre accès à cette ressource, non exclusif, et il n’est pas possible d’exclure quelqu’un de l’usage d’une telle ressource sauf, évidemment, à recourir soit à des principes juridiques, soit à des principes techniques comme les mesures techniques qui, des fois, enfin souvent, sont également protégées par des principes juridiques.

Jean-Christophe Becquet : Oui. Tout à fait. C’est ce que j’ai appelé les tenants de l’ancien système qui, eux, utilisent des verrous juridiques et techniques pour lutter contre cette facilité de copie des ressources qui pose bien des problèmes à leur modèle économique archaïque.

Frédéric Couchet : Exactement. Et pour finir, je te laisserai le mot de conclusion, ça explique aussi pourquoi nous refusons le terme de « propriété intellectuelle », pour deux raisons principales. Déjà le terme « propriété intellectuelle » laisserait supposer qu’on peut, en fait, réfléchir aux œuvres de l’esprit comme on peut réfléchir à des objets matériels alors que ce n’est pas le cas, ce n’est pas la même propriété notamment ce que tu as expliqué, la non-rivalité. Et deuxième chose, c’est que le terme de « propriété intellectuelle » dans le droit englobe des domaines très différents qui vont du droit d’auteur aux brevets et à plein d’autres choses qui sont très différentes dans leurs principes. C’est pour ça que nous on préfère parler spécifiquement d’un droit particulier, par exemple le droit d’auteur et que, dans son ensemble, le terme « propriété intellectuelle » ne doit pas être utilisé parce qu’il pousse à réfléchir sur les œuvres de l’esprit comme on réfléchirait sur des œuvres matérielles.
Est-ce que tu as une phrase de conclusion ? Est-ce que tu veux rajouter quelque chose cher Jean-Christophe ?

Jean-Christophe Becquet : Oui. Juste dire que Nina Paley a fait, comme tu l’as dit, d’autres dessins animés, notamment un autre dessin animé de sensibilisation au Libre qui montre à quel point toute œuvre créée s’inspire des œuvres existantes. Je vous invite à découvrir ça et puis, dans l’attente, eh bien je me mets en recherche d’une nouvelle ressource libre pour la chronique « Pépites libres » du mois prochain. Un grand merci et bonne écoute pour la suite de l’émission.

Frédéric Couchet : Merci Jean-Christophe et on se retrouve le mois prochain.

Nous allons passer par une petite pause musicale qui va être relativement courte vu qu’elle dure 59 secondes. Évidemment, c’est la bande son du dessin animé de Nina Paley Copier n’est pas voler.

Pause musicale : Copier n’est pas voler, bande son du dessin animé de Nina Paley.

Frédéric Couchet : Vous êtes de retour sur Cause commune 93.1 en Île-de-France et partout dans le monde sur causecommune.fm. Nous venons d’écouter la bande son du dessin animé de Nina Paley Copier n’est pas voler dont les références sont sur le site de l’April, april.org, vous avez une page qui est consacrée à l’émission.

Nous allons passer à notre sujet principal avec notre invité du jour et c’est un grand plaisir de recevoir Roberto Di Cosmo pour parler de l’initiative Software Heritage, archive mondiale du logiciel. Donc rebonjour Roberto.

Roberto Di Cosmo : Bonjour Fred.

Frédéric Couchet : Roberto tu es italien, installé en France, professeur d'informatique ; tu es un libriste depuis très longtemps.

Roberto Di Cosmo : Depuis plus de 20 ans.

Frédéric Couchet : Je pense qu’on se connaît depuis une petite vingtaine d’années. Tu as été rendu célèbre notamment par un pamphlet en 1998 qui s’appelle Piège dans le cyberespace et ensuite par un livre coécrit avec Dominique Nora la même année, donc 1998, qui s’appelait Le hold-up planétaire : la face cachée de Microsoft, sur les problèmes posés par le monopole de Microsoft et aussi ses méthodes pour contrer toute concurrence et, en premier, le logiciel libre.
Depuis septembre 2010 tu es directeur du laboratoire IRILL, Initiative pour la Recherche et l’Innovation sur le Logiciel Libre et, depuis septembre 2016, tu es détaché auprès de l’Inria, l’Institut national de recherche en informatique et en automatique, et tu es directeur de l’initiative Software Heritage depuis 2016.

Roberto Di Cosmo : Oui. Tout à fait.

Frédéric Couchet : Est-ce que cette présentation te paraît correcte ou est-ce que tu veux ajouter quelque chose ?

Roberto Di Cosmo : On pourrait ajuster quelque petite chose par ci ou par là…

Frédéric Couchet : Ajuste !

Roberto Di Cosmo : Mais globalement on y est.

Frédéric Couchet : D’accord. Avant de te laisser la parole et avant d’échanger sur le projet Software Heritage, en préparant l’émission évidemment je me suis renseigné et j’ai trouvé qu’en fait, le plus simple, c’était de prendre des extraits de l’annonce officielle de l’Inria en 2016 qui annonce « Software Heritage, archive mondiale du logiciel ». Annoncée le jeudi 30 juin 2016 l’ouverture au public du projet Software Heritage : « Ce projet a pour objectif de collecter, organiser, préserver et rendre accessible à tous et à toutes le code source de tous les logiciels disponibles. Un enjeu de portée mondiale. » Antoine Petit, PDG de l’Inria, précise : « Les logiciels sont aujourd’hui au cœur de toutes les activités humaines, de la médecine aux loisirs, des communications à l’agriculture. » Je poursuis la présentation du communiqué de l’Inria : « En construisant une archive universelle et pérenne du logiciel, Software Heritage vise à mettre en place une infrastructure essentielle au service de la société, de la science et de l’industrie. Software Heritage vise à construire à la fois une moderne bibliothèque d’Alexandrie du logiciel, le référentiel unique du code source et un grand instrument de recherche pour l’informatique. Le projet va permettre de préserver et diffuser la connaissance aujourd’hui encodée dans le logiciel et augmentera notre capacité d’accéder à l’ensemble de l’information numérique. La base s’appuiera notamment sur une infrastructure distribuée — on y reviendra — de manière à garantir la robustesse et la disponibilité des données. » Lors de l’annonce, deux premiers partenaires internationaux s’étaient déjà engagés à soutenir le projet et l’aider à grandir, Microsoft, dont on vient de parler, ainsi qu’une institution publique au service de la recherche scientifique, le DANS de la Royale Académie des Pays-Bas.

Roberto Di Cosmo : Tout à fait.

Frédéric Couchet : Une fois cette introduction faite, j’ai envie de te poser la première question pour entrer un peu dans les détails, quels problèmes cherche à résoudre l’initiative Software Heritage lancée en 2016 par l’Inria ?

Roberto Di Cosmo : Tout d’abord merci de m’avoir invité, c’est vraiment un plaisir de passer échanger un peu sur ce sujet, de prendre un peu de temps, un peu de calme. Comme tu sais, Fred, ça fait longtemps qu’on s’occupe de logiciels, de logiciels libres, de codes, d’informatique en général donc on a vu pas mal d’évolutions de notre société. Aujourd’hui on est tous d’accord que le logiciel est quelque chose d’essentiel. Par contre, il faut dire que les personnes qui ne sont pas très techniques donc qui ont plutôt l’habitude de voir les logiciels juste comme des outils : tu prends ton téléphone, tu appuies sur une icône, ça lance une petite application, ça fait quelque chose ; on peut envoyer des bisous à quelqu’un qu’on aime, on peut acheter quelque chose, on peut regarder une vidéo, c’est très bien. Par contre, on a tendance à ne pas savoir, à oublier que derrière ces logiciels qui sont exécutables, qu’on utilise comme des outils, en vérité il y a tout un travail humain de conception super important. Ces logiciels ne tombent pas du ciel, ils sont écrits, c’est vraiment le terme qu’on utilise quand on développe – les développeurs écrivent du logiciel –, on les écrit dans des langages de programmation en produisant ce qu’on appelle le code source. C’est le code source du logiciel qui contient vraiment la connaissance qui est nécessaire pour faire fonctionner ce logiciel-là.

Frédéric Couchet : Tu peux expliquer peut-être juste ce qu’est le code source aux personnes qui nous écoutent.

Roberto Di Cosmo : On peut prendre l’analogie habituelle qu’utilise aussi Richard [Stallman] à un moment donné, l’histoire de la recette de cuisine. Par exemple vous avez un gâteau que vous aimez beaucoup, ça c’est un peu l’exécutable, vous coupez des tranches et vous mangez, c’est super. Par contre, s’il faut le refaire, c’est un peu compliqué si on ne vous a pas expliqué comment on l’a fait. En général on s’échange des recettes de cuisine dans lesquelles on dit dans quel ordre on a mis quel ingrédient, pendant combien de temps, etc. C’est un peu la même idée. Dans la musique aussi : vous pouvez écouter de la musique qui est fantastique mais pour refaire cette musique-là normalement on a besoin d’une partition et ce n’est pas facile de reconstruire la partition juste en écoutant la musique telle qu’elle est.
Il faut savoir que dans le cas des logiciels c’est un peu la même histoire, sauf que c’est énormément plus compliqué. À partir d’un binaire – un binaire c’est ce qu’on utilise pour les exécutables, les applications qu’on voit – reconstruire ce qu’on appelle le code source qui est la représentation du logiciel, qui est préféré pour un développeur pour le modifier, c’est vraiment la définition formelle, c’est énormément difficile en partie aussi parce que, très souvent, dans ce logiciel on a plein de commentaires ou d’annotations qui sont faites pour les êtres humains, pour les relire, et qui disparaissent.

Frédéric Couchet : Qui sont supprimés dans la phase de cuisson, quelque part.

Roberto Di Cosmo : Voilà ! Dans la phase de cuisson ça disparaît, on ne les retrouve pas dans l’exécutable qui tourne sur la machine donc on a complètement perdu de l’information.
C’était un peu le préalable. Effectivement on parle souvent de logiciels, mais on oublie que ces logiciels sont fabriqués à travers une forme qui est ce code source, qui est vraiment précieuse, qui est une forme d’écriture nouvelle, technique, une sorte de littérature technique du 21e siècle qu’on est en train de mettre en place.

Frédéric Couchet : Ça ressemble quand même à un langage quelque part naturel parce qu’il y a une grammaire, il y a un vocabulaire et en fait, n’importe quelle personne, y passant du temps, peut apprendre à écrire du code ou à le comprendre.

Roberto Di Cosmo : Absolument. Tu fais très bien de le dire. Il ne faut pas non plus se sentir rebuté par le code source. C’est la même chose que dans la littérature. On utilise tous le français, moi avec un peu d’accent, mais normalement on utilise tous la langue française. Pourtant il y a des textes qui sont très faciles à lire, il y a des textes qui sont beaucoup plus compliqués donc il faut passer du temps pour comprendre ce que ça veut dire.
Dans le cas des programmes c’est un peu similaire : il y a des programmes qui sont très simples à aborder et des programmes qui sont plus complexes, qui nécessitent plus de temps pour comprendre des notions plus avancées. C’est quand même à la portée, pas de tout le monde, mais en y mettant un peu d’énergie on arrive à comprendre ce qui se passe derrière. Et c’est vraiment une production humaine.

Frédéric Couchet : Donc ce premier point et je te laisse continuer, c’est l’importance du code source quand on parle de logiciels et donc ça sera l’un des points central de Software Heritage. Je te laisse poursuivre.

Roberto Di Cosmo : Absolument. Les auditeurs ne peuvent pas le voir, mais moi j’ai un peu la barbe blanche, je commence à avoir un certain âge, n’empêche que comme informaticien je pense toujours au futur, on est toujours projeté vers le futur, on a du mal à se confronter avec l’idée de perdre, de disparition, de mort, d’échec, de perte d’informations. Donc on ne réfléchit pas trop, on est toujours dans la dynamique de construire des choses nouvelles, mais après, si on se pose un instant, on se rend compte qu’il y a énormément de cette connaissance, énormément de logiciels qu’on a construits, de codes sources qu’on a écrits qui sont en réalité en danger ; personne ne s’occupe vraiment de les préserver, de les protéger, de les indexer, de les rendre facilement disponibles. Il y a énormément d’initiatives pour archiver des informations numériques, par exemple l’Internet Archive qui est une initiative magnifique.

Frédéric Couchet : C’est archive.org ou archive.org.

Roberto Di Cosmo : C’est parti il y a plus de 20 ans cette archive. Elle archive le Web, les pages web qu’on connaît. Il y a d’autres initiatives qui essaient d’archiver des vidéos, qui essaient même d’archiver des exécutables de logiciels, Internet Archive fait ça aussi, un peu. Donc on archive tout ce que vous voulez dans le monde numérique sauf, et c’était ça qui était surprenant, le point de départ du projet, sauf le code source qui est quand même la brique fondamentale de la révolution numérique dans laquelle on vit aujourd’hui. C’était étonnant ! Quand on s’est aperçu de ça et d’ailleurs on s’en est aperçu de façon un peu…

Frédéric Couchet : En fait, peut-être que les gens pensaient que comme le code source était dupliqué sur plein de machines qu’il ne pourrait jamais disparaître. Peut-être que les gens pensaient ça !

Roberto Di Cosmo : Tu sais, le même argument on peut le faire pour la vidéo, pour les images, etc. Pourquoi les archiver si elles sont bien dupliquées sur l’ordinateur de quelqu’un ?

Frédéric Couchet : Oui, tout à fait.

Roberto Di Cosmo : On a tendance à confondre plusieurs activités qui sont très importantes. D’ailleurs j’ouvre une petite parenthèse mais qui est importante en termes de terminologique : quand on développe du logiciel, souvent aujourd’hui quand on fait du logiciel libre on travaille de façon collaborative, en réalité on a besoin d’infrastructures qui font trois choses différentes.
Il y a un premier type d’infrastructures qui sont ce qu’on appelle souvent les forges logicielles. Ce sont des endroits dans lesquels une communauté de développeurs travaille de façon collaborative pour mettre au point un logiciel ou le faire évoluer. On travaille ensemble, on commente, on décide, on trouve les erreurs, on les corrige, etc. C’est très dynamique. Ça ce sont les plateformes de développement.
À un certain moment on peut dire : tiens, cette version-là du logiciel est quand même la version stable, celle qu’on veut vraiment distribuer, que tout le monde puisse la réutiliser facilement, etc. À ce moment-là on a envie de le diffuser, de le partager, de le rendre plus facilement accessible à tout le monde et là on passe dans une deuxième catégorie de plateformes qui sont normalement des plateformes de distribution.
Et après il y a un troisième type de plateformes qui n’existent pas, qui sont des plateformes d’archivage. C’est quoi une archive ? C’est un endroit dans lequel quand on a versé un objet dedans, on a déposé un objet dedans, on repasse six mois, deux ans, trois ans, dix ans, cent ans après, si on est tous vivants, et on retrouve le même objet.
Ce sont trois missions très différentes.

Frédéric Couchet : Je vais juste préciser par rapport aux personnes qui écoutent régulièrement l’émission qu’on a parlé des distributions GNU/Linux il y a une semaine ou quinze jours, je ne sais plus, notamment avec Nicolas Dandrimont qui travaille avec toi sur Software Heritage et qu’on a parlé plusieurs fois des forges logicielles, alors pas d’un point de vue technique, mais on en a parlé dans le cadre du projet de directive européenne sur le droit d’auteur qui peut mettre justement en danger ces forges logicielles. Vous retrouvez ces références sur le site de l’April, podcast et transcriptions. Je te laisse poursuivre Roberto.

Roberto Di Cosmo : Parfait, merci.
Donc là, finalement ce qui manquait dans le panorama, c’était une plateforme qui fasse vraiment l’archivage de ces logiciels. Donc c’était vraiment quelque chose qui manquait et, en regardant un peu plus, on s’était rendu compte qu’effectivement il y a plein de logiciels, il y a plein de codes sources de logiciels qui sont disponibles ; cela dit, on n’a pas un vrai catalogue. Ils sont éparpillés sur plein de ces autres plateformes, soit sur les plateformes de développement, soit sur les plateformes de distribution, on ne sait pas où chercher. Donc la meilleure approche, en général, c’est un moteur de recherche, demander à un copain à la machine à café : où est-ce que je trouve telle librairie, telle bibliothèque pour faire telle application. Finalement on a découvert qu’il n’y avait pas d’archive.
Fred, par exemple quand on a commencé ça, parce que tu as bien fait de mentionner le 30 juin 2016, c’est le moment où on a annoncé le projet de façon publique…

Frédéric Couchet : Mais le projet avait commencé avant.

Roberto Di Cosmo : Le projet avait commencé bien avant !

Frédéric Couchet : Quand ça ?

Roberto Di Cosmo : Les premières idées ont commencé à circuler dans l’été 2014.

Frédéric Couchet : Donc deux ans avant en fait.

Roberto Di Cosmo : Deux ans avant.

Frédéric Couchet : Quand il y a l’annonce de l’Inria vous avez déjà commencé à travailler depuis deux ans, vous avez déjà commencé à archiver des logiciels. Tu te souviens au moment de l’annonce de l’Inria combien il y en avait déjà ?

Roberto Di Cosmo : Je pense qu’on avait déjà archivé peut-être un milliard de fichiers sources différents.

Frédéric Couchet : Un milliard de fichiers sources. D’accord !

Roberto Di Cosmo : Ce qui est quand même remarquable ; ce sont des fichiers sources tous différents, uniques. Il faut savoir que justement dans cette période pendant laquelle on était en mode un peu sous-marin, parce qu'on ne voulait pas… Je déteste vendre du slideware, vendre de la fumée.

Frédéric Couchet : Du slideware. En français on traduit ça comment ?

Roberto Di Cosmo : Je ne sais pas comment traduire ça.

Frédéric Couchet : C’est-à-dire uniquement des diaporamas avec des listes à points.

Roberto Di Cosmo : Des diaporamas avec quelques idées et après on ne sait pas comment c’est fait. Je préfère arriver avec un prototype, montrer des choses qui fonctionnent. On avait mis en place une petite équipe, commencé à construire un premier prototype pour donner de la crédibilité à ce qu’on faisait. C’était une démarche pas évidente. Mais tu vois, dans cette période-là où on était en souterrain, c’est-à-dire entre 2014 et 2016, il y a eu deux événements qui ont montré clairement pourquoi c’était important d’avoir une archive. Parce que, comme tu dis, plein de gens se disent pourquoi faire une archive ? Après tout il y a plein de copies à droite, à gauche, il n’y a pas de problème.

Frédéric Couchet : Eh bien oui, c’est sur Internet !

Roberto Di Cosmo : C’est sur Internet, on le trouve, etc. Il faut savoir qu’au mois de mars 2015, c’est assez intéressant, il y avait deux plateformes de développement très populaires à l’époque, une qui s’appelait Gitorious et l’autre qui était Google Code, pas exactement la même quantité d’argent derrière, les deux étaient très populaires. Sur Gitorious il y avait à peu près 120 000 projets de développement logiciel, sur Google Code il y en avait un million et demi. Au mois de mars 2015, il y a deux annonces : d’un côté l’annonce de Gitorious qui se fait racheter par une autre entreprise qui est GitLab. Comme il y a ce rachat-là, ils décident de fermer l’ancienne forge Gitorious, ils ne font pas de transfert de données, ils ont juste donné une annonce.

Frédéric Couchet : Ils ferment sans laisser accès, c’est ça ?

Roberto Di Cosmo : Ils ferment sans laisser l’accès et ils disent tout simplement aux gens : « Écoutez on ne va quand même pas maintenir deux plateformes ; vous avez trois semaines pour tout transférer et après on ferme. » Alors ça a duré un peu plus de trois semaines, heureusement, parce que les gens ont un peu protesté, mais vous voyez un peu le topo. Maintenant effectivement c’est fermé. Si vous allez regarder là-dedans il n’y a plus rien et, en parallèle, Google avait annoncé que bon, bref ! Il y avait d’autres solutions, que Google Code n’était plus forcément justifié à maintenir. Ça c’est leur décision, c’est leur droit de faire ce qu’ils veulent, c’était mis à disposition de façon gratuite, gratuite mais pas libre, justement, et là c’était un milliard et demi de projets qui étaient mis en danger sauf que Google est un peu plus seigneurial donc il a donné un an.

Frédéric Couchet : Donc ils ont laissé plus de temps ! Un an.

Roberto Di Cosmo : Un an, pas trois semaines et ils ont quand même gardé une sorte de version d’archive dans un coin.
Ça c’est arrivé un peu à point nommé parce que ça montrait que le message qu’on envoyait, c’est-à-dire que c’est important de construire une archive — qu’est-ce que c’est une archive ? C’est vraiment une plateforme dont la finalité est l’archivage et pas autre chose — que c’était nécessaire. Après ces deux évènements c’est devenu relativement clair pour tout le monde que c’était nécessaire d’aller dans cette direction-là.

La troisième chose qu’on avait observée c’est qu’effectivement aujourd’hui, non seulement le logiciel est au cœur de toute la transformation numérique de notre société, mais le logiciel libre est au cœur des logiciels qui transforment notre société. Presque toutes les entreprises utilisent du logiciel libre de façon massive encore aujourd’hui, donc il est devenu super important, par exemple, de se doter d’une plateforme qui permette d’analyser systématiquement le code source de ces logiciels pour essayer de repérer les erreurs, les vulnérabilités, rendre plus facile l’analyse des codes, aider les développeurs à mieux réutiliser leurs codes, etc. Pour ça on a besoin d’une plateforme commune qu’on n’a jamais réussi à construire avant.
Par exemple j’ai plein d’amis qui sont dans le monde de la physique : un de mes copains, parti aux États-Unis il y a très longtemps, s’occupe d’un gros projet de télescope spatial. Je suis très admiratif de mes collègues en physique qui sont capables de mobiliser des ressources très conséquentes, là on parle de milliards, de dizaines de milliards d’euros pour chercher à comprendre l’origine de l’univers, regarder les étoiles, regarder l’infiniment petit. Ça c’est super important, je n’ai rien contre, au contraire, je suis très admiratif du fait qu’ils arrivent à le faire. Par contre nous, dans le monde de l’informatique qui est pourtant le moteur de la transformation numérique, jusque-là on a été un peu incapables de fédérer le même type d’effort pour avoir une plateforme commune qu’on puisse, de façon mutualisée, réutiliser pour travailler ensemble, pour améliorer la qualité des logiciels que nous développons.
Évidemment chaque grosse entreprise a son propre système interne. Dans le monde associatif chacun essaie de mettre en place son propre outil technique à tel ou tel autre endroit. Le rêve serait d’arriver à faire quelque chose comme le CERN pour la recherche nucléaire ou les grands réseaux de télescopes spatiaux pour explorer les galaxies. Eh bien nous on a besoin d’une infrastructure pour explorer la galaxie du logiciel. Aujourd’hui ça n’existe pas.
Donc c’était vraiment ces trois constats : pas de catalogue, pas d’archive, pas d’infrastructure de recherche, la situation n’était pas idéale, donc il fallait essayer de faire quelque chose. En mettant en place le projet Software Heritage on essaye, très humblement parce qu’on n’est pas Google, on n’a pas de dizaines de milliards comme certains de mes copains qui travaillent ailleurs, mais on essaye très humblement de construire une réponse à ces trois besoins et de le faire en essayant de mettre de notre côté tous les atouts pour minimiser les risques que le projet échoue, c’est-à-dire pour maximiser les chances de succès.

Frédéric Couchet : Tu dis « on ». Le projet a été annoncé par l’Inria et, comme je l’ai dit tout à l’heure, tu es détaché à l’Inria depuis quelques années.

Roberto Di Cosmo : Tout à fait.

Frédéric Couchet : Qui est ce « on » ? C’est-à-dire qui a lancé ce projet en dehors de l’Inria s’il y en a d’autres ? Qui sont les partenaires ? Comment est financé ce projet ? Tu as parlé d’une équipe. Je suppose que tu as une équipe, je ne sais pas, de 500 personnes pour travailler avec toi.

Roberto Di Cosmo : J’aimerais bien ! Dans le monde de l’informatique, comme tu le sais bien, très souvent la révolution est faite par un tout petit nombre, on grandit plus tard.

Frédéric Couchet : C’est quoi l’équipe Software Heritage ? Essaye de nous expliquer qui est ce « on ».

Roberto Di Cosmo : Je vais vous expliquer. Tu as mentionné l’IRILL. Effectivement dans cette structure qu’on avait mise en place en 2010 pour essayer de tisser des liens entre des communautés de développeurs, des entreprises, des chercheurs qui s’intéressent au problème nouveau, scientifique, qui vient quand on fait du développement de logiciel libre, dans l’été 2014, autour de la machine à café, tu sais qu’on dit souvent que les développeurs sont des machines qui convertissent du café en code, mais des fois on le convertit en idées plutôt qu’en code directement.

Frédéric Couchet : Ou des pizzas en code, des fois.

Roberto Di Cosmo : Ou des pizzas ou des boissons socialisantes quelconques, ça dépend, il n’est pas nécessaire de prendre de la caféine tout le temps. Là on discutait de plein de choses. À partir d’autres idées, d’autres projets de recherche qu’on avait en tête, on s’est aperçu qu’il y avait ce problème et on a passé plusieurs mois à discuter à plusieurs. Moi à l’origine, il y avait Guillaume Rousseau, il y avait Stefano Zacchiroli, il y avait d’autres personnes qui se sont greffées dessus petit à petit et on a identifié le problème, on a écrit des notes d’opportunité, on pourrait dire, qui faisaient un bilan de la situation. Parce que, même si le problème existe, ça ne veut pas dire que nous sommes capables de le résoudre, n’est-ce pas ! La question est de se dire : le problème est là, est-ce que vraiment on a les reins solides pour essayer d’aller dans cette direction-là et comment on peut faire, qu’est-ce qui existe ? Sur la base de ces notes-là, on a pensé qu’il y avait une opportunité de faire quelque chose de bien avec un peu de ressources initiales.
Avec ça j’étais allé voir le directeur de l’Inria à l’époque qui était Antoine Petit, et là il faut dire qu'effectivement, ça fait des fois partie de la chance, qu'il a été convaincu de l’opportunité de cette mission donc il a pris la décision de donner cette impulsion initiale.
Tu vois quand on dit « on », il y a des gens qui ont des idées, mais des idées sans les ressources pour les implémenter, il y a plein dans les tiroirs !

Frédéric Couchet : Le soutien du directeur a été un grand atout évidemment.

Roberto Di Cosmo : Un grand atout, mais aussi toute l’institution. L’Inria est une institution qui à l’origine avait été capable, il y a 22 ans, de soutenir le lancement du W3C, le World Wide Web Consortium qui est le consortium mondial qui maintient les standards du Web et qui a permis au Web de devenir ce qu’il est devenu maintenant. Donc ils ont déjà montré leur capacité à soutenir un projet sur le long terme et de façon partenariale, pas en disant : c’est à moi, c’est à l’Inria.

Frédéric Couchet : Pas tout seul.

Roberto Di Cosmo : Mais en disant : OK on travaille à plusieurs. Ça c’était un peu le début. Là on a commencé à avoir un peu de ressources pour travailler. Quand je dis un peu de ressources c’était juste un ingénieur, Antoine Dumont qu’on avait recruté comme premier ingénieur. Il y a Nicolas Dandrimont, qui était dans l'émission la semaine passée, qui nous a rejoints quelques mois après et là on a commencé un petit peu à construire. Mais la mission, dès le départ, était de ne pas être tout seuls, de ne pas être juste Inria. Il fallait avoir d’autres partenaires autour. Donc là c’était un travail énorme, si tu regardes l’historique on n’est pas encore public, on est en train de parler 2015, avant l’annonce en 2016 et là on essaye de contacter plein d’entités : la Free Software Foundation, on a contacté l’Open Source Initiative, on a contacté Creative Commons, on a contacté des sociétés savantes, françaises, européennes, internationales ; on a contacté des fondations comme la fondation Linux, la fondation Eclipse, plein d’autres instituts comme ça pour leur dire ce qu’on allait faire, pour savoir si elles allaient nous soutenir.

Frédéric Couchet : Si elles voulaient soutenir, participer.

Roberto Di Cosmo : Là on a obtenu un soutien qui était important mais qui était un soutien moral, pas financier, il faut quand même payer le développeur à la fin du mois, ça ne suffit pas d’être un soutien moral, mais c’est très important.

Frédéric Couchet : En tout cas ces structures qui sont des structures importantes dans le monde du logiciel libre ont considéré que ce projet était fondamental, donc qu’il fallait le soutenir au moins moralement, déjà.

Roberto Di Cosmo : Exactement. Donc là si tu vas sur le site de Software Heritage aujourd’hui, wwww.softwareheritage.org, tu vas regarder dans la partie soutiens, il y a des témoignages. Il y a une cinquantaine de lettres officielles de tout un tas d’entités diverses et variées qui disent pourquoi elles considèrent que le sujet est important et pourquoi le projet est structurant pour elles.
Là on avait déjà commencé à avoir des premiers contacts avec l’Unesco, parce que c’est quand même une mission universelle, c’était bien de travailler avec eux. Mais ça ne suffisait pas, il fallait chercher des partenaires qui partagent la charge financière d’un tel projet avec Inria, dont la vocation est de lancer le projet mais pas, quand même, de le maintenir pendant 50 ans en payant tout, tout seul. Ce n’est pas, comment dire, ce n’est pas soutenable et ce n’est pas souhaitable non plus si tu veux minimiser les risques d’échec.

Frédéric Couchet : Pour la pérennité du projet il faut qu’il y ait plusieurs acteurs, plusieurs partenaires.

Roberto Di Cosmo : Il faut plusieurs partenaires autour de la table. Et c’est là que ça devient paradoxal, parce qu’on avait contacté, je ne vais pas donner les noms, mais un certain nombre d’acteurs, même des grandes entreprises qui utilisent massivement du logiciel libre, même des grands acteurs industriels du logiciel libre, mais, grande surprise, au mois de juin au moment où il fallait devenir public, personne de ceux-là n’avait répondu présent. Peut-être qu’ils considèrent que développer du logiciel libre ça suffit, ce n’est pas la peine de s’occuper de le maintenir sur le long terme. Et, à ma grande surprise, c’était par contre Microsoft qui avait répondu présent.

Frédéric Couchet : Donc tu vas renouer des liens avec Microsoft à cette époque-là !

Roberto Di Cosmo : Et ça c’était drôle, parce que je n’aurais jamais dit il y a 20 ans que je me serais retrouvé à Redmond, à Seattle au siège de Microsoft avec tout le top management de Microsoft pour leur dire pourquoi c’était intéressant de soutenir un tel projet. Mais c’était quand même une expérience intéressante parce que là j’ai découvert un Microsoft qui n’est pas tout à fait le même que celui que j’avais connu il y a 20 ans. Il y a eu un changement complet de direction et j’ai découvert qu’il y a, je ne sais pas si je peux dire ça, mais je pense que ça doit être facile avec toi.

Frédéric Couchet : Nous sommes en direct, je te préviens !

Roberto Di Cosmo : Je ne vais pas le dire, il y avait un nombre très conséquent d’ingénieurs à Microsoft, déjà en 2015, qui travaillaient en faisant seulement du logiciel libre. Après c’est devenu public. Dans l’été 2016, Microsoft a été l’un des premiers contributeurs à des projets logiciel libre sous GitHub à la grande surprise de tout le monde, c’est devant tout le monde ! Qu’est-ce qui se passe ? Tout le monde a le droit de changer d’idée, n’est-ce pas, de temps à l’autre !

Frédéric Couchet : Au moins partiellement on va dire !

Roberto Di Cosmo : Je vais y venir. Au moins sur la partie technique, le développement technique, stratégie industrielle à long terme, ils ont vraiment complètement changé d’attitude, complètement. Après il reste tout un tas d’autres choses sur lesquelles on pourrait débattre longuement. Restons sur la partie positive. On a retrouvé un point d’intérêt commun, donc ils ont été les premiers acteurs industriels à répondre présent.
Par contre le deuxième acteur qu’on avait mentionné, l’Archive nationale de l’Académie des sciences hollandaise, c’est une institution publique donc c’était tout à fait naturel de la retrouver à nos côtés parce que leur mission c’est d’archiver les données de la recherche en Hollande ; ils ont énormément de demandes de la part de chercheurs qui disent : « Bon, très bien, archiver des données c’est très bien, mais qu’est-ce que je fais avec mes logiciels ? Où est-ce que je mets mes codes sources ? » Ils avaient des demandes comme ça, ils ne savaient pas exactement comment les traiter. Quand ils ont découvert ce qu’on faisait dans Software Heritage, ils ont sauté immédiatement sur l’occasion en disant : il faut qu’on travaille ensemble. Maintenant on travaille ensemble dans un projet européen, par exemple. C’est naturel de trouver ces deux-là, mais ça ne suffisait pas, il fallait élargir. Si vous regardez sur le site aujourd’hui il y a un certain nombre de sponsors qui sont arrivés : on s'est retrouvé Intel aussi qui est devenu sponsor ; on a retrouvé GitHub, évidemment.

Frédéric Couchet : Une archive d’hébergement de code.

Roberto Di Cosmo : GitHub qui est une plateforme de développement de code.

Frédéric Couchet : Et une société aux Pays-bas, si je me souviens bien.

Roberto Di Cosmo : GitHub est à San Francisco.

Frédéric Couchet : San Francisco d’accord.

Roberto Di Cosmo : Et a été racheté par ailleurs, c’est le monde à l’envers ; ça a été racheté par Microsoft cet été pour 7 milliards de dollars, c’est assez intéressant.

Frédéric Couchet : Ah ! Tu parlais de GitHub, excuse-moi.

Roberto Di Cosmo : GitHub, oui, tout à fait.

Frédéric Couchet : D’accord. Je croyais que c’était GiLab, excuse-moi.

Roberto Di Cosmo : Non, GitLab c’est autre chose. On a des contacts avec GitLab aussi, on a archivé aussi GitLab. Donc on a élargi petit à petit disons l’ensemble des partenaires, des sponsors, qui sont tous des mécènes. C’est-à-dire que ce qu’ils font ce sont des donations, il n’y a pas de contreparties. Ils font vraiment des financements qui servent à faire grandir le projet parce qu’ils trouvent que c’est une infrastructure…

Frédéric Couchet : Donc c’est de la contribution financière ou est-ce que c’est aussi de la contribution humaine avec la mise à disposition de personnel ?

Roberto Di Cosmo : Pour l’instant c’est essentiellement de la contribution financière, il n’y a pas de mise à disposition de personnel.

Frédéric Couchet : D’accord.

Roberto Di Cosmo : La mise à disposition de personnel c’est compliqué.

Frédéric Couchet : Oui, mais ça aurait pu être.

Roberto Di Cosmo : Ça aurait pu être, mais ça commence à arriver : on commence à avoir des contributions qui viennent de certaines entreprises, mais pas vraiment du personnel qui est mis chez nous.

Frédéric Couchet : Donc ça permet de financer une équipe de combien de personnes aujourd’hui, pour Software Heritage ?

Roberto Di Cosmo : Aujourd’hui si tu regardes sur le site de Software Heritage tu trouveras, je ne veux pas dire de bêtises, mais je pense que tu vas trouver probablement 14 ou 15 photos.

Frédéric Couchet : D’accord.

Roberto Di Cosmo : Peut-être un peu plus parce que sur le site web on a mis aussi le conseil scientifique. Donc ça fait quand même une dizaine de personnes qui travaillent sur le projet à temps plein. On a un peu grandi depuis l’époque où on était deux-trois.

Frédéric Couchet : La machine à café s’est un peu agrandie.

Roberto Di Cosmo : La machine à café est toujours là, elle s’est un peu agrandie, et on est accueilli dans de très bonnes conditions chez Inria pour pouvoir travailler sur le projet

Frédéric Couchet : Donc l’équipe est physiquement, toutes les personnes sont ici à Paris ?

Roberto Di Cosmo : Physiquement ici à Paris, dans les locaux d’Inria, pour l’instant accueillis là, ce n’est pas forcément la position définitive. Ce qu’il faut quand même remarquer c’est que les dix à temps plein qui sont là maintenant – c’est seulement maintenant qu’on est arrivés à dix, on s’est agrandis petit à petit – on fait quand même un travail qui est énorme. On peut penser que dix c'est beaucoup, mais en réalité on est tout petits par rapport à la mission monstre qu’on s’est donnée. Effectivement il y a tout un tas de questions à se poser : quelle garantie d’y arriver à long terme ? Quelle stratégie mettre en place pour pouvoir travailler sur tout ça ? Je dois dire quand même que la première étape est d’avoir toutes les personnes qui sont dans l’équipe qui sont extrêmement motivées pour travailler là-dedans. Nicolas qui était là la semaine passée est un ancien acteur du monde du logiciel libre, Stefano Zacchiroli était leader du projet Debian pendant trois ans,

Frédéric Couchet : Leader du projet Debian.

Roberto Di Cosmo : C’est un chercheur magnifique. Il y a d’autres personnes qui sont motivées. Des fois il n’y a pas que l’argent qui fonctionne.

Frédéric Couchet : Tout à fait.

Roberto Di Cosmo : Des fois il y a une vraie motivation et c’est ça qui aide beaucoup.

Frédéric Couchet : C’est une bonne conclusion pour cette première partie d’émission. On va faire une pause amicale. Nous allons écouter Mountains par Cud Eastbound et on revient juste après ça.

Pause musicale : Mountains par Cud Eastbound.

Frédéric Couchet : Vous êtes de retour sur Cause Commune 93.1 en Île-de-France et partout dans le monde sur causecommune.fm. Vous écoutez l’émission Libre à vous !, l’émission pour comprendre et agir avec l’April l’association de promotion et de défense du logiciel libre. Nous venons d’écouter Mountains par Cud Eastbound qui est disponible en licence Creative Commons Partage à l’identique. J’en profite pour rappeler que toutes les musiques que nous diffusons sont librement partageables, y compris pour des usages commerciaux. Vous retrouvez la référence sur le site de l’April donc april.org.

Je suis toujours en compagnie de Roberto Di Cosmo, professeur d’informatique et directeur de l’initiative Software Heritage. Nous allons poursuivre la discussion. Nous avons parlé, avant la pause musicale, un petit peu d’où venait le projet, les raisons pour lancer ce projet, où ce projet en est, où cette initiative en est aujourd’hui avec une équipe certes réduite mais de gens très motivés et de libristes de longue date, on a cité plusieurs noms. Maintenant on va parler un petit peu du fonctionnement de Software Heritage du point de vue technique et puis du futur.
Peut-être première question, Roberto, Software Heritage est une archive, tout à l’heure tu disais que le but c’était de garantir la pérennité de ces codes sources, patrimoine culturel, économique, industriel et scientifique. Cette archive est hébergée sur les internets, comme on dit, quelque part. Est-ce qu’elle est sur plusieurs sites ? Comment techniquement ça fonctionne ?

Roberto Di Cosmo : Effectivement c’est une très bonne question. Quand on réfléchit à un projet comme Software Heritage on se place dans une logique de long terme. La question de comment maintenir l’information à long terme est cruciale. Il y avait essentiellement deux choix qu’on pouvait faire au début. Un premier choix aurait été de dire : on construit un super datacenter, un centre de données ultra-sécurisé, complètement caché.

Frédéric Couchet : Une solution à la française quoi !

Roberto Di Cosmo : Pas à la française. On prend les meilleurs ingénieurs du monde, on cache tout et on dit à tout le monde : « C’est secret il n’y a rien à voir, on est les meilleurs du monde, on ne sera jamais piratés, on ne perdra jamais de données, on ne fera jamais d’erreurs, etc. » À nouveau, comme j’ai un peu de poils blancs dans la barbe, je sais très bien qu'en général ce type d’approche marche peu. Donc j’ai dit : je ne suis pas capable de le faire fonctionner comme ça. Donc on a préféré prendre une stratégie différente qui est de dire : on sait qu’il y aura des erreurs, on sait qu’il y aura des pertes de données, on sait qu’il y aura des problèmes. Il peut y avoir un centre de données qui brûle, il peut y avoir un tremblement de terre, il peut y avoir un pirate qui rentre dedans qui détruit des données, on peut avoir des problèmes, c’est inévitable, ça fait partie de la vie donc il faut structurer le projet de telle façon qu’il résiste à ce type d’erreurs, qui soit résilient sur le long terme. Qu’est-ce que ça veut dire ?
La base de notre stratégie est :
un, de faire en sorte que toute l’infrastructure qu’on construit, nous, soit entièrement faite en logiciels libres pour rendre plus facile à d’autres de la répliquer ailleurs ;
deux, d’avoir un réseau de miroirs au niveau planétaire dans lesquels l’ensemble des données que nous collectons est réparti et distribué. Et là on utilise en particulier une terminologie qui est un peu particulière dans notre projet, on ne l’a pas formalisée, mais on peut la partager dès aujourd’hui, on utilise le terme copie pour une copie entière de toutes les données qui sont dans l’archive mais qui sont sous notre responsabilité.
Donc par exemple aujourd’hui, Software Heritage dispose de trois copies de l’archive : deux qui sont dans les locaux de l’Inria, chez nous, et une qui est sur une plateforme Azure qui est sponsorisée par Microsoft.

Frédéric Couchet : Donc ce sont les mêmes données.

Roberto Di Cosmo : Ce sont les mêmes données mais sur trois endroits différents.

Frédéric Couchet : Qui sont sur trois infrastructures physiques différentes.

Roberto Di Cosmo : Sur trois infrastructures différentes, mais les infrastructures, toutes les trois, sont sous notre contrôle, sous le contrôle de l’organisation Software Heritage aujourd’hui. Le fait que ça soit à trois endroits physiquement différents et pas forcément la même technologie — si tu vas sur Azure, même si c’est une base Debian, en réalité la techno qui est derrière (les machines, etc.) c’est différent de chez nous —, c’est un peu rassurant. Mais imagine qu’on devienne tous fous, les dix de l’équipe décident de tout détruire et de tout brûler, une sorte de Samson « Que je meure avec les Philistins », comme on dit, on pourrait le faire. Donc il faut quand même se protéger de ce dommage-là. Donc là on a besoin de ce qu’on appelle des miroirs. Qu’est-ce que c’est un miroir ? Un miroir, pour nous, c’est une copie mais qui est sous le contrôle administratif et technique de quelqu’un d’autre. Sous une entité qui n’est pas Software Heritage, mais avec qui, évidemment, on a passé des accords pour les questions d’éthique, juridiques, etc., mais qui n’est pas nous.
C’était dans notre plan depuis le départ et en décembre passé, il y a quelques semaines, on a annoncé qu’on a signé le premier accord pour la création d’un miroir. Ça sera en Suède, ça sera porté par une société qui s’appelle FOSSID. Ce n’est pas encore fait, la partie technique est à développer, mais au moins l’accord est là, et on met la première pierre de ce réseau de miroirs qui va nous protéger de la perte de données.
C’est très intéressant d’en parler aujourd’hui. Tu as mentionné la réforme du droit d’auteur. Il y a plusieurs dangers qui guettent un projet comme le nôtre. Il y a des dangers techniques, par exemple tu as cassé un disque, tu as perdu des choses, tu t’es trompé dans le logiciel qui a corrompu toutes les données, ce sont des choses qui peuvent arriver, mais il y a des risques, d’une certaine façon, plus subtiles, plus néfastes qui sont des risques juridiques. Il se peut qu’un miroir, une copie de l’archive, se trouve dans un pays ou dans une zone géographique dans lesquels, à un moment donné, sont passés des textes de loi qui rendent difficile voire impossible, voire illégal, de faire ce travail d’archivage. Et c’est effectivement ce qui est en train d’arriver avec cette fameuse réforme du droit d’auteur, un article 13 qui oblige toutes les plateformes qui partagent du contenu couvert par le droit d’auteur de mettre en place des filtres avec des autorisations, il y a un droit qui est très contraint, on ne va pas rentrer dans ça, ce n’est pas le sujet aujourd’hui.

Frédéric Couchet : Je précise qu’on en parlera la semaine prochaine avec Anne-Catherine Lorrain qui travaille pour le groupe des Verts au Parlement européen parce que cette semaine il y a une négociation interministérielle au niveau européen qui se déroule donc on en saura plus à la fin de la semaine et la semaine prochaine on fera un point là-dessus.

Roberto Di Cosmo : Absolument. Donc effectivement ce débat-là nous a pris, côté Software Heritage, pas mal de temps parce qu’on le voyait comme un danger : pour le travail qu’on est en train de faire c’est un vrai danger ! Donc le fait d’avoir des miroirs dans d’autres juridictions ça protège aussi de ces risques juridiques ; il n’y a pas seulement les risques techniques. Cela dit, ça c’est l’objectif, il faut y arriver. Ça prend un peu de temps d’y arriver, je vous signale.

Frédéric Couchet : Ça c’est l’objectif. Donc le principe technique, on va le répéter pour que les personnes comprennent bien : il y a trois archives sous le contrôle du projet Software Heritage : deux sont sur une infrastructure Inria, une sur une infrastructure Azure Microsoft et, en plus de cela, il y a un principe de miroirs sur lesquels Software Heritage n’a pas d’accès on va dire direct de contrôle.

Roberto Di Cosmo : En écriture.

Frédéric Couchet : À part un contrat et le premier projet de miroir c’est FOSSID. FOSSID ça veut dire free open source software ?

Roberto Di Cosmo : Non. C’est une entreprise qui est en Suède qui fait de l’analyse de code pour des questions de licences.

Frédéric Couchet : D’accord. Donc ils sont intéressés. Donc on voit l’intérêt du projet : ce sont des gens qui sont intéressés aussi par rapport à l’analyse de code qui est un point très important. On pourrait imaginer que des universités soient intéressées pour les étudiants, pour mettre à disposition, parce qu’on sait très bien – on a appris l’informatique tous les deux, toi peut-être un petit peu avant moi, comme tu le dis assez, avec ta barbe un peu blanche – que souvent la meilleure façon d’apprendre eh bien c’est de regarder ce qui a été fait par d’autres personnes. Donc des universités pourraient être intéressées par cette masse de code disponible.
D’ailleurs j’ai une question avant de poursuivre sur la partie archive miroir, est-ce que ce ne sont que des logiciels libres ? Est-de que ce ne sont que des codes sources de logiciels libres qui sont hébergés dans le projet ou est-ce que ça peut être des codes sources d’autres logiciels ?

Roberto Di Cosmo : C’est une très bonne question. Je vais même généraliser la question. La question est de savoir comment on décide de ce qui mérite d’être archivé dans l’archive de Software Heritage. Effectivement la position qu’on a prise dans Software Heritage c’est quelque chose qui fait un peu dresser les cheveux sur la tête quand j’en parle avec des gens qui sont habitués à de l’archivage traditionnel, que ça soit dans des bibliothèques ou ailleurs. Nous on a pris une position très particulière : on essaye d’archiver tous les codes sources qui sont publiquement disponibles, c’est-à-dire auxquels on peut avoir accès, donc on ne filtre pas spécialement sur le fait qu’ils soient des beaux logiciels ou des logiciels pas très beaux, ou que la licence permette explicitement la redistribution donc qui soient vraiment des logiciels libres, ou que ça soit juste des codes qui ont été mis à disposition dont la licence n’est pas super claire, etc.

Frédéric Couchet : Mais elle permet au moins de faire la copie du code.

Roberto Di Cosmo : Au moins de faire la copie. L’idéal ça serait à terme d’arriver à avoir vraiment tous les logiciels, même les anciens, parce si tu veux les logiciels qui sont propriétaires aujourd’hui, tant qu’on ne change pas encore une fois le droit d’auteur.

Frédéric Couchet : Qu'on n’étend pas le droit d’auteur.

Roberto Di Cosmo : Au-delà de ce qui est raisonnable.

Frédéric Couchet : Au-delà de ce qui est raisonnable, ce qui est déjà le cas, nous sommes d’accord.

Roberto Di Cosmo : Normalement au bout de 70 ans ils deviennent du domaine public.

Frédéric Couchet : Après la mort de l’auteur.

Roberto Di Cosmo : Oui. En réalité pour les logiciels industriels c’est à partir de leur mise sur le commerce.

Frédéric Couchet : Ah pour les logiciels industriels, d’accord.

Roberto Di Cosmo : Oui, les logiciels industriels. Et effectivement après la mort de l’auteur c’est un peu compliqué, mais l’idée ça serait mieux de les avoir, question de pouvoir les mettre à disposition plus tard. Là j’aurais plein d’anecdotes à raconter, mais je ne vais pas les raconter maintenant.

Frédéric Couchet : Oui, parce que sinon on n’aura pas le temps dans l’émission. Ce sera pour une deuxième émission. Donc c’est tout le code, en fait, qui est disponible sur Internet.

Roberto Di Cosmo : Voilà. On essaye de le collecter et maintenant on a ouvert plein de pistes c’est-à-dire techniquement, je vais donner quelques éléments techniques supplémentaires. Pour les grandes plateformes de développement comme GitHub qui est très populaire aujourd’hui ou GitLab ou même la forge Inria ou même Framagit qui est la forge mise à disposition par Framasoft ici en France, ce qu’on fait on met en place un mécanisme de moissonnage automatique. C’est-à-dire qu’on va collecter tous les logiciels qui sont disponibles là-dessus et on les intègre automatiquement. Par contre on a aussi rajouté des pistes pour pouvoir, de façon explicite, déposer des logiciels, par exemple des logiciels développés dans la cadre de la recherche académique, pouvoir les déposer. Là on a fait un partenariat avec un portail national qui s’appelle HAL.

Frédéric Couchet : HAL, H, A, L ?

Roberto Di Cosmo : H, A, L, c’est une sorte de portail open access pour l’accès ouvert aux publications et maintenant il y a un mécanisme pour déposer aussi du code scientifique dedans. Et plus récemment on a ouvert un mécanisme qu’on appelle, tu me passeras l’anglais, save code now.

Frédéric Couchet : Sauvegardez votre code maintenant.

Roberto Di Cosmo : Maintenant. Donc c’est possible de nous indiquer qu’il y a certains endroits dans lesquels il y a du code important et, en nous indiquant cette piste-là, nous, après, on le rajoute aux moissonneurs.

Frédéric Couchet : Oui, parce qu’évidemment Software Heritage ne peut pas avoir connaissance de tout le code qui existe sur Internet, ça paraît compliqué. J’ai une question sur les plateformes d’hébergement de logiciels que tu as citées, est-ce que ces plateformes donnent un accès complet, exhaustif, à l’ensemble des codes qui sont hébergés ? C'est-à-dire est-ce que Software Heritage a une certitude, en fait, de pouvoir récupérer tout le code que ces plateformes hébergent, d’un point de vue technique ?

Roberto Di Cosmo : D’un point de vue technique la réponse est oui. Disons que techniquement c’est compliqué, on ne va pas rentrer dans les détails, mais oui on peut y arriver. Par exemple tout ce qui est disponible publiquement sur GitLab ou sur GitHub, etc., techniquement on pourrait être capables d’obtenir absolument tout et d’être à jour même très rapidement. Après il ne faut pas oublier qu’on est une petite équipe, qu’on a commencé avec des ressources relativement limitées ; si on avait des milliards on ferait beaucoup plus. On n’a pas des milliards !

Frédéric Couchet : Ma question n’est pas forcément sur l’équipe.

Roberto Di Cosmo : Est-ce qu’il y a un filtre qui nous a empêche de l’obtenir ?

Frédéric Couchet : Est-ce que la plateforme d’hébergement propose déjà une liste exhaustive de ces projets en disant là c’est facile de récupérer ?

Roberto Di Cosmo : Les plateformes plus récentes comme GitLab ou GitHub fournissent effectivement une interface accessible pour les machines, ce qu’on appelle des API, c’est-à-dire une interface de programmation qui permet de lister les contenus. Donc on a au moins accès à la liste des contenus qui sont disponibles et après, si on peut suivre les évènements, on peut télécharger les choses de façon plutôt raisonnable. Les anciennes plateformes comme SourceForge qui existait déjà il y a 20 ans et qui sont un peu…

Frédéric Couchet : Sur le déclin !

Roberto Di Cosmo : Pas sur le déclin, il y encore des logiciels très importants qui sont développés dedans.

Frédéric Couchet : Oui, il y en a plein !

Roberto Di Cosmo : Par contre ils n’ont même pas ça, ils n’ont même pas une interface qui permet de lister les contenus. Donc là c’est assez compliqué, il faut aller travailler avec eux pour obtenir les choses, on ne l’a pas encore fait, ça fait partie de la roadmap et c’est beaucoup d’efforts pour pas grand-chose comme résultat.

Frédéric Couchet : Ça pourrait être un effort de SourceForge ou des personnes qui maintiennent SourceForge de proposer ça.

Roberto Di Cosmo : Exactement. De proposer cette interface.

Frédéric Couchet : Effectivement, peut-être que quand ils ont créé ce genre de plateforme ils ne sont pas mis en tête : tiens il y a un Roberto Di Cosmo qui arrivera un jour pour pouvoir archiver tout ce qu’il y a dessus, donc ils n’ont pas proposé cette simple information sur l’ensemble des projets qui sont disponibles sur la plateforme. Donc c’est à ces structures-là de faire ce travail.

Roberto Di Cosmo : Là, au passage, j’en profite pour dire merci à l’ADULLACT, on a travaillé avec elle.

Frédéric Couchet : L’association des développeurs et utilisateurs de logiciels libres dans l’administration et les collectivités territoriales françaises.

Roberto Di Cosmo : Très bien. Je vois que tu te rappelles l’acronyme, c’est super, et qui a aidé à développer une sorte de plugin, un greffon qui a été rajouté sur la technologie des forges qui s’appelle FusionForge qui est une évolution de SourceForge et qui fait en sorte que maintenant il est possible de moissonner les contenus qui sont une instance de FusionForge, en particulier celle de l’ADULLACT a mis en place ça. Donc ça fait partie de ce travail collaboratif dans lequel je vais essayer juste d’arriver à dire ça clairement : la mission qu’on s’est donnée est quand même énorme, herculéenne et on n’y arrivera jamais si on le fait tout seuls. Donc toute la stratégie du projet est de rendre facile et possible à tout le monde de participer.

Frédéric Couchet : Tu parles de l’ADULLACT. Le 8 janvier on recevait Laurent Joubert et Mathilde Bras de la DINSIC, la Direction interministérielle du numérique et de la société de l’information et de la communication, j’ai un petit doute sur l’acronyme [Direction interministérielle du numérique et du système d’information et de communication], en tout cas on va dire la direction informatique de l’État et Laurent Joubert avait annoncé qu’il y avait un partenariat qui se créait entre la DINSIC et Software Heritage pour que Software Heritage archive les codes sources publiés par l’administration.

Roberto Di Cosmo : Absolument. Ça c’est l’objectif, ce qu’on fera. Si tu veux dans l’État français, normalement, il y a une obligation d’archivage des données publiques en particulier, donc il y a des Archives nationales ; maintenant quand on passe dans le monde numérique, il faut avoir des archives numériques. Il y a tout un tas d’initiatives pour archiver plein d'informations numériques de l’État français. Pour ce qui concerne les codes sources des logiciels l’idée que tout ça soit archivé dans Software Heritage qui est une plateforme qui n’archive pas seulement les codes sources de l’administration mais aussi les codes sources de l’administration française ; pas la peine d’en faire 42 ! L’idée c’est de les remettre ensemble et de travailler en bonne entente avec les services de l’État pour faire en sorte que les différentes plateformes de développement qui sont un peu éparpillées dans les différents ministères, dans différents endroits, soient toutes tracées, indexées, pour permettre l’archivage systématique dans Software Heritage.

Frédéric Couchet : Tout à l’heure tu as dit que quand le projet a été lancé en 2016 il y avait, si je me souviens bien, un milliard de codes sources ou de lignes.

Roberto Di Cosmo : Un milliard de fichiers.

Frédéric Couchet : Un milliard de fichiers. Aujourd’hui est-ce qu’il y a des statistiques sur le nombre de projets qui sont archivés par mois pour donner un ordre d’idée de la progression ?

Roberto Di Cosmo : Bien sûr. Nous on est très logiciel libre, très transparents, très ouverts. Si tu vas sur le site web qui est www.softwareheritage.org/archive, donc tu vas dans l’archive, tu trouveras des jolis graphiques qui sont à jour, qui montrent que maintenant on doit être à 88 ou 89 millions de projets indexés. À peu près 5 milliards et demi de fichiers sources uniques. Il y a de jolis graphiques qui te montrent comment ça évolue dans le temps.

Frédéric Couchet : Comme on a Internet et que j’ai un ordinateur devant moi, effectivement les fichiers sources c’est 5 milliards, 6, visiblement ; ça représente 23 millions de personnes différentes, 88 millions de projets. On regarde et on voit un certain nombre de plateformes qui sont automatiquement archivées, tout à l’heure tu as cité GitLab, GitHub, il y a aussi Framagit que tu as cité, Debian, le projet GNU et puis d’autres projets. C’est sur softwareheritage.org/archive. Donc c’est une grosse progression.

Roberto Di Cosmo : Absolument.

Frédéric Couchet : Et je suppose que ça a un impact, tout à l’heure on parlait des données, sur la taille de l’archive. D’ailleurs j’ai une question peut-être un peu technique, le temps passe : est-ce que vous avez pour la conservation de ces fichiers qui viennent pour beaucoup, en fait, de plateformes d’hébergement qui utilisent Git, est-ce que vous êtes partis sur la même architecture technique ou est-ce que vous avez développé quelque chose de spécifique pour Software Heritage ?

Roberto Di Cosmo : C’est une très bonne question. L’idée, à nouveau, c’est qu’il faut se placer dans une logique de long terme. L’idée c’est d’essayer de ne pas réinventer des choses qui existent. Si tu inventes encore des standards différents c’est un peu compliqué, mais, par contre, essayer de réutiliser les meilleurs qui existent à chaque moment donné.
En particulier sur l’architecture technique des modèles de données qu’il y a derrière l’archive de Software Heritage c’est essentiellement le même modèle de données que tu as derrière Git mais avec une grosse différence c’est qu’on utilise ce même modèle de données pour tous les projets mélangés. Effectivement, peu importe d’où vient un fichier source, un répertoire, un commit, une release, etc., on mélange tout dans un énorme graphe dans lequel s’il y a un bout de projet qui a déjà été utilisé dans un endroit et on le trouve à un deuxième endroit on ne le copie pas, on ne le duplique pas, on garde juste la trace que c’est le même objet.

Frédéric Couchet : Ce qui permet de sauvegarder de l’espace disque.

Roberto Di Cosmo : Ça permet de réduire le coût, parce qu’un espace disque c’est monstrueux. Tout ce que vous voyez maintenant sur l’archive fait un peu plus de 200 téraoctets de données et quelques téraoctets de base de données pour le graphe central, ce qui est microscopique par rapport à ce que ça archive.

Frédéric Couchet : Par rapport à ce que ça archive.

Roberto Di Cosmo : Parce qu’il y a énormément de duplications dans le travail de développement d'un logiciel. On réutilise énormément des fichiers qui existent déjà dans d’autres projets, on fait ce qu’on appelle des forks, etc. Donc nous on a un modèle d’archivage qui est structuré exactement pour passer à l’échelle de ce mécanisme de fortes duplications diverses et variées.

Frédéric Couchet : Un fork c’est qu’on part d’un projet et on va en faire une version modifiée donc évidemment la version modifiée va avoir une bonne partie du code original parce que c’est le principe et c’est aussi l’un des principes du logiciel libre. Je précise juste que Git dont on parle depuis tout à l’heure c’est, en gros, un logiciel de gestion de versions décentralisé qui est très utilisé, qui date peut-être d’une quinzaine ou d’une vingtaine d’années maintenant.

Roberto Di Cosmo : Je ne veux pas dire de bêtise, je pense que c’est 2005-2006, c’est Torvalds qui avait fait ça.

Frédéric Couchet : Et c’est initialement développé par Linus Torvalds qui est aussi le développeur original du noyau Linux et qui est toujours, je crois, à la tête, du développement du noyau. Donc 200 téraoctets, ça peut paraître beaucoup, mais en fait, par rapport à ce que ça sauvegarde, c’est…

Roberto Di Cosmo : Mais attention quand même ça grandit, ça va grandir.

Frédéric Couchet : Oui, ça s’agrandit. Même si on peut espérer peut-être qu’une bonne partie des codes existants ont déjà été archivés. Le temps passe vite à la radio et le sujet est passionnant, mais tout à l’heure tu parlais des problèmes juridiques dont, notamment, la directive droit d’auteur et c’est vrai que dans le passé on a dû aussi passer pas mal de temps ensemble et avec d’autres à se battre pour nos libertés que ce soit contre les brevets logiciels ou d'autres trucs dans le genre. Quels sont les deux grands défis, on va dire technique et juridique peut-être, s’il y en a encore, pour Software Heritage aujourd’hui ?

Roberto Di Cosmo : Sur la partie technique effectivement, je prends une petite parenthèse mais ça vaut vraiment la peine. Au moment où on a lancé le projet on se disait bon, bref ! On construit cette infrastructure, on utilise un peu la technologie qu’on connaît aujourd’hui, on essaye d’utiliser la meilleure, bien sûr, avec des gens motivés et de très bon niveau, et après on utilisera tout ça pour faire de la recherche sur ces informations. Après on s’est aperçus, petit à petit, que l’infrastructure même que nous sommes en train de construire est un projet de recherche lui-même parce qu’il y a tout un tas de défis techniques qu’on n’imaginait pas tout à fait au moment où on a commencé. Finalement c’est une architecture distribuée dans laquelle on stocke une énorme quantité de fichiers qui sont relativement petits, on ne sait pas exactement ce qui est nécessairement standard dans le monde industriel d’aujourd’hui. Il y a des questions de réplication, de sûreté, il y a énormément d’indexation dans ces graphes très grands, comment construire des moteurs de recherche là-dessus, donc effectivement il y a énormément de défis ; il y en a plein. En même temps c’est un problème amusant parce que ça permet de faire venir, j’espère, d’attirer un certain nombre d’équipes de recherche qui cherchent des problèmes intéressants. Là il y en a plein ! Il faut qu’elles viennent.

Frédéric Couchet : C’est une base de données à gérer qui est monstrueuse, donc c’est intéressant.

Roberto Di Cosmo : Il y a plein de problèmes. Il faut juste savoir, et tu le sais bien, que dans le monde académique, on prend du temps. Entre le moment où tu intéresses quelqu’un au problème, le moment où les gens commencent à y travailler il se passe déjà un an, peut-être deux, et le moment où il y a un résultat que tu puisses industrialiser, mettre dedans, ça peut mettre quatre ou cinq ans. Mais ce n’est pas grave parce que nous on est dans une logique de long terme. L’idée c’est de créer vraiment une activité de recherche autour qui améliore l’infrastructure petit à petit. Après je ne veux pas rentrer trop dans la partie super technique.

Frédéric Couchet : Non. Et la partie juridique, à part le projet de directive droit d’auteur qui est un gros problème juridique mais dont on espère que ça sera terminé bientôt, est-ce qu’il y a d’autres défis juridiques ?

Roberto Di Cosmo : Je ne sais pas si j’appellerais ça vraiment des défis juridiques, c’est plutôt organisationnel. Je résume un peu cette idée. On se place dans une logique de long terme : comment construire quelque chose qui est vraiment résistant aux risques sur le long terme ? On l’avait déjà dit avant, on veut avoir plusieurs partenaires, on ne veut pas construire une entreprise qui peut-être rachetée ou peut faire faillite, on ne veut pas dépendre d’un seul acteur qui peut changer d’avis même s’il est très riche, comme c’était le cas de Google quand il a fermé Google Code, ce n’est pas juste une question d’argent, c’est aussi une question de stratégie.

Frédéric Couchet : Ça permet de rappeler que même si ce sont des grandes structures comme Google ou autre des fois ça peut fermer du jour au lendemain. On peut le rappeler à pas mal de personnes dont la vie informatique dépend de ces géants.

Roberto Di Cosmo : Oui ! C’est juste une décision qui est prise par une gestion. Ils ont sûrement leurs raisons. Il est important d’avoir une structure qui contrôle le projet, qui pilote le projet avec exactement la mission de faire seulement ce qui est dit dans le projet c’est-à-dire collecter, préserver, rendre disponibles les codes sources de toute la planète.
On réfléchit maintenant à la mise en place d’une stratégie pour devenir pérenne. Au début c’était un projet hébergé par Inria qui continue de nous soutenir. Maintenant on est dans une phase de transition, on commence à construire une infrastructure juridique qui est une fondation, en vérité, et à terme on veut arriver sur l’équivalent d’une structure de fondation dans laquelle on pourra avoir justement plusieurs partenaires qui travaillent ensemble avec une dotation pérenne pour faire en sorte que le projet soit viable à très long terme, que moi je puisse partir à la retraite, le plus vite possible, en allant pêcher tranquillement sans avoir à courir après les sponsors toutes les deux minutes !
Donc là c’est construire vraiment la bonne structure, ça prend effectivement du temps. Mettre en place la bonne organisation pour que ça fonctionne bien, ça prend du temps.
Une autre partie de la stratégie qui est très intéressante : quand on construit une infrastructure comme Software Heritage on ne s’intéresse pas seulement au monde de l’industrie, on ne s’intéresse pas seulement au monde de la recherche, on ne s’intéresse pas seulement au monde de la culture, on ne s’intéresse pas seulement au monde associatif, aux administrations publiques, en réalité on construit une infrastructure qui est au service de tous. Donc c’est vraiment important d’arriver à amener autour de la table — comme tu disais le cas de la DINSIC est très important — des administrations publiques, d’amener autour de la table des entreprises, d’amener autour de la table des entités comme l’Unesco qui sont intéressées à préserver le patrimoine logiciel, mais aussi énormément d’autres contributeurs. Par exemple l’année passée on a fait l’effort de mettre en place sur le site web du projet de Software Heritage un gros bouton rouge qui dit Donate. Même si quelqu’un veut donner dix euros pour soutenir le projet, c’est bienvenu, même si c’est petit ce n’est pas très grave ; l’important c’est diversifier au maximum.

Frédéric Couchet : Les sources de financement.

Roberto Di Cosmo : Les sources de financement pour minimiser le risque engendré par le fait que l’un ou l’autre des partenaires parte.
Et l’autre chose aussi c’est trouver un discours qui soit suffisamment audible auprès des entreprises, auprès d’autres entités, qu'elles soutiennent ce projet. Heureusement la France a sauvé la face parce que maintenant on a la Société Générale parmi les sponsors donc on a au moins un grand acteur français qui est présent. Par contre c’est vrai, ça aurait été sympa d’avoir d’autres acteurs qui utilisent énormément et massivement des logiciels libres qui deviennent partenaires du projet. Finalement c’est un super projet mondial qui a la cabine de pilotage à Paris, c’est assez étonnant de ne pas en trouver d’autres.

Frédéric Couchet : Finalement, si je reviens effectivement à ce que tu disais au début, les grands acteurs du logiciel libre que tu as contactés au début n’ont toujours pas embarqué le projet.

Roberto Di Cosmo : N’ont toujours pas répondu présent !

Frédéric Couchet : Est-ce que ces structures ont donné une raison, une explication ?

Roberto Di Cosmo : C’est toujours compliqué. Quand tu demandes aux gens de donner de l’argent gratuitement tu sais bien que ce n’est pas facile, ils ont toujours d’autres choses. Ils peuvent financer des évènements dans lesquels leur logo apparaît, ils peuvent financer d'autres choses. Mais là on est vraiment en train de construire une infrastructure au service de tous, donc il faut un petit peu de vision pour être capable de voir que l’investissement initial va rapporter beaucoup plus dans l’intérêt commun.
Et là, paradoxalement, à nouveau je suis assez étonné, mais Microsoft et Intel qui étaient quand même mes ennemis historiques il y a vingt ans, qui sont les deux premiers qui ont répondu présent, c’était surprenant. Au moins ils montrent qu’ils ont une vision. Après, la Société Générale, c’est un super partenariat.

Frédéric Couchet : Donc la Société Générale avoir un investissement dans le Libre très fort. Il faut le saluer.

Roberto Di Cosmo : C’est incroyable. Ils sont vraiment en train de changer leur stratégie interne dans laquelle ils mettent en place une stratégie pour le logiciel libre qui est remarquable. Dans ce cadre-là, le fait qu’ils soutiennent le projet ça me semble génial, mais je pense qu’il y a beaucoup plus à faire. Il faudrait que bien d’autres participent. On peut participer en donnant dix euros, mais on peut aussi participer en allant rajouter dans « sauver le code aujourd’hui » les bons pointeurs.

Frédéric Couchet : En proposant des sites sur lesquels il y a un code à archiver.

Roberto Di Cosmo : Des sites. Et on peut aussi, pour des gens qui veulent développer, contribuer, contribuer à construire les briques logicielles qui aident à tracer d’autres plateformes. C’est-à-dire on fait vraiment un effort maintenant pour essayer de documenter le code, rendre facile la participation ; ce n’est pas évident, c’est une grosse infrastructure, mais là aussi la contribution de la communauté est fondamentale pour que le projet prenne son essor à long terme.

Frédéric Couchet : Écoute Roberto, je te remercie. Ça me paraît être une belle conclusion un appel à soutien, en espérant que plein de gens y répondront et, en premier, que les structures qui développent des logiciels libres participent à ce projet. Est-ce que tu souhaites ajouter quelque chose avant qu’on passe à la pause musicale et qu’on change, pas tellement de sujet vu qu’on va parler un peu d’éducation après.

Roberto Di Cosmo : Je veux juste dire ça, je pourrais ajouter un élément : pour moi c’est très émouvant de me retrouver un peu dans la cabine de pilotage de ce projet, avec d’autres, je ne suis pas tout seul, il y a Stefano, il y en a plein d’autres qui aident, parce que c’est un moment magique. L’informatique est une discipline qui m’a toujours passionné et là on est à un point charnière dans cette histoire parce que le logiciel est né il y a une cinquantaine d’années, à peu près 50-60 ans. On a l’occasion unique de pouvoir reconstruire l’histoire de l’informatique, l’histoire de tous les logiciels qui sont arrivés à aujourd’hui et d’avoir l’infrastructure qui va permettre pour le futur de faciliter le développement des logiciels. Je pense qu'on est à point charnière. On a commencé il y a quatre ans à mettre en place ce qu’est Software Heritage, aujourd’hui on montre que c’est possible d’y arriver. Je pense que c’est la chose la plus passionnante qu’il ne m’est jamais arrivé de faire et j’espère, évidemment, que d’autres personnes se passionnent pour cette infrastructure et qu’on comprenne bien que ce n’est pas le projet de Roberto Di Cosmo, ce n’est pas le projet de l’équipe Software Heritage, ce n’est pas le projet d’Inria, ce n’est même pas le projet des sponsors du projet. C’est le projet de tout le monde, de toute une communauté qui trouve qu’il y a quelque chose qui est commun. Donc plus grand sera le nombre de personnes qui s’approprient le projet mieux ce sera dans l’intérêt de tous !

Frédéric Couchet : En tout cas j’espère qu’on a contribué modestement à faire connaître ce projet culturel, industriel, de recherche, d’éducation.

Roberto Di Cosmo : Merci de m’avoir fait venir.

Frédéric Couchet : Le point d’entrée c’est softwareheritage.org. Vous pouvez contribuer, Roberto a proposé pas mal de pistes de contribution et on aura sans doute l’occasion de refaire un point dans quelques mois sur la radio ou ailleurs.

Roberto Di Cosmo : Avec plaisir.

Frédéric Couchet : On va maintenant faire une pause musicale, mais Roberto reste avec nous parce que le sujet de l’éducation l’intéresse évidemment. Le morceau s’appelle Quand nous sommes à la taverne et le groupe s’appelle Ceili Moss. On revient juste après ça.

Pause musicale : Quand nous sommes à la taverne par le groupe Ceili Moss.

Frédéric Couchet : Vous êtes de retour sur l’émission Libre à vous ! sur Cause Commune 93.1 en Île-de-France et partout ailleurs sur causecommune.fm. Nous avons écouté le morceau Quand nous sommes à la taverne, le groupe s’appelle Ceili Moss. J’en profiterais pour préciser qu’évidemment il faut consommer avec modération, surtout quand dans la bouteille il y a de l’alcool.

Nous allons aborder le dernier sujet. Nous allons faire un point rapide sur le projet de loi pour une école de la confiance et plus précisément sur des amendements visant à inscrire la priorité au logiciel libre dans l’Éducation. Normalement au téléphone Jean-François Clair est avec nous. Jean-François est-ce que tu es là ?

Jean-François Clair : Oui. Bonjour Fred.

Frédéric Couchet : Bonjour Jean-François. Jean-François Clair, tu es professeur de mathématiques en collège REP+ à Paris et tu es responsable du groupe numérique au SNES qui est le principal syndicat du secondaire. Je t’ai invité à intervenir avec deux questions de base en fait. Je précise que le SNES est de longue date impliqué, a un engagement de longue date en faveur des logiciels libres dans l’Éducation. Pour quelle raison le SNES a cet engagement à la fois dans l’Éducation et dans sa pratique syndicale ?

Jean-François Clair : C’est essentiellement parce que, contrairement à ce que disent de nombreux médias, le SNES est quand même un syndicat très progressiste et, dès le tournant des années 80, lorsque la micro-informatique est apparue, de très nombreux enseignants, dont les enseignants du SNES, se sont emparés de l’outil informatique. Au fur et à mesure que les années ont passé eh bien ils ont développé une expertise, une connaissance et ils se sont très rapidement rendu compte au moment où Microsoft a pris possession, on va dire, du monde de la micro-informatique, il y avait aussi Apple de son côté, qu’on courait quand même vers une forme de marchandisation de l’école puisque, finalement, on a mis très longtemps à arriver à faire comprendre aux gens qu’il fallait parler de tableur, qu’il fallait parler de traitement de texte, de messagerie électronique et même maintenant, d’ailleurs, de moteur de recherche, plutôt que d’employer les noms qu’on utilise traditionnellement parce que c’est l’outil le plus courant à utiliser, de la même manière que dans les années 50 il y avait frigidaire qui avait remplacé le nom de réfrigérateur.
Ensuite, pourquoi le logiciel libre ? Eh bien tout simplement parce que le logiciel libre correspond à une philosophie, une façon finalement de penser le monde, où on est propriétaire de ce que l’on fait et on le met en commun puisque c’est le principe du Libre, le code est ouvert. C’était pour nous une façon de se dire que c’était peut-être la meilleure manière d’amener à ce que les élèves puissent apprendre, à un moment ou à un autre, l’informatique, en particulier le codage puisque, quand on parle de logiciel libre, il y a quand même cette dimension de codage, et surtout à pouvoir fabriquer par nous-mêmes ou améliorer par nous-mêmes les logiciels de façon à ce qu’ils correspondent à nos besoins pédagogiques. Voilà en gros comment je pourrais présenter les choses.

Frédéric Couchet : D’accord. C’est un engagement de longue date. Je précise que le SNES est membre de l’April. Il y a aussi un autre syndicat qui est membre de l’April qui est le SGEN-CFDT ; il y a aussi une section du Bas-Rhin du SNUIPP-FSU qui est membre de l’April. C’est aussi intéressant en termes de soutien de nos actions parce que c’est relativement récent ces adhésions à l’April, mais ça ne cache pas le fait, au contraire, ça renforce le fait que ces syndicats, depuis de longue date, essayent de promouvoir le logiciel libre à la fois dans leur pratique syndicale et aussi dans l’enseignement.
Aujourd’hui on va parler, assez rapidement parce que la fin de l’émission approche, d’un projet de loi qui a été déposé à l’Assemblée nationale début décembre, qui est le projet de loi pour une école de la confiance. Initialement, le projet de loi pour une école de la confiance ne visait pas spécifiquement le logiciel libre, mais il se trouve que des députés ont déposé des amendements. Sans refaire tout l’historique, notamment en commission et avant que je te pose la deuxième question pour qu’on comprenne, là actuellement le projet de loi est étudié à l’Assemblée nationale en séance publique, donc ça a commencé lundi, ça va se poursuivre tout à l’heure après la séance des questions du gouvernement donc ça a peut-être commencé.
En fait il y a deux types d’amendements qui ont été déposés par des parlementaires pour la séance publique. Il y a premier type d’amendements qui a été déposé par les députés de la France insoumise qui vise à imposer l’usage du logiciel libre dans l’Éducation, je lis l’amendement : « Les logiciels mis à disposition des élèves dans le cadre du service public de l’enseignement sont des logiciels libres » , c’est l’amendement 571.
Et de son côté le groupe communiste, notamment le député Stéphane Peu, a déposé deux amendements qui visent à inscrire la priorité au logiciel libre, ce qui est différent d’imposer l’usage du logiciel libre. Le lis l’amendement 836 de Stéphane Peu : « Les logiciels mis à disposition des élèves dans le cadre du service public de l’enseignement sont en priorité des logiciels libres ». On voit deux approches différentes. Nous, l’approche priorité au logiciel libre c’est celle que l’on défend depuis de nombreuses années, notamment pour gérer la phase de transition nécessaire, parce que évidemment, dans le monde de l’Éducation malheureusement, Microsoft, Apple et autres sont très présents. Quelle est la position du SNES sur ces deux options priorité ou imposition du logiciel libre ?

Jean-François Clair : On ne peut pas imposer. On ne peut absolument pas imposer le logiciel libre pour une bonne et simple raison c’est qu’il existe un certain nombre de choses qui relèvent de codes propriétaires. Je vais prendre un exemple tout simple : pendant des années les collègues ont développé des petites animations Flash qui sont basées sur Adobe Flash, c’est du code complètement propriétaire, ce n’est pas du Libre.

Frédéric Couchet : Ce n’est pas du libre. Flash c’est propriétaire.

Jean-François Clair : C’est mis gratuitement à disposition de, mais ce n’est pas du Libre. Donc on ne peut pas imposer à tout prix le Libre surtout dans une société qui n’est pas encore prête à, comment dire, réfléchir publiquement sur la protection des données, comme on l’a vu l’année dernière avec la loi qui a été votée au moment de l’entrée en vigueur définitive du RGPD [Règlement sur la protection des données]. Pour nous, il s’agit de donner la priorité au logiciel libre. De toute façon il existe aussi un certain nombre de solutions qui ont été développées en code propriétaire et qui n’ont pas leur équivalent dans le monde du Libre.

Frédéric Couchet : Qui n’ont pas encore leur équivalent.

Jean-François Clair : Et qui sont, malgré tout, utilisées par un certain nombre de collègues.

Frédéric Couchet : D’accord. Ça rejoint notre position.
Je répète que les débats ont lieu en ce moment. Pour les personnes qui nous écoutent, la meilleure façon d’agir c’est de contacter des parlementaires, un courriel ou un coup de téléphone, c’est encore plus efficace, avec vos propres arguments : expliquer pourquoi vous considérez que le logiciel libre doit être prioritaire dans l’Éducation ; vous pouvez employer les arguments qui vous parlent et les parlementaires, les députés, sont sensibles à ces questions-là. En termes d’agenda il est probable que ces amendements seront discutés mercredi ou jeudi parce qu’en fait ils sont après l’article 24, donc c’est vraiment en fin de discussion. Contactez vos parlementaires. En commission, des amendements un peu équivalents avaient été proposés et le ministre Jean-Michel Blanquer avait indiqué qu’en fait, déjà dans la loi, il y avait un encouragement à utiliser du logiciel libre dans l’administration. Il faut savoir que dans la loi il y actuellement une phrase, de mémoire « l’offre logicielle tient compte de l’offre logiciel libre. »

Jean-François Clair : Ce n’est pas suffisant !

Frédéric Couchet : Ce n’est pas suffisant, c’est-à-dire qu’on ne fait pas une politique avec des encouragements ou une injonction à tenir compte. On fait une politique avec des priorités, donc entamer dès maintenant une démarche de transition vers les logiciels libres en inscrivant dans la loi la priorité aux logiciels libres et aux formats ouverts dans l’Éducation nationale. Jean-François est-ce que tu veux rajouter quelque chose sur ce point ?

Jean-François Clair : Je ne vois pas trop. En fait, tu as déjà tout dit.

Frédéric Couchet : On avait relativement peu de temps, enfin peu de temps à consacrer, mais c’est qu’en fait l’émission se termine bientôt et il y avait plusieurs sujets, mais il était important de parler de ce sujet-là. Je suis personnellement convaincu que l’inscription dans la loi de la priorité au logiciel libre n’est qu’une question de temps. Il y a déjà eu de nombreux débats. Pour les personnes qui avaient suivi le projet de loi République numérique en 2016, à l’Assemblée nationale en séance publique, il y avait eu un long débat, près de 45 minutes ce qui est beaucoup sur un seul amendement, et on voyait qu’il n’y avait pas l’opposition classique qu’on connaissait, mais au contraire il y avait vraiment des liens qui se faisaient entre députés de différents bords. Le gouvernement de l’époque s’y était opposé. On espère que ce nouveau gouvernement ne s’y opposera pas, parce que, par rapport aux débats en commission, nous on a apporté des arguments justement sur la nécessité de la priorité. Ce qui est intéressant c’est qu’il y a deux types d’amendements qui sont proposés ce qui va permettre d’avoir un échange intéressant en séance. C’est sans doute plutôt mercredi ou jeudi et j’encourage chacun et chacune à contacter des députés. Sur le site de l’April, april.org, vous avez une page qui récapitule le dossier, qui précise les amendements et qui vous donne des pistes pour contacter des parlementaires.
Écoute Jean-François je te remercie de ton intervention et je pense qu’on aura l’occasion prochainement dans l’émission de faire un sujet beaucoup plus général sur le logiciel libre, l’Éducation, les formats ouverts, les données personnelles des élèves et des enseignants et enseignantes. Je te remercie Jean-François et à bientôt.

Jean-François Clair : Merci beaucoup Fred, à une prochaine fois.

Frédéric Couchet : L’émission va bientôt se terminer je vais juste faire une petite annonce qui est en lien, en fait, avec ce sujet-là, tout simplement.
Ce week-end à Beauvais auront lieu les PrimTux Days donc les journées Primtux. PrimTux est un système d’exploitation complet et libre qui propose un environnement de travail qui est adapté aux cycles de l’école primaire. On est toujours dans le domaine de l’école. C’est à Beauvais du samedi 16 février à 10 heures au dimanche 17 février à 17 heures. Vous retrouvez les informations détaillées sur le site de l’Agenda du Libre, donc agendadulibre.org et évidemment, sur le site de l’Agenda du Libre, vous trouvez tous les évènements du Libre qui se passent à Paris et ailleurs, les soirées de contribution au Libre, on a parlé tout à l’heure de contribuer à Softfware Heritage. On peut contribuer aux projets libres directement, les différents apéros, l’occasion de rencontrer des gens.

Notre émission se termine. Vous allez bientôt avoir le plaisir d’entendre notre générique de fin qui est Wesh Tone de Realaze.Vous retrouvez sur notre site web april.org toutes les références utiles que nous avons citées aujourd’hui. La page sera mise à jour s’il y a des références qu’on a oubliées. Vous retrouvez aussi sur le site de la radio causesommune.fm. N’hésitez pas à nous faire des retours pour indiquer ce qui vous a plu mais aussi des points d’amélioration.
On va se retrouver le 19 février donc mardi prochain à 15 heures 30. Nous parlerons du Pacte de la Transition avec Aliette Lacroix, nous ferons un point sur la directive droit d’auteur avec Anne Catherine Lorrain qui travaille au Parlement européen pour le groupe des Verts et notre sujet principal, là c’est aussi un grand plaisir, j’aurais le plaisir d’échanger avec Stéphane Bortzmeyer dans le cadre du livre qu’il vient de publier Cyberstructure. L'Internet, un espace politique.

Je vous souhaite de passer une belle journée et on se retrouve la semaine prochaine. D’ici là portez-vous bien.

Libre à vous ! Radio Cause Commune - Transcription de l'émission du 12 février 2019


Frédéric Couchet

Titre : Émission Libre à vous ! diffusée mardi 12 février 2019 sur radio Cause Commune
Intervenants : Roberto Di Cosmo, Software Heritage - Jean-François Clair, SNES - Jean-Christophe Becquet, April - Frédéric Couchet, April
Lieu : Radio Cause Commune
Date : 12 février 2019
Durée : 1 h 30 min
Écouter ou télécharger le podcast
Page des références utiles concernant cette émission
Licence de la transcription : Verbatim
Illustration : Bannière radio Libre à vous - Antoine Bardelli ; licence CC BY-SA 2.0 FR ou supérieure ; licence Art Libre 1.3 ou supérieure et General Free Documentation License V1.3 ou supérieure. Logo radio Cause Commune, avec l'accord de Olivier Grieco
NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

logo cause commune

Transcription

Voix off : Libre à vous !, l’émission pour comprendre et agir avec l’April, l’association de promotion et de défense du logiciel libre.

Frédéric Couchet : Bonjour à toutes. Bonjour à tous. Vous êtes sur la radio Cause Commune 93.1 en Île-de-France et partout ailleurs sur le site causecommune.fm. La radio dispose d’un webchat, donc utilisez votre navigateur web, connectez-vous sur le site de la radio, cliquez sur « chat » et rejoignez-nous sur le salon web.
Nous sommes mardi 12 février 2019, nous diffusons en direct, mais vous écoutez peut-être une rediffusion ou un podcast.

Soyez les bienvenus pour cette nouvelle édition de Libre à vous !, l’émission pour comprendre et agir avec l’April, l’association de promotion et de défense du logiciel libre. Je m’appelle Frédéric Couchet, je suis le délégué général de l’April.
Le site web de l’April est april.org, a, p, r, i, l point org et vous y trouvez déjà une page consacrée à cette émission avec tous les liens et références utiles, les détails sur les pauses musicales et toute autre information utile en complément de l’émission. Vous pouvez également nous faire des retours pour nous indiquer ce qui vous a plu mais aussi des points d’amélioration. Je vous souhaite une excellente écoute.

Nous allons passer maintenant au programme de cette émission.
Nous allons commencer dans quelques secondes par une chronique de Jean-Christophe Becquet, président de l’April, intitulée « Pépites libres ». Normalement Jean-Christophe est avec nous au téléphone, bonjour Jean-Christophe.

Jean-Christophe Becquet : Bonjour Fred. Bonjour à tous.

Frédéric Couchet : On se retrouve d’ici quelques secondes.
D’ici une quinzaine de minutes notre sujet principal portera sur le projet Software Heritage avec Roberto Di Cosmo qui est avec nous en studio. Bonjour Roberto.

Roberto Di Cosmo : Bonjour Fred.

Frédéric Couchet : Et en fin d’émission, nous parlerons du projet de loi pour une école de la confiance et des amendements proposant d’inscrire dans la loi la priorité au logiciel libre dans l’Éducation.

Je salue à la réalisation de l’émission, pour sa première, notre camarade Patrick Creusot sous la surveillance et l’aide d’Étienne Gonnu, de Charlotte Boulanger et d’une autre personne dont je ne connais pas le prénom, j’en suis désolé.

Tout de suite nous allons passer au premier sujet avec la seconde édition de la chronique de Jean-Christophe Becquet, président de l’April, chronique qui s’appelle « Pépites Libres ». Dans cette chronique, Jean-Christophe nous présente une ressource sous une licence libre – texte, image, vidéo ou base de données – sélectionnée pour son intérêt artistique, pédagogique, insolite, utile et les auteurs de ces pépites ont choisi de mettre l’accent sur les libertés accordées à leur public.
La chronique du jour, Jean-Christophe, porte sur le dessin animé de Nina Paley, Copier n’est pas voler.

Jean-Christophe Becquet : Oui. Dans ma chronique du mois de janvier je vous invitais à découvrir la conférence Un Faible Degré d’Originalité d’Antoine Defoort dont la vidéo est disponible sous licence libre. Parmi ses sources d’inspiration j’évoquais Nina Paley et c’est sur elle que j’aimerais revenir aujourd’hui.
Nina Paley est une artiste américaine auteur de bandes dessinées et de dessins animés.
J’ai donc choisi de vous parler d’un dessin animé de Nina Paley Copier n’est pas voler ou Copying Is Not Theft en anglais. Il s’agit d’une vidéo très courte, elle dure à peine une minute. De manière ludique et en chansons, Nina Paley dénonce l’amalgame entre le vol et la copie.
En effet, le vol concerne des objets matériels alors que la copie s’applique aux idées et aux œuvres de l’esprit qui, elles, sont intangibles et immatérielles. Et c’est cette escroquerie intellectuelle que dénoncent les petits personnages de Nina Paley.
Dans le code pénal français, le vol est défini comme la soustraction frauduleuse de la chose d’autrui ; c’est l’article 321.1. Donc le vol est une soustraction, c’est-à-dire qu’il prive sa victime de l’objet dérobé, alors que pour la copie c’est complètement différent : copier c’est multiplier. Je sais que le logiciel libre préserve vos libertés et je vous le dis. Alors nous sommes plusieurs à le savoir sans que je sois privé de ma connaissance initiale. On voit bien qu’il n’y a pas soustraction ! Les idées que je partage à travers cette chronique sont multipliées par le nombre d’auditeurs. En faisant le choix d’une licence libre pour ses émissions, Cause Commune encourage cette multiplication.

Les héros du dessin animé de Nina Paley s’amusent à comparer le vol et la copie d’un vélo. En effet, dans leur monde immatériel, il est possible très facilement de faire des copies : un simple coup de crayon, deux clics de souris, et chacun peut enfourcher une copie du vélo. Ils échappent à ce qu’on appelle la rivalité des biens matériels, c’est-à-dire le fait que chacun prenne une copie d’un objet nécessite une quantité importante de ressources et d’énergie.
À l’inverse, depuis l’avènement d’Internet, la copie est grandement facilitée et son coût est devenu marginal. C’est un problème pour les défenseurs de l’ancien système basé sur des rentes indexées sur le nombre de copies. C’est une formidable opportunité pour l’humanité. De plus en plus d’auteurs choisissent de partager leur travail sous licence libre.
Aujourd’hui j’ai envie de dire : copions et multiplions toutes ces pépites libres !

Frédéric Couchet : Merci Jean-Christophe. Donc ce dessin animé de Nina Paley dure à peu près une minute. Les références sont sur le site de l’April avec la version originale qui est en anglais, une version française ; il y aussi un lien vers des versions modifiées parce que dès le départ, Nina Paley qui a diffusé ce dessin animé sous licence, de mémoire, CC BY SA, Creative Commons Partage à l’identique, a encouragé les personnes à faire des modifications, à mettre leurs propres musiques. Donc il y a un certain nombre de versions modifiées avec des musiques assez sympas.
Ces petits personnages rappelleront les cartoons qu’on connaît avec notamment les petits personnages qui ont quatre doigts au lieu de cinq doigts. Ce dessin animé date de quelle époque ? Est-ce que tu te souviens ?

Jean-Christophe Becquet : C’est relativement ancien, en fait, ça date de 2010.Ça a dix ans et effectivement, comme tu l’as dit, parce que Nina Paley a choisi une licence libre, ce dessin animé a fait l’objet d’un grand nombre de reprises, d’adaptations, de traductions d’abord. On le trouve dans un grand nombre de langues. On a mis le lien vers la version française, mais il y aussi des versions en espagnol, en allemand. Il y a des adaptations avec d’autres styles de musique et on peut aussi télécharger les paroles, la partition. L’intérêt de la démarche de Nina Paley c’est que toutes les briques de sa création sont libres et qu’elle encourage effectivement la création et la réutilisation. Du coup, en dix ans d’ancienneté de cette vidéo, il y en a eu un grand nombre.

Frédéric Couchet : Et ce n’est pas la première animation que Nina Paley a libérée parce qu’en 2006 ou 2008, peut-être, elle avait distribué un dessin animé beaucoup plus long, son animation Sita Sings the Blues sous licence Creative Commons Partage à l’identique et, en plus, elle avait explicitement interdit la pause de verrous numériques, les DRM qu’on a déjà évoqués dans une précédente émission. Donc Nina Paley est une personne qui milite vraiment, on va dire depuis 2008-2010 au moins, pour un mouvement de ce qu’on peut appeler la culture libre. Sur son site ninapaley.com on peut retrouver ses différentes productions en plus, effectivement, de ce dessin animé Copier n’est pas voler dont tu nous as parlé. Quel est le lien avec le logiciel libre ?

Jean-Christophe Becquet : En fait c’est que ces licences libres qui sont aujourd’hui utilisées pour les œuvres de Nina Paley, donc les licences Creative Commons, sont les héritières des licences du logiciel libre. C’est-à-dire que le Libre est né avec le logiciel libre, Richard Stallman en 1984 et, en fait, avec le temps, d’autres personnes ont eu envie de libérer d’autres ressources que des logiciels et se sont mises à réfléchir à des licences adaptées à des ressources non-logicielles. Donc ça a donné la licence Art libre, par exemple, qu’on utilise à l’April, les licences Creative Commons dont certaines sont considérées comme libres et d’autres licences qui s’inspirent des libertés du logiciel libre, mais pour les transposer à d’autres œuvres comme des textes, des images, des livres ou des films et dessins animés dans le cas de Nina Paley.

Frédéric Couchet : Et le principe de non-rivalité que tu as expliqué et qui est explicité dans cette vidéo est évidemment valable pour toute œuvre de l’esprit qui est une ressource non exclusive et non rivale, c’est-à-dire que tout le monde a un libre accès à cette ressource, non exclusif, et il n’est pas possible d’exclure quelqu’un de l’usage d’une telle ressource sauf, évidemment, à recourir soit à des principes juridiques, soit à des principes techniques comme les mesures techniques qui, des fois, enfin souvent, sont également protégées par des principes juridiques.

Jean-Christophe Becquet : Oui. Tout à fait. C’est ce que j’ai appelé les tenants de l’ancien système qui, eux, utilisent des verrous juridiques et techniques pour lutter contre cette facilité de copie des ressources qui pose bien des problèmes à leur modèle économique archaïque.

Frédéric Couchet : Exactement. Et pour finir, je te laisserai le mot de conclusion, ça explique aussi pourquoi nous refusons le terme de « propriété intellectuelle », pour deux raisons principales. Déjà le terme « propriété intellectuelle » laisserait supposer qu’on peut, en fait, réfléchir aux œuvres de l’esprit comme on peut réfléchir à des objets matériels alors que ce n’est pas le cas, ce n’est pas la même propriété notamment ce que tu as expliqué, la non-rivalité. Et deuxième chose, c’est que le terme de « propriété intellectuelle » dans le droit englobe des domaines très différents qui vont du droit d’auteur aux brevets et à plein d’autres choses qui sont très différentes dans leurs principes. C’est pour ça que nous on préfère parler spécifiquement d’un droit particulier, par exemple le droit d’auteur et que, dans son ensemble, le terme « propriété intellectuelle » ne doit pas être utilisé parce qu’il pousse à réfléchir sur les œuvres de l’esprit comme on réfléchirait sur des œuvres matérielles.
Est-ce que tu as une phrase de conclusion ? Est-ce que tu veux rajouter quelque chose cher Jean-Christophe ?

Jean-Christophe Becquet : Oui. Juste dire que Nina Paley a fait, comme tu l’as dit, d’autres dessins animés, notamment un autre dessin animé de sensibilisation au Libre qui montre à quel point toute œuvre créée s’inspire des œuvres existantes. Je vous invite à découvrir ça et puis, dans l’attente, eh bien je me mets en recherche d’une nouvelle ressource libre pour la chronique « Pépites libres » du mois prochain. Un grand merci et bonne écoute pour la suite de l’émission.

Frédéric Couchet : Merci Jean-Christophe et on se retrouve le mois prochain.

Nous allons passer par une petite pause musicale qui va être relativement courte vu qu’elle dure 59 secondes. Évidemment, c’est la bande son du dessin animé de Nina Paley Copier n’est pas voler.

Pause musicale : Copier n’est pas voler, bande son du dessin animé de Nina Paley.

Frédéric Couchet : Vous êtes de retour sur Cause commune 93.1 en Île-de-France et partout dans le monde sur causecommune.fm. Nous venons d’écouter la bande son du dessin animé de Nina Paley Copier n’est pas voler dont les références sont sur le site de l’April, april.org, vous avez une page qui est consacrée à l’émission.

Nous allons passer à notre sujet principal avec notre invité du jour et c’est un grand plaisir de recevoir Roberto Di Cosmo pour parler de l’initiative Software Heritage, archive mondiale du logiciel. Donc rebonjour Roberto.

Roberto Di Cosmo : Bonjour Fred.

Frédéric Couchet : Roberto tu es italien, installé en France, professeur d'informatique ; tu es un libriste depuis très longtemps.

Roberto Di Cosmo : Depuis plus de 20 ans.

Frédéric Couchet : Je pense qu’on se connaît depuis une petite vingtaine d’années. Tu as été rendu célèbre notamment par un pamphlet en 1998 qui s’appelle Piège dans le cyberespace et ensuite par un livre coécrit avec Dominique Nora la même année, donc 1998, qui s’appelait Le hold-up planétaire : la face cachée de Microsoft, sur les problèmes posés par le monopole de Microsoft et aussi ses méthodes pour contrer toute concurrence et, en premier, le logiciel libre.
Depuis septembre 2010 tu es directeur du laboratoire IRILL, Initiative pour la Recherche et l’Innovation sur le Logiciel Libre et, depuis septembre 2016, tu es détaché auprès de l’Inria, l’Institut national de recherche en informatique et en automatique, et tu es directeur de l’initiative Software Heritage depuis 2016.

Roberto Di Cosmo : Oui. Tout à fait.

Frédéric Couchet : Est-ce que cette présentation te paraît correcte ou est-ce que tu veux ajouter quelque chose ?

Roberto Di Cosmo : On pourrait ajuster quelque petite chose par ci ou par là…

Frédéric Couchet : Ajuste !

Roberto Di Cosmo : Mais globalement on y est.

Frédéric Couchet : D’accord. Avant de te laisser la parole et avant d’échanger sur le projet Software Heritage, en préparant l’émission évidemment je me suis renseigné et j’ai trouvé qu’en fait, le plus simple, c’était de prendre des extraits de l’annonce officielle de l’Inria en 2016 qui annonce « Software Heritage, archive mondiale du logiciel ». Annoncée le jeudi 30 juin 2016 l’ouverture au public du projet Software Heritage : « Ce projet a pour objectif de collecter, organiser, préserver et rendre accessible à tous et à toutes le code source de tous les logiciels disponibles. Un enjeu de portée mondiale. » Antoine Petit, PDG de l’Inria, précise : « Les logiciels sont aujourd’hui au cœur de toutes les activités humaines, de la médecine aux loisirs, des communications à l’agriculture. » Je poursuis la présentation du communiqué de l’Inria : « En construisant une archive universelle et pérenne du logiciel, Software Heritage vise à mettre en place une infrastructure essentielle au service de la société, de la science et de l’industrie. Software Heritage vise à construire à la fois une moderne bibliothèque d’Alexandrie du logiciel, le référentiel unique du code source et un grand instrument de recherche pour l’informatique. Le projet va permettre de préserver et diffuser la connaissance aujourd’hui encodée dans le logiciel et augmentera notre capacité d’accéder à l’ensemble de l’information numérique. La base s’appuiera notamment sur une infrastructure distribuée — on y reviendra — de manière à garantir la robustesse et la disponibilité des données. » Lors de l’annonce, deux premiers partenaires internationaux s’étaient déjà engagés à soutenir le projet et l’aider à grandir, Microsoft, dont on vient de parler, ainsi qu’une institution publique au service de la recherche scientifique, le DANS de la Royale Académie des Pays-Bas.

Roberto Di Cosmo : Tout à fait.

Frédéric Couchet : Une fois cette introduction faite, j’ai envie de te poser la première question pour entrer un peu dans les détails, quels problèmes cherche à résoudre l’initiative Software Heritage lancée en 2016 par l’Inria ?

Roberto Di Cosmo : Tout d’abord merci de m’avoir invité, c’est vraiment un plaisir de passer échanger un peu sur ce sujet, de prendre un peu de temps, un peu de calme. Comme tu sais, Fred, ça fait longtemps qu’on s’occupe de logiciels, de logiciels libres, de codes, d’informatique en général donc on a vu pas mal d’évolutions de notre société. Aujourd’hui on est tous d’accord que le logiciel est quelque chose d’essentiel. Par contre, il faut dire que les personnes qui ne sont pas très techniques donc qui ont plutôt l’habitude de voir les logiciels juste comme des outils : tu prends ton téléphone, tu appuies sur une icône, ça lance une petite application, ça fait quelque chose ; on peut envoyer des bisous à quelqu’un qu’on aime, on peut acheter quelque chose, on peut regarder une vidéo, c’est très bien. Par contre, on a tendance à ne pas savoir, à oublier que derrière ces logiciels qui sont exécutables, qu’on utilise comme des outils, en vérité il y a tout un travail humain de conception super important. Ces logiciels ne tombent pas du ciel, ils sont écrits, c’est vraiment le terme qu’on utilise quand on développe – les développeurs écrivent du logiciel –, on les écrit dans des langages de programmation en produisant ce qu’on appelle le code source. C’est le code source du logiciel qui contient vraiment la connaissance qui est nécessaire pour faire fonctionner ce logiciel-là.

Frédéric Couchet : Tu peux expliquer peut-être juste ce qu’est le code source aux personnes qui nous écoutent.

Roberto Di Cosmo : On peut prendre l’analogie habituelle qu’utilise aussi Richard [Stallman] à un moment donné, l’histoire de la recette de cuisine. Par exemple vous avez un gâteau que vous aimez beaucoup, ça c’est un peu l’exécutable, vous coupez des tranches et vous mangez, c’est super. Par contre, s’il faut le refaire, c’est un peu compliqué si on ne vous a pas expliqué comment on l’a fait. En général on s’échange des recettes de cuisine dans lesquelles on dit dans quel ordre on a mis quel ingrédient, pendant combien de temps, etc. C’est un peu la même idée. Dans la musique aussi : vous pouvez écouter de la musique qui est fantastique mais pour refaire cette musique-là normalement on a besoin d’une partition et ce n’est pas facile de reconstruire la partition juste en écoutant la musique telle qu’elle est.
Il faut savoir que dans le cas des logiciels c’est un peu la même histoire, sauf que c’est énormément plus compliqué. À partir d’un binaire – un binaire c’est ce qu’on utilise pour les exécutables, les applications qu’on voit – reconstruire ce qu’on appelle le code source qui est la représentation du logiciel, qui est préféré pour un développeur pour le modifier, c’est vraiment la définition formelle, c’est énormément difficile en partie aussi parce que, très souvent, dans ce logiciel on a plein de commentaires ou d’annotations qui sont faites pour les êtres humains, pour les relire, et qui disparaissent.

Frédéric Couchet : Qui sont supprimés dans la phase de cuisson, quelque part.

Roberto Di Cosmo : Voilà ! Dans la phase de cuisson ça disparaît, on ne les retrouve pas dans l’exécutable qui tourne sur la machine donc on a complètement perdu de l’information.
C’était un peu le préalable. Effectivement on parle souvent de logiciels, mais on oublie que ces logiciels sont fabriqués à travers une forme qui est ce code source, qui est vraiment précieuse, qui est une forme d’écriture nouvelle, technique, une sorte de littérature technique du 21e siècle qu’on est en train de mettre en place.

Frédéric Couchet : Ça ressemble quand même à un langage quelque part naturel parce qu’il y a une grammaire, il y a un vocabulaire et en fait, n’importe quelle personne, y passant du temps, peut apprendre à écrire du code ou à le comprendre.

Roberto Di Cosmo : Absolument. Tu fais très bien de le dire. Il ne faut pas non plus se sentir rebuté par le code source. C’est la même chose que dans la littérature. On utilise tous le français, moi avec un peu d’accent, mais normalement on utilise tous la langue française. Pourtant il y a des textes qui sont très faciles à lire, il y a des textes qui sont beaucoup plus compliqués donc il faut passer du temps pour comprendre ce que ça veut dire.
Dans le cas des programmes c’est un peu similaire : il y a des programmes qui sont très simples à aborder et des programmes qui sont plus complexes, qui nécessitent plus de temps pour comprendre des notions plus avancées. C’est quand même à la portée, pas de tout le monde, mais en y mettant un peu d’énergie on arrive à comprendre ce qui se passe derrière. Et c’est vraiment une production humaine.

Frédéric Couchet : Donc ce premier point et je te laisse continuer, c’est l’importance du code source quand on parle de logiciels et donc ça sera l’un des points central de Software Heritage. Je te laisse poursuivre.

Roberto Di Cosmo : Absolument. Les auditeurs ne peuvent pas le voir, mais moi j’ai un peu la barbe blanche, je commence à avoir un certain âge, n’empêche que comme informaticien je pense toujours au futur, on est toujours projeté vers le futur, on a du mal à se confronter avec l’idée de perdre, de disparition, de mort, d’échec, de perte d’informations. Donc on ne réfléchit pas trop, on est toujours dans la dynamique de construire des choses nouvelles, mais après, si on se pose un instant, on se rend compte qu’il y a énormément de cette connaissance, énormément de logiciels qu’on a construits, de codes sources qu’on a écrits qui sont en réalité en danger ; personne ne s’occupe vraiment de les préserver, de les protéger, de les indexer, de les rendre facilement disponibles. Il y a énormément d’initiatives pour archiver des informations numériques, par exemple l’Internet Archive qui est une initiative magnifique.

Frédéric Couchet : C’est archive.org ou archive.org.

Roberto Di Cosmo : C’est parti il y a plus de 20 ans cette archive. Elle archive le Web, les pages web qu’on connaît. Il y a d’autres initiatives qui essaient d’archiver des vidéos, qui essaient même d’archiver des exécutables de logiciels, Internet Archive fait ça aussi, un peu. Donc on archive tout ce que vous voulez dans le monde numérique sauf, et c’était ça qui était surprenant, le point de départ du projet, sauf le code source qui est quand même la brique fondamentale de la révolution numérique dans laquelle on vit aujourd’hui. C’était étonnant ! Quand on s’est aperçu de ça et d’ailleurs on s’en est aperçu de façon un peu…

Frédéric Couchet : En fait, peut-être que les gens pensaient que comme le code source était dupliqué sur plein de machines qu’il ne pourrait jamais disparaître. Peut-être que les gens pensaient ça !

Roberto Di Cosmo : Tu sais, le même argument on peut le faire pour la vidéo, pour les images, etc. Pourquoi les archiver si elles sont bien dupliquées sur l’ordinateur de quelqu’un ?

Frédéric Couchet : Oui, tout à fait.

Roberto Di Cosmo : On a tendance à confondre plusieurs activités qui sont très importantes. D’ailleurs j’ouvre une petite parenthèse mais qui est importante en termes de terminologique : quand on développe du logiciel, souvent aujourd’hui quand on fait du logiciel libre on travaille de façon collaborative, en réalité on a besoin d’infrastructures qui font trois choses différentes.
Il y a un premier type d’infrastructures qui sont ce qu’on appelle souvent les forges logicielles. Ce sont des endroits dans lesquels une communauté de développeurs travaille de façon collaborative pour mettre au point un logiciel ou le faire évoluer. On travaille ensemble, on commente, on décide, on trouve les erreurs, on les corrige, etc. C’est très dynamique. Ça ce sont les plateformes de développement.
À un certain moment on peut dire : tiens, cette version-là du logiciel est quand même la version stable, celle qu’on veut vraiment distribuer, que tout le monde puisse la réutiliser facilement, etc. À ce moment-là on a envie de le diffuser, de le partager, de le rendre plus facilement accessible à tout le monde et là on passe dans une deuxième catégorie de plateformes qui sont normalement des plateformes de distribution.
Et après il y a un troisième type de plateformes qui n’existent pas, qui sont des plateformes d’archivage. C’est quoi une archive ? C’est un endroit dans lequel quand on a versé un objet dedans, on a déposé un objet dedans, on repasse six mois, deux ans, trois ans, dix ans, cent ans après, si on est tous vivants, et on retrouve le même objet.
Ce sont trois missions très différentes.

Frédéric Couchet : Je vais juste préciser par rapport aux personnes qui écoutent régulièrement l’émission qu’on a parlé des distributions GNU/Linux il y a une semaine ou quinze jours, je ne sais plus, notamment avec Nicolas Dandrimont qui travaille avec toi sur Software Heritage et qu’on a parlé plusieurs fois des forges logicielles, alors pas d’un point de vue technique, mais on en a parlé dans le cadre du projet de directive européenne sur le droit d’auteur qui peut mettre justement en danger ces forges logicielles. Vous retrouvez ces références sur le site de l’April, podcast et transcriptions. Je te laisse poursuivre Roberto.

Roberto Di Cosmo : Parfait, merci.
Donc là, finalement ce qui manquait dans le panorama, c’était une plateforme qui fasse vraiment l’archivage de ces logiciels. Donc c’était vraiment quelque chose qui manquait et, en regardant un peu plus, on s’était rendu compte qu’effectivement il y a plein de logiciels, il y a plein de codes sources de logiciels qui sont disponibles ; cela dit, on n’a pas un vrai catalogue. Ils sont éparpillés sur plein de ces autres plateformes, soit sur les plateformes de développement, soit sur les plateformes de distribution, on ne sait pas où chercher. Donc la meilleure approche, en général, c’est un moteur de recherche, demander à un copain à la machine à café : où est-ce que je trouve telle librairie, telle bibliothèque pour faire telle application. Finalement on a découvert qu’il n’y avait pas d’archive.
Fred, par exemple quand on a commencé ça, parce que tu as bien fait de mentionner le 30 juin 2016, c’est le moment où on a annoncé le projet de façon publique…

Frédéric Couchet : Mais le projet avait commencé avant.

Roberto Di Cosmo : Le projet avait commencé bien avant !

Frédéric Couchet : Quand ça ?

Roberto Di Cosmo : Les premières idées ont commencé à circuler dans l’été 2014.

Frédéric Couchet : Donc deux ans avant en fait.

Roberto Di Cosmo : Deux ans avant.

Frédéric Couchet : Quand il y a l’annonce de l’Inria vous avez déjà commencé à travailler depuis deux ans, vous avez déjà commencé à archiver des logiciels. Tu te souviens au moment de l’annonce de l’Inria combien il y en avait déjà ?

Roberto Di Cosmo : Je pense qu’on avait déjà archivé peut-être un milliard de fichiers sources différents.

Frédéric Couchet : Un milliard de fichiers sources. D’accord !

Roberto Di Cosmo : Ce qui est quand même remarquable ; ce sont des fichiers sources tous différents, uniques. Il faut savoir que justement dans cette période pendant laquelle on était en mode un peu sous-marin, parce qu'on ne voulait pas… Je déteste vendre du slideware, vendre de la fumée.

Frédéric Couchet : Du slideware. En français on traduit ça comment ?

Roberto Di Cosmo : Je ne sais pas comment traduire ça.

Frédéric Couchet : C’est-à-dire uniquement des diaporamas avec des listes à points.

Roberto Di Cosmo : Des diaporamas avec quelques idées et après on ne sait pas comment c’est fait. Je préfère arriver avec un prototype, montrer des choses qui fonctionnent. On avait mis en place une petite équipe, commencé à construire un premier prototype pour donner de la crédibilité à ce qu’on faisait. C’était une démarche pas évidente. Mais tu vois, dans cette période-là où on était en souterrain, c’est-à-dire entre 2014 et 2016, il y a eu deux événements qui ont montré clairement pourquoi c’était important d’avoir une archive. Parce que, comme tu dis, plein de gens se disent pourquoi faire une archive ? Après tout il y a plein de copies à droite, à gauche, il n’y a pas de problème.

Frédéric Couchet : Eh bien oui, c’est sur Internet !

Roberto Di Cosmo : C’est sur Internet, on le trouve, etc. Il faut savoir qu’au mois de mars 2015, c’est assez intéressant, il y avait deux plateformes de développement très populaires à l’époque, une qui s’appelait Gitorious et l’autre qui était Google Code, pas exactement la même quantité d’argent derrière, les deux étaient très populaires. Sur Gitorious il y avait à peu près 120 000 projets de développement logiciel, sur Google Code il y en avait un million et demi. Au mois de mars 2015, il y a deux annonces : d’un côté l’annonce de Gitorious qui se fait racheter par une autre entreprise qui est GitLab. Comme il y a ce rachat-là, ils décident de fermer l’ancienne forge Gitorious, ils ne font pas de transfert de données, ils ont juste donné une annonce.

Frédéric Couchet : Ils ferment sans laisser accès, c’est ça ?

Roberto Di Cosmo : Ils ferment sans laisser l’accès et ils disent tout simplement aux gens : « Écoutez on ne va quand même pas maintenir deux plateformes ; vous avez trois semaines pour tout transférer et après on ferme. » Alors ça a duré un peu plus de trois semaines, heureusement, parce que les gens ont un peu protesté, mais vous voyez un peu le topo. Maintenant effectivement c’est fermé. Si vous allez regarder là-dedans il n’y a plus rien et, en parallèle, Google avait annoncé que bon, bref ! Il y avait d’autres solutions, que Google Code n’était plus forcément justifié à maintenir. Ça c’est leur décision, c’est leur droit de faire ce qu’ils veulent, c’était mis à disposition de façon gratuite, gratuite mais pas libre, justement, et là c’était un milliard et demi de projets qui étaient mis en danger sauf que Google est un peu plus seigneurial donc il a donné un an.

Frédéric Couchet : Donc ils ont laissé plus de temps ! Un an.

Roberto Di Cosmo : Un an, pas trois semaines et ils ont quand même gardé une sorte de version d’archive dans un coin.
Ça c’est arrivé un peu à point nommé parce que ça montrait que le message qu’on envoyait, c’est-à-dire que c’est important de construire une archive — qu’est-ce que c’est une archive ? C’est vraiment une plateforme dont la finalité est l’archivage et pas autre chose — que c’était nécessaire. Après ces deux évènements c’est devenu relativement clair pour tout le monde que c’était nécessaire d’aller dans cette direction-là.

La troisième chose qu’on avait observée c’est qu’effectivement aujourd’hui, non seulement le logiciel est au cœur de toute la transformation numérique de notre société, mais le logiciel libre est au cœur des logiciels qui transforment notre société. Presque toutes les entreprises utilisent du logiciel libre de façon massive encore aujourd’hui, donc il est devenu super important, par exemple, de se doter d’une plateforme qui permette d’analyser systématiquement le code source de ces logiciels pour essayer de repérer les erreurs, les vulnérabilités, rendre plus facile l’analyse des codes, aider les développeurs à mieux réutiliser leurs codes, etc. Pour ça on a besoin d’une plateforme commune qu’on n’a jamais réussi à construire avant.
Par exemple j’ai plein d’amis qui sont dans le monde de la physique : un de mes copains, parti aux États-Unis il y a très longtemps, s’occupe d’un gros projet de télescope spatial. Je suis très admiratif de mes collègues en physique qui sont capables de mobiliser des ressources très conséquentes, là on parle de milliards, de dizaines de milliards d’euros pour chercher à comprendre l’origine de l’univers, regarder les étoiles, regarder l’infiniment petit. Ça c’est super important, je n’ai rien contre, au contraire, je suis très admiratif du fait qu’ils arrivent à le faire. Par contre nous, dans le monde de l’informatique qui est pourtant le moteur de la transformation numérique, jusque-là on a été un peu incapables de fédérer le même type d’effort pour avoir une plateforme commune qu’on puisse, de façon mutualisée, réutiliser pour travailler ensemble, pour améliorer la qualité des logiciels que nous développons.
Évidemment chaque grosse entreprise a son propre système interne. Dans le monde associatif chacun essaie de mettre en place son propre outil technique à tel ou tel autre endroit. Le rêve serait d’arriver à faire quelque chose comme le CERN pour la recherche nucléaire ou les grands réseaux de télescopes spatiaux pour explorer les galaxies. Eh bien nous on a besoin d’une infrastructure pour explorer la galaxie du logiciel. Aujourd’hui ça n’existe pas.
Donc c’était vraiment ces trois constats : pas de catalogue, pas d’archive, pas d’infrastructure de recherche, la situation n’était pas idéale, donc il fallait essayer de faire quelque chose. En mettant en place le projet Software Heritage on essaye, très humblement parce qu’on n’est pas Google, on n’a pas de dizaines de milliards comme certains de mes copains qui travaillent ailleurs, mais on essaye très humblement de construire une réponse à ces trois besoins et de le faire en essayant de mettre de notre côté tous les atouts pour minimiser les risques que le projet échoue, c’est-à-dire pour maximiser les chances de succès.

Frédéric Couchet : Tu dis « on ». Le projet a été annoncé par l’Inria et, comme je l’ai dit tout à l’heure, tu es détaché à l’Inria depuis quelques années.

Roberto Di Cosmo : Tout à fait.

Frédéric Couchet : Qui est ce « on » ? C’est-à-dire qui a lancé ce projet en dehors de l’Inria s’il y en a d’autres ? Qui sont les partenaires ? Comment est financé ce projet ? Tu as parlé d’une équipe. Je suppose que tu as une équipe, je ne sais pas, de 500 personnes pour travailler avec toi.

Roberto Di Cosmo : J’aimerais bien ! Dans le monde de l’informatique, comme tu le sais bien, très souvent la révolution est faite par un tout petit nombre, on grandit plus tard.

Frédéric Couchet : C’est quoi l’équipe Software Heritage ? Essaye de nous expliquer qui est ce « on ».

Roberto Di Cosmo : Je vais vous expliquer. Tu as mentionné l’IRILL. Effectivement dans cette structure qu’on avait mise en place en 2010 pour essayer de tisser des liens entre des communautés de développeurs, des entreprises, des chercheurs qui s’intéressent au problème nouveau, scientifique, qui vient quand on fait du développement de logiciel libre, dans l’été 2014, autour de la machine à café, tu sais qu’on dit souvent que les développeurs sont des machines qui convertissent du café en code, mais des fois on le convertit en idées plutôt qu’en code directement.

Frédéric Couchet : Ou des pizzas en code, des fois.

Roberto Di Cosmo : Ou des pizzas ou des boissons socialisantes quelconques, ça dépend, il n’est pas nécessaire de prendre de la caféine tout le temps. Là on discutait de plein de choses. À partir d’autres idées, d’autres projets de recherche qu’on avait en tête, on s’est aperçu qu’il y avait ce problème et on a passé plusieurs mois à discuter à plusieurs. Moi à l’origine, il y avait Guillaume Rousseau, il y avait Stefano Zacchiroli, il y avait d’autres personnes qui se sont greffées dessus petit à petit et on a identifié le problème, on a écrit des notes d’opportunité, on pourrait dire, qui faisaient un bilan de la situation. Parce que, même si le problème existe, ça ne veut pas dire que nous sommes capables de le résoudre, n’est-ce pas ! La question est de se dire : le problème est là, est-ce que vraiment on a les reins solides pour essayer d’aller dans cette direction-là et comment on peut faire, qu’est-ce qui existe ? Sur la base de ces notes-là, on a pensé qu’il y avait une opportunité de faire quelque chose de bien avec un peu de ressources initiales.
Avec ça j’étais allé voir le directeur de l’Inria à l’époque qui était Antoine Petit, et là il faut dire qu'effectivement, ça fait des fois partie de la chance, qu'il a été convaincu de l’opportunité de cette mission donc il a pris la décision de donner cette impulsion initiale.
Tu vois quand on dit « on », il y a des gens qui ont des idées, mais des idées sans les ressources pour les implémenter, il y a plein dans les tiroirs !

Frédéric Couchet : Le soutien du directeur a été un grand atout évidemment.

Roberto Di Cosmo : Un grand atout, mais aussi toute l’institution. L’Inria est une institution qui à l’origine avait été capable, il y a 22 ans, de soutenir le lancement du W3C, le World Wide Web Consortium qui est le consortium mondial qui maintient les standards du Web et qui a permis au Web de devenir ce qu’il est devenu maintenant. Donc ils ont déjà montré leur capacité à soutenir un projet sur le long terme et de façon partenariale, pas en disant : c’est à moi, c’est à l’Inria.

Frédéric Couchet : Pas tout seul.

Roberto Di Cosmo : Mais en disant : OK on travaille à plusieurs. Ça c’était un peu le début. Là on a commencé à avoir un peu de ressources pour travailler. Quand je dis un peu de ressources c’était juste un ingénieur, Antoine Dumont qu’on avait recruté comme premier ingénieur. Il y a Nicolas Dandrimont, qui était dans l'émission la semaine passée, qui nous a rejoints quelques mois après et là on a commencé un petit peu à construire. Mais la mission, dès le départ, était de ne pas être tout seuls, de ne pas être juste Inria. Il fallait avoir d’autres partenaires autour. Donc là c’était un travail énorme, si tu regardes l’historique on n’est pas encore public, on est en train de parler 2015, avant l’annonce en 2016 et là on essaye de contacter plein d’entités : la Free Software Foundation, on a contacté l’Open Source Initiative, on a contacté Creative Commons, on a contacté des sociétés savantes, françaises, européennes, internationales ; on a contacté des fondations comme la fondation Linux, la fondation Eclipse, plein d’autres instituts comme ça pour leur dire ce qu’on allait faire, pour savoir si elles allaient nous soutenir.

Frédéric Couchet : Si elles voulaient soutenir, participer.

Roberto Di Cosmo : Là on a obtenu un soutien qui était important mais qui était un soutien moral, pas financier, il faut quand même payer le développeur à la fin du mois, ça ne suffit pas d’être un soutien moral, mais c’est très important.

Frédéric Couchet : En tout cas ces structures qui sont des structures importantes dans le monde du logiciel libre ont considéré que ce projet était fondamental, donc qu’il fallait le soutenir au moins moralement, déjà.

Roberto Di Cosmo : Exactement. Donc là si tu vas sur le site de Software Heritage aujourd’hui, wwww.softwareheritage.org, tu vas regarder dans la partie soutiens, il y a des témoignages. Il y a une cinquantaine de lettres officielles de tout un tas d’entités diverses et variées qui disent pourquoi elles considèrent que le sujet est important et pourquoi le projet est structurant pour elles.
Là on avait déjà commencé à avoir des premiers contacts avec l’Unesco, parce que c’est quand même une mission universelle, c’était bien de travailler avec eux. Mais ça ne suffisait pas, il fallait chercher des partenaires qui partagent la charge financière d’un tel projet avec Inria, dont la vocation est de lancer le projet mais pas, quand même, de le maintenir pendant 50 ans en payant tout, tout seul. Ce n’est pas, comment dire, ce n’est pas soutenable et ce n’est pas souhaitable non plus si tu veux minimiser les risques d’échec.

Frédéric Couchet : Pour la pérennité du projet il faut qu’il y ait plusieurs acteurs, plusieurs partenaires.

Roberto Di Cosmo : Il faut plusieurs partenaires autour de la table. Et c’est là que ça devient paradoxal, parce qu’on avait contacté, je ne vais pas donner les noms, mais un certain nombre d’acteurs, même des grandes entreprises qui utilisent massivement du logiciel libre, même des grands acteurs industriels du logiciel libre, mais, grande surprise, au mois de juin au moment où il fallait devenir public, personne de ceux-là n’avait répondu présent. Peut-être qu’ils considèrent que développer du logiciel libre ça suffit, ce n’est pas la peine de s’occuper de le maintenir sur le long terme. Et, à ma grande surprise, c’était par contre Microsoft qui avait répondu présent.

Frédéric Couchet : Donc tu vas renouer des liens avec Microsoft à cette époque-là !

Roberto Di Cosmo : Et ça c’était drôle, parce que je n’aurais jamais dit il y a 20 ans que je me serais retrouvé à Redmond, à Seattle au siège de Microsoft avec tout le top management de Microsoft pour leur dire pourquoi c’était intéressant de soutenir un tel projet. Mais c’était quand même une expérience intéressante parce que là j’ai découvert un Microsoft qui n’est pas tout à fait le même que celui que j’avais connu il y a 20 ans. Il y a eu un changement complet de direction et j’ai découvert qu’il y a, je ne sais pas si je peux dire ça, mais je pense que ça doit être facile avec toi.

Frédéric Couchet : Nous sommes en direct, je te préviens !

Roberto Di Cosmo : Je ne vais pas le dire, il y avait un nombre très conséquent d’ingénieurs à Microsoft, déjà en 2015, qui travaillaient en faisant seulement du logiciel libre. Après c’est devenu public. Dans l’été 2016, Microsoft a été l’un des premiers contributeurs à des projets logiciel libre sous GitHub à la grande surprise de tout le monde, c’est devant tout le monde ! Qu’est-ce qui se passe ? Tout le monde a le droit de changer d’idée, n’est-ce pas, de temps à l’autre !

Frédéric Couchet : Au moins partiellement on va dire !

Roberto Di Cosmo : Je vais y venir. Au moins sur la partie technique, le développement technique, stratégie industrielle à long terme, ils ont vraiment complètement changé d’attitude, complètement. Après il reste tout un tas d’autres choses sur lesquelles on pourrait débattre longuement. Restons sur la partie positive. On a retrouvé un point d’intérêt commun, donc ils ont été les premiers acteurs industriels à répondre présent.
Par contre le deuxième acteur qu’on avait mentionné, l’Archive nationale de l’Académie des sciences hollandaise, c’est une institution publique donc c’était tout à fait naturel de la retrouver à nos côtés parce que leur mission c’est d’archiver les données de la recherche en Hollande ; ils ont énormément de demandes de la part de chercheurs qui disent : « Bon, très bien, archiver des données c’est très bien, mais qu’est-ce que je fais avec mes logiciels ? Où est-ce que je mets mes codes sources ? » Ils avaient des demandes comme ça, ils ne savaient pas exactement comment les traiter. Quand ils ont découvert ce qu’on faisait dans Software Heritage, ils ont sauté immédiatement sur l’occasion en disant : il faut qu’on travaille ensemble. Maintenant on travaille ensemble dans un projet européen, par exemple. C’est naturel de trouver ces deux-là, mais ça ne suffisait pas, il fallait élargir. Si vous regardez sur le site aujourd’hui il y a un certain nombre de sponsors qui sont arrivés : on s'est retrouvé Intel aussi qui est devenu sponsor ; on a retrouvé GitHub, évidemment.

Frédéric Couchet : Une archive d’hébergement de code.

Roberto Di Cosmo : GitHub qui est une plateforme de développement de code.

Frédéric Couchet : Et une société aux Pays-bas, si je me souviens bien.

Roberto Di Cosmo : GitHub est à San Francisco.

Frédéric Couchet : San Francisco d’accord.

Roberto Di Cosmo : Et a été racheté par ailleurs, c’est le monde à l’envers ; ça a été racheté par Microsoft cet été pour 7 milliards de dollars, c’est assez intéressant.

Frédéric Couchet : Ah ! Tu parlais de GitHub, excuse-moi.

Roberto Di Cosmo : GitHub, oui, tout à fait.

Frédéric Couchet : D’accord. Je croyais que c’était GiLab, excuse-moi.

Roberto Di Cosmo : Non, GitLab c’est autre chose. On a des contacts avec GitLab aussi, on a archivé aussi GitLab. Donc on a élargi petit à petit disons l’ensemble des partenaires, des sponsors, qui sont tous des mécènes. C’est-à-dire que ce qu’ils font ce sont des donations, il n’y a pas de contreparties. Ils font vraiment des financements qui servent à faire grandir le projet parce qu’ils trouvent que c’est une infrastructure…

Frédéric Couchet : Donc c’est de la contribution financière ou est-ce que c’est aussi de la contribution humaine avec la mise à disposition de personnel ?

Roberto Di Cosmo : Pour l’instant c’est essentiellement de la contribution financière, il n’y a pas de mise à disposition de personnel.

Frédéric Couchet : D’accord.

Roberto Di Cosmo : La mise à disposition de personnel c’est compliqué.

Frédéric Couchet : Oui, mais ça aurait pu être.

Roberto Di Cosmo : Ça aurait pu être, mais ça commence à arriver : on commence à avoir des contributions qui viennent de certaines entreprises, mais pas vraiment du personnel qui est mis chez nous.

Frédéric Couchet : Donc ça permet de financer une équipe de combien de personnes aujourd’hui, pour Software Heritage ?

Roberto Di Cosmo : Aujourd’hui si tu regardes sur le site de Software Heritage tu trouveras, je ne veux pas dire de bêtises, mais je pense que tu vas trouver probablement 14 ou 15 photos.

Frédéric Couchet : D’accord.

Roberto Di Cosmo : Peut-être un peu plus parce que sur le site web on a mis aussi le conseil scientifique. Donc ça fait quand même une dizaine de personnes qui travaillent sur le projet à temps plein. On a un peu grandi depuis l’époque où on était deux-trois.

Frédéric Couchet : La machine à café s’est un peu agrandie.

Roberto Di Cosmo : La machine à café est toujours là, elle s’est un peu agrandie, et on est accueilli dans de très bonnes conditions chez Inria pour pouvoir travailler sur le projet

Frédéric Couchet : Donc l’équipe est physiquement, toutes les personnes sont ici à Paris ?

Roberto Di Cosmo : Physiquement ici à Paris, dans les locaux d’Inria, pour l’instant accueillis là, ce n’est pas forcément la position définitive. Ce qu’il faut quand même remarquer c’est que les dix à temps plein qui sont là maintenant – c’est seulement maintenant qu’on est arrivés à dix, on s’est agrandis petit à petit – on fait quand même un travail qui est énorme. On peut penser que dix c'est beaucoup, mais en réalité on est tout petits par rapport à la mission monstre qu’on s’est donnée. Effectivement il y a tout un tas de questions à se poser : quelle garantie d’y arriver à long terme ? Quelle stratégie mettre en place pour pouvoir travailler sur tout ça ? Je dois dire quand même que la première étape est d’avoir toutes les personnes qui sont dans l’équipe qui sont extrêmement motivées pour travailler là-dedans. Nicolas qui était là la semaine passée est un ancien acteur du monde du logiciel libre, Stefano Zacchiroli était leader du projet Debian pendant trois ans,

Frédéric Couchet : Leader du projet Debian.

Roberto Di Cosmo : C’est un chercheur magnifique. Il y a d’autres personnes qui sont motivées. Des fois il n’y a pas que l’argent qui fonctionne.

Frédéric Couchet : Tout à fait.

Roberto Di Cosmo : Des fois il y a une vraie motivation et c’est ça qui aide beaucoup.

Frédéric Couchet : C’est une bonne conclusion pour cette première partie d’émission. On va faire une pause amicale. Nous allons écouter Mountains par Cud Eastbound et on revient juste après ça.

Pause musicale : Mountains par Cud Eastbound.

Frédéric Couchet : Vous êtes de retour sur Cause Commune 93.1 en Île-de-France et partout dans le monde sur causecommune.fm. Vous écoutez l’émission Libre à vous !, l’émission pour comprendre et agir avec l’April l’association de promotion et de défense du logiciel libre. Nous venons d’écouter Mountains par Cud Eastbound qui est disponible en licence Creative Commons Partage à l’identique. J’en profite pour rappeler que toutes les musiques que nous diffusons sont librement partageables, y compris pour des usages commerciaux. Vous retrouvez la référence sur le site de l’April donc april.org.

Je suis toujours en compagnie de Roberto Di Cosmo, professeur d’informatique et directeur de l’initiative Software Heritage. Nous allons poursuivre la discussion. Nous avons parlé, avant la pause musicale, un petit peu d’où venait le projet, les raisons pour lancer ce projet, où ce projet en est, où cette initiative en est aujourd’hui avec une équipe certes réduite mais de gens très motivés et de libristes de longue date, on a cité plusieurs noms. Maintenant on va parler un petit peu du fonctionnement de Software Heritage du point de vue technique et puis du futur.
Peut-être première question, Roberto, Software Heritage est une archive, tout à l’heure tu disais que le but c’était de garantir la pérennité de ces codes sources, patrimoine culturel, économique, industriel et scientifique. Cette archive est hébergée sur les internets, comme on dit, quelque part. Est-ce qu’elle est sur plusieurs sites ? Comment techniquement ça fonctionne ?

Roberto Di Cosmo : Effectivement c’est une très bonne question. Quand on réfléchit à un projet comme Software Heritage on se place dans une logique de long terme. La question de comment maintenir l’information à long terme est cruciale. Il y avait essentiellement deux choix qu’on pouvait faire au début. Un premier choix aurait été de dire : on construit un super datacenter, un centre de données ultra-sécurisé, complètement caché.

Frédéric Couchet : Une solution à la française quoi !

Roberto Di Cosmo : Pas à la française. On prend les meilleurs ingénieurs du monde, on cache tout et on dit à tout le monde : « C’est secret il n’y a rien à voir, on est les meilleurs du monde, on ne sera jamais piratés, on ne perdra jamais de données, on ne fera jamais d’erreurs, etc. » À nouveau, comme j’ai un peu de poils blancs dans la barbe, je sais très bien qu'en général ce type d’approche marche peu. Donc j’ai dit : je ne suis pas capable de le faire fonctionner comme ça. Donc on a préféré prendre une stratégie différente qui est de dire : on sait qu’il y aura des erreurs, on sait qu’il y aura des pertes de données, on sait qu’il y aura des problèmes. Il peut y avoir un centre de données qui brûle, il peut y avoir un tremblement de terre, il peut y avoir un pirate qui rentre dedans qui détruit des données, on peut avoir des problèmes, c’est inévitable, ça fait partie de la vie donc il faut structurer le projet de telle façon qu’il résiste à ce type d’erreurs, qui soit résilient sur le long terme. Qu’est-ce que ça veut dire ?
La base de notre stratégie est :
un, de faire en sorte que toute l’infrastructure qu’on construit, nous, soit entièrement faite en logiciels libres pour rendre plus facile à d’autres de la répliquer ailleurs ;
deux, d’avoir un réseau de miroirs au niveau planétaire dans lesquels l’ensemble des données que nous collectons est réparti et distribué. Et là on utilise en particulier une terminologie qui est un peu particulière dans notre projet, on ne l’a pas formalisée, mais on peut la partager dès aujourd’hui, on utilise le terme copie pour une copie entière de toutes les données qui sont dans l’archive mais qui sont sous notre responsabilité.
Donc par exemple aujourd’hui, Software Heritage dispose de trois copies de l’archive : deux qui sont dans les locaux de l’Inria, chez nous, et une qui est sur une plateforme Azure qui est sponsorisée par Microsoft.

Frédéric Couchet : Donc ce sont les mêmes données.

Roberto Di Cosmo : Ce sont les mêmes données mais sur trois endroits différents.

Frédéric Couchet : Qui sont sur trois infrastructures physiques différentes.

Roberto Di Cosmo : Sur trois infrastructures différentes, mais les infrastructures, toutes les trois, sont sous notre contrôle, sous le contrôle de l’organisation Software Heritage aujourd’hui. Le fait que ça soit à trois endroits physiquement différents et pas forcément la même technologie — si tu vas sur Azure, même si c’est une base Debian, en réalité la techno qui est derrière (les machines, etc.) c’est différent de chez nous —, c’est un peu rassurant. Mais imagine qu’on devienne tous fous, les dix de l’équipe décident de tout détruire et de tout brûler, une sorte de Samson « Que je meure avec les Philistins », comme on dit, on pourrait le faire. Donc il faut quand même se protéger de ce dommage-là. Donc là on a besoin de ce qu’on appelle des miroirs. Qu’est-ce que c’est un miroir ? Un miroir, pour nous, c’est une copie mais qui est sous le contrôle administratif et technique de quelqu’un d’autre. Sous une entité qui n’est pas Software Heritage, mais avec qui, évidemment, on a passé des accords pour les questions d’éthique, juridiques, etc., mais qui n’est pas nous.
C’était dans notre plan depuis le départ et en décembre passé, il y a quelques semaines, on a annoncé qu’on a signé le premier accord pour la création d’un miroir. Ça sera en Suède, ça sera porté par une société qui s’appelle FOSSID. Ce n’est pas encore fait, la partie technique est à développer, mais au moins l’accord est là, et on met la première pierre de ce réseau de miroirs qui va nous protéger de la perte de données.
C’est très intéressant d’en parler aujourd’hui. Tu as mentionné la réforme du droit d’auteur. Il y a plusieurs dangers qui guettent un projet comme le nôtre. Il y a des dangers techniques, par exemple tu as cassé un disque, tu as perdu des choses, tu t’es trompé dans le logiciel qui a corrompu toutes les données, ce sont des choses qui peuvent arriver, mais il y a des risques, d’une certaine façon, plus subtiles, plus néfastes qui sont des risques juridiques. Il se peut qu’un miroir, une copie de l’archive, se trouve dans un pays ou dans une zone géographique dans lesquels, à un moment donné, sont passés des textes de loi qui rendent difficile voire impossible, voire illégal, de faire ce travail d’archivage. Et c’est effectivement ce qui est en train d’arriver avec cette fameuse réforme du droit d’auteur, un article 13 qui oblige toutes les plateformes qui partagent du contenu couvert par le droit d’auteur de mettre en place des filtres avec des autorisations, il y a un droit qui est très contraint, on ne va pas rentrer dans ça, ce n’est pas le sujet aujourd’hui.

Frédéric Couchet : Je précise qu’on en parlera la semaine prochaine avec Anne-Catherine Lorrain qui travaille pour le groupe des Verts au Parlement européen parce que cette semaine il y a une négociation interministérielle au niveau européen qui se déroule donc on en saura plus à la fin de la semaine et la semaine prochaine on fera un point là-dessus.

Roberto Di Cosmo : Absolument. Donc effectivement ce débat-là nous a pris, côté Software Heritage, pas mal de temps parce qu’on le voyait comme un danger : pour le travail qu’on est en train de faire c’est un vrai danger ! Donc le fait d’avoir des miroirs dans d’autres juridictions ça protège aussi de ces risques juridiques ; il n’y a pas seulement les risques techniques. Cela dit, ça c’est l’objectif, il faut y arriver. Ça prend un peu de temps d’y arriver, je vous signale.

Frédéric Couchet : Ça c’est l’objectif. Donc le principe technique, on va le répéter pour que les personnes comprennent bien : il y a trois archives sous le contrôle du projet Software Heritage : deux sont sur une infrastructure Inria, une sur une infrastructure Azure Microsoft et, en plus de cela, il y a un principe de miroirs sur lesquels Software Heritage n’a pas d’accès on va dire direct de contrôle.

Roberto Di Cosmo : En écriture.

Frédéric Couchet : À part un contrat et le premier projet de miroir c’est FOSSID. FOSSID ça veut dire free open source software ?

Roberto Di Cosmo : Non. C’est une entreprise qui est en Suède qui fait de l’analyse de code pour des questions de licences.

Frédéric Couchet : D’accord. Donc ils sont intéressés. Donc on voit l’intérêt du projet : ce sont des gens qui sont intéressés aussi par rapport à l’analyse de code qui est un point très important. On pourrait imaginer que des universités soient intéressées pour les étudiants, pour mettre à disposition, parce qu’on sait très bien – on a appris l’informatique tous les deux, toi peut-être un petit peu avant moi, comme tu le dis assez, avec ta barbe un peu blanche – que souvent la meilleure façon d’apprendre eh bien c’est de regarder ce qui a été fait par d’autres personnes. Donc des universités pourraient être intéressées par cette masse de code disponible.
D’ailleurs j’ai une question avant de poursuivre sur la partie archive miroir, est-ce que ce ne sont que des logiciels libres ? Est-de que ce ne sont que des codes sources de logiciels libres qui sont hébergés dans le projet ou est-ce que ça peut être des codes sources d’autres logiciels ?

Roberto Di Cosmo : C’est une très bonne question. Je vais même généraliser la question. La question est de savoir comment on décide de ce qui mérite d’être archivé dans l’archive de Software Heritage. Effectivement la position qu’on a prise dans Software Heritage c’est quelque chose qui fait un peu dresser les cheveux sur la tête quand j’en parle avec des gens qui sont habitués à de l’archivage traditionnel, que ça soit dans des bibliothèques ou ailleurs. Nous on a pris une position très particulière : on essaye d’archiver tous les codes sources qui sont publiquement disponibles, c’est-à-dire auxquels on peut avoir accès, donc on ne filtre pas spécialement sur le fait qu’ils soient des beaux logiciels ou des logiciels pas très beaux, ou que la licence permette explicitement la redistribution donc qui soient vraiment des logiciels libres, ou que ça soit juste des codes qui ont été mis à disposition dont la licence n’est pas super claire, etc.

Frédéric Couchet : Mais elle permet au moins de faire la copie du code.

Roberto Di Cosmo : Au moins de faire la copie. L’idéal ça serait à terme d’arriver à avoir vraiment tous les logiciels, même les anciens, parce si tu veux les logiciels qui sont propriétaires aujourd’hui, tant qu’on ne change pas encore une fois le droit d’auteur.

Frédéric Couchet : Qu'on n’étend pas le droit d’auteur.

Roberto Di Cosmo : Au-delà de ce qui est raisonnable.

Frédéric Couchet : Au-delà de ce qui est raisonnable, ce qui est déjà le cas, nous sommes d’accord.

Roberto Di Cosmo : Normalement au bout de 70 ans ils deviennent du domaine public.

Frédéric Couchet : Après la mort de l’auteur.

Roberto Di Cosmo : Oui. En réalité pour les logiciels industriels c’est à partir de leur mise sur le commerce.

Frédéric Couchet : Ah pour les logiciels industriels, d’accord.

Roberto Di Cosmo : Oui, les logiciels industriels. Et effectivement après la mort de l’auteur c’est un peu compliqué, mais l’idée ça serait mieux de les avoir, question de pouvoir les mettre à disposition plus tard. Là j’aurais plein d’anecdotes à raconter, mais je ne vais pas les raconter maintenant.

Frédéric Couchet : Oui, parce que sinon on n’aura pas le temps dans l’émission. Ce sera pour une deuxième émission. Donc c’est tout le code, en fait, qui est disponible sur Internet.

Roberto Di Cosmo : Voilà. On essaye de le collecter et maintenant on a ouvert plein de pistes c’est-à-dire techniquement, je vais donner quelques éléments techniques supplémentaires. Pour les grandes plateformes de développement comme GitHub qui est très populaire aujourd’hui ou GitLab ou même la forge Inria ou même Framagit qui est la forge mise à disposition par Framasoft ici en France, ce qu’on fait on met en place un mécanisme de moissonnage automatique. C’est-à-dire qu’on va collecter tous les logiciels qui sont disponibles là-dessus et on les intègre automatiquement. Par contre on a aussi rajouté des pistes pour pouvoir, de façon explicite, déposer des logiciels, par exemple des logiciels développés dans la cadre de la recherche académique, pouvoir les déposer. Là on a fait un partenariat avec un portail national qui s’appelle HAL.

Frédéric Couchet : HAL, H, A, L ?

Roberto Di Cosmo : H, A, L, c’est une sorte de portail open access pour l’accès ouvert aux publications et maintenant il y a un mécanisme pour déposer aussi du code scientifique dedans. Et plus récemment on a ouvert un mécanisme qu’on appelle, tu me passeras l’anglais, save code now.

Frédéric Couchet : Sauvegardez votre code maintenant.

Roberto Di Cosmo : Maintenant. Donc c’est possible de nous indiquer qu’il y a certains endroits dans lesquels il y a du code important et, en nous indiquant cette piste-là, nous, après, on le rajoute aux moissonneurs.

Frédéric Couchet : Oui, parce qu’évidemment Software Heritage ne peut pas avoir connaissance de tout le code qui existe sur Internet, ça paraît compliqué. J’ai une question sur les plateformes d’hébergement de logiciels que tu as citées, est-ce que ces plateformes donnent un accès complet, exhaustif, à l’ensemble des codes qui sont hébergés ? C'est-à-dire est-ce que Software Heritage a une certitude, en fait, de pouvoir récupérer tout le code que ces plateformes hébergent, d’un point de vue technique ?

Roberto Di Cosmo : D’un point de vue technique la réponse est oui. Disons que techniquement c’est compliqué, on ne va pas rentrer dans les détails, mais oui on peut y arriver. Par exemple tout ce qui est disponible publiquement sur GitLab ou sur GitHub, etc., techniquement on pourrait être capables d’obtenir absolument tout et d’être à jour même très rapidement. Après il ne faut pas oublier qu’on est une petite équipe, qu’on a commencé avec des ressources relativement limitées ; si on avait des milliards on ferait beaucoup plus. On n’a pas des milliards !

Frédéric Couchet : Ma question n’est pas forcément sur l’équipe.

Roberto Di Cosmo : Est-ce qu’il y a un filtre qui nous a empêche de l’obtenir ?

Frédéric Couchet : Est-ce que la plateforme d’hébergement propose déjà une liste exhaustive de ces projets en disant là c’est facile de récupérer ?

Roberto Di Cosmo : Les plateformes plus récentes comme GitLab ou GitHub fournissent effectivement une interface accessible pour les machines, ce qu’on appelle des API, c’est-à-dire une interface de programmation qui permet de lister les contenus. Donc on a au moins accès à la liste des contenus qui sont disponibles et après, si on peut suivre les évènements, on peut télécharger les choses de façon plutôt raisonnable. Les anciennes plateformes comme SourceForge qui existait déjà il y a 20 ans et qui sont un peu…

Frédéric Couchet : Sur le déclin !

Roberto Di Cosmo : Pas sur le déclin, il y encore des logiciels très importants qui sont développés dedans.

Frédéric Couchet : Oui, il y en a plein !

Roberto Di Cosmo : Par contre ils n’ont même pas ça, ils n’ont même pas une interface qui permet de lister les contenus. Donc là c’est assez compliqué, il faut aller travailler avec eux pour obtenir les choses, on ne l’a pas encore fait, ça fait partie de la roadmap et c’est beaucoup d’efforts pour pas grand-chose comme résultat.

Frédéric Couchet : Ça pourrait être un effort de SourceForge ou des personnes qui maintiennent SourceForge de proposer ça.

Roberto Di Cosmo : Exactement. De proposer cette interface.

Frédéric Couchet : Effectivement, peut-être que quand ils ont créé ce genre de plateforme ils ne sont pas mis en tête : tiens il y a un Roberto Di Cosmo qui arrivera un jour pour pouvoir archiver tout ce qu’il y a dessus, donc ils n’ont pas proposé cette simple information sur l’ensemble des projets qui sont disponibles sur la plateforme. Donc c’est à ces structures-là de faire ce travail.

Roberto Di Cosmo : Là, au passage, j’en profite pour dire merci à l’ADULLACT, on a travaillé avec elle.

Frédéric Couchet : L’association des développeurs et utilisateurs de logiciels libres dans l’administration et les collectivités territoriales françaises.

Roberto Di Cosmo : Très bien. Je vois que tu te rappelles l’acronyme, c’est super, et qui a aidé à développer une sorte de plugin, un greffon qui a été rajouté sur la technologie des forges qui s’appelle FusionForge qui est une évolution de SourceForge et qui fait en sorte que maintenant il est possible de moissonner les contenus qui sont une instance de FusionForge, en particulier celle de l’ADULLACT a mis en place ça. Donc ça fait partie de ce travail collaboratif dans lequel je vais essayer juste d’arriver à dire ça clairement : la mission qu’on s’est donnée est quand même énorme, herculéenne et on n’y arrivera jamais si on le fait tout seuls. Donc toute la stratégie du projet est de rendre facile et possible à tout le monde de participer.

Frédéric Couchet : Tu parles de l’ADULLACT. Le 8 janvier on recevait Laurent Joubert et Mathilde Bras de la DINSIC, la Direction interministérielle du numérique et de la société de l’information et de la communication, j’ai un petit doute sur l’acronyme [Direction interministérielle du numérique et du système d’information et de communication], en tout cas on va dire la direction informatique de l’État et Laurent Joubert avait annoncé qu’il y avait un partenariat qui se créait entre la DINSIC et Software Heritage pour que Software Heritage archive les codes sources publiés par l’administration.

Roberto Di Cosmo : Absolument. Ça c’est l’objectif, ce qu’on fera. Si tu veux dans l’État français, normalement, il y a une obligation d’archivage des données publiques en particulier, donc il y a des Archives nationales ; maintenant quand on passe dans le monde numérique, il faut avoir des archives numériques. Il y a tout un tas d’initiatives pour archiver plein d'informations numériques de l’État français. Pour ce qui concerne les codes sources des logiciels l’idée que tout ça soit archivé dans Software Heritage qui est une plateforme qui n’archive pas seulement les codes sources de l’administration mais aussi les codes sources de l’administration française ; pas la peine d’en faire 42 ! L’idée c’est de les remettre ensemble et de travailler en bonne entente avec les services de l’État pour faire en sorte que les différentes plateformes de développement qui sont un peu éparpillées dans les différents ministères, dans différents endroits, soient toutes tracées, indexées, pour permettre l’archivage systématique dans Software Heritage.

Frédéric Couchet : Tout à l’heure tu as dit que quand le projet a été lancé en 2016 il y avait, si je me souviens bien, un milliard de codes sources ou de lignes.

Roberto Di Cosmo : Un milliard de fichiers.

Frédéric Couchet : Un milliard de fichiers. Aujourd’hui est-ce qu’il y a des statistiques sur le nombre de projets qui sont archivés par mois pour donner un ordre d’idée de la progression ?

Roberto Di Cosmo : Bien sûr. Nous on est très logiciel libre, très transparents, très ouverts. Si tu vas sur le site web qui est www.softwareheritage.org/archive, donc tu vas dans l’archive, tu trouveras des jolis graphiques qui sont à jour, qui montrent que maintenant on doit être à 88 ou 89 millions de projets indexés. À peu près 5 milliards et demi de fichiers sources uniques. Il y a de jolis graphiques qui te montrent comment ça évolue dans le temps.

Frédéric Couchet : Comme on a Internet et que j’ai un ordinateur devant moi, effectivement les fichiers sources c’est 5 milliards, 6, visiblement ; ça représente 23 millions de personnes différentes, 88 millions de projets. On regarde et on voit un certain nombre de plateformes qui sont automatiquement archivées, tout à l’heure tu as cité GitLab, GitHub, il y a aussi Framagit que tu as cité, Debian, le projet GNU et puis d’autres projets. C’est sur softwareheritage.org/archive. Donc c’est une grosse progression.

Roberto Di Cosmo : Absolument.

Frédéric Couchet : Et je suppose que ça a un impact, tout à l’heure on parlait des données, sur la taille de l’archive. D’ailleurs j’ai une question peut-être un peu technique, le temps passe : est-ce que vous avez pour la conservation de ces fichiers qui viennent pour beaucoup, en fait, de plateformes d’hébergement qui utilisent Git, est-ce que vous êtes partis sur la même architecture technique ou est-ce que vous avez développé quelque chose de spécifique pour Software Heritage ?

Roberto Di Cosmo : C’est une très bonne question. L’idée, à nouveau, c’est qu’il faut se placer dans une logique de long terme. L’idée c’est d’essayer de ne pas réinventer des choses qui existent. Si tu inventes encore des standards différents c’est un peu compliqué, mais, par contre, essayer de réutiliser les meilleurs qui existent à chaque moment donné.
En particulier sur l’architecture technique des modèles de données qu’il y a derrière l’archive de Software Heritage c’est essentiellement le même modèle de données que tu as derrière Git mais avec une grosse différence c’est qu’on utilise ce même modèle de données pour tous les projets mélangés. Effectivement, peu importe d’où vient un fichier source, un répertoire, un commit, une release, etc., on mélange tout dans un énorme graphe dans lequel s’il y a un bout de projet qui a déjà été utilisé dans un endroit et on le trouve à un deuxième endroit on ne le copie pas, on ne le duplique pas, on garde juste la trace que c’est le même objet.

Frédéric Couchet : Ce qui permet de sauvegarder de l’espace disque.

Roberto Di Cosmo : Ça permet de réduire le coût, parce qu’un espace disque c’est monstrueux. Tout ce que vous voyez maintenant sur l’archive fait un peu plus de 200 téraoctets de données et quelques téraoctets de base de données pour le graphe central, ce qui est microscopique par rapport à ce que ça archive.

Frédéric Couchet : Par rapport à ce que ça archive.

Roberto Di Cosmo : Parce qu’il y a énormément de duplications dans le travail de développement d'un logiciel. On réutilise énormément des fichiers qui existent déjà dans d’autres projets, on fait ce qu’on appelle des forks, etc. Donc nous on a un modèle d’archivage qui est structuré exactement pour passer à l’échelle de ce mécanisme de fortes duplications diverses et variées.

Frédéric Couchet : Un fork c’est qu’on part d’un projet et on va en faire une version modifiée donc évidemment la version modifiée va avoir une bonne partie du code original parce que c’est le principe et c’est aussi l’un des principes du logiciel libre. Je précise juste que Git dont on parle depuis tout à l’heure c’est, en gros, un logiciel de gestion de versions décentralisé qui est très utilisé, qui date peut-être d’une quinzaine ou d’une vingtaine d’années maintenant.

Roberto Di Cosmo : Je ne veux pas dire de bêtise, je pense que c’est 2005-2006, c’est Torvalds qui avait fait ça.

Frédéric Couchet : Et c’est initialement développé par Linus Torvalds qui est aussi le développeur original du noyau Linux et qui est toujours, je crois, à la tête, du développement du noyau. Donc 200 téraoctets, ça peut paraître beaucoup, mais en fait, par rapport à ce que ça sauvegarde, c’est…

Roberto Di Cosmo : Mais attention quand même ça grandit, ça va grandir.

Frédéric Couchet : Oui, ça s’agrandit. Même si on peut espérer peut-être qu’une bonne partie des codes existants ont déjà été archivés. Le temps passe vite à la radio et le sujet est passionnant, mais tout à l’heure tu parlais des problèmes juridiques dont, notamment, la directive droit d’auteur et c’est vrai que dans le passé on a dû aussi passer pas mal de temps ensemble et avec d’autres à se battre pour nos libertés que ce soit contre les brevets logiciels ou d'autres trucs dans le genre. Quels sont les deux grands défis, on va dire technique et juridique peut-être, s’il y en a encore, pour Software Heritage aujourd’hui ?

Roberto Di Cosmo : Sur la partie technique effectivement, je prends une petite parenthèse mais ça vaut vraiment la peine. Au moment où on a lancé le projet on se disait bon, bref ! On construit cette infrastructure, on utilise un peu la technologie qu’on connaît aujourd’hui, on essaye d’utiliser la meilleure, bien sûr, avec des gens motivés et de très bon niveau, et après on utilisera tout ça pour faire de la recherche sur ces informations. Après on s’est aperçus, petit à petit, que l’infrastructure même que nous sommes en train de construire est un projet de recherche lui-même parce qu’il y a tout un tas de défis techniques qu’on n’imaginait pas tout à fait au moment où on a commencé. Finalement c’est une architecture distribuée dans laquelle on stocke une énorme quantité de fichiers qui sont relativement petits, on ne sait pas exactement ce qui est nécessairement standard dans le monde industriel d’aujourd’hui. Il y a des questions de réplication, de sûreté, il y a énormément d’indexation dans ces graphes très grands, comment construire des moteurs de recherche là-dessus, donc effectivement il y a énormément de défis ; il y en a plein. En même temps c’est un problème amusant parce que ça permet de faire venir, j’espère, d’attirer un certain nombre d’équipes de recherche qui cherchent des problèmes intéressants. Là il y en a plein ! Il faut qu’elles viennent.

Frédéric Couchet : C’est une base de données à gérer qui est monstrueuse, donc c’est intéressant.

Roberto Di Cosmo : Il y a plein de problèmes. Il faut juste savoir, et tu le sais bien, que dans le monde académique, on prend du temps. Entre le moment où tu intéresses quelqu’un au problème, le moment où les gens commencent à y travailler il se passe déjà un an, peut-être deux, et le moment où il y a un résultat que tu puisses industrialiser, mettre dedans, ça peut mettre quatre ou cinq ans. Mais ce n’est pas grave parce que nous on est dans une logique de long terme. L’idée c’est de créer vraiment une activité de recherche autour qui améliore l’infrastructure petit à petit. Après je ne veux pas rentrer trop dans la partie super technique.

Frédéric Couchet : Non. Et la partie juridique, à part le projet de directive droit d’auteur qui est un gros problème juridique mais dont on espère que ça sera terminé bientôt, est-ce qu’il y a d’autres défis juridiques ?

Roberto Di Cosmo : Je ne sais pas si j’appellerais ça vraiment des défis juridiques, c’est plutôt organisationnel. Je résume un peu cette idée. On se place dans une logique de long terme : comment construire quelque chose qui est vraiment résistant aux risques sur le long terme ? On l’avait déjà dit avant, on veut avoir plusieurs partenaires, on ne veut pas construire une entreprise qui peut-être rachetée ou peut faire faillite, on ne veut pas dépendre d’un seul acteur qui peut changer d’avis même s’il est très riche, comme c’était le cas de Google quand il a fermé Google Code, ce n’est pas juste une question d’argent, c’est aussi une question de stratégie.

Frédéric Couchet : Ça permet de rappeler que même si ce sont des grandes structures comme Google ou autre des fois ça peut fermer du jour au lendemain. On peut le rappeler à pas mal de personnes dont la vie informatique dépend de ces géants.

Roberto Di Cosmo : Oui ! C’est juste une décision qui est prise par une gestion. Ils ont sûrement leurs raisons. Il est important d’avoir une structure qui contrôle le projet, qui pilote le projet avec exactement la mission de faire seulement ce qui est dit dans le projet c’est-à-dire collecter, préserver, rendre disponibles les codes sources de toute la planète.
On réfléchit maintenant à la mise en place d’une stratégie pour devenir pérenne. Au début c’était un projet hébergé par Inria qui continue de nous soutenir. Maintenant on est dans une phase de transition, on commence à construire une infrastructure juridique qui est une fondation, en vérité, et à terme on veut arriver sur l’équivalent d’une structure de fondation dans laquelle on pourra avoir justement plusieurs partenaires qui travaillent ensemble avec une dotation pérenne pour faire en sorte que le projet soit viable à très long terme, que moi je puisse partir à la retraite, le plus vite possible, en allant pêcher tranquillement sans avoir à courir après les sponsors toutes les deux minutes !
Donc là c’est construire vraiment la bonne structure, ça prend effectivement du temps. Mettre en place la bonne organisation pour que ça fonctionne bien, ça prend du temps.
Une autre partie de la stratégie qui est très intéressante : quand on construit une infrastructure comme Software Heritage on ne s’intéresse pas seulement au monde de l’industrie, on ne s’intéresse pas seulement au monde de la recherche, on ne s’intéresse pas seulement au monde de la culture, on ne s’intéresse pas seulement au monde associatif, aux administrations publiques, en réalité on construit une infrastructure qui est au service de tous. Donc c’est vraiment important d’arriver à amener autour de la table — comme tu disais le cas de la DINSIC est très important — des administrations publiques, d’amener autour de la table des entreprises, d’amener autour de la table des entités comme l’Unesco qui sont intéressées à préserver le patrimoine logiciel, mais aussi énormément d’autres contributeurs. Par exemple l’année passée on a fait l’effort de mettre en place sur le site web du projet de Software Heritage un gros bouton rouge qui dit Donate. Même si quelqu’un veut donner dix euros pour soutenir le projet, c’est bienvenu, même si c’est petit ce n’est pas très grave ; l’important c’est diversifier au maximum.

Frédéric Couchet : Les sources de financement.

Roberto Di Cosmo : Les sources de financement pour minimiser le risque engendré par le fait que l’un ou l’autre des partenaires parte.
Et l’autre chose aussi c’est trouver un discours qui soit suffisamment audible auprès des entreprises, auprès d’autres entités, qu'elles soutiennent ce projet. Heureusement la France a sauvé la face parce que maintenant on a la Société Générale parmi les sponsors donc on a au moins un grand acteur français qui est présent. Par contre c’est vrai, ça aurait été sympa d’avoir d’autres acteurs qui utilisent énormément et massivement des logiciels libres qui deviennent partenaires du projet. Finalement c’est un super projet mondial qui a la cabine de pilotage à Paris, c’est assez étonnant de ne pas en trouver d’autres.

Frédéric Couchet : Finalement, si je reviens effectivement à ce que tu disais au début, les grands acteurs du logiciel libre que tu as contactés au début n’ont toujours pas embarqué le projet.

Roberto Di Cosmo : N’ont toujours pas répondu présent !

Frédéric Couchet : Est-ce que ces structures ont donné une raison, une explication ?

Roberto Di Cosmo : C’est toujours compliqué. Quand tu demandes aux gens de donner de l’argent gratuitement tu sais bien que ce n’est pas facile, ils ont toujours d’autres choses. Ils peuvent financer des évènements dans lesquels leur logo apparaît, ils peuvent financer d'autres choses. Mais là on est vraiment en train de construire une infrastructure au service de tous, donc il faut un petit peu de vision pour être capable de voir que l’investissement initial va rapporter beaucoup plus dans l’intérêt commun.
Et là, paradoxalement, à nouveau je suis assez étonné, mais Microsoft et Intel qui étaient quand même mes ennemis historiques il y a vingt ans, qui sont les deux premiers qui ont répondu présent, c’était surprenant. Au moins ils montrent qu’ils ont une vision. Après, la Société Générale, c’est un super partenariat.

Frédéric Couchet : Donc la Société Générale avoir un investissement dans le Libre très fort. Il faut le saluer.

Roberto Di Cosmo : C’est incroyable. Ils sont vraiment en train de changer leur stratégie interne dans laquelle ils mettent en place une stratégie pour le logiciel libre qui est remarquable. Dans ce cadre-là, le fait qu’ils soutiennent le projet ça me semble génial, mais je pense qu’il y a beaucoup plus à faire. Il faudrait que bien d’autres participent. On peut participer en donnant dix euros, mais on peut aussi participer en allant rajouter dans « sauver le code aujourd’hui » les bons pointeurs.

Frédéric Couchet : En proposant des sites sur lesquels il y a un code à archiver.

Roberto Di Cosmo : Des sites. Et on peut aussi, pour des gens qui veulent développer, contribuer, contribuer à construire les briques logicielles qui aident à tracer d’autres plateformes. C’est-à-dire on fait vraiment un effort maintenant pour essayer de documenter le code, rendre facile la participation ; ce n’est pas évident, c’est une grosse infrastructure, mais là aussi la contribution de la communauté est fondamentale pour que le projet prenne son essor à long terme.

Frédéric Couchet : Écoute Roberto, je te remercie. Ça me paraît être une belle conclusion un appel à soutien, en espérant que plein de gens y répondront et, en premier, que les structures qui développent des logiciels libres participent à ce projet. Est-ce que tu souhaites ajouter quelque chose avant qu’on passe à la pause musicale et qu’on change, pas tellement de sujet vu qu’on va parler un peu d’éducation après.

Roberto Di Cosmo : Je veux juste dire ça, je pourrais ajouter un élément : pour moi c’est très émouvant de me retrouver un peu dans la cabine de pilotage de ce projet, avec d’autres, je ne suis pas tout seul, il y a Stefano, il y en a plein d’autres qui aident, parce que c’est un moment magique. L’informatique est une discipline qui m’a toujours passionné et là on est à un point charnière dans cette histoire parce que le logiciel est né il y a une cinquantaine d’années, à peu près 50-60 ans. On a l’occasion unique de pouvoir reconstruire l’histoire de l’informatique, l’histoire de tous les logiciels qui sont arrivés à aujourd’hui et d’avoir l’infrastructure qui va permettre pour le futur de faciliter le développement des logiciels. Je pense qu'on est à point charnière. On a commencé il y a quatre ans à mettre en place ce qu’est Software Heritage, aujourd’hui on montre que c’est possible d’y arriver. Je pense que c’est la chose la plus passionnante qu’il ne m’est jamais arrivé de faire et j’espère, évidemment, que d’autres personnes se passionnent pour cette infrastructure et qu’on comprenne bien que ce n’est pas le projet de Roberto Di Cosmo, ce n’est pas le projet de l’équipe Software Heritage, ce n’est pas le projet d’Inria, ce n’est même pas le projet des sponsors du projet. C’est le projet de tout le monde, de toute une communauté qui trouve qu’il y a quelque chose qui est commun. Donc plus grand sera le nombre de personnes qui s’approprient le projet mieux ce sera dans l’intérêt de tous !

Frédéric Couchet : En tout cas j’espère qu’on a contribué modestement à faire connaître ce projet culturel, industriel, de recherche, d’éducation.

Roberto Di Cosmo : Merci de m’avoir fait venir.

Frédéric Couchet : Le point d’entrée c’est softwareheritage.org. Vous pouvez contribuer, Roberto a proposé pas mal de pistes de contribution et on aura sans doute l’occasion de refaire un point dans quelques mois sur la radio ou ailleurs.

Roberto Di Cosmo : Avec plaisir.

Frédéric Couchet : On va maintenant faire une pause musicale, mais Roberto reste avec nous parce que le sujet de l’éducation l’intéresse évidemment. Le morceau s’appelle Quand nous sommes à la taverne et le groupe s’appelle Ceili Moss. On revient juste après ça.

Pause musicale : Quand nous sommes à la taverne par le groupe Ceili Moss.

Frédéric Couchet : Vous êtes de retour sur l’émission Libre à vous ! sur Cause Commune 93.1 en Île-de-France et partout ailleurs sur causecommune.fm. Nous avons écouté le morceau Quand nous sommes à la taverne, le groupe s’appelle Ceili Moss. J’en profiterais pour préciser qu’évidemment il faut consommer avec modération, surtout quand dans la bouteille il y a de l’alcool.

Nous allons aborder le dernier sujet. Nous allons faire un point rapide sur le projet de loi pour une école de la confiance et plus précisément sur des amendements visant à inscrire la priorité au logiciel libre dans l’Éducation. Normalement au téléphone Jean-François Clair est avec nous. Jean-François est-ce que tu es là ?

Jean-François Clair : Oui. Bonjour Fred.

Frédéric Couchet : Bonjour Jean-François. Jean-François Clair, tu es professeur de mathématiques en collège REP+ à Paris et tu es responsable du groupe numérique au SNES qui est le principal syndicat du secondaire. Je t’ai invité à intervenir avec deux questions de base en fait. Je précise que le SNES est de longue date impliqué, a un engagement de longue date en faveur des logiciels libres dans l’Éducation. Pour quelle raison le SNES a cet engagement à la fois dans l’Éducation et dans sa pratique syndicale ?

Jean-François Clair : C’est essentiellement parce que, contrairement à ce que disent de nombreux médias, le SNES est quand même un syndicat très progressiste et, dès le tournant des années 80, lorsque la micro-informatique est apparue, de très nombreux enseignants, dont les enseignants du SNES, se sont emparés de l’outil informatique. Au fur et à mesure que les années ont passé eh bien ils ont développé une expertise, une connaissance et ils se sont très rapidement rendu compte au moment où Microsoft a pris possession, on va dire, du monde de la micro-informatique, il y avait aussi Apple de son côté, qu’on courait quand même vers une forme de marchandisation de l’école puisque, finalement, on a mis très longtemps à arriver à faire comprendre aux gens qu’il fallait parler de tableur, qu’il fallait parler de traitement de texte, de messagerie électronique et même maintenant, d’ailleurs, de moteur de recherche, plutôt que d’employer les noms qu’on utilise traditionnellement parce que c’est l’outil le plus courant à utiliser, de la même manière que dans les années 50 il y avait frigidaire qui avait remplacé le nom de réfrigérateur.
Ensuite, pourquoi le logiciel libre ? Eh bien tout simplement parce que le logiciel libre correspond à une philosophie, une façon finalement de penser le monde, où on est propriétaire de ce que l’on fait et on le met en commun puisque c’est le principe du Libre, le code est ouvert. C’était pour nous une façon de se dire que c’était peut-être la meilleure manière d’amener à ce que les élèves puissent apprendre, à un moment ou à un autre, l’informatique, en particulier le codage puisque, quand on parle de logiciel libre, il y a quand même cette dimension de codage, et surtout à pouvoir fabriquer par nous-mêmes ou améliorer par nous-mêmes les logiciels de façon à ce qu’ils correspondent à nos besoins pédagogiques. Voilà en gros comment je pourrais présenter les choses.

Frédéric Couchet : D’accord. C’est un engagement de longue date. Je précise que le SNES est membre de l’April. Il y a aussi un autre syndicat qui est membre de l’April qui est le SGEN-CFDT ; il y a aussi une section du Bas-Rhin du SNUIPP-FSU qui est membre de l’April. C’est aussi intéressant en termes de soutien de nos actions parce que c’est relativement récent ces adhésions à l’April, mais ça ne cache pas le fait, au contraire, ça renforce le fait que ces syndicats, depuis de longue date, essayent de promouvoir le logiciel libre à la fois dans leur pratique syndicale et aussi dans l’enseignement.
Aujourd’hui on va parler, assez rapidement parce que la fin de l’émission approche, d’un projet de loi qui a été déposé à l’Assemblée nationale début décembre, qui est le projet de loi pour une école de la confiance. Initialement, le projet de loi pour une école de la confiance ne visait pas spécifiquement le logiciel libre, mais il se trouve que des députés ont déposé des amendements. Sans refaire tout l’historique, notamment en commission et avant que je te pose la deuxième question pour qu’on comprenne, là actuellement le projet de loi est étudié à l’Assemblée nationale en séance publique, donc ça a commencé lundi, ça va se poursuivre tout à l’heure après la séance des questions du gouvernement donc ça a peut-être commencé.
En fait il y a deux types d’amendements qui ont été déposés par des parlementaires pour la séance publique. Il y a premier type d’amendements qui a été déposé par les députés de la France insoumise qui vise à imposer l’usage du logiciel libre dans l’Éducation, je lis l’amendement : « Les logiciels mis à disposition des élèves dans le cadre du service public de l’enseignement sont des logiciels libres » , c’est l’amendement 571.
Et de son côté le groupe communiste, notamment le député Stéphane Peu, a déposé deux amendements qui visent à inscrire la priorité au logiciel libre, ce qui est différent d’imposer l’usage du logiciel libre. Le lis l’amendement 836 de Stéphane Peu : « Les logiciels mis à disposition des élèves dans le cadre du service public de l’enseignement sont en priorité des logiciels libres ». On voit deux approches différentes. Nous, l’approche priorité au logiciel libre c’est celle que l’on défend depuis de nombreuses années, notamment pour gérer la phase de transition nécessaire, parce que évidemment, dans le monde de l’Éducation malheureusement, Microsoft, Apple et autres sont très présents. Quelle est la position du SNES sur ces deux options priorité ou imposition du logiciel libre ?

Jean-François Clair : On ne peut pas imposer. On ne peut absolument pas imposer le logiciel libre pour une bonne et simple raison c’est qu’il existe un certain nombre de choses qui relèvent de codes propriétaires. Je vais prendre un exemple tout simple : pendant des années les collègues ont développé des petites animations Flash qui sont basées sur Adobe Flash, c’est du code complètement propriétaire, ce n’est pas du Libre.

Frédéric Couchet : Ce n’est pas du libre. Flash c’est propriétaire.

Jean-François Clair : C’est mis gratuitement à disposition de, mais ce n’est pas du Libre. Donc on ne peut pas imposer à tout prix le Libre surtout dans une société qui n’est pas encore prête à, comment dire, réfléchir publiquement sur la protection des données, comme on l’a vu l’année dernière avec la loi qui a été votée au moment de l’entrée en vigueur définitive du RGPD [Règlement sur la protection des données]. Pour nous, il s’agit de donner la priorité au logiciel libre. De toute façon il existe aussi un certain nombre de solutions qui ont été développées en code propriétaire et qui n’ont pas leur équivalent dans le monde du Libre.

Frédéric Couchet : Qui n’ont pas encore leur équivalent.

Jean-François Clair : Et qui sont, malgré tout, utilisées par un certain nombre de collègues.

Frédéric Couchet : D’accord. Ça rejoint notre position.
Je répète que les débats ont lieu en ce moment. Pour les personnes qui nous écoutent, la meilleure façon d’agir c’est de contacter des parlementaires, un courriel ou un coup de téléphone, c’est encore plus efficace, avec vos propres arguments : expliquer pourquoi vous considérez que le logiciel libre doit être prioritaire dans l’Éducation ; vous pouvez employer les arguments qui vous parlent et les parlementaires, les députés, sont sensibles à ces questions-là. En termes d’agenda il est probable que ces amendements seront discutés mercredi ou jeudi parce qu’en fait ils sont après l’article 24, donc c’est vraiment en fin de discussion. Contactez vos parlementaires. En commission, des amendements un peu équivalents avaient été proposés et le ministre Jean-Michel Blanquer avait indiqué qu’en fait, déjà dans la loi, il y avait un encouragement à utiliser du logiciel libre dans l’administration. Il faut savoir que dans la loi il y actuellement une phrase, de mémoire « l’offre logicielle tient compte de l’offre logiciel libre. »

Jean-François Clair : Ce n’est pas suffisant !

Frédéric Couchet : Ce n’est pas suffisant, c’est-à-dire qu’on ne fait pas une politique avec des encouragements ou une injonction à tenir compte. On fait une politique avec des priorités, donc entamer dès maintenant une démarche de transition vers les logiciels libres en inscrivant dans la loi la priorité aux logiciels libres et aux formats ouverts dans l’Éducation nationale. Jean-François est-ce que tu veux rajouter quelque chose sur ce point ?

Jean-François Clair : Je ne vois pas trop. En fait, tu as déjà tout dit.

Frédéric Couchet : On avait relativement peu de temps, enfin peu de temps à consacrer, mais c’est qu’en fait l’émission se termine bientôt et il y avait plusieurs sujets, mais il était important de parler de ce sujet-là. Je suis personnellement convaincu que l’inscription dans la loi de la priorité au logiciel libre n’est qu’une question de temps. Il y a déjà eu de nombreux débats. Pour les personnes qui avaient suivi le projet de loi République numérique en 2016, à l’Assemblée nationale en séance publique, il y avait eu un long débat, près de 45 minutes ce qui est beaucoup sur un seul amendement, et on voyait qu’il n’y avait pas l’opposition classique qu’on connaissait, mais au contraire il y avait vraiment des liens qui se faisaient entre députés de différents bords. Le gouvernement de l’époque s’y était opposé. On espère que ce nouveau gouvernement ne s’y opposera pas, parce que, par rapport aux débats en commission, nous on a apporté des arguments justement sur la nécessité de la priorité. Ce qui est intéressant c’est qu’il y a deux types d’amendements qui sont proposés ce qui va permettre d’avoir un échange intéressant en séance. C’est sans doute plutôt mercredi ou jeudi et j’encourage chacun et chacune à contacter des députés. Sur le site de l’April, april.org, vous avez une page qui récapitule le dossier, qui précise les amendements et qui vous donne des pistes pour contacter des parlementaires.
Écoute Jean-François je te remercie de ton intervention et je pense qu’on aura l’occasion prochainement dans l’émission de faire un sujet beaucoup plus général sur le logiciel libre, l’Éducation, les formats ouverts, les données personnelles des élèves et des enseignants et enseignantes. Je te remercie Jean-François et à bientôt.

Jean-François Clair : Merci beaucoup Fred, à une prochaine fois.

Frédéric Couchet : L’émission va bientôt se terminer je vais juste faire une petite annonce qui est en lien, en fait, avec ce sujet-là, tout simplement.
Ce week-end à Beauvais auront lieu les PrimTux Days donc les journées Primtux. PrimTux est un système d’exploitation complet et libre qui propose un environnement de travail qui est adapté aux cycles de l’école primaire. On est toujours dans le domaine de l’école. C’est à Beauvais du samedi 16 février à 10 heures au dimanche 17 février à 17 heures. Vous retrouvez les informations détaillées sur le site de l’Agenda du Libre, donc agendadulibre.org et évidemment, sur le site de l’Agenda du Libre, vous trouvez tous les évènements du Libre qui se passent à Paris et ailleurs, les soirées de contribution au Libre, on a parlé tout à l’heure de contribuer à Softfware Heritage. On peut contribuer aux projets libres directement, les différents apéros, l’occasion de rencontrer des gens.

Notre émission se termine. Vous allez bientôt avoir le plaisir d’entendre notre générique de fin qui est Wesh Tone de Realaze.Vous retrouvez sur notre site web april.org toutes les références utiles que nous avons citées aujourd’hui. La page sera mise à jour s’il y a des références qu’on a oubliées. Vous retrouvez aussi sur le site de la radio causesommune.fm. N’hésitez pas à nous faire des retours pour indiquer ce qui vous a plu mais aussi des points d’amélioration.
On va se retrouver le 19 février donc mardi prochain à 15 heures 30. Nous parlerons du Pacte de la Transition avec Aliette Lacroix, nous ferons un point sur la directive droit d’auteur avec Anne Catherine Lorrain qui travaille au Parlement européen pour le groupe des Verts et notre sujet principal, là c’est aussi un grand plaisir, j’aurais le plaisir d’échanger avec Stéphane Bortzmeyer dans le cadre du livre qu’il vient de publier Cyberstructure. L'Internet, un espace politique.

Je vous souhaite de passer une belle journée et on se retrouve la semaine prochaine. D’ici là portez-vous bien.

Vers l’automatisation de la censure politique

Une tribune de Félix Tréguer, membre de La Quadrature du Net

Pour vous opposer à l’automatisation de la censure imposée par le règlement terroriste, rendez-vous sur notre page de campagne et contactez les députés européens jusqu’au 21 mars

Nous sommes à un tournant de la longue histoire de la censure. Ce tournant, c’est celui de la censure privée et automatisée. Il acte une rupture radicale avec les garanties associées à la liberté d’expression que les luttes démocratiques du XIXème siècle nous avaient léguées en héritage.

L’héritage démocratique-libéral piétiné

La loi de 1881 sur la liberté de la presse – aujourd’hui interprétée à la lumière de la Convention européenne des droits de l’Homme – est certes pleine de lacunes, et on a trop souvent tendance à exagérer son libéralisme. Mais elle n’en demeure pas moins une boussole fondamentale pour la liberté d’expression, prévoyant par exemple des règles procédurales spéciales pour juger a posteriori des abus de cette liberté, et consacrant la compétence exclusive du juge judiciaire dans le cadre de procédures publiques.

Ces dernières années, cet héritage a été piétiné. Les protections associées à la liberté d’expression reculent partout : dans la rue, dans la presse mais aussi et surtout sur Internet. Si le phénomène est ancien, le contexte actuel de crise (anti)terroriste et la dérive autoritaire qu’oppose le pouvoir aux mouvements sociaux y contribuent grandement. Pour ne prendre qu’un sujet qui nous intéressera ici, rappelons par exemple qu’en 2014, le législateur a estimé que l’« apologie du terrorisme » sur Internet n’aurait à ce point rien à voir avec la liberté d’expression qu’elle pourrait faire l’objet d’une censure secrète du ministère de l’intérieur. Cette évolution aura d’ailleurs conduit fin 2016 à la censure de communiqués revendiquant des actes de destruction matérielle de véhicules policiers, en réponse à l’inculpation de personnes arrêtées en lien avec les manifestations contre la loi travail de 2016.

Par le même vote de 2014, le Parlement jugeait également l’apologie du terrorisme indigne de la loi de 1881 et de ses garanties, et bien plus à sa place dans le code pénal. En contournant les garanties procédurales attachées à la loi de 1881, cette évolution aura conduit aux comparutions immédiates et à des condamnations totalement disproportionnées de dizaines de provocateurs au lendemain des attentats de janvier 2015.

De l’expérimentation à la législation

Cette fuite en avant est en train d’atteindre un point de bascule. Depuis 2015, les gouvernements français, britannique, allemand et étasunien n’ont eu de cesse de mettre les multinationales de l’économie numérique sous pression pour les inviter à faire la police sur leurs plateformes. De visites ministérielles dans la Silicon Valley en sommets « États-plateformes » sur le terrorisme, Google, Facebook et consorts ont accepté ces collaborations visant à massifier la censure de la propagande terroriste dans un cadre extra-judiciaire.

Après de nombreuses expérimentations menées ces dernières années, notamment par  Interpol ou encore le ministère de l’intérieur français, ces nouveaux agencements public-privé sont en passe d’être couronnés par l’adoption à marche forcée d’un règlement européen dédié à la lutte contre la propagande terroriste, présenté en septembre dernier par la Commission Juncker.

La France est, avec l’Allemagne, directement à l’origine de ce texte. Le 12 avril dernier, le ministre de l’intérieur Gérard Collomb et son homologue allemand écrivaient à la Commission européenne pour l’intimer d’agir au plus vite pour présenter et faire adopter ce texte. Celle-ci a donc obtempéré, présentant son projet en catimini le 12 septembre – le jour où le Parlement européen adoptait le fameux article 13 de la directive copyright, dont les obligations en matière de censure automatique nourrissaient alors la controverse.

Dans sa version initiale, ce projet de règlement antiterroriste tient en quelques articles :

  • L’article 4 prévoit une obligation pour tout fournisseur de service Internet (hébergeurs web, fournisseurs de messagerie, etc.), quelle que soit sa taille ou son fonctionnement (il ne s’agit pas seulement des grosses plateformes), de retirer dans un délai d’une heure les contenus signalés par les autorités, sous peine d’importantes sanctions financières.
  • L’article 5 permet également à ces mêmes autorités d’imposer une telle censure non sur la base du droit national applicable (par exemple, en France, le décret Cazeneuve de février 2015 sur la censure administrative d’Internet), mais sur la base des conditions d’utilisation des plateformes. Les polices européennes pourront donc, comme le fait déjà le ministère de l’intérieur français ou Europol, signaler des contenus haineux ou terroristes pour exiger leur censure, sur la base du droit privé.
  • L’article 6 impose enfin aux hébergeurs d’adopter des mesures « proactives » pour lutter contre la propagande terroriste (article 6). Comme dans la directive copyright, il s’agit en réalité de déployer des filtres informatiques scannant l’ensemble des contenus mis en ligne par les utilisateurs d’un service pour bloquer ceux correspondants à certains critères arrêtés par ces firmes. Une forme de censure préalable, mise en œuvre par des acteurs privés via des outils automatiques qui pourront être paramétrés en partenariat avec les États.

La censure automatique bientôt généralisée

De la lettre d’avril 2018 émanant des ministres de l’intérieur français et allemand, il ressort deux choses, depuis confirmées par les informations glanées ces dernières semaines dans différents ministères.

D’abord, la certitude que le règlement est un pied dans la porte, une manière bien coutumière d’imposer des mesures controversées en invoquant des justifications supposées imparables – ici la lutte (anti)terroriste. Comme l’expliquent les ministres de l’intérieur dans cette missive :

« Il conviendra par la suite d’étendre les règles fixées aux contenus à caractère pédopornographique et à ceux relevant des discours de haine l‘incitation à la discrimination et à la haine raciale, atteinte à la dignité de la personne humaine…) ».

À terme, ce nouveau régime de censure a donc vocation à être généralisé. Il suffira de revoir les paramètres de ces outils de censure pour ajouter de nouvelles catégories de contenus.

Le deuxième enseignement de cette lettre des gouvernements français et allemand est que ces systèmes de censure automatique développés par les grandes plateformes devront être proposés à l’ensemble des acteurs visés par ce texte. Comme le soulignent les ministères dans leur missive :

« Les grandes entreprises [devront] apporter un soutien logistique aux plus petites plateformes, tant les moyens de celles-ci sont par trop limités pour apporter une réponse efficace à notre injonction de retirer rapidement les contenus à caractère terroriste ».

Il est vrai que ces systèmes sont coûteux : Content-ID, l’outil mis en place par YouTube pour détecter de possibles atteintes au droit d’auteur dans les vidéos publiées par ses utilisateurs, aura à lui seul coûté près de 100 millions de dollars en développement…

Macron en soutien

Début novembre 2018, lors du Forum sur la gouvernance d’Internet qui se tenait dans les locaux de l’Unesco à Paris, Emmanuel Macron est revenu sur ce règlement, un texte qu’il a dit « soutenir pleinement », espérant « son adoption rapide avant les élections européennes ». Soit en à peu près 6 mois, délai exceptionnellement court pour un texte sécuritaire qui institue une censure extra-judiciaire pour l’ensemble des acteurs du Net opérant au sein de l’Union européenne.

Or, dans son discours, Macron confirme le bien-fondé des craintes soulevées par le règlement. Assurant que la « régulation des contenus illicites ou indésirables » est « la prochaine frontière », il s’empresse de distinguer « deux blocs » :

  • « le premier concerne la lutte contre les contenus objectivement et gravement illégaux – le terrorisme, la pédopornographie ». Pour ces contenus, l’intelligence artificielle est « mûre », assure le président français. C’est bien le sens du règlement européen que d’en généraliser l’usage.
  • « le second rassemble les contenus dont le caractère illicite est soumis à une interprétation, souvent d’ailleurs différente d’un pays à l’autre – les contenus haineux, la diffamation, le harcèlement ». Pour ces derniers, Emmanuel Macron estime que l’intelligence artificielle « n’est pas encore assez fine pour distinguer l’ironie, la parodie ou au contraire reconnaître un sous-entendu abject sous un discours policé ».

« Pas encore », donc bientôt ? Cette perspective a récemment été confirmée par Mounir Mahjoubi, secrétaire d’État au numérique : en annonçant le plan de lutte contre les contenus haineux sur Internet, le 14 février dernier, celui-ci évoquait sans réserve la perspective de soumettre les « discours de haine » à la censure automatique.

Quant à la référence aux contenus « indésirables », signifie-t-elle que que le chef de l’État entend encourager l’extension de ces systèmes de censure à des contenus licites mais réputés nuisibles par le pouvoir ? Un projet qui, parmi tant d’autres choses, contredit frontalement l’image d’un homme politique prétendant incarner l’« axe humaniste » européen dressé contre la fascisation du continent…

L’intelligence artificielle, Saint Graal des États

Durant les trois jours du Forum sur la gouvernance d’Internet, l’« intelligence artificielle » (ou IA) était sur toutes les bouches. C’est bien elle, en réalité, la nouvelle frontière censée transformer toutes les bureaucraties. C’est bien elle qui, selon l’expression entendue à maintes reprises durant cet événement, permettra à la surveillance et à la censure de « passer à l’échelle » (« scale up », en anglais).

Les progrès réalisés ces dernières années en « Machine Learning » et en traitement automatique des textes et des images fait en effet figure de Saint Graal pour les États. Fin 2017, un conseiller de Theresa May expliquait que si les États avaient besoin des multinationales américaines pour faire le sale boulot, c’est qu’après tout, « ces entreprises ont les meilleurs cerveaux du monde ».

Ces firmes, réunies depuis juin 2017 au sein d’un consortium baptisé « Global Internet Forum to Counter Terrorism », mettent en avant des résultats impressionnants (quoique guère vérifiables) en matière d’automatisation de la détection des contenus terroristes : YouTube parle de 98% de contenus de ce type repérés automatiquement, tandis que Facebook explique que 99% des contenus liés à l’État islamique ou à Al-Qaïda sont retirés avant que quiconque ne les ait signalés.

Pour l’heure, ces outils de censure automatique n’opèrent souvent qu’un premier filtrage, et l’immense majorité des contenus censurés sont en réalité « modérés » par des prestataires établis en Inde, au Philippines ou au Maroc pour juger de la conformité de textes ou d’images aux conditions d’utilisation des plateformes. Ces petites mains de la censure qui travaillent dans des conditions déplorables se voient imposer des objectifs délirants de l’ordre de 2000 images par heure, soit une appréciation portée sur une image en moins de deux secondes. En 2017, Facebook annonçait porter ses équipes de modération de 3000 à 7500 personnes. Google envisageait dans le même temps de porter le nombre de modérateurs YouTube à plus de 10 000.

Ces chiffres rappellent que, malgré ses rapides progrès, la censure automatisée n’est encore que balbutiante. Mais compte tenu des milliards investis dans la recherche en IA et des pressions exercées par les États, sa généralisation est désormais à portée de main. La censure privée et automatisée, que des organisations comme La Quadrature du Net combattent depuis des années, est bien en passe de fonder un nouveau régime de censure.

La fusion État-GAFAM : actualisation de logiques anciennes

Si l’on pense l’État non pas comme un bloc aux contours clairement identifiés (à la manière des juristes) mais davantage comme un ensemble de pratiques et une rationalité que Michel Foucault désignait comme la « gouvernementalité », alors il est clair que ce que ces évolutions donnent à voir, c’est l’incorporation de ces acteurs privés à l’État ; c’est la cooptation de leurs infrastructures et la diffusion de leurs savoir-faire dans le traitement et l’analyse de masses de données désormais cruciales dans les formes contemporaines de gouvernement. C’est donc une fusion qui s’opère sous nos yeux, bien plus qu’une concurrence entre les États et les GAFAM qui chercheraient à se substituer aux gouvernements.

Ces logiques de cooptation d’acteurs privés par l’État sont récurrentes dans l’histoire de la censure. À partir du XVIè siècle, alors que le développement de l’imprimerie joue un rôle clé dans la propagation de doctrines politiques et religieuses subversives, l’État moderne en gestation recourait déjà aux partenariats public-privé dans la surveillance et la censure des communications.

En France par exemple, le cardinal de Richelieu conclut au début du XVIè siècle une alliance avec les libraires parisiens qui réclament un monopole perpétuel sur l’édition des livres pour écraser la concurrence. Ils se voient octroyer des privilèges à durée quasiment illimitée en échange de la conduite d’une mission de surveillance des publications et la docte application des règlements en matière de censure. Cette politique bientôt élargie à l’ensemble du royaume, permettra à une trentaine d’imprimeurs-libraires de maîtriser tant bien que mal la production et la distribution des livres. Cela n’étouffait évidemment pas totalement l’édition clandestine, mais permettait de maîtriser un tant soit peu les effets politiques de l’imprimerie, d’affermir l’absolutisme tout en remplissant les caisses de quelques hommes d’affaires.

Lors de leur apparition au tournant des années 1980, les réseaux informatiques – et Internet en particulier – se sont donnés à penser comme une technologie radicalement subversive des formes de contrôle des communications qui s’étaient institutionnalisées dans le giron de l’État moderne, et transposées aux différentes techniques de communication apparues depuis l’imprimerie. Ils allaient bientôt induire la massification des flux transfrontières d’information, l’anonymat relatif des communications numériques, l’appropriation de ces technologies par des groupes contestataires et marginalisés dans l’espace public traditionnel, et plus généralement la démocratisation de la capacité d’expression publique au delà du petit cercle des personnes ayant jusqu’alors accès aux médias traditionnels. Tout cela déstabilisait les modalités de contrôle de l’espace public et, plus encore, la souveraineté des États. Internet était donc perçu comme un espace dangereux. Il fallait donc réarmer la police de l’espace public ou, pour reprendre le vocable que Nicolas Sarkozy avait emprunté au parti communiste chinois, le « civiliser » (un terme encore repris récemment par Mounir Mahjoubi).

La solution est donc en passe d’être trouvée, et il aura fallu moins d’un quart de siècle. Aujourd’hui, au lieu d’une petite dizaines d’imprimeurs-libraires à l’échelle d’un pays, ce sont une poignée d’entreprises américaines qui sont cooptées par les bureaucraties d’État dédiées à la surveillance et à la censure. En dépit des discours lénifiants sur la « souveraineté numérique », les gouvernements préfèrent en fait renforcer la position dominante de ces multinationales, en obligeant l’ensemble des acteurs du numérique à leur acheter leurs systèmes de censure. Ceux qui ne pourront pas se le permettre ou qui refuseraient de se faire auxiliaires de censure – notamment ceux qui font encore vivre un Web indépendant, non-commercial, alternatif – seront poussés à mettre la clé sous la porte.

L’instrumentalisation de la lutte contre les discours de haine

On nous parle de lutter contre la propagande terroriste et les discours de haine. Mais il est désormais de plus en plus clair que cette lutte reposera sur des dispositifs de censure automatique qui resteront de véritables « boîtes noires », par définition secrètes, gérées par des partenariats public-privé opaques. Ces derniers consentiront peut être à mettre en scène une certaine transparence, un peu d’autorégulation et des aménagements présentés comme autant de garanties – à l’image de Facebook qui nous promet aujourd’hui de mettre sur pied une « cour suprême » pour recevoir des plaintes d’utilisateurs victimes de sa politique de « modération ». Mais ils ne présenteront jamais les garanties offertes par des juridictions traditionnelles. Et pour cause : ces dispositifs sont conçus pour s’en affranchir. La censure automatique des communications a cet avantage pour le pouvoir qu’elle est presque invisible, et donc pratiquement incontestable.

On nous parle de lutter contre les discours de haine via la censure d’Internet. Mais depuis plus de quarante ans que des incriminations existent pour réprimer les expressions incitant à la haine et aux discriminations, a-t-on vraiment fait des progrès en la matière ? De fait, l’intolérance se donne à voir au grand jour sur Internet, où elle s’abat sur des groupes structurellement discriminés. Pour autant, ces opprobres sont aussi quotidiennes dans les médias traditionnels, dans les cénacles politiques, et bien souvent dans les pratiques des institutions.

On nous parle de lutter contre les discours de haine. Mais il apparaît de plus en plus clairement que ce qui est aussi visé, c’est l’invisibilisation de tout discours associé de près ou de loin à des formes de violence politique qui risqueraient d’être perçues comme légitimes. C’est ce qu’illustre par exemple l’affaire déjà évoquée, lorsque fin 2016, au nom de la lutte contre le terrorisme, le ministère de l’intérieur enjoignait à deux sites participatifs de censurer un communiqué revendiquant l’incendie d’un hangar de gendarmerie, acte présenté par les auteurs comme une réponse à la répression policière (cette décision aura finalement été annulée début 2019 par la justice administrative, exceptionnellement saisie de cette affaire). Plus largement, c’est l’ensemble des discours politiques contestataires qui pourraient bientôt faire l’objet de cette censure secrète. La tentation du pouvoir est réelle, comme en témoigne les velléités récentes du ministère de l’intérieur de censurer un photomontage qui remplaçait le visage du général Pinochet et de ses sbires par ceux d’Emmanuel Macron, d’Édouard Philippe et de Christophe Castaner.

S’il était adopté, le règlement antiterroriste serait donc une pierre de plus dans la mise en place de ces nouveaux dispositifs dédiés à l’invisibilisation des expressions politiques contestataires. Rien qu’en s’en tenant à la catégorie de l’apologie du terrorisme, les outils de censure développés par les multinationales du numérique en lien avec les autorités trouveraient à s’appliquer à de nombreuses activités militantes : le sens du terme « terrorisme » est en effet tellement vague, ou lorsqu’une définition existe elle est tellement large, qu’il peut servir à justifier la censure de toute expression favorable à des actions politiques offensives ou violentes – y compris la destruction de biens matériels, le sabotage ou le blocage d’infrastructures.

Conjurer la re-féodalisation de l’espace public numérique

Si l’on se soucie de la liberté d’expression et de l’État de droit, si l’on se soucie de ménager un espace où le pouvoir pourra être critiqué, où nous pourrons débattre et nous organiser, où un peu de sens commun pourra se construire, ces nouvelles formes de censure doivent être tenues en échec.

Ce qu’il faut, c’est d’abord comprendre qu’une grande partie du problème lié aux discours haineux sur Internet tient à ce qu’est devenue l’économie politique de ce réseau. Le nœud du problème spécifique que pose Internet, c’est bien la manière dont les grandes entreprises du numérique conditionnent les régimes d’attention : les contenus attrape-clics, simplistes et sans nuance, jouant sur les émotions négatives ; les « bulles de filtres » qui nous enferment tout en donnant l’illusion de neutralité, et offrent un faux sentiment de sécurité en permettant aussi à des individus aux identités politiques radicalement adverses de venir nous agresser sur des plateformes ouvertes aux quatre vents.

Face aux « Fake News » et à la haine qui sévit aussi sur Internet, ceux qui prétendent nous gouverner se frottent les mains : le pourrissement de l’espace public numérique leur permet aujourd’hui de légitimer le retour de vieilles stratégies de contrôle. C’est tout le sens du discours de Macron au Forum sur la gouvernance d’Internet.

Ce n’est pourtant pas une fatalité. Ces dernières semaines, La Quadrature du Net a commencé à exposer des positions destinées à lutter par le droit contre ces infrastructures centralisées qui pervertissent le débat public, tout en favorisant l’éclosion d’îlots de communication communautaires et fédérés où pourront se redéployer les espaces d’expression, de conversation, et donc une partie du débat public. L’idée phare de ces propositions, c’est de casser le régime d’attention mis en place par les plateformes, fondé sur la collecte des données personnelles et la hiérarchisation des contenus à des fins commerciales, au sein d’infrastructures gigantesques pensées pour rendre les utilisateurs captifs.

L’objectif, c’est bien de promouvoir en lieu et place une nouvelle topologie de l’espace public numérique capable de protéger des lieux de discussion décentralisés mais pouvant être reliés les uns aux autres, laissant à chacun le choix de ses communautés et des limites données à la liberté d’expression, pour ainsi mieux maîtriser son degré d’exposition aux conflits qui traversent immanquablement l’espace public. L’espoir est d’ainsi réduire le risque de conflits interpersonnels non-souhaités. C’est de faire en sorte que la demande sociale de censure soit moins forte et que la censure préalable et automatique puisse ne plus apparaître comme la seule option valable ; que le principe d’une protection judiciaire de la liberté d’expression soit préservé.

L’urgence, c’est en tous cas de rompre l’alliance des appareils policiers et des grands marchands d’infrastructures numériques. C’est d’éviter que ne se consolident les fondements techniques et juridiques d’une société de contrôle nous enfermant imperceptiblement dans une cage de fer algorithmique.

Ce texte est adapté d’une intervention au colloque « Réglementer la liberté d’expression au nom du débat public », qui se tenait à l’Institut de Recherche Philosophiques de Lyon (IRPhiL) les 29 et 30 novembre 2018.

Rubrik lance Build, un programme de collaboration open source autour d'APIs

Rubrik annonce le lancement de Rubrik Build. Cette communauté Open Source, qui englobe plusieurs projets, vise à « encourager la création par des contributeurs, de nouveaux outils d'automatisation et d'intégration ainsi que de nouvelles applications s'appuyant sur les API Rubrik. »
Chaque projet Build s'accompagnent ainsi de SDK, d'exemples d'intégration et de cas d'utilisation, ainsi que d'une documentation détaillée et d'un guide de démarrage.
Les projets Open Source de Rubrik Build se répartissent en (...)

- Développement

Tout est faux - Décryptualité du 18 février 2019


Christian - Manu - Luc

Titre : Décryptualité du 18 février 2019 - Tout est faux
Intervenants : Christian - Manu - Luc
Lieu : April - Studio d'enregistrement
Date : 18 février 2019
Durée : 13 min 30
Écouter ou télécharger le podcast
Revue de presse pour la semaine 7 de l'année 2019
Licence de la transcription : Verbatim
Illustration : faux2, Martin Winckler quelques conseils. Licence Creative Commons Attribution 3.0 non transposé.
NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Description

Métriques bidons, notoriété montée de toute pièce… et si tout sur internet était faux ?

Transcription

Luc : Décryptualité.

Voix off de Nico : Le podcast qui décrypte l’actualité des libertés numériques.

Luc : Semaine 7. Salut Manu.

Manu : Salut Christian.

Christian : Salut Luc.

Luc : Sommaire.

Manu : On a six jolis articles cette semaine.

Christian : Le Telegramme, « Logiciels libres. Des participants avides de connaissances ».

Manu : Ça discute de réunions de présentation d’associations qui abordent les logiciels libres, qui montrent un peu à tout le monde comment ça fonctionne. C’est plutôt sympa, il y a des install-parties notamment. Allez jeter un œil parce que c’est toujours sympa.

Christian : Partout en France ! ZDNet France, « Non, vous ne pouvez pas reprendre du code open source » par Steven J. Vaughan-Nichols.

Manu : C’est une traduction d’un article anglais qui parle d’une problématique qu’on s’était posée : est-ce qu’un auteur, un programmeur peut dire a posteriori : « Non ! Ce code source vous ne pouvez plus l’utiliser, je vous en enlève l’autorisation ». Eh bien vraisemblablement non. En tout cas ce sont les analyses qui sont mises en avant dans l’article ; c’était une problématique qui était un peu gênante.

Luc : Attention parce que c’est un article traduit, donc rien ne dit que cette analyse est valable dans notre droit.

Manu : Exactement ! À creuser, toujours.

Christian : Developpez.com, « Directive copyright : la version finale est enfin prête. L’EFF explique comment les entreprises US pourraient en profiter », par Stéphane le calme.

Manu : Ça parle des fameux articles que l’on n’aime pas, les articles 11 et 13 du droit d’auteur qui est en train de se mettre en place en ce moment. Il y a des hauts et des bas sur cette directive. On a cru qu'elle était…

Luc : On a pensé que c’était mort !

Manu : Mais non ! C’est relancé par la France et l’Allemagne qui, d’un même pas, ont décidé d’empirer le système et d’attaquer tout Internet en bloquant beaucoup de choses liées au droit d’auteur, à cause du droit d’auteur, pour le droit d’auteur. On regarde un peu ce qui se passe. Il y a plein d’articles sur le sujet, plein d’articles secondaires. Vous pouvez aller jeter un œil et on attend de voir les résultats de ce genre de délibérations.

Christian : Numerama, « UFC-Que Choisir fait condamner Google sur la collecte et l’utilisation des données personnelles », par Maxime Claudel.

Manu : Ah ! Ça ce n’est pas mal ! Les grosses entreprises se font condamner parce qu’elles font des choses pas très sympas du point de vue de la vie privée. Il y a des règles maintenant, le RGPD [Règlement général sur la protection des données] notamment, un outil fort, et on peut voir, ça ce sont des articles secondaires, que le RGPD est aussi utilisé dans d’autres pays européens pour faire bouger notamment Microsoft sur sa suite Office.

Christian : Silicon, « Open Source : Linux domine le top 5 des compétences les plus prisées », par Ariane Beky.

Manu : Ça fait plaisir. Les développeurs qui font du logiciel libre sont très appréciés en entreprise ; on en manque, on en recherche, il en faut. Donc les écoles, écoutez ; les universités, entendez : il faut former des informaticiens qui font du logiciel libre.

Christian : Developpez.com, « Un hacker lance FreedomEV, un projet open source qui apporte de nouvelles fonctionnalités aux voitures Tesla » par Bill Fassinou.

Manu : Je crois qu’on peut appeler ça un mod, un module, une modification. En gros les voitures Tesla, les voitures électriques qui embarquent tout un système d’exploitation intégré qui permet de contrôler plein de choses dans la voiture électrique, eh bien ce développeur, ce hackeur est en train de bidouiller sa voiture électrique pour y installer des nouvelles fonctionnalités, notamment des fonctionnalités liées à la vie privée. Il ne veut pas que sa voiture enregistre exactement partout où il va et notamment, il a fait des blocages qui vont permettre de contrôler ce qui se passe de ce point de vue-là. On attendra de voir ce que fait Tesla. Est-ce que Tesla va apprécier ces modifications ?

Christian : Sachant qu’il y a de plus en plus d’informatique dans les voitures aujourd’hui et que c’est de plus en plus fermé, ça serait un beau signe, une belle voie à suivre.

Luc : Pour le sujet de la semaine, moi je ne sais pas trop en fait, parce que tout est faux !

Manu : Tout est faux ! Comment ça tout est faux ? Ben alors ?

Luc : Oui. En fait mes angoisses sont parties d’un groupe, j’avais lu ça il y a quelques mois, j’avais trouvé ça assez rigolo. C’est un groupe qui s’appelle Threatin du nom…

Manu : Threatin.

Luc : Manu, c’est toi qui es anglophone.

Manu : Threatin.

Luc : Une sorte de groupe métal, de rock, tout ça, du nom du leader charismatique du groupe qui s’appelle Jered Threatin. Ce groupe c’est une histoire assez fabuleuse où le gars et sa femme ont fait, pour commencer, un album. Le type a fait l’album, avec des chansons.

Manu : Ça paraît être un bon démarrage !

Luc : Voilà, ce n’est pas mal pour commencer à faire de la musique et, dans le clip, on le voit jouer de la guitare et de la batterie. C’est un petit peu cheap, mais on voit quand même des trucs avec des noms de villes, il a tourné dans plein d’endroits, etc., il y a de la foule, il a joué devant plein de gens. Le nom de la chanson c’est quoi ? Manu, je sais que tu es fan.

Manu : Living is dying.

Luc : Voilà, donc on rigole un petit peu.

Manu : Oui, la profondeur de la parole. C’est lui qui est chanteur.

Luc : Il chante.

Christian : Il est relativement jeune quand même.

Manu : À cheveux longs, bien sûr.

Luc : Ils ont fait ça, ils ont organisé une tournée et, pour ça, ils ont fait plusieurs trucs. Ils ont commencé par faire le site web d’un faux label qui prétend exister depuis super longtemps et avoir plein de groupes qu’ils ont inventés et le leur. Ils ont inventé une fausse agence de promotion, avec un site web correspondant.

Manu : Ouais. Ça semble pas mal !

Luc : Ils ont inventé et créé le site web d’un faux tourneur, ensuite ils ont acheté des followers sur Twitter, je suppose sur Facebook, etc.

Christian : Jusque-là situation tout à fait classique.

Manu : C’est sûr que ça ne fait pas plaisir. Le groupe, il a fallu qu’il le constitue à un moment donné.

Luc : Oui. Il a embauché des musiciens en leur expliquant que ses anciens musiciens avaient tous quitté le groupe précipitamment.

Manu : Bon ! Ça arrive ! Ça s’est déjà vu.

Luc : Et il a monté une tournée, notamment en Grande-Bretagne, en allant solliciter avec tout ce bagage-là des salles de concert. En Angleterre et même dans d’autres pays d’Europe il y a plusieurs salles qui ont dit : « Ça a l’air pas mal. Il a des gens derrière lui ». Il y a des gens qui ont écouté la musique et qui ont trouvé ça suffisamment crédible pour dire « OK, c’est bon, tu vas remplir ma salle ». Lui parle de 1500 personnes quoi, donc pas des petites salles minuscules !

Christian : Ça se voit au bout d’un moment si la salle va se remplir ou pas !

Luc : Mais il a vendu les tickets ! Il a vendu je ne sais plus combien, 250, 300 tickets.

Manu : Qu’il y a achetés lui-même !

Luc : Ils les a vendus à lui-même. Il a acheté lui-même ses tickets de prévente et le jour du concert ! Ah ! Personne !

Manu : Mince !

Luc : Il avait oublié que c’est bien joli de faire illusion avec les réseaux sociaux, avec tout est faux, mais à un moment il faut que le public, si on veut qu’il vienne, il faut quand même qu’il entende la musique.

Christian : Il n’a pas été jusqu’au bout de sa démarche ; il n’a pas acheté les spectateurs !

Luc : C’est ça le problème ! Ce que je trouve complètement fou dans cette histoire, c’est que la somme de travail, la somme de pognon investi – il a quand même mis beaucoup d’argent dans le truc –, la somme de talent parce que le type il arrive quand même à faire de la musique qui arrive à convaincre quelqu’un, il arrive quand même à faire des sites web qui arrivent à convaincre des gens.

Manu : Il a réussi à recruter du monde qui était d’accord pour venir bosser avec lui.

Luc : Il les a un petit peu entubés quand même parce que quand ils sont arrivés ils ont découverts qu’ils seraient payés rien, en fait, puisque c’était 300 dollars pour la tournée ce qui n’est rien du tout et, qu’en plus de ça, ils devaient payer leur nourriture, donc ils les a quand même entubées là-dessus. Mais ce type et sa femme ont quand même du talent, ils ont réussi à faire plein de choses, mais pour monter cette espèce de ballon de baudruche qui s’est instantanément volatilisé.

Manu : Et on dirait que là tu es en train de parler d’autre chose que d’un groupe de musique. J’ai l’impression que ça pourrait s’appliquer à tellement d’autres domaines : le marketing.

Christian : Les métriques sur Internet, des choses comme ça, parce qu’ils n’ont fait qu’utiliser les moyens à leur disposition qui sont utilisés par plein d’autres domaines.

Luc : Effectivement. Le fait d’acheter des followers, le fait d’acheter des amis sur Facebook et ce genre de choses, il y a plein de gens qui le font. Il y a des groupes partout qui ont fait ça, il y a des politiciens ; tout le monde le fait !

Christian : Est-ce que tout est faux ?

Luc : Moi je pense que oui. Dans cet exemple-là tout est faux.

Manu : À mon avis, il y a des endroits où toi-même tu traînes et qui se traînent pourtant des réputations de fausseté. Je sais que Reddit1 qui est un de tes sites préférés, ils se sont montés en mettant en place plein de faux comptes et une fausse activité, initialement.

Luc : Reddit c’est une sorte de gros forum dont on parle de plus en plus et effectivement, au démarrage, c’est toi Manu qui me l’a appris…

Manu : Eh bien ce n’était que de la baudruche, ce n’était que du marketing. Les mecs ont créé une fausse activité sur leur site pour initier.

Luc : Ils faisaient comme s’il y avait des gens qui publiaient des choses pour montrer qu’il se passait quelque chose sur leur site et que c’était bien de s’inscrire.

Manu : Pour le coup ça a marché.

Luc : De fait, il se passait effectivement quelque chose sur leur site. Ils ne se sont pas contentés de dire on a un million de personnes qui ne font rien. Ils ont eu des gars qui ont fait des trucs.

Manu : Mais je crois comprendre qu’encore aujourd’hui Reddit a fait parler de lui. On a vu passer des articles.

Christian : Effectivement, il y a un article sur Developpez.com dont le titre est « Tout est faux. L’ancien PDG de Reddit confirme que les métriques du trafic internet ne sont pas réelles et explique en quoi »2. Une belle accroche !

Luc : L’auteur de l’article ?

Christian : Stéphane le calme.

Luc : Parce que là on est en train de tout lui piquer quand même, ou presque.

Christian : Oui, effectivement. Une accroche vraiment forte et, en fait, le contenu est aussi fort que l’accroche.

Manu : Donc la directrice.

Christian : La PDG dit.

Luc : Ex-PDG.

Christian : Ellen Pao dit carrément, je la cite : « C’est vrai tout est faux. De plus, les comptes d’utilisateurs mobiles sont factices. Personne n’a compris comment compter les utilisateurs mobiles déconnectés comme je l’ai appris chez Reddit. Chaque fois que quelqu’un change d’antenne cellulaire, cela ressemble à un autre utilisateur et gonfle les statistiques d’utilisateurs de l’entreprise. » C’est hallucinant !

Manu : En gros, si vous êtes en train de consulter Reddit depuis un TGV, vous allez être compté peut-être des centaines de fois, parce qu’au moment où ça bouge vous changez de cellule, eh bien Reddit vous compte comme un nouveau visiteur.

Luc : Ça c’est super intéressant quand on sait qu’il y a des tas de gens qui disent : « Aujourd’hui les gens utilisent le mobile pour aller sur Internet, l’ordinateur fixe est mort ! » Eh bien, avec ce genre d’info, on se dit que les chiffres sont peut-être complètement bidons.

Christian : Il semblerait effectivement que la plupart des statistiques fournies et utilisées reposent comme ça sur des mesures alors pas forcément trafiquées, mais mensongères, mal étayées et que les professionnels du domaine le savent parfaitement mais s’en servent quand même pour vendre, pour faire du buzz.

Luc : Ou vendre de la pub. On sait également, c’est cité dans l’article, qu’il y a des estimations qui disent qu’au moins 40 % du trafic sur Internet ce sont des bots, c’est-à-dire ce sont des ordinateurs qui communiquent, qui envoient des machins dans tous les sens. Quand on sait que, par ailleurs, une grosse partie du trafic c’est de la pub.

Manu : La grande majorité des e-mails ce sont des spams.

Christian : Et qui envoie les spams ?

Luc : Des robots !

Christian : Des robots. Donc on construit des robots pour se faire passer pour des humains et, du coup, on a des followers, on a des inscrits sur Instagram, sur Facebook. Il y a combien de comptes sur Facebook aujourd’hui ?

Luc : Je crois que c’est de l’ordre de deux milliards. On estime que la moitié sont bidons, enfin ce sont certains chiffres qui sont avancés. Mais comme la base est bidon comment on sait que le chiffre lui-même est bidon ? C’est pour ça que je dis que tout est faux.

Christian : Ici, dans l’article, il cite aussi le cas du nombre de vues de vidéos qui était faramineux, qui faisait payer très cher le visionnage des vidéos, mais qui, en fait, ne disait pas que les vidéos étaient considérées vues s’il y avait trois secondes de visionnage qui étaient effectives et non pas les trois minutes ou les dix minutes qu’il y avait derrière.

Luc : Il y avait ça et les publicités avant, puisque, pour ceux qui ont le malheur de ne pas avoir de bloqueur de publicité, quand il y a une pub sur YouTube « passer l’annonce au bout de quelques secondes ». Je crois qu’ils avaient également un peu pipeauté, en tout cas on les a accusés d’avoir pipeauté sur ce nombre de vidéos de pubs vues en entier.

Manu : Les annonceurs s’étaient plaints de Google, notamment parce que Google leur faisait payer des publicités très chères. Les annonceurs avaient découvert que le nombre de vues, le nombre de clics était faux. Je crois que ça avait été assez loin et Google avait dû repayer de l’argent.

Luc : Sur ces questions des IA, des intelligences artificielles, parce que ça c’est un des sujets super à la mode, eh bien il y a également l’inverse. Il y a tous ces trucs qui disent : « On a super une IA qui fonctionne du feu du Dieu » et en fait, derrière, on a des gens derrière des claviers et c’est vieux comme l’informatique. Il y a des années de ça j’avais discuté avec un type qui avait connu l’époque du Minitel et il me disait qu’il avait des potes qui avaient monté des minitels de rencontre et il y avait un gros barbu derrière le clavier qui disait : « Coucou, je m’appelle Pamela, je suis super chaude, etc. » Donc ça a toujours été le cas, quoi !

Christian : Donc on fait des bots pour imiter des humains et on achète des humains pour imiter des IA ! Waouh !

Luc : Dans le domaine du tout est faux, il y a également ce qu’on appelle le deepfake.

Manu : Le deepfake.

Luc : Le deepfake.

Manu : En anglais c’est le « faux profond ».

Luc : Le « faux profond », effectivement.

Manu : Non, ce n’est pas une dick pic, c’est encore autre chose.

Luc : On ne va pas en parler ce soir. Aujourd’hui on a des outils informatiques qui arrivent à faire des photos notamment de visages, il y a un site qui fait ça à la demande - on rafraîchit l’image et on a à chaque fois une nouvelle tête - et qui arrive à faire des photos, photos réalistes de visages de gens qui n’existent pas.

Manu : J’ai regardé pendant tout un moment : on ne peut pas savoir si c’est du faux ou du vrai, il faut regarder les détails pour avoir une idée.

Luc : Du coup, si on ne méfie pas, c’est foutu. Il faut vraiment se dire je sais que c’est faux, donc je vais regarder ça et ça.

Manu : Il y a des deepfakes qui mettent en scène Trump ou Obama, où on leur fait dire n’importe quoi.

Luc : Oui puisqu’on peut le faire avec de la vidéo. Aujourd’hui ça demande encore un peu de talent et beaucoup de moyens puisque ça demande beaucoup de puissance de calcul, mais on sait que dans les années à venir ça va s’améliorer à très grande vitesse. Donc si on ne peut plus se fier aux images et aux vidéos et ce genre de choses, comment fait-on ?

Manu : Où va-t-on ?

Christian : Et même le sujet d’actualité qui est le harcèlement sur Internet, c’est du fake aussi ?

Luc : Effectivement c’est un des trucs qui date de la semaine dernière. Dans le cadre du procès intenté par Denis Baupin à des médias et à ses accusatrices, Duflot a témoigné. Dans la foulée de son témoignage, elle a été victime d’une campagne de harcèlement, sur Twitter notamment, avec menaces de viol et des trucs bien dégueux. Il y a un type qui s’est penché sur la question, je ne connais pas son nom malheureusement, et qui a commencé à analyser tout ça. En fait, il s’avère que, selon son travail, c’est toujours le même message donc manifestement c’était fait automatiquement et les comptes sont des comptes achetés. Donc ça veut dire qu’il y a quelqu’un, quelque part, qui a mis des sous sur la table pour faire une campagne de harcèlement de Cécile Duflot sur des bases où ce ne sont même pas des vrais gens qui la détestent.

Christian : Tout le monde est gentil sur Internet alors ?

Luc : Si ça se trouve oui !

Manu : Il n’y a pas de haine, il n’y a pas d’entourloupe, ce n’est que des gens sympathiques partout, partout.

Christian : Même les harceleurs sont faux sur Internet !

Luc : Peut-être !

Manu : Oui, parce qu’au final on ne sait pas ! On ne peut pas savoir exactement.

Luc : Je pense qu’il y a quand même, malheureusement, une constante de l’humanité, quand même un bon paquet de connards.

Christian : Mais alors Luc, si tout est faux, toi aussi tu es faux ? Nous aussi nous sommes faux ?

Luc : Eh bien oui, je pense que tu as mis le doigt dessus. Maintenant que le pot aux roses est découvert nous allons disparaître et nous vaporiser. Nous reviendrons la semaine prochaine avec une illusion plus convaincante. Salut.

Christian : Salut.

Manu : À la semaine prochaine.

Émission « Libre à vous ! » sur radio Cause Commune (26 février 2019)

26 Février 2019 - 15:30
26 Février 2019 - 17:00

Photo d'illustration de l'émission

La quatorzième émission Libre à vous ! de l'April sera diffusée en direct sur radio Cause Commune sur la bande FM en région parisienne (93.1) et sur le site web de la radio, mardi 26 février 2019 de 15 h 30 à 17 h 00. Et l'émission sera rediffusée le soir même de 21 h à 22 h 30.

Ce sera une émission spéciale, sans sujet principal, avec notamment les secondes chroniques d'Isabella Vanni (« Le libre fait sa comm' »), de Marie-Odile Morandi (« Les transcriptions qui redonnent le goût de la lecture ») et de Vincent Calame (« Jouons collectif »). Avec également la première chronique de Véronique Bonnet (« Partager est bon ») et un échange avec Emmanuel Charpentier sur l'Agenda du Libre, la revue de presse de l'April et les décryptualités.

Écouter le direct mardi 26 février 2019 de 15 h 30 à 17 h 00  S'abonner au podcast

Les ambitions de l'émission Libre à vous !

La radio Cause commune a commencé à émettre fin 2017 sur la bande FM en région parisienne (93.1) et sur Internet. Sur le site de la radio on lit : « Radio associative et citoyenne, les missions de Cause Commune sont de fédérer toutes les initiatives autour du partage et de l’échange de savoirs, de cultures et de techniques ».

Nous avons alors proposé de tenir une émission April intitulée Libre à vous ! l'émission pour comprendre et agir avec l'April — d'explications et d'échanges concernant les dossiers politiques et juridiques que l'association traite et les actions qu'elle mène. Une partie de l'émission est également consacrée aux actualités et actions de type sensibilisation. L'émission Libre à vous ! est principalement animée par l'équipe salariée de l'April mais aussi par des membres bénévoles de l'association et des personnes invitées. Donner à chacun et chacune, de manière simple et accessible, les clefs pour comprendre les enjeux mais aussi proposer des moyens d'action, tel est l'objectif de cette émission hebdomadaire, qui est diffusée en direct chaque mardi du mois de 15 h 30 à 17 h. Avec normalement une rediffusion le soir même de 21 h à 22 h 30.

Liens utiles

Les archives de l'émission

Écouter les émissions précédentes

Émission « Libre à vous ! » sur radio Cause Commune (26 février 2019)

26 Février 2019 - 15:30
26 Février 2019 - 17:00

Photo d'illustration de l'émission

La quatorzième émission Libre à vous ! de l'April sera diffusée en direct sur radio Cause Commune sur la bande FM en région parisienne (93.1) et sur le site web de la radio, mardi 26 février 2019 de 15 h 30 à 17 h 00. Et l'émission sera rediffusée le soir même de 21 h à 22 h 30.

Ce sera une émission spéciale, sans sujet principal, avec notamment les secondes chroniques d'Isabella Vanni (« Le libre fait sa comm' »), de Marie-Odile Morandi (« Les transcriptions qui redonnent le goût de la lecture ») et de Vincent Calame (« Jouons collectif »). Avec également la première chronique de Véronique Bonnet (« Partager est bon ») et un échange avec Emmanuel Charpentier sur l'Agenda du Libre, la revue de presse de l'April et les décryptualités.

Écouter le direct mardi 26 février 2019 de 15 h 30 à 17 h 00  S'abonner au podcast

Les ambitions de l'émission Libre à vous !

La radio Cause commune a commencé à émettre fin 2017 sur la bande FM en région parisienne (93.1) et sur Internet. Sur le site de la radio on lit : « Radio associative et citoyenne, les missions de Cause Commune sont de fédérer toutes les initiatives autour du partage et de l’échange de savoirs, de cultures et de techniques ».

Nous avons alors proposé de tenir une émission April intitulée Libre à vous ! l'émission pour comprendre et agir avec l'April — d'explications et d'échanges concernant les dossiers politiques et juridiques que l'association traite et les actions qu'elle mène. Une partie de l'émission est également consacrée aux actualités et actions de type sensibilisation. L'émission Libre à vous ! est principalement animée par l'équipe salariée de l'April mais aussi par des membres bénévoles de l'association et des personnes invitées. Donner à chacun et chacune, de manière simple et accessible, les clefs pour comprendre les enjeux mais aussi proposer des moyens d'action, tel est l'objectif de cette émission hebdomadaire, qui est diffusée en direct chaque mardi du mois de 15 h 30 à 17 h. Avec normalement une rediffusion le soir même de 21 h à 22 h 30.

Liens utiles

Les archives de l'émission

Écouter les émissions précédentes

Un thermomètre OSHW basé ESP8266

Dans la lignée du contrôleur de DEL, Leon Anavi est de retour avec un thermomètre, un produit matériel libre (ici on parle du circuit imprimé, pas des composants) de plus pour votre collection.

Cet objet est autonome, car équipé du processeur ESP8266, la plate‐forme phare des hobbyistes. Mais pas seulement, car on le retrouve dans d’autres produits du marché (notamment certaines prises connectées…).

Les capteurs (DHT22/AM2302) sont connectés via le bus I²C ainsi que l’écran d’affichage OLED multi‐ligne.

https://pbs.twimg.com/media/DzxGtxzW0AEJChx.png

Côté logiciel, on retrouve une application serveur qui envoie les données via MQTT et l’application Web correspondante pour l’affichage sur mobile ou autre navigateur Web.

Tout cela a été possible grâce à KiCad, l’outil de référence pour la conception de circuits imprimés. Au passage, je vous invite à voir ou revoir la présentation de Leon Anavi au FOSDEM 2019 sur l’utilisation de KiCad dans un projet OSHW.

Il me semble que cela a été à l’origine conçu pour la centrale de domotique « home assistant », mais c’est facilement adaptable pour une autre solution. Pour ma part, j’ai écrit rapido un code de glu pour l’utiliser avec la plate‐forme IoT de Mozilla.

IoT.js MQTT

Bien que la campagne de financement soit terminée, le produit est disponible à partir de 25 US$ via le site spécialisé dans les projets matériels.

Télécharger ce contenu au format Epub

Commentaires : voir le flux atom ouvrir dans le navigateur

Émission « Libre à vous ! » du 19 février 2019 — Podcasts et références

La treizième émission « Libre à vous ! » de l’April a été diffusée sur la radio Cause Commune, mardi 19 février 2019.

Nous avons commencé avec notre invité principal Stéphane Bortzmeyer pour son livre Cyberstructure — L’Internet, un espace politique. Nous avons enchaîné par une interview d’Aliette Lacroix pour présenter le Pacte pour la Transition. Nous avons poursuivi par un point sur le projet de directive droit d’auteur et par un point sur le projet de loi pour une école de la confiance. Nous avons terminé avec l’annonce d’événements.

Le podcast est disponible, ainsi qu’une page qui liste toutes les références citées pendant l’émission (vous trouverez également sur cette page les podcasts par sujet traité). L’émission dispose d’un flux RSS compatible avec la baladodiffusion auquel vous pouvez vous abonner, ainsi qu’un salon dédié à l’émission sur le salon de discussion Web de la radio.

L’ambition de « Libre à vous ! » est d’être une émission d’explications, d’échanges et d’actions concernant les dossiers politiques et juridiques que l’April traite et les actions qu’elle mène. Une partie de l’émission sera également consacrée aux actualités et actions de type sensibilisation.

« Libre à vous ! » est devenue en 2019 une émission hebdomadaire qui est diffusée en direct chaque mardi de 15 h 30 à 17 h, et rediffusée le soir même de 21 h à 22 h 30. La prochaine émission sera diffusée en direct sur la bande FM en Île‐de‐France (93,1 MHz) et sur le site Web de la radio mardi 26 février 2019, de 15 h 30 à 17 h.

La radio a besoin de soutien financier pour notamment payer les frais matériels (loyer du studio, diffusion sur la bande FM, serveurs…). Nous vous encourageons à aider la radio en faisant un don.

La radio Cause Commune dispose d’une messagerie sur laquelle vous pouvez laisser des messages (annonces, rires, poèmes, coups de gueule, vœux, etc.) destinés à passer à l’antenne sur la radio. Le numéro à appeler est le +33 1 88 32 54 33.

Télécharger ce contenu au format Epub

Commentaires : voir le flux atom ouvrir dans le navigateur