Harvard propose à l’IA d’accroître sa culture G

Le secteur de l’intelligence artificielle évolue vite et les interrogations quant à la fiabilité des données produites par cette technologie sont bien souvent au cœur des débats. L’université de Harvard a donc récemment annoncé mettre à disposition 1 million de livres issus du domaine public. L’objectif ? Permettre à tout un chacun d’entraîner de grands modèles de langage et autres outils d’intelligence artificielle. Financé par Microsoft et OpenAI, les deux géants mettent ainsi la culture au service de la tech.

Toujours plus de données

Créée par la nouvelle Institutional Data Initiative de Harvard, la base de données partagée couvre tous les genres, les décennies et les langues. Des classiques de Shakespeare aux livres de mathématiques tchèques en passant par les célèbres Charles Dickens, l’IA peut désormais se nourrir de toutes ces données pour enrichir ses contenus.

Greg Leppert, directeur exécutif de l’Institutional Data Initiative explique que le projet vise à « égaliser les chances », donnant aux petits acteurs de l’industrie l’opportunité d’accéder à des contenus de très grande qualité. En temps normal, seuls les géants de l’industrie y ont accès. Ainsi, Harvard espère offrir un développement plus équitable au monde de l’IA, pour ne pas se cantonner aux seuls noms que l’on connaît.

jupdlc-harvard — Crédit Photo : Unsplash / Somesh Kesarla Suresh

À découvrir sur JUPDLC

La propriété intellectuelle fait débat

Depuis sa création, l’IA suscite de vives polémiques, et ce dans différents domaines. Se pose notamment la question de l’utilisation de données protégées par des droits d’auteur et donc, de la propriété intellectuelle. Comment protéger ces informations face à une technologie dont le rôle est de fouiller Internet à la recherche de la meilleure réponse ?

Greg Leppert explique que la nouvelle base de données d’Harvard pourrait être utilisée en conjonction avec d’autres documents sous licence, pour élaborer des modèles d’IA encore plus précis. Il précise d’ailleurs que si les entreprises du domaine veulent se différencier de leurs concurrents, elles doivent utiliser des données supplémentaires – auxquelles les autres n’ont donc pas accès.

Du côté de Microsoft, Burton Davis, vice-président et conseiller général, soutient l’initiative en soulignant que cela permet de créer un « pool de données accessibles » pour les startups du domaine, gérés dans « l’intérêt du public ».

À ce jour, la frontière entre le droit ou non d’exploiter Internet sans avoir à conclure d’accords de licence n’est pas encore définie. Plusieurs actions en justice sont en train de se pencher sur le problème et définiront très certainement, selon leurs conclusions, de l’avenir de l’IA. Reste donc à savoir si les modèles actuels sont pérennes ou à retravailler.

Harvard propose à l’IA d’accroître sa culture G

Toujours plus de données

La propriété intellectuelle fait débat

Morning Talk

Programmatique : Maîtriser les nouveaux leviers de l’achat média

Dernières actualités

Dernières interviews