Harvard propose à l’IA d’accroître sa culture G

Par Pénélope Hubert

13 décembre 2024

jupdlc-harvard
jupdlc-harvard

Le secteur de l’intelligence artificielle évolue vite et les interrogations quant à la fiabilité des données produites par cette technologie sont bien souvent au cœur des débats. L’université de Harvard a donc récemment annoncé mettre à disposition 1 million de livres issus du domaine public. L’objectif ? Permettre à tout un chacun d’entraîner de grands modèles de langage et autres outils d’intelligence artificielle. Financé par Microsoft et OpenAI, les deux géants mettent ainsi la culture au service de la tech.

 

Toujours plus de données

Créée par la nouvelle Institutional Data Initiative de Harvard, la base de données partagée couvre tous les genres, les décennies et les langues. Des classiques de Shakespeare aux livres de mathématiques tchèques en passant par les célèbres Charles Dickens, l’IA peut désormais se nourrir de toutes ces données pour enrichir ses contenus.

Greg Leppert, directeur exécutif de l’Institutional Data Initiative explique que le projet vise à « égaliser les chances », donnant aux petits acteurs de l’industrie l’opportunité d’accéder à des contenus de très grande qualité. En temps normal, seuls les géants de l’industrie y ont accès. Ainsi, Harvard espère offrir un développement plus équitable au monde de l’IA, pour ne pas se cantonner aux seuls noms que l’on connaît.

jupdlc-harvard
Crédit Photo : Unsplash / Somesh Kesarla Suresh


À découvrir sur JUPDLC



La propriété intellectuelle fait débat

Depuis sa création, l’IA suscite de vives polémiques, et ce dans différents domaines. Se pose notamment la question de l’utilisation de données protégées par des droits d’auteur et donc, de la propriété intellectuelle. Comment protéger ces informations face à une technologie dont le rôle est de fouiller Internet à la recherche de la meilleure réponse ?

Greg Leppert explique que la nouvelle base de données d’Harvard pourrait être utilisée en conjonction avec d’autres documents sous licence, pour élaborer des modèles d’IA encore plus précis. Il précise d’ailleurs que si les entreprises du domaine veulent se différencier de leurs concurrents, elles doivent utiliser des données supplémentaires – auxquelles les autres n’ont donc pas accès.

Du côté de Microsoft, Burton Davis, vice-président et conseiller général, soutient l’initiative en soulignant que cela permet de créer un « pool de données accessibles » pour les startups du domaine, gérés dans « l’intérêt du public ».

À ce jour, la frontière entre le droit ou non d’exploiter Internet sans avoir à conclure d’accords de licence n’est pas encore définie. Plusieurs actions en justice sont en train de se pencher sur le problème et définiront très certainement, selon leurs conclusions, de l’avenir de l’IA. Reste donc à savoir si les modèles actuels sont pérennes ou à retravailler.

ÉVÉNEMENT

Morning Talk

Programmatique : Maîtriser les nouveaux leviers de l’achat média

5 mai 2026 8h30 - 11h30 Paris 17
Je réserve ma place
Le meilleur de la communication, du marketing et de la créativité chaque semaine dans votre inbox !
Nous n'avons pas pu confirmer votre inscription.
Votre inscription est confirmée.

Nous utilisons Brevo en tant que plateforme marketing. En soumettant ce formulaire, vous acceptez que les données personnelles que vous avez fournies soient transférées à Brevo pour être traitées conformément à la politique de confidentialité de Brevo.