Journée d’études Big Humanities : Big Data, sciences humaines, sciences sociales

Logo Big Humanities 2

LE PROGRAMME

Université Stendhal, Campus de St Martin d’Hères

Salle G203 : Bâtiment G, deuxième étage

Lundi 8 décembre 2014 : 9h-16h30

Participants par ordre alphabétique :

Sihem Amer-Yahia :  Task Assignment Optimization in Crowdsourcing

Sihem Amer-Yahia est directeur de recherche du CNRS au laboratoire d’informatique de Grenoble où elle dirige l’équipe SLIDE. Ses intérêts se trouvent à l’intersection de la gestion de données à grande échelle et de l’analyse de données. Avant de rejoindre le CRNS, elle était membre de l’institut de recherche en informatique du Qatar, de l’équipe de recherche de Yahoo et du laboratoire AT&T. Sihem a siégé au comité exécutif du SIGMOD (Groupe d’intérêt sur la gestion de données) et appartient aux réseaux VLDB (Très grandes bases de données) et EDBT (Développer les technologies liées aux bases de données). Elle est rédactrice en chef de la revue du VLDB pour l’Europe et l’Afrique et fait partie des comités de rédaction de TODS (Transactions sur systèmes de bases de données) ainsi que de la revue sur les systèmes d’information (ISJ). Elle présidera lors des conférences Big Data Analytics 2015 et SIGMOD Industrial 2015. Sihem a obtenu son doctorat en informatique à Paris-Orsay et à l’INRIA en 1999 et son diplôme d’ingénieur à l’INI en Algérie.

A crowdsourcing process can be viewed as a combination of three components: worker skill estimation, worker-to-task assignment, and task accuracy evaluation. The reason why crowdsourcing today is so popular is that tasks are small, independent, homogeneous, and do not require a long engagement from workers. The crowd is typically volatile, its arrival and departure asynchronous, and its levels of attention and accuracy variable. As a result, popular crowdsourcing platforms are not well-adapted to emerging team-based tasks such as collaborative editing, multi-player games, or fan-subbing, that require to form a team of experts to accomplish a task together. In particular, I will argue that the optimization of worker-to-task assignment is central to the effectiveness of team-based crowdsourcing. I will present a framework that allows to formulate worker-to-task assignment as optimization problems with different goals and summarize some of our results in this area.

Ange Aniesa : Le dépôt légal face aux méga-données : l’exemple de l’archivage du web à la Bibliothèque nationale de France.

Ange Aniesa est conservateur à la bibliothèque nationale de France. Il est chargé des collections numériques au département du dépôt légal de la BNF.

Ange Aniesa présentera au cours de son intervention la mission de dépôt légal de la BNF ainsi que son extension au domaine numérique, le modèle intégré de collecte utilisé ainsi que sa dimension technique et offrira une perspective internationale sur cette thématique. Il se focalisera ensuite sur le projet de collecte en cours à la BNF et portant sur les données numériques issues des campagnes électorales françaises entre 2002 et 2014. Il abordera alors les finalités de ce projet, la typologie documentaire retenue, l’organisation technique du travail qu’il implique et fera le point sur les perspectives d’évolution de projets de ce type. Il traitera enfin des défis liés à l’accès, à la valorisation et à l’utilisation des collections issues de la mission de dépôt légal de la BNF.

Khalid Belhajjame : The State of the Nation in Data Science Reproducibility

Khalid est maitre de conférences à l’université Paris-Dauphine, où il appartient au laboratoire LAMSADE. Avant cela, il a été pendant plusieurs années chercheur à l’université de Manchester et doctorant à l’université de Grenoble. Ses intérêts de recherche portent sur la gestion de l’information et des connaissances et plus particulièrement sur des concepts tels que le suivi de provenance, l’e-science, la gestion scientifique des flux de travail, les services sémantiques en ligne. Il a publié plus de cinquante articles sur ces thématiques. L’essentiel de sa recherche a donné lieu à des applications réelles dans le domaine de l’astronomie, de la biodiversité et des sciences de la vie. Il a participé à de multiples projets bénéficiant de financements en France, au Royaume-Uni et en Europe. C’est un membre actif des groupes de travail W3C Provenance, DataONE, et ROSCCG. Il co-dirige enfin le projet ProvBench.

Reproducibility is increasingly recognized as a fundamental pre-requisite for establishing trust and reliability in scientific results and findings. In this talk, I will introduce the key concepts for understanding reproducibility in the context of data science experiments and analyses. I will present examples of platforms and tools that have been proposed for enabling or facilitating reproducibility. I will then focus on the reproducibility of special data science artifacts, viz. scientific workflows underlining current issues for ensuring their preservation and reproducibility, and discussing issues that yet have to be solved.

Josh Cowls : The Big Data Revolution for Social and Political Science

Josh Cowls est assistant de recherche à l’Oxford Internet Institute qu’il a rejoint en 2013 afin de travailler sur un projet intitulé ‘Accéder et utiliser le Big Data pour faire progresser la recherche en sciences sociales’. Il possède également une expérience directe de la politique puisqu’il a été employé par un parti britannique et a participé à des campagnes présidentielles et sénatoriales aux États-Unis. Ses intérêts de recherche portent sur l’impact du big data sur les processus démocratiques et gouvernementaux, ainsi que sur l’évolution de la sphère publique liée à l’introduction des réseaux sociaux. Il collabore actuellement au projet Big UK Domain Data for the Arts and Humanities qui exploite des données tirées d’un travail sur les noms de domaines britanniques entre 1996 et 2013 afin d’élaborer un cadre permettant l’analyse de données en ligne archivées et de permettre de cartographier l’espace virtuel britannique depuis ses origines.

The Big Data Revolution for Social and Political Science

The project entitled “Accessing and Using Big Data to Advance Social Science Knowledge” carried on by a team of researchers at the Oxford Internet Institute between 2012 and 2014 aimed at following ‘big data’ from its public and private origins through open and closed pathways into the social sciences, and at documenting and shaping the ways they are being accessed and used to create new knowledge about the social world. In short, what are the social and scientific implications of large-scale ‘big data’ as it becomes more widely available to social scientists in academia, public institutions, and the private sector? The project relied on in-depth studies of exemplar cases to understand how social scientists in academia, industry, and government are accessing and using big data to answer old questions at larger scales as well as asking and answering new questions about society and human behavior. This paper will address the methodological, technical and ethical issues which emerged from this project.