Please use this identifier to cite or link to this item: http://hdl.handle.net/10609/151212
Full metadata record
DC FieldValueLanguage
dc.contributor.authorGiner Miguelez, Joan-
dc.date.accessioned2024-09-12T13:43:10Z-
dc.date.available2024-09-12T13:43:10Z-
dc.date.issued2024-07-15-
dc.identifier.urihttp://hdl.handle.net/10609/151212-
dc.description.abstractMachine learning (ML) technology may discriminate toward specific social groups. For example, recent research have revealed that ML applications are more likely to fail in identifying women than males in hospitals. Recent research has identified the data used to train these models as one of the causes of these issues. The research community has proposed guidelines to detect the dimensions that can generate these discriminatory behaviors. However, these proposals lack a set structure, restricting their computation and the creation of engineering approaches built upon them. This thesis presents a domain-specific language to document data for ML. This language has served as a basis for creating the responsible AI extension of \emph{Croissant}, a standard adopted by major search engines, such as \emph{Google Dataset Search}. Moreover, this thesis studies the use of large language models (LLM) to automatically create data documentation and the readiness of scientific data for its use in ML.en
dc.description.abstractLas aplicaciones de inteligencia artificial (IA), pueden mostrar sesgos discriminatorios hacia sectores sociales específicos. Por ejemplo, se ha detectado que algunas fallan más en diagnosticar mujeres que hombres en hospitales. Parte de estos sesgos proviene de los datos que entrenan estas y la comunidad está proponiendo guías para identificar qué aspectos de estos pueden comprometer estas aplicaciones. Sin embargo, estas guías carecen de estructura consistente, lo que dificulta su computación y la creación de técnicas de ingeniería sobre ellas. Esta tesis presenta un lenguaje específico de dominio para documentar datos para IA. El lenguaje ha servido de base para la extensión de IA responsable de \emph{Croissant}, un estándar de datos adoptado por los principales buscadores como \emph{Google Dataset Search}. Además, esta tesis estudia el uso de grandes modelos de lenguaje (LLM), en la creación automática de documentación, así como el estado de los datos científicos en relación con estas guías.es
dc.description.abstractLes aplicacions d'intel·ligència artificial (IA) poden mostrar biaixos discriminatius cap a sectors socials específics. Per exemple, s'ha detectat que algunes fallen més en diagnosticar dones que homes als hospitals. Part d'aquests biaixos provenen de les dades usades per entrenar aquestes, i recentment, la comunitat de recerca està proposant guies per identificar quins aspectes d'aquestes dades que poden comprometre aquestes aplicacions. Malauradament, aquestes guies manquen d'estructura consistent, dificultant la seva computació i la creació de tècniques d'enginyeria sobre aquestes. Aquesta tesi proposa un llenguatge específic de domini (DSL) per documentar conjunts de dades per IA. El llenguatge ha servit de base per l'extensió d'IA responsable de \emph{Croissant}, un estàndard de dades adoptat pels principals buscadors com \emph{Google Dataset Search}. A més a més, aquesta tesi estudia l'ús de grans models de llenguatge (LLM) en la creació automàtica de documentació, i l'estat de les dades científiques en relació amb aquestes guies.ca
dc.format.mimetypeapplication/pdfca
dc.language.isoengen
dc.publisherUniversitat Oberta de Catalunya (UOC)ca
dc.rightsCC BY-NC-ND*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/-
dc.subjectcompartició de dadesca
dc.subjectcompartición de datoses
dc.subjectdata-sharing practicesen
dc.subjectaprenentatge automàticca
dc.subjectaprendizaje automáticode
dc.subjectmachine learningen
dc.subjectIA confiableca
dc.subjectIA confiablees
dc.subjecttrustworthy AIen
dc.subjectequitat a la IAca
dc.subjectequidad en la IAes
dc.subjectfairnessen
dc.subjectdocumentació de dadesca
dc.subjectdocumentación de datoses
dc.subjectdata documentationen
dc.titleEngineering data-sharing practices for a fair and trustworthy AIca
dc.typeinfo:eu-repo/semantics/doctoralThesisca
dc.contributor.directorCabot, Jordi-
dc.contributor.directorGómez Llana, Abel-
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess-
Appears in Collections:Tesis doctorals

Files in This Item:
File Description SizeFormat 
Thesis_manuscript_acks.pdfGiner-Miguelez_dissertation12,09 MBAdobe PDFThumbnail
View/Open
Share:
Export:
View statistics

This item is licensed under aCreative Commons License Creative Commons