Predicció de l'ús del català mitjançant la classificació supervisada

Grimaldo Moreno, Francisco; López Iñesta, Emilia; Perucho Pla, Manel; Querol Puig, Ernest

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/70667

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Grimaldo Moreno, Francisco	-
dc.contributor.author	López Iñesta, Emilia	-
dc.contributor.author	Perucho Pla, Manel	-
dc.contributor.author	Querol Puig, Ernest	-
dc.date.accessioned	2017-12-14T13:41:41Z	-
dc.date.available	2017-12-14T13:41:41Z	-
dc.date.issued	2016-01	-
dc.identifier.citation	Grimaldo, F., López-Iñesta, E., Perucho, M. & Querol Puig, E. (2016). "Predicció de l'ús del català mitjançant la classificació supervisada". Treballs de Sociolingüística Catalana, (26), pp. 181-197. ISSN 0211-0784. doi: 10.2436/20.2504.01.115	-
dc.identifier.issn	0211-0784MIAR	-
dc.identifier.uri	http://hdl.handle.net/10609/70667	-
dc.description.abstract	One of the main challenges that the sociology of language has faced is the determination of the variables that govern the use of a language. Inspired by the field of artificial intelligence, in this study we make use of machine learning as a suitable approach to implement computational methods that permit the induction of linguistic use models derived from the available data. We aim to improve the level of prediction for the degree of use of the Catalan language achieved up to now. To this end, we have used three supervised classification techniques: Naive Bayes, decision trees, and support vector machines. We needed an empirical corpus that would allow us to test the prediction level of a theoretical model as well as its validity within different sociolinguistic situations. To the best of our knowledge, the work by Querol is the one providing the highest prediction success in all the Catalan-speaking territories. Thus, the research presented in this paper uses that data to conclude that supervised classification can be used to successfully determine prediction models for the degree of use of Catalan that outperform previous attempts and that allow us to identify the most relevant variables of the problem. Moreover, it also helps us to solve the methodological problem of the division of linguistic groups and shows that the use of a language is a continuous system rather than a discrete one.	en
dc.description.abstract	Un dels principals reptes que ha tingut i té la sociologia del llenguatge és esbrinar quines són les variables que influeixen en els usos lingüístics. En la recerca que presentem ens valem dels mètodes d'una àrea de la intel·ligència artificial, l'aprenentatge automàtic (machine learning), que estudia la implementació de mètodes computacionals que permeten induir models de coneixement a partir d'informació que prové de dades d'exemple disponibles, per a escatir si algun d'aquests millora la predicció del grau d'utilització de la llengua catalana aconseguida fins ara. Hi hem fet servir tres mètodes de classificació supervisada: Naive Bayes, arbres de decisió i màquines de vectors de suport. Per a complir aquesta comesa calia un corpus empíric que ens permetera tant la comprovació del nivell de predicció d'un model teòric com la seua validesa en diferents contextos sociolingüístics. Les recerques que coneixem que tenen uns percentatges més alts de predicció són les dutes a terme per Querol, que han estat avaluades en tots els territoris on es parla català. La investigació que hem fet amb aquestes dades permet concloure que la classificació supervisada pot servir per a construir models de predicció del grau d'ús del català amb un percentatge d'encert que supera els aconseguits en les investigacions precedents. Amb la qual cosa podem establir quines són les variables més informatives. A més, també ens ajuda a resoldre el problema metodològic de la divisió en grups lingüístics i palesa que l'ús és un sistema continu.	ca
dc.description.abstract	Uno de los principales retos que ha tenido y tiene la sociología del lenguaje es averiguar cuáles son las variables que influyen en los usos lingüísticos. En la investigación que presentamos nos valemos de los métodos de un área de la inteligencia artificial, el aprendizaje automático (machine learning), que estudia la implementación de métodos computacionales que permiten inducir modelos de conocimiento a partir de información que proviene de datos de ejemplo disponibles, para averiguar si alguno de estos mejora la predicción del grado de utilización de la lengua catalana conseguida hasta ahora. Hemos utilizado tres métodos de clasificación supervisada: Naive Bayes, árboles de decisión y máquinas de vectores de soporte. Para cumplir este cometido era necesario un corpus empírico que nos permitiera tanto la comprobación del nivel de predicción de un modelo teórico como su validez en diferentes contextos sociolingüísticos. Las investigaciones que conocemos que tienen unos porcentajes más altos de predicción son las llevadas a cabo por Querol, que han sido evaluadas en todos los territorios donde se habla catalán. La investigación que hemos hecho con estos datos permite concluir que la clasificación supervisada puede servir para construir modelos de predicción del grado de uso del catalán con un porcentaje de acierto que supera los conseguidos en las investigaciones precedentes. Con lo cual podemos establecer cuáles son las variables más informativas. Además, también nos ayuda a resolver el problema metodológico de la división en grupos lingüísticos y demuestra que el uso es un sistema continuo.	es
dc.format.mimetype	application/pdf	-
dc.language.iso	cat	-
dc.publisher	Treballs de Sociolingüística Catalana	-
dc.rights	CC BY-NC-ND	-
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/3.0/es/	-
dc.subject	ús lingüístic	ca
dc.subject	uso lingüístico	es
dc.subject	linguistic use	en
dc.subject	predicció	ca
dc.subject	predicción	es
dc.subject	prediction	en
dc.subject	artificial intelligence	en
dc.subject	intel·ligència artificial	ca
dc.subject	inteligencia artificial	es
dc.subject	aprenentatge automàtic	ca
dc.subject	machine learning	en
dc.subject	aprendizaje automático	es
dc.subject	classificació supervisada	ca
dc.subject	clasificación supervisada	es
dc.subject	supervised classification	en
dc.subject.lcsh	Catalan language -- Usage	en
dc.title	Predicció de l'ús del català mitjançant la classificació supervisada	-
dc.type	info:eu-repo/semantics/article	-
dc.subject.lemac	Català -- Ús	ca
dc.subject.lcshes	Catalán -- Uso	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	-
dc.identifier.doi	10.2436/20.2504.01.115	-
dc.gir.id	AR/0000005532	-
Aparece en las colecciones:	Articles Articles cientÍfics

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
Grimaldo_TSC16_Predicció.pdf		951,23 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem

Comparte:

Impacto:

Google Scholar

Microsoft Academic

Exporta:

Consulta las estadísticas