Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/80325
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.authorVàzquez Garcia, Mercè-
dc.contributor.authorOliver González, Antoni-
dc.date.accessioned2018-06-14T10:55:40Z-
dc.date.available2018-06-14T10:55:40Z-
dc.date.issued2018-06-11-
dc.identifier.citationVàzquez, M.; Oliver, A. (2018). "Improving term candidates selection using terminological tokens". Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication, p. 122-147. ISSN 0929-9971. DOI: 10.1075/term.00016.vaz-
dc.identifier.issn0929-9971MIAR
-
dc.identifier.urihttp://hdl.handle.net/10609/80325-
dc.description.abstractThe identification of reliable terms from domain-specific corpora using computational methods is a task that has to be validated manually by specialists, which is a highly time-consuming activity. To reduce this effort and improve term candidate selection, we implemented the Token Slot Recognition method, a filtering method based on terminological tokens which is used to rank extracted term candidates from domain-specific corpora. This paper presents the implementation of the term candidates filtering method we developed in linguistic and statistical approaches applied for automatic term extraction using several domain-specific corpora in different languages. We observed that the filtering method outperforms term candidate selection by ranking a higher number of terms at the top of the term candidate list than raw frequency, and for statistical term extraction the improvement is between 15% and 25% both in precision and recall. Our analyses further revealed a reduction in the number of term candidates to be validated manually by specialists. In conclusion, the number of term candidates extracted automatically from domain-specific corpora has been reduced significantly using the Token Slot Recognition filtering method, so term candidates can be easily and quickly validated by specialists.en
dc.description.abstractLa identificación de términos apropiados de corpus específicos de dominio utilizando métodos computacionales es una tarea que debe ser validada manualmente por especialistas, lo cual es una actividad que consume mucho tiempo. Para reducir este esfuerzo y mejorar la selección de los términos candidatos, implementamos el método Token Slot Recognition, un método de filtrado basado en tokens terminológicos que se utiliza para clasificar candidatos de términos extraídos de corpus específicos de dominio. Este artículo presenta la implementación del término con un método de filtrado de candidatos que desarrollamos en los enfoques lingüísticos y estadísticos aplicados para la extracción automática de términos utilizando varios corpus específicos de dominio en diferentes idiomas. Observamos que el método de filtrado supera la selección de candidatos a término al clasificar un mayor número de términos en la lista de candidatos a término que la frecuencia sin procesar, y para la extracción de términos estadísticos la mejora es entre 15% y 25% tanto en precisión como en recuperación. Nuestros análisis revelaron además una reducción en el número de candidatos a término para ser validados manualmente por especialistas. En conclusión, el número de candidatos a término extraídos automáticamente de corpus específicos del dominio se ha reducido significativamente utilizando el método de filtrado Token Slot Recognition, por lo que los candidatos a término pueden ser validados fácil y rápidamente por especialistas.es
dc.description.abstractLa identificació de termes apropiats de corpus específics de domini utilitzant mètodes computacionals és una tasca que ha de ser validada manualment per especialistes, la qual cosa és una activitat que consumeix molt temps. Per reduir aquest esforç i millorar la selecció dels termes candidats, implementem el mètode Token Slot Recognition, un mètode de filtrat basat en tokens terminològics que s'utilitza per classificar candidats de termes extrets de corpus específics de domini. Aquest article presenta la implementació del terme amb un mètode de filtrat de candidats que desenvolupem en els enfocaments lingüístics i estadístics aplicats per a l'extracció automàtica de termes utilitzant diversos corpus específics de domini en diferents idiomes. Observem que el mètode de filtrat supera la selecció de candidats a terme en classificar un major nombre de termes en la llista de candidats a terme que la freqüència sense processar, i per a l'extracció de termes estadístics la millora és entre 15% i 25% tant en precisió com en recuperació. Les nostres anàlisis van revelar a més una reducció en el nombre de candidats a terme per ser validats manualment per especialistes. En conclusió, el nombre de candidats a terme extrets automàticament de corpus específics del domini s'ha reduït significativament utilitzant el mètode de filtrat Token Slot Recognition, per la qual cosa els candidats a terme poden ser validats fàcil i ràpidament per especialistes.ca
dc.format.mimetypeapplication/pdf-
dc.language.isoeng-
dc.publisherTerminology. International Journal of Theoretical and Applied Issues in Specialized Communication-
dc.rightsCC BY-NC-
dc.rights.urihttps://creativecommons.org/licenses/by-nc/4.0/-
dc.subjectautomatic term extractionen
dc.subjectterminological tokensen
dc.subjectTSR filtering methoden
dc.subjectterminology extractionen
dc.subjectdomain-specific corporaen
dc.subjectterminological unitsen
dc.subjectTBXToolsen
dc.subjectterm candidatesen
dc.subjectextracció automàtica de termesca
dc.subjectextracción automática de términoses
dc.subjecttokens terminológicoses
dc.subjecttokens terminològicsca
dc.subjectmétodo de filtrado TSRes
dc.subjectmètode de filtrat TSRca
dc.subjectextractores de terminologíaes
dc.subjectextractors de terminologiaca
dc.subjectcorpus específicos de dominioes
dc.subjectcorpus específics de dominica
dc.subjectunidades terminológicases
dc.subjectunitats terminològiquesca
dc.subjectTBXToolses
dc.subjectTBXToolsca
dc.subjecttérminos candidatoses
dc.subjecttermes candidatsca
dc.subject.lcshNatural language processing (Computer science)en
dc.titleImproving term candidates selection using terminological tokens-
dc.typeinfo:eu-repo/semantics/article-
dc.subject.lemacTractament del llenguatge natural (Informàtica)ca
dc.subject.lcshesTratamiento del lenguaje natural (Informática)es
dc.identifier.doi10.1075/term.00016.vaz-
dc.gir.idAR/0000005925-
Aparece en las colecciones: Articles
Articles cientÍfics

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
Vàzquez-Oliver_Improving term candidates selection using-terminological-tokens.pdf520,38 kBAdobe PDFVista previa
Visualizar/Abrir