Lozano Zahonero, M.p. (2023). Casero Alonso, Víctor, Celis, Ángela, Lozano Zahonero, María, Minería de textos. In G. Fernández-Avilés, J.M. Montero (a cura di), Fundamentos de ciencia de datos con R (pp. 653-670). McGraw-Hill Interamericana de España.

Casero Alonso, Víctor, Celis, Ángela, Lozano Zahonero, María, Minería de textos

Lozano Zahonero, Maria Purificacion
2023-01-01

2023
Settore L-LIN/07
Settore SPAN-01/C - Lingua, traduzione e linguistica spagnola
Spanish; Castilian
Rilevanza internazionale
Capitolo o saggio
En la actualidad, entre el 80 % y el 90 % de los datos que se generan diariamente son datos no estructurados (véase Cap. 6). Un ejemplo típico de datos no estructurados son los textos, desde los comentarios o mensajes de las redes sociales, reseñas, blogs y microblogs, chats o WhatsApp hasta las noticias periodísticas, los discursos políticos o las obras literarias. En consecuencia, aprender a procesar y analizar datos exige aprender a procesar y analizar textos. Los textos precisan, sin embargo, un tratamiento especial. A diferencia de la mayoría de los datos que se tratan en este libro, que son datos estructurados, los datos textuales requieren que se les otorgue un orden y estructura para su manejo y análisis con el software R. Además, al utilizar un lenguaje natural –es decir, un idioma como, por ejemplo, el español, el chino o el inglés–, los textos no pueden ser procesados directamente por un ordenador. Es preciso “traducirlos” antes a un lenguaje formal que los ordenadores puedan entender. La minería de textos (en inglés, text mining), también conocida como análisis de textos (en inglés, text analysis), puede definirse como el proceso para detectar, extraer, clasificar, analizar y visualizar la información no explícita que contienen los textos, transformando los datos textuales en datos estructurados y el lenguaje natural en lenguaje formal a fin de determinar, después, de manera automática, patrones recurrentes y desviaciones de los mismos. La minería de textos utiliza muchas técnicas y métodos diferentes, la mayoría procedentes del procesamiento del lenguaje natural (PLN), un ámbito de la inteligencia artificial que se ocupa de la comunicación entre los seres humanos y las máquinas mediante el tratamiento computacional del lenguaje humano. Este capítulo constituye una primera aproximación a la minería de textos con R. Su objetivo es proporcionar un marco teórico y aplicado básico de este ámbito. Para ello, en la Sec. 38.2, se presentan los conceptos y fases fundamentales de la minería de textos. La Sec. 38.3 está dedicada al análisis de sentimientos, que constituye uno de los campos de la minería de textos de mayor desarrollo en la actualidad. La Sec. 38.4 se centra en algunos paquetes de R que permiten realizar análisis textuales de distintos tipos. Cierra el capítulo un ejemplo (Sec. 38.5), en el que se aplica y se amplía lo estudiado anteriormente.
minería de textos; ciencia de datos; datos textuales; software R; procesamiento del lenguaje natural; análisis de sentimientos
https://cdr-book.github.io/mineria-textos.html
Lozano Zahonero, M.p. (2023). Casero Alonso, Víctor, Celis, Ángela, Lozano Zahonero, María, Minería de textos. In G. Fernández-Avilés, J.M. Montero (a cura di), Fundamentos de ciencia de datos con R (pp. 653-670). McGraw-Hill Interamericana de España.
Lozano Zahonero, Mp
Contributo in libro
File in questo prodotto:
File Dimensione Formato  
minería-textos.pdf

accesso aperto

Tipologia: Documento in Post-print
Licenza: Creative commons
Dimensione 4.67 MB
Formato Adobe PDF
4.67 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/2108/392063
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact