Está en la página 1de 13

Revista Argentina de Ciencias del

Comportamiento
E-ISSN: 1852-4206
ceciliareyna@gmail.com
Universidad Nacional de Córdoba
Argentina

Mariñelarena-Dondena, Luciana; Errecalde, Marcelo Luis; Castro Solano, Alejandro


Extracción de conocimiento con técnicas de minería de textos aplicadas a la psicología
Revista Argentina de Ciencias del Comportamiento, vol. 9, núm. 2, agosto, 2017, pp. 65-
76
Universidad Nacional de Córdoba
Córdoba, Argentina

Disponible en: http://www.redalyc.org/articulo.oa?id=333452119006

Cómo citar el artículo


Número completo
Sistema de Información Científica
Más información del artículo Red de Revistas Científicas de América Latina, el Caribe, España y Portugal
Página de la revista en redalyc.org Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
Revista Argentina de Ciencias del Comportamiento ISSN 1852-4206

Julio de 2017, Vol. 9,


Extracción de conocimiento con técnicas de minería de N°2, 65-76

revistas.unc.edu.ar/index
textos aplicadas a la psicología
.php/racc

Mariñelarena-Dondena, Luciana*, a; b ; Errecalde, Marcelo Luis a; Castro Solano, Alejandro b; c

Artículo Metodológico
Tabla de
Resumen Abstract
Contenido
La extracción de conocimiento en bases de datos es un Knowledge discovery applying text mining Introducción 65
proceso complejo que en última instancia busca darle techniques in Psychology. The knowledge Extracción de
sentido a los datos. La minería de datos sólo constituye discovery in databases (KDD) is concerned with Conocimiento… 68
una etapa de este proceso cuyo objetivo consiste en la the non-trivial process of making sense of data. Construcción
obtención de patrones y modelos aplicando métodos Data mining is only a step in the KDD process de modelos… 69
estadísticos y técnicas de aprendizaje automático. El that consists in pattern recognition using Análisis
presente artículo de revisión examina cómo pueden statistics and machine learning techniques. This exploratorio.... 72
aplicarse las técnicas de minería de textos en el campo literature review focuses on how text mining Discusión 73
de la psicología. En este contexto, se describen los dos techniques can be applied in Psychology. In this Normas Éticas 74
grandes propósitos de las técnicas de minería de textos: context, the two main purposes of text mining Referencias 74
la descripción y la predicción. Finalmente, se destaca que techniques will be introduced: description and
la aplicación de técnicas de minería de textos en nuestra prediction. Finally, this paper highlights the use
disciplina hace posible la medición o evaluación de of text mining techniques as a psychological
distintos constructos psicológicos, a diferencia de la assessment tool, which differs from the use of
utilización de los tradicionales cuestionarios o encuestas. standard questionnaires or scales.

Palabras clave: Keywords:


Técnicas de Minería de Textos, Ciencias de la Text Mining Techniques, Computer Sciences,
Computación, Evaluación, Psicología. Assessment, Psychology
Recibido el 6 de noviembre de 2015; Aceptado el 15 de marzo de 2017
Editaron este artículo: Mariana Bentosela, Carlos Sabena, María Micaela Marín, Daniela Alonso y Estefanía Caicedo

1. Introducción

En los últimos años se ha difundido siempre se utiliza este término de manera


ampliamente el concepto de Big Data, pero no correcta. Ya en el año 2001, Laney remarcó los

a
Laboratorio de Investigación y Desarrollo en Inteligencia Computacional (Universidad Nacional de San Luis).
b
Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET)
c
Universidad de Palermo, Buenos Aires, Argentina
*
Enviar correspondencia a: Mariñelarena-Dondena, L. E-mail: lucianamd.psico@gmail.com

Citar este artículo como: Mariñelarena-Dondena, L; Errecalde, M.L. & Castro Solano, A. (2017). Extracción de conocimiento con
técnicas de minería de textos aplicadas a la psicología. Revista Argentina de Ciencias del Comportamiento, 9(2), 65-76

65
Mariñelarena-Dondena, L.; Errecalde, M.L. & Castro Solano, A. / RACC, 2017, Vol. 9, N°2, 65-76

tres principales desafíos que implicaba el análisis demás. Incluso afirma que el lenguaje puede
de grandes datos y definió “las tres V” que han servir para evaluar la salud física y mental de los
caracterizado a Big Data: Volumen, Variedad y sujetos (Pennebaker, 2002).
Velocidad. En primer lugar, volumen se refiere a The simultaneous development of high-
la magnitud de los datos, al hablar de grandes speed personal computers, the Internet, and
datos nos referimos por ejemplo a millones de elegant new statistical strategies have helped
publicaciones en Facebook o al análisis de usher in a new age of the psychological
billones de críticas de películas. En segundo study of language. By drawing on massive
lugar, variedad alude a la heterogeneidad de los amounts of text, researchers can begin to
datos que deben analizarse: textos, imágenes, link everyday language use with behavioral
audios, videos, etc. Por último, velocidad implica and self-reported measures of personality,
que grandes flujos de información deben ser social behavior, and cognitive styles.
analizados en tiempo real, por ejemplo los datos Beginning in the early 1990s, we stumbled
provenientes de los smartphones. Recientemente on the remarkable potential of computerized
algunos autores han destacado otras text analysis through the development of
características de Big Data: veracidad, our own computer program - Linguistic
variabilidad (o complejidad) y valor (Gandomi & Inquiry and Word Count (LIWC; Pennebaker,
Haider, 2015). Booth, & Francis, 2007). We are now
En este contexto, las ciencias sociales han witnessing new generations of text analysis
ingresado en la era de la ciencia de los datos ya coming from computer sciences and
que es posible analizar el material disponible a computational linguistics (Tausczik &
través de los medios sociales: “Language data Pennebaker, 2010, p. 25).
available through social media provide En esa dirección, Schwartz y Ungar (2015)
opportunities to study people at an plantean que tradicionalmente los psicólogos y
unprecedented scale” (Kern et al., 2016). Esta las psicólogas han evaluado los pensamientos,
oportunidad conlleva el desafío de realizar los sentimientos y los rasgos de personalidad
investigaciones interdisciplinarias, por ejemplo mediante cuestionarios administrados a muestras
entre la informática y la psicología (Schwartz, relativamente pequeñas de participantes. En
Eichstaedt, Kern, Dziurzynski, Ramones, et al., contraposición, ponen de relieve las nuevas
2013). alternativas para la evaluación psicológica que
James Pennebaker sostiene que el lenguaje brindan el análisis de contenido conducido por
natural que las personas utilizan cotidianamente los datos (data-driven content analyses) o el
refleja su personalidad, su situación social y las enfoque del vocabulario abierto (open
relaciones interpersonales que entablan con los vocabulary approach) si se utilizan los grandes

66
Mariñelarena-Dondena, L.; Errecalde, M.L. & Castro Solano, A. / RACC, 2017, Vol. 9, N°2, 65-76

volúmenes de información disponibles en los datos” (Fayyad, Piatetsky-Shapiro, & Smyth,


medios sociales como Facebook y Twitter. 1996, pp. 40-41 - la traducción nos pertenece).
Al mismo tiempo, otros estudios han La minería de datos sólo constituye una etapa
demostrado que el análisis del lenguaje de este proceso cuyo objetivo consiste en la
disponible en los medios sociales es obtención de patrones y modelos aplicando
extraordinariamente útil para realizar estudios métodos estadísticos y técnicas de aprendizaje
epidemiológicos a gran escala o para identificar automático (machine learning). Por último, el
las características psicológicas que prevalecen en proceso de extracción de conocimiento también
diferentes regiones geográficas, por ejemplo implica la evaluación e interpretación de los
aquellas vinculadas con el bienestar. Este patrones o modelos obtenidos en la etapa de
método de evaluación es mucho más rápido y minería de datos (Hernández Orallo, Ramírez
menos costoso que las tradicionales encuestas Quintana, & Ferri Ramírez, 2004) (Figura 1).
realizadas por las agencias del gobierno Una variante de la minería de datos es
(Schwartz, Eichstaedt, Kern, Dziurzynski, Lucas, et aquella que se ocupa específicamente de los
al., 2013). datos textuales denominada habitualmente
La extracción de conocimiento en bases de como minería de textos. Con el fin de mantener
datos (knowledge discovery in databases - KDD) una terminología uniforme a lo largo del trabajo
es “el proceso no trivial de identificar patrones utilizaremos el término técnicas de minería
válidos, novedosos, potencialmente útiles y, en textos.
última instancia, comprensibles a partir de los

Figura 1.
Etapas del proceso de extracción de conocimiento en bases de datos ( knowledge discovery in databases -
KDD).

Si bien estos enfoques han despertado un vida cotidiana.


gran interés, todavía se observa en nuestro país El presente artículo de revisión examina el
un marcado déficit en el desarrollo de proceso de extracción de conocimiento, en
investigaciones utilizando técnicas de minería de general, y cómo se pueden aplicar las técnicas
textos para identificar las características del de minería de textos en el campo de la
lenguaje natural que las personas utilizan en su psicología, en particular.
67
Mariñelarena-Dondena, L.; Errecalde, M.L. & Castro Solano, A. / RACC, 2017, Vol. 9, N°2, 65-76

Las técnicas de minería de textos persiguen las tareas predictivas tienen como objetivo la
dos grandes propósitos: la predicción y la construcción de un clasificador automático
descripción. Por una parte, las tareas predictivas mediante un sistema de aprendizaje supervisado
o medición basada en el lenguaje consisten en (Lex, 2011; Sebastiani, 2002). Este proceso está
la construcción de un clasificador automático compuesto por las etapas que se describen a
que estima la variable dependiente, usualmente continuación: etiquetado, extracción de
llamada etiqueta o resultado, en función de características, entrenamiento, evaluación y uso
determinadas características (variables (Figura 2).
independientes) extraídas de los documentos. 1) Etiquetado: consiste en asignar la clase,
Por la otra, las tareas descriptivas buscan categoría o valor numérico correcto (etiqueta) a
obtener patrones que explican o resumen las cada documento del conjunto de entrenamiento.
relaciones subyacentes en los datos. Esto 2) Extracción de características: a partir de
permite, por ejemplo, formular nuevas hipótesis los documentos o textos crudos se genera una
considerando las palabras que utilizan las representación computacionalmente adecuada
personas cotidianamente (Fayyad et al., 1996; para su procesamiento por el módulo de análisis
Schwartz & Ungar, 2015). (aprendizaje inductivo).
En los siguientes apartados se desarrollarán
las principales etapas del proceso de extracción
de conocimiento como así también las tareas
específicas de las técnicas de minería de textos.

2. Extracción de conocimiento en bases


de datos

KDD es un proceso complejo que involucra


distintas etapas, entre ellas las principales son: la
preparación de los datos, la minería de datos, la
obtención de patrones o modelos y la
evaluación e interpretación de los patrones
Figura 2.
obtenidos previamente. En última instancia, el
Etapas involucradas en el proceso de construcción de
proceso de KDD busca descubrir conocimiento a un clasificador automático mediante un sistema de
partir de los sistemas de información (Fayyad et aprendizaje supervisado (machine learning).
al., 1996; Hernández Orallo et al., 2004).
Un documento es una unidad de datos
2.1. Construcción de Modelos Predictivos textual que puede corresponder a algún
Dentro de las técnicas de minería de textos,

68
Mariñelarena-Dondena, L.; Errecalde, M.L. & Castro Solano, A. / RACC, 2017, Vol. 9, N°2, 65-76

documento del mundo real, por ejemplo: un etc.), categorías de palabras (adverbios,
artículo científico, un escrito personal, un e-mail, pronombres personales, verbos, etc.), sentencias
los posts en los medios sociales como Facebook largas sobre cortas, entre otros.
y Twitter, etc. Para poder categorizar los textos que
A la hora de representar los documentos se conforman la colección de documentos por
pueden utilizar diferentes características. Layton, tópicos o temáticas la representación más usual
Watters y Dazeley (2011) establecen la siguiente es el modelo vectorial. Según este modelo, cada
clasificación: a) características estáticas: documento se representa por un vector de
determinadas a priori, antes del procesamiento pesos asociados a los términos que ocurren en
de los documentos. Se basan en la frecuencia de la colección de documentos. En otras palabras, a
caracteres específicos, estadísticas vinculadas a cada uno de los términos que aparecen en la
las palabras (por ejemplo, longitud promedio y colección de documentos se le asigna un peso
longitud máxima) y frecuencia de categorías específico en función de la cantidad de veces
sintácticas particulares (sustantivos, adjetivos, que se registra en cada documento (Figura 3).
pronombres, etc.), entre otras; y b) características
dinámicas o variables: se derivan directamente
de los términos particulares contenidos en los
textos como el modelo bolsa de palabras (bag
of words - BOW), los n-gramas de palabras y los
n-gramas de caracteres.
Lex (2011), por su parte, diferencia las
características léxicas de las estilográficas. Los
Figura 3.
atributos léxicos hacen referencia esencialmente Representación vectorial de los documentos
a las palabras de contenido. La característica
De lo expuesto anteriormente se deduce que
más simple que se puede analizar en un
la importancia o peso de un término se
documento es la cantidad de veces que aparece
incrementa proporcionalmente al número de
un determinado término. En cambio, los
veces que aparece en un documento, ya que
atributos estilográficos intentan capturar
permite describir el contenido temático del
aquellos aspectos que van más allá del
mismo. Mientras que la importancia general de
contenido temático del documento reflejando el
cualquier término decrece proporcionalmente al
estilo de escritura del autor, por ejemplo la
total de sus ocurrencias en la colección de
preferencia por el uso de determinadas palabras
documentos, puesto que los términos muy
de paro o de función (artículos, preposiciones y
frecuentes no facilitan la discriminación de los
conjunciones específicas como “el”, “de”, “con”,

69
Mariñelarena-Dondena, L.; Errecalde, M.L. & Castro Solano, A. / RACC, 2017, Vol. 9, N°2, 65-76

textos en distintas clases o categorías. palabras. Dado un documento el programa


En los estudios psicológicos, las técnicas de registra cuántas veces aparece cada uno de los
minería de textos utilizadas para la extracción de términos de todas las categorías. Entre sus
características de los documentos se dividen en principales ventajas se destacan, por un lado,
dos grandes grupos: 1) las conducidas que es una técnica accesible y fácil de aplicar en
manualmente o enfoque del vocabulario cerrado muestras de datos pequeñas; por el otro, cabe
(closed-vocabulary), centradas en el empleo de remarcar que fueron los expertos en un área del
diccionarios de palabras especificadas a priori, y conocimiento quienes elaboraron las categorías
2) las conducidas por los datos también y seleccionaron los términos objeto de estudio.
conocidas como enfoque del vocabulario abierto b) Diccionarios generados en forma masiva:
(open-vocabulary approach) en las cuales los compuestos por listas de miles de términos en
diccionarios, los tópicos, las palabras y las frases cuya elaboración participaron cientos de
se determinan a partir del conjunto de datos personas buscando incluir todas las palabras
objeto de estudio. Siguiendo la terminología más comunes dentro de cada categoría. A
propuesta por Layton et al. (2011), los enfoques diferencia de los anteriores, no estarían sujetos a
de vocabulario cerrado que veremos a los posibles sesgos de un pequeño grupo de
continuación, como los diccionarios manuales, expertos.
entrarían dentro de la categoría de c) Diccionarios derivados de los textos: se
características estáticas, mientras que los basan en un proceso de aprendizaje automático
enfoques de vocabulario abierto como los donde en primer lugar se etiqueta una vasta
diccionarios derivados de los textos, el estudio colección de documentos, tomando en
de los tópicos o temas, las palabras y las frases consideración las características de las personas
de los documentos corresponden a la categoría que los escribieron o los atributos de los textos
de características dinámicas o variables. propiamente dichos. Luego se identifican las
Tal como lo plantean Schwartz y Ungar palabras y las frases que presentan las
(2015), estos dos grandes enfoques presentan correlaciones más altas con un determinado
distintas variantes que difieren precisamente en resultado.
el grado de participación manual o de d) Tópicos: también es posible extraer
conducción por los datos en el proceso de automáticamente diccionarios de palabras
extracción de características para la prescindiendo de categorías determinadas
representación de los documentos: previamente. Vale decir, en base al conjunto
a) Diccionarios manuales: son listas de variable de palabras obtenidas de la colección
términos asociadas a categorías previamente de documentos se pueden extraer tópicos o
determinadas, se basan en el conteo de grupos de términos semánticamente coherentes.

70
Mariñelarena-Dondena, L.; Errecalde, M.L. & Castro Solano, A. / RACC, 2017, Vol. 9, N°2, 65-76

Estos grupos de palabras relacionadas obtenidos asignan valores numéricos a los textos y se
a partir de técnicas de agrupamiento (clustering) denomina a la tarea de regresión; en este caso si
se basan en un aprendizaje de tipo no nuestro objetivo consiste en evaluar el nivel de
supervisado. bienestar de los sujetos mediante los mensajes
e) Palabras y Frases: tradicionalmente el en Twitter el resultado será una puntuación que
análisis lingüístico comienza con la división de la nos indicará su grado de satisfacción con la vida.
secuencia de caracteres que componen un La construcción de un clasificador
mensaje en palabras. No obstante, muchas veces automático que pueda realizar este tipo de
las expresiones compuestas por más de una tarea, se basa en un proceso inductivo de
palabra (n-gramas de palabras) constituyen la aprendizaje automático que busca reproducir un
mejor unidad de análisis. proceso correcto o ideal, vale decir, que para
Entre las principales ventajas del cada input o documento a clasificar siempre se
denominado open-vocabulary approach, dentro genere el mismo output o asigne dicho
del cual se ubican las últimas tres técnicas, documento a la misma clase. Como vimos
deben mencionarse las siguientes: permite el previamente, los ejemplos de este
análisis de grandes volúmenes de datos y refleja comportamiento ideal se especifican en los
de una manera más transparente las datos de entrenamiento. Sin embargo, este
características de la propia colección de sistema de aprendizaje inductivo debe ser capaz
documentos, posibilitando así la captura de de extraer las características distintivas de los
conexiones y asociaciones entre clases de documentos del conjunto de entrenamiento para
palabras que no se habían considerado luego poder analizar otros textos no observados
inicialmente produciendo resultados previamente lográndose así la capacidad de
inesperados. generalización del clasificador que se suele
3) Entrenamiento (aprendizaje automático): evaluar sobre otro conjunto de prueba separado.
En las tareas predictivas, dada una colección de Este proceso en matemática se lo conoce como
documentos representada con alguno de los aproximación de una función.
enfoques expuestos más arriba, el siguiente paso Luego de haber etiquetado el corpus de
será asignarle a cada documento una etiqueta o entrenamiento - haberle asignado a cada
rótulo que representa una clase, categoría o representación del documento su clase,
valor numérico particular. Por ejemplo, si categoría o valor numérico correspondiente - se
queremos identificar quién es el autor de un puede entrenar un clasificador utilizando
documento, las categorías corresponderán a los distintos enfoques o algoritmos (Mitchell, 1996;
nombres de los distintos autores de los textos. Russell & Norvig, 2009): aprendizaje bayesiano
En cambio, en la predicción numérica se le (McCallum & Nigam, 1998), de redes neuronales,

71
Mariñelarena-Dondena, L.; Errecalde, M.L. & Castro Solano, A. / RACC, 2017, Vol. 9, N°2, 65-76

de árboles de decisión, máquinas de vectores proceso, se puede generar un ciclo de ajuste


soporte (Joachims, 1998, 1999), etc. que involucre la re-ejecución de los
Este proceso de aprendizaje busca en un experimentos con atributos y/o algoritmos de
espacio de hipótesis, una hipótesis aprendizaje diferentes. Una vez obtenido un
(modelo/clasificador) que sea consistente con los clasificador con un desempeño “aceptable” de
datos de entrenamiento pero que pueda además acuerdo al dominio de aplicación, éste es puesto
clasificar correctamente otros datos (nuevos en funcionamiento y sus resultados
documentos) no presentes en ese conjunto. La (predicciones) comienzan a ser aplicadas sobre
siguiente etapa es la encargada de verificar la los nuevos datos que vayan ingresando al
capacidad de generalización del clasificador sistema.
obtenido.
2.2. Análisis exploratorio o Descriptivo
4) Evaluación y uso. Si un clasificador
El otro gran objetivo de las técnicas de
automático sólo fuera evaluado sobre los datos
minería de textos es la descripción. Estas tareas
de entrenamiento con que fue generado se
buscan comprender las características
correría el serio riesgo de obtener modelos que
psicológicas y comportamentales de una
han “memorizado” dichos datos pero que tienen
población a partir de los patrones del lenguaje;
bajo desempeño sobre nuevos documentos; en
a su vez, estos hallazgos pueden servir para el
este caso, se dice que la capacidad de
desarrollo de futuras investigaciones, entre ellas
generalización del clasificador es pobre y se
la construcción de modelos predictivos. Un
denomina a este fenómeno “sobreajuste”.
ejemplo de este tipo de análisis exploratorio
Por lo tanto, se evalúa la utilidad de las
basado en el enfoque del vocabulario abierto
representaciones de los documentos y del
(open vocabulary approach) es el método del
modelo obtenido sobre un conjunto de prueba
Análisis Diferencial del Lenguaje (Differential
separado o utilizando esquemas más complejos
Language Analysis - DLA) desarrollado por
como el denominado validación de k-pliegues
Schwartz, Eichstaedt, Kern, Dziurzynski, Ramones,
(k-fold validation). En todos estos casos, se
et al. (2013).
mantiene separado el conjunto de
Este método está compuesto por tres
entrenamiento del de prueba y se evalúa la
grandes etapas: 1) la extracción de las
precisión del clasificador midiendo la exactitud
características del lenguaje, 2) el análisis
(porcentaje de documentos clasificados
correlacional, y 3) la visualización. Su objetivo
correctamente) en el caso de categorización o
principal consiste en hallar y discriminar aquellas
midiendo el error cuadrático medio (diferencia
características del lenguaje que mejor
entre el valor numérico predicho y el real) en el
representen los atributos psicológicos y
caso de la regresión. Como resultado de este

72
Mariñelarena-Dondena, L.; Errecalde, M.L. & Castro Solano, A. / RACC, 2017, Vol. 9, N°2, 65-76

demográficos de una determinada región Dziurzynski, Lucas, et al., 2013). Asimismo, se han
geográfica o comunidad; vale decir, se realizado estudios epidemiológicos a gran escala
establecen correlaciones entre las características identificando en el lenguaje de los medios
del lenguaje extraídas de los propios sociales aquellas características psicológicas
documentos y las variables de salud o presentes en la comunidad asociadas con el
psicológicas objeto de estudio. Para resumir y riesgo de mortalidad por arterosclerosis
representar gráficamente los resultados (Eichstaedt et al., 2015).
obtenidos los autores utilizan nubes de palabras, También a través de la información
ya que las mismas les permiten agrupar los disponible en Twitter se han analizado los
términos según los tópicos o temáticas episodios de bullying. Los mensajes o posts
(Schwartz, Eichstaedt, Kern, Dziurzynski, permiten explorar quiénes estuvieron
Ramones, et al., 2013). involucrados, cuál fue el tipo de agresión y
quiénes reportan estos hechos. Al mismo tiempo
3. Discusión
puede registrarse de qué lugar provienen los
El lenguaje de las personas, sobre qué posts y cuándo (qué día y a qué hora) fueron
hablan y cómo lo hacen, refleja información que realizados (Bellmore, Calvin, Xu, & Zhu, 2015).
permite diagnosticar su estado de salud física y Investigaciones recientes sugieren que las
examinar sus características de personalidad. técnicas de minería de textos podrían usarse
Aquí la aplicación de técnicas de minería de incluso para la detección temprana y la
textos en el campo de la psicología hace posible prevención del suicidio. Con tal fin Desmet y
la medición o evaluación de distintos Hoste (2013) analizaron el contenido y, más
constructos, a diferencia de la utilización de los precisamente, las emociones de notas suicidas.
tradicionales cuestionarios o encuestas. Por otro lado, se ha usado la información
Se ha comprobado que el análisis de las política comunicada en los medios sociales para
características del lenguaje empleado en los seguir o monitorear las opiniones de los
medios sociales como Facebook y Twitter usuarios en tiempo real. En ese sentido, a partir
permite identificar los rasgos de personalidad, el del estudio de los posts de 1000 usuarios de
género y el sexo de los participantes (Mairesse, Twitter de Estados Unidos de Norteamérica se
Walker, Mehl, & Moore, 2007; Schwartz, comprobó que es posible identificar la alineación
Eichstaedt, Kern, Dziurzynski, Ramones, et al., política - de izquierda o de derecha - de los
2013) como así también predecir el nivel individuos mediante el análisis de semántica
bienestar de las personas que viven en distintas latente (Conover, Gonçalves, Ratkiewicz,
regiones geográficas de los Estados Unidos de Flammini, & Menczer, 2011).
Norteamérica (Schwartz, Eichstaedt, Kern, Entre los desafíos y las posibles líneas de

73
Mariñelarena-Dondena, L.; Errecalde, M.L. & Castro Solano, A. / RACC, 2017, Vol. 9, N°2, 65-76

investigación a futuro debemos mencionar las futuro en un nuevo método de evaluación


siguientes. En primer lugar, la necesidad de psicológica a nivel individual y para la realización
realizar estudios en distintas comunidades y de estudios epidemiológicos a gran escala.
contextos culturales buscando así superar el
Normas Éticas
problema de las falacias ecológicas. En segundo
término, analizar no sólo el contenido textual En la realización del presente artículo de

disponible en los medios sociales sino también revisión (literature review) se respetaron las

las imágenes, las grabaciones de audio, los normas éticas internacionales establecidas por la

videoclips, etc. Esta información multimodal American Psychological Association

puede reflejar otros aspectos de los (http://www.apa.org/ethics/code/index.aspx) y la

pensamientos, los sentimientos y las Declaración de Helsinki

preocupaciones de las personas que no llegan a (http://www.wma.net/es/30publications/10policie

ser capturados sólo mediante el análisis de los s/b3/).

textos (Schwartz & Ungar, 2015).


Referencias
Respecto a este último punto, se han
Bellmore, A., Calvin, A. J., Xu, J. M., & Zhu, X. (2015).
evaluado las relaciones existentes entre la
The five W’s of ‘‘bullying’’ on Twitter: Who, What,
cantidad de fotos que suben los usuarios de
Why, Where, and When. Computers in Human
Facebook y las interacciones de los mismos con
Behavior, 44, 305–314.
sus amigos (por ejemplo, a través de la cantidad
Conover, M. D., Gonçalves, B., Ratkiewicz, J., Flammini,
de “me gusta” y comentarios recibidos) con sus A., & Menczer, F. (2011). Predicting the Political
rasgos de personalidad (Eftekhar, Fullwood, & Alignment of Twitter Users. Privacy, Security, Risk
Morris, 2014). Asimismo se ha examinado si la and Trust (PASSAT) and 2011 IEEE Third
foto de perfil que eligen los usuarios refleja su International Conference on Social Computing
personalidad, ya que dicha fotografía determina (SocialCom). Boston, USA, 192-199. doi:

en gran parte la identidad online del sujeto (Jim 10.1109/PASSAT/SocialCom.2011.34


Desmet, B., & Hoste, V. (2013). Emotion detection in
Wu, Chang, & Yuan, 2015).
suicide notes. Expert Systems with Applications,
Las investigaciones interdisciplinarias de las
40(16), 6351–6358.
ciencias de la computación, sociales y de la
Eichstaedt, J. C., Schwartz, H. A., Kern, M. L., Park, G.,
salud constituyen sin lugar a dudas un campo
Labarthe, D. R., Merchant, R. M., … Seligman, M.
promisorio. En nuestra disciplina en particular, E. P. (2015). Psychological Language on Twitter
estos enfoques abren la puerta para la medición Predicts County-Level Heart Disease Mortality.
o evaluación de los constructos psicológicos Psychological Science, 26(2), 159-169. doi:
mediante la aplicación de técnicas de minería de 10.1177/0956797614557867
textos. Esta perspectiva podría convertirse a Eftekhar, A., Fullwood, C., & Morris, N. (2014).

74
Mariñelarena-Dondena, L.; Errecalde, M.L. & Castro Solano, A. / RACC, 2017, Vol. 9, N°2, 65-76

Capturing personality from Facebook photos and data volume, velocity and variety. Application
photo-related activities: How much exposure do Delivery Strategies, META Group Inc. Recuperado
you need? Computers in Human Behavior, 37, de http://blogs.gartner.com/doug-
162–170. laney/files/2012/01/ad949-3D-Data-
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). Management-Controlling-Data-Volume-Velocity-
From Data Mining to Knowledge Discovery in and-Variety.pdf
Databases. AI Magazine, 17(3), 37-54. Layton, R., Watters, P., & Dazeley, R. (2011). Recentred
Gandomi, A., & Haider, M. (2015). Beyond the hype: Local Profiles for Authorship Attribution. Natural
Big data concepts, methods, and analytics. Language Engineering, 18(3), 293-312.
International Journal of Information Management, Lex, E. (2011). Content Facets for Individual
35(2), 137–144. Information Needs in Media. (Tesis Doctoral).
Hernández Orallo, J., Ramírez Quintana, M. J., & Ferri Graz University of Technology, Styria, Austria.
Ramírez, C. (2004). Introducción a la Minería de Mairesse, F., Walker, M. A., Mehl, M. R., & Moore, R.
Datos. Madrid: Pearson Prentice Hall. K. (2007). Using Linguistic Cues for the Automatic
Jim Wu, Y. C., Chang, W. H., & Yuan, C. H. (2015). Do Recognition of Personality in Conversation and
Facebook profile pictures reflect user’s Text. Journal of Artificial Intelligence Research, 30 ,
personality? Computers in Human Behavior, 457-500.
51(B), 880-889. McCallum, A., & Nigam, K. (1998). A Comparison of
Joachims, T. (1998) Text categorization with Support Event Models for Naive Bayes Text Classification.
Vector Machines: Learning with many relevant Learning for Text Categorization: Papers from the
features. En C. Nédellec & C. Rouveirol (Eds.), 1998 AAAI Workshop, 752, 41-48.
Machine Learning: ECML-98. ECML 1998. Lecture Mitchell, T. M. (1996). Machine Learning. New York:
Notes in Computer Science (Lecture Notes in McGraw Hill.
Artificial Intelligence) (pp. 137-142). Heidelberg: Pennebaker, J. W. (2002). What our words can say
Springer. about us: Toward a broader language
Joachims, T. (1999). Transductive inference for text psychology. Psychological Science Agenda, 15(1),
classification using support vector machines. En I. 8-9.
Bratko & S. Dzeroski (Eds.), Proceedings of ICML- Russell, S., & Norvig, P. (2009). Artificial Intelligence: A
99, 16th International Conference on Machine Modern Approach (3rd ed.). New Jersey: Prentice
Learning (pp. 200–209). San Francisco: Morgan Hall.
Kaufmann Publishers. Schwartz, H. A., Eichstaedt, J. C., Kern, M. L.,
Kern, M. L., Park, G., Eichstaedt, J. C., Schwartz, H. A., Dziurzynski, L., Lucas, R. E., Agrawal, M., … Ungar,
Sap, M., Smith, L. K., & Ungar, L. H. (2016). L. H. (2013). Characterizing Geographic Variation
Gaining Insights From Social Media Language: in Well-Being using Tweets. Proceedings of the
Methodologies and Challenges. Psychological Seventh International AAAI Conference on
Methods, 21(4), 507-525. Weblogs and Social Media (ICWSM), Boston,
Laney, D. (2001). 3-D data management: Controlling USA, 583-591

75
Mariñelarena-Dondena, L.; Errecalde, M.L. & Castro Solano, A. / RACC, 2017, Vol. 9, N°2, 65-76

Schwartz, H. A., Eichstaedt, J. C., Kern, M. L.,


Dziurzynski, L., Ramones, S. M., Agrawal, M., …
Ungar, L. H. (2013). Personality, Gender, and Age
in the Language of Social Media: The Open-
Vocabulary Approach. PLOS ONE, 8(9), e73791.
Schwartz, H. A., & Ungar, L. H. (2015). Data-Driven
Content Analysis of Social Media: A Systematic
Overview of Automated Methods. The ANNALS
of the American Academy of Political and Social
Science, 659(1), 78-94.
Sebastiani, F. (2002). Machine Learning in Automated
Text Categorization. ACM Computing Surveys,
34(1), 1-47.
Tausczik, Y. R., & Pennebaker, J. W. (2010). The
Psychological Meaning of Words: LIWC and
Computerized Text Analysis Methods. Journal of
Language and Social Psychology, 29(1), 24-54.

76

También podría gustarte