Está en la página 1de 12

Escuela profesional de ingeniería de Minas-UNSAAC

ANALISIS DE DATOS CUANTITATIVOS

Todo lo que se puede medir y contar, decimos que se puede cuantificar. El concepto “datos
cuantitativos” hace referencia precisamente a eso, a la información tangible, la que es
obtenida mediante algún método de investigación. La manera de cuantificar los datos
obtenidos en nuestro estudio nos dará la pauta de hacia qué rumbo dirigirse, de ahí la
importancia de su correcto análisis para poder demostrar si estamos en lo correcto o no, en
la hipótesis planteada.
QUE PROCEDIMIENTO SE SIGUE PARA ANALIZAR CUANTITATIVAMENTE LOS
DATOS

Por lo general, los análisis de datos cualitativos requieren más tiempo para procesar y ordenar
los datos que para su recolección. Asímismo, el análisis cualitatitivo tradicionalmente es un
proceso lento, en especial comparándolos con los análisis de datos cuantitativos.

Las técnicas de análisis de datos cualitativos, por lo tanto, los abordan como objeto de
análisis. Encontramos distintas técnicas para analizar palabras o frases, una labor que
comienza en realidad con la recolección, pues para ello se utilizan técnicas como la listas
libres, las comparacinoes pareadas o, por ejemplo, la clasificación en pilas.

Estos datos recolectados se analizan a partir de diferentes técnicas de análisis, ya sea a


través de un análisis exponencial, los mapas mentales o, pongamos por caso,
las taxonomías y, en cada uno de ellos, a su vez, encontramos diferentes métodos.

Se trata de una actividad compleja, cuyo fin último es dotar a los datos de sentido. Para ello,
se utilizan procedimientos variados muy diversos, que raramente son estadísticos. No en
vano, la analítica de datos cualitativos se considera más un arte que una técnica.

Su elección dependerá de nuestro objetivo, así como de las tareas y operaciones más
adecuados. El proceso generalde este tipo de análisis comienza por una recopilación
selectiva de los datos, seguida de una reducción pra su identificación, clasificación, síntesis y
agrupamiento.

Una vez que la información haya sido recolectada y ordenada, la codificaremos para poder
empezar a llegar a conclusiones una vez integremos la información. Si el proceso de
codificación agrupa las transcripciones en categorías, temas o conceptos con el objetivo de
relacionarlos con el fin de la consulta o investigación, la codificación los dotará de sentido.
Finalmente, se analizan los datos para alcanzar conclusiones que también deben verificarse.

PROCESOS PARA EFECTUAR UN ANALISIS ESTADISTICO


1. Seleccionar un software apropiado para analizar los datos
2. Ejecución del programa
3. Explorar los datos :
a) analizar descriptivamente los datos por variable
b) visualizar los datos por variable
4. evaluar la confiabilidad y validez logrados por los instrumentos de medición
Escuela profesional de ingeniería de Minas-UNSAAC

5. analizar mediante pruebas estadísticas las hipótesis planteadas ( análisis


estadístico inferencial)
6. realizar análisis adicionales
7. preparar los resultados para presentarlos (tablas, gráficos, figuras, etc.)

PASO 1: SELECCIONAR UN PROGRAMA DE ANALISIS

Estos pasos generales de tipo procedimiental se llevan a cabo bien de forma manual o
recurriendo a programas de software que nos ofrecen distintas herramientas muy
ventajosas, si bien en uno y otro caso los principios del proceso analítico son iguales.

En el caso de las soluciones más avanzadas, idóneas para la gestión de datos masivos, las
metodologías de análisis de datos cualitativos variarán en unas y otras. Podemos disponer de
funcionalidades relacionadas con la búsqueda, organización, categorización y análisis
cualitativo en datos estructurados y desestructurados.

Desde textos o imágenes, por ejemplo, hasta objetos, vídeos o audio, con los que se trabaja
hasta hallar patrones que ofrezcan respuestas a las cuestiones planteadas. Una tarea
encomendada, como es bien sabido, a los expertos en análisis de datos cualitativos y
cuantitativos para así poder tomar mejores decisiones.

SPSS:
El SPSS es el software estadístico más utilizado a nivel mundial por ser una herramienta para
la experimentación, investigación y toma de decisiones. Su versatilidad permite que se utilice
como:

 Hoja de cálculos para resolver operaciones aritméticas, algebraicas y trigonométricas.


 Gestor de bases de datos para que se pueden procesar de modo dinámico los datos,
permite actualizar los cambios operados y realizar informes personalizados.
 Generador de informes que permite preparar atractivos informes de una investigación
realizada, incorporando en un mismo archivo el texto del informe, las tablas, los gráficos y
resultados estadísticos.
 Análisis de datos pudiendo extraer de un fichero toda la información para la ejecución de
procedimientos estadísticos descriptivos, inferenciales y de múltiples variantes.
 Gestor de minerías de datos para llevar a cabo búsquedas inteligentes, extraer
información oculta elaborando árboles de decisión, segmentaciones de mercados o
diseños de redes neuronales de inteligencia artificial.

Minesight

El Minesight es un software para el modelamiento y la planicación de mina, proporciona


soluciones integradas para exploración, modelado geológico, diseño, planicación y
operación. Ya sea subterránea o en supercie, desde metales preciosos a metales básicos,
carbón, arenas bituminosas o minerales industriales.
Escuela profesional de ingeniería de Minas-UNSAAC

data mining
Como data mining, también conocida como minería de datos, se describen los procedimientos
algorítmicos para la evaluación de datos aplicados a bloques de datos con un tamaño y una
complejidad determinados. Su función es la de extraer la información oculta en grandes
volúmenes de datos, especialmente en las masas de información conocidas como big data, y
además reconocer tendencias, relaciones y patrones ocultos en ellas. Para que este proceso
se pueda llevar a cabo se recurre a las data mining tools.

RapidMiner
RapidMiner, antes conocida como YALE, siglas de “Yet Another Learning Environment”, es un
data mining software muy conocido. De acuerdo con una encuesta de KDnuggets realizada en
el año 2014, esta tool se constituía como la herramienta de data mining más usada. Destaca
por permitir el acceso gratuito y por su fácil manejo dado que no requiere un conocimiento
elaborado en programación, sin olvidar la gran selección de operadores que ofrece.
Especialmente son las startups las que recurren a ella.

RapidMiner está escrita en Java y contiene más de 500 operadores con diferentes enfoques
para mostrar las conexiones en los datos: hay opciones para data mining, text mining o web
mining, pero también análisis de sentimiento o minería de opinión. Asimismo, el programa
puede importar tablas Excel, archivos SPSS y masas de datos de diferentes bases de datos e
integra los programas de data mining WEKA y R. Todo ello pone de relieve el carácter
polivalente de este software.

RapidMiner participa en todos y cada uno de los pasos del proceso de data mining,
interviniendo también en la visualización de los resultados. La herramienta está formada
por tres grandes módulos: RapidMiner Studio, RapidMinder Server y RapidMiner Radoop,
cada uno encargado de una técnica diferente de minería de datos. Asimismo, RapidMiner
prepara los datos antes del análisis y los optimiza para su rápido procesamiento. Para cada
uno de estos tres módulos hay una versión gratuita y diferentes opciones de pago.

El punto fuerte de RapidMiner, si se compara con el resto de software de data mining, reside
en los análisis predictivos, es decir, en la previsión de desarrollos futuros basándose en los
datos recopilados.

WEKA
WEKA (Waikato Environment for Knowledge Analysis) es un software de código abierto
desarrollado por la Universidad de Waikato en la primera mitad de los años noventa. Basada
en Java y compatible con Windows, macOS y Linux, la interfaz gráfica de usuario facilita el
acceso a este software que también ofrece conexión a bases de datos SQL, siendo capaz de
procesar en ellas los datos solicitados. Asimismo, presenta un sinnúmero de funciones de
aprendizaje automático y secunda tareas tan relevantes del data mining como el análisis de
clústeres, de correlación o de regresión, así como la clasificación de datos, punto fuerte este
último del data mining software al usar redes de neuronas artificiales, árboles de decisión y
algoritmos ID3 o C4.5. No obstante, este programa no es tan potente en aspectos como el
análisis de clústeres, en el que solo se ofrecen los procedimientos más importantes.

Otra desventaja es que este software presenta problemas de procesamiento cuando hay que
tratar grandes cantidades de datos, dado que intenta cargar el programa de data mining
Escuela profesional de ingeniería de Minas-UNSAAC

completo en la memoria de trabajo. WEKA ofrece para ello como solución una línea de
comandos sencilla (CTL) que aligera el tráfico de un gran volumen de datos.

Orange
El software de data mining Orange existe desde hace más de 20 años como proyecto de la
Universidad de Liubliana. El núcleo del software se escribió en C++, aunque poco después se
amplió el programa al lenguaje de programación Python que solo se usa como lenguaje de
entrada. Las operaciones más complejas, sin embargo, se llevan a cabo en C++. Orange es
un software muy extenso que demuestra todo lo que se puede conseguir con Python, ya que
ofrece aplicaciones de gran utilidad para el análisis de datos y de texto así como
características de aprendizaje automático.

Además, en el ámbito del data mining trabaja con operadores para la clasificación, regresión y
clustering e integra una programación visual. De hecho, es muy llamativo que los usuarios
destaquen lo entretenido que es usar esta herramienta en comparación con otras: tanto si se
empieza con la minería de datos o se es más experto, a todos los usuarios les fascina Orange.
Esto se debe a que, por un lado, ofrece un sistema de visualización de datosatractivo para
trabajar y, por otro, alcanza esta visualización con rapidez y facilidad. El programa prepara
los datos de forma visual, convirtiendo la comprensión de gráficas así como el procesamiento
de análisis de datos en tareas muy sencillas, lo que a su vez facilita a los usuarios tomar
decisiones rápidamente en el ámbito profesional.

Otra ventaja para los menos versados: existe un sinnúmero de tutoriales sobre la herramienta.
Una particularidad de Orange es que, además, va aprendiendo las preferencias de sus
usuarios y se comporta en función de ellas, lo que simplifica enormemente el proceso de data
mining para el usuario.

KNIME
El software KNIME (Konstanz Information Miner), desarrollado por la universidad de
Constanza, se puso a disposición de los usuarios como software de código abierto pese a
crearse desde el principio con objetivos comerciales. Escrito en Java y preparado con Eclipse,
en la actualidad KNIME se considera una herramienta de gran popularidad entre la comunidad
internacional de programadores y, si se compara con otros programas de data mining, destaca
por una amplia gama de funciones: con más de 1000 módulos y paquetes de aplicaciones
preparados, esta herramienta permite descubrir estructuras ocultas de datos. Además, se
pueden ampliar sus módulos con otras soluciones adicionales de pago.

Entre todas las funciones destaca el análisis de datos integrativo. En este ámbito KNIME es
uno de los programas más avanzados, puesto que permite la integración de numerosos
procedimientos de aprendizaje automático y de data mining. Además, presenta una eficiencia
notable en el tratamiento previo de los datos así como en su extracción, transformación y
carga. Debido a su segmentación en módulos, sirve principalmente como software de data
mining orientado al flujo de datos.

KNIME se usa en la investigación farmacéutica desde 2006 y supone una herramienta muy
importante también en el sector financiero, sin olvidar su uso frecuente en el campo de la
inteligencia empresarial (BI). Asimismo, esta herramienta es también muy interesante para
quienes apenas acaban de iniciarse con el data mining pues, aunque posee un amplio
abanico de funciones, se requiere poco tiempo para aprender a manejarla. Por último, apuntar
que KNIME existe en su versión gratuita y de pago.
Escuela profesional de ingeniería de Minas-UNSAAC

SAS
SAS (Statistical Analysis System) es un producto de SAS Institute, una de las mayores
empresas privadas de software en todo el mundo. SAS constituye la data mining tool
principal en el análisis en el sector de los negocios y, de hecho, se considera como el
programa más adecuado para grandes empresas, aunque también sea el software con un
coste económico mayor de todos los aquí descritos.

El prestigio de este software se debe a que utiliza tecnología punta en la realización de


pronósticos y presenta una visualización interactiva de los datos, de inestimable ayuda en
grandes presentaciones. Con este programa de data mining dispones básicamente de todos
los elementos necesarios para llevar a cabo una minería de datos con éxito. Además, se
caracteriza por su gran escalabilidad, pues permite aumentar progresivamente su eficiencia
aumentando los recursos de hardware o de cualquier otro tipo, sin olvidar que para aquellos
usuarios con menos afinidad técnica la herramienta dispone de una interfaz de usuario gráfica.
Por todo ello no sorprende que se considere una de las herramientas más valiosas en el
ámbito empresarial.

PASO 2: EJECUTAR EL PROGRAMA

La mayoría de los programas son fáciles de ejecutar pues lo único que hay que hacer es
solicitar los análisis requeridos seleccionando las opciones apropiadas

PASO 3: EXPLORAR LOS DATOS

En esta etapa, inmediata a la ejecución del programa, se inicia el análisis. Cabe señalar que
si hemos llevado a cabo la investigación reflexionando paso a paso, la fase analítica es
relativamente sencilla, porque:

1) formulamos las preguntas de investigación que pretendemos contestar,

2) visualizamos un alcance (exploratorio, descriptivo, correlacional o explicativo),

3) establecimos nuestras hipótesis (o estamos conscientes de que no las tenemos),

4) definimos las variables,

5) elaboramos un instrumento (conocemos qué ítems o indicadores miden qué variables y


qué nivel de medición tiene cada variable: nominal, ordinal, de intervalos o razón)

6) recolectamos los datos. Sabemos qué deseamos hacer, es decir, tenemos claridad.

Variables de la matriz de datos Son columnas constituidas por ítems.

Variables de la investigación Son las propiedades medidas y que forman parte de las
hipótesis o que se pretenden describir.

Cuando una variable de la investigación está integrada por diversas variables de la matriz o
ítems, suele llamarse variable compuesta y su puntuación total es el resultado de adicionar
los valores de los reactivos que la conforman. Tal vez el caso más claro es la escala de
Likert, en la que se suman las puntuaciones de cada ítem y se logra la calificación final. A
Escuela profesional de ingeniería de Minas-UNSAAC

veces la adición es una sumatoria, otras ocasiones es multiplicativa, un promedio o de otras


formas, según se haya desarrollado el instrumento. Al ejecutar el programa y durante la fase
exploratoria, se toman en cuenta todas las variables de la investigación e ítems y se
considera a las variables compuestas, entonces se indica en el programa cómo están
constituidas, mediante algunas instrucciones (en cada programa son distintas en cuanto al
nombre, pero su función es similar).

Los análisis de los datos dependen de tres factores:

a) El nivel de medición de las variables.

b) La manera como se hayan formulado las hipótesis.

c) El interés analítico del investigador (que depende del planteamiento del problema)

Por ejemplo, los análisis que se aplican a una variable nominal son distintos a los de una
variable por intervalos. Se sugiere repasar los niveles de medición vistos en el capítulo
anterior. El investigador busca, en primer término, describir sus datos y posteriormente
efectuar análisis estadísticos para relacionar sus variables. Es decir, realiza análisis de
estadística descriptiva para cada una de las variables de la matriz (ítems o indicadores) y
luego para cada una de las variables del estudio, finalmente aplica cálculos estadísticos para
probar sus hipótesis. Los tipos o métodos de análisis cuantitativo o estadístico son variados
y se comentarán a continuación; pero cabe señalar que el análisis no es indiscriminado, sino
que cada método tiene su razón de ser y un propósito específico; por ello, no deben hacerse
más análisis de los necesarios. La estadística no es un fin en sí misma, sino una herramienta
para evaluar los datos.

Estadística descriptiva para cada variable

La estadística descriptiva es la rama de la estadística que recolecta,


analiza y caracteriza un conjunto de datos (peso de la población,
beneficios diarios de una empresa, temperatura mensual,…) con el
objetivo de describir las características y comportamientos de este
conjunto mediante medidas de resumen, tablas o gráficos.
¿Qué es una distribución de frecuencias?

Una distribución de frecuencias es un conjunto de puntuaciones respecto de una variable


ordenadas en sus respectivas categorías y generalmente se presenta como una tabla.

¿De qué otra manera pueden presentarse las distribuciones de frecuencias?

Las distribuciones de frecuencias, especialmente cuando utilizamos los porcentajes, pueden


presentarse en forma de histogramas o gráficas de otro tipo (por ejemplo: de pastel). SPSS,
Minitab y SAS producen tales gráficas, o bien, los datos pueden exportarse a otros programas o
paquetes que las generan (de cualquier tipo, a colores, utilizando efectos de movimiento y en
tercera dimensión, como por ejemplo: Power Point).
Escuela profesional de ingeniería de Minas-UNSAAC

Ejemplos de gráficas para presentar distribuciones


Escuela profesional de ingeniería de Minas-UNSAAC

¿Cuáles son las medidas de tendencia central?

Las medidas de tendencia central son puntos en una distribución obtenida, los valores medios o
centrales de ésta, y nos ayudan a ubicarla dentro de la escala de medición de la variable analizada.
Las principales medidas de tendencia central son tres: moda, mediana y media.

MEDIA

La media aritmética ( X ) o simplemente la media es la medida de posición de más importancia y


utilización en las aplicaciones estadísticas por su fácil calculo e interpretación. Se trata del valor
medio de todos los valores que toma la variable estadística de una serie de datos. La media es el
valor más representativo de la serie de valores, es el punto de equilibrio, el centro de gravedad de
la serie de datos. Por lo general se le designa con X .

La media aritmética de una serie de n valores de una variable X1, X2, X3; X4,.........Xn, es el
cociente de dividir la sumatoria de todos los valores que toma la variable Xi, entre el número total
de ellos.
Escuela profesional de ingeniería de Minas-UNSAAC

LA MEDIANA

La mediana es el valor que divide en dos partes iguales, al conjunto de observaciones ordenadas
respecto de sus magnitudes, de tal manera que el número de datos por encima de la mediana sea
igual al número de datos por debajo de la misma. Se designa por las letras Me. Tal como sucede
con la media, el método de determinación depende de si los datos son agrupados o no.

Si el número n es impar

Si n es par

LA MODA

La moda es la medida de posición que indica la magnitud del valor que se presenta con más
frecuencia en una serie de datos; es pues, el valor de la variable que más se repite en un conjunto
de datos. De las medidas de posición la moda es la que se determina con mayor facilidad, ya que
se puede obtener por una simple observación de los datos en estudio, puesto que es el dato que
se observa con mayor frecuencia. Se designa con las letras Mo.

¿Cuáles son las medidas de la variabilidad?

Las medidas de la variabilidad indican la dispersión de los datos en la escala de medición de la


variable considerada y responden a la pregunta: ¿dónde están diseminadas las puntuaciones o los
valores obtenidos? Las medidas de tendencia central son valores en una distribución y las medidas
de la variabilidad son intervalos que designan distancias o un número de unidades en la escala de
medición.

RANGO O RECORRIDO.
Escuela profesional de ingeniería de Minas-UNSAAC

Es la medida de dispersión mas sencilla y se define como la diferencia entre el valor mas alto
menos el valor mas pequeño y se designa por R. Es decir, R = Xmax-Xmin para datos no agrupados.
Si los datos están agrupados en K clases el rango será la diferencia entre el limite superior de la K-
esima clase menos el limite inferior de la primera clase. El rango nos dará una primera idea sobre
las dispersión de los datos ya que si su valor es pequeño nos indicará una gran concentración de
los datos, y si por el contrario su valor es grande nos puede indicar una gran variabilidad o
dispersión de los datos.

La desviación estándar

La desviación estándar o característica es el promedio de desviación de las puntuaciones con


respecto a la media (Jarman, 2013 y Levin, 2003). Esta medida se expresa en las unidades
originales de medición de la distribución. Se interpreta en relación con la media. Cuanto mayor sea
la dispersión de los datos alrededor de la media, mayor será la desviación estándar. Se simboliza
como: s o la sigma minúscula , o bien mediante la abreviatura DE

VARIANZA

Una manera de resolver el problema de los signos de las desviaciones respecto de la media
aritmética es elevándolos al cuadrado y luego sumar todos los resultados obtenidos. Esta suma se
puede considerar como una medida de la dispersión total de los valores. Aquellos que estén mas
alejados de la media aritmética tendrán un aporte mayor a esta suma de cuadrados. Su mayor
utilidad se presenta en la estadística inductiva y se puede interpretar como una medida de
variación promedio (o el promedio de la suma de los cuadrados). Se obtiene dividiendo la
variación total entre el numero de unidades o medidas. Se designa por la letra S

¿Hay alguna otra estadística descriptiva?

La asimetría

es una estadística necesaria para conocer cuánto se parece nuestra distribución a una distribución
teórica llamada curva normal (la cual se representa también en la figura 10.9) y constituye un
indicador del lado de la curva donde se agrupan las frecuencias. Si es cero (asimetría = 0), la curva
o distribución es simétrica. Cuando es positiva, quiere decir que hay más valores agrupados hacia
Escuela profesional de ingeniería de Minas-UNSAAC

la izquierda de la curva (por debajo de la media). Cuando es negativa, significa que los valores
tienden a agruparse hacia la derecha de la curva (por encima de la media)

La curtosis
También conocida como medida de apuntamiento es una medida estadística,
que determina el grado de concentración que presentan los valores de una
variable alrededor de la zona central de la distribución de frecuencias.
Escuela profesional de ingeniería de Minas-UNSAAC

Puntuaciones z

Las puntuaciones z son transformaciones que se pueden hacer a los valores o las puntuaciones
obtenidas, con el propósito de analizar su distancia respecto a la media, en unidades de desviación
estándar. Una puntuación z nos indica la dirección y el grado en que un valor individual obtenido
se aleja de la media, en una escala de unidades de desviación estándar.