Documentos de Académico
Documentos de Profesional
Documentos de Cultura
- ANÁLISIS DE DATOS
Técnicas cualitativas: en las que los datos son presentados de manera verbal (o gráfica),
como los textos de entrevistas, las notas, los documentos…
Técnicas cuantitativas: en las que los datos se presentan en forma numérica. Estas dos
modalidades son especies radicalmente diferentes y utilizan conocimientos y técnicas
completamente diferenciadas.
Análisis Cualitativo
No existen reglas formales (al estilo de los métodos estadísticos) para la realización de
análisis cualitativos. Sin embargo estos estudios suelen realizarse en las siguientes cuatro
etapas:
2. Reducción de los datos: Se intenta reducir el volumen de los datos, despejando los
componentes (las variables) de interés para la investigación (puede ser sólo enumerativo
como en el análisis de contenidos o más complejo como en el análisis semiótico). Existen
tres formas de realizar la reducción de datos:
1. La redacción de resúmenes: reduce la masa de información pero no utiliza métodos
muy específicos (no es replicable por otros investigadores). En el resumen se procura
identificar los conceptos relevantes y cómo éstos se relacionan entre sí.
Inclusivo: exhaustivo (abarcar todas las posibilidades) y permitir que cada elemento tenga
tantos códigos como sea necesario para la investigación.
En esta etapa se procede a la interpretación de los datos utilizando tres posibles métodos de
análisis para detectar “patrones” a partir de los datos previamente organizados.
Son los más conocidos. En muchos casos, cuando se requieren técnicas estadísticas muy
complejas es conveniente solicitar el apoyo de especialistas (que pueden conocer mejor las
técnicas, en particular sus alcances y limitaciones). Existen dos niveles de análisis
cuantitativos: 1. Análisis descriptivos y 2. Análisis ligados a las hipótesis.
1.- Análisis descriptivos:Consiste en asignar un atributo a cada una de las variables del
modelo teórico. Los atributos pueden ser estadísticos descriptivos como la media, la
mediana, la moda o la varianza, sobre cuyas propiedades existe gran conocimiento,
experiencia y consenso, por lo que no es necesario realizar análisis de validez y fiabilidad.
Pero en estadísticos menos conocidos (como por ejemplo la covarianza) puede ser
necesario realizar este tipo de análisis. Es necesario tener definidos los criterios a seguir en
caso de porcentajes elevados de no respuesta y los eventuales sesgos que esto pueda
representar. El análisis descriptivo suele realizarse mediante la utilización de software
estadístico como el SPSS, Systat, etc.
2.- Análisis ligado a las hipótesis:Cada una de las hipótesis planteadas en el estudio debe
ser objeto de una verificación. Cuando los datos recolectados son de naturaleza cuantitativa,
esta verificación se realiza con la ayuda de herramientas estadísticas que se definen sobre la
base de 3 aspectos principales: Las hipótesis que se desea verificar. Los diseños de
investigación (experimental, quasi experimental, experimental invocado…). Distribución
estadística de las variables.
Una vez que los datos sean codificados, transferido a una matriz, guardado en un archivo y
limpiado de errores, el investigador procede a investigarlos.
Los análisis que vayamos a practicar a los datos dependen de tres factores:
a) El nivel de medición de las variables.
b) La manera como se hayan formulado las hipótesis.
c) El interés del investigador.
Por ejemplo, no es lo mismo los análisis que se le realizan a una variable nominal que a una
por intervalos. Usualmente el investigador busca, en primer término, describir sus datos y
posteriormente efectuar análisis estadísticos para relacionar sus variables; Es decir, realiza
análisis de estadística descriptiva para cada una de sus variables y luego describe la relación
entre éstas. Los tipos o métodos de análisis son variados y se comentarán a continuación.
Pero cabe señalar que el análisis no es indiscriminado, cada método tiene su razón de ser y
un propósito específico, no deben hacerse más análisis de los necesarios. La estadística no
es un fin en sí misma, es una herramienta para analizar los datos.
a) Población, o conjunto de todos los elementos cuyo estudio nos interesa. Si se dispone de
datos de una o más variables sobre la población completa, o se puede acceder a ellos, la
Estadística tendrá como misión que la recogida sea adecuada, se ordenen, se estructuren y
se resuman dichos datos para su mejor comprensión, es decir, que se describan. Ello nos
llevará a hablar de Estadística Descriptiva. Por ejemplo, el conjunto de los varones mayores
de 65 años y residentes en una provincia sería una población.
Los elementos fundamentales de la descripción de una variable son los que siguen en los
apartados siguientes, que se pueden resumir de esta forma:
- En primer lugar, se hará hincapié en que lo que se estudia son en realidad las variables,
lo que nos obligará a distinguir los tipos básicos de ellas, porque tienen un tratamiento
distinto en todo lo que sigue.
Tipos de variables
Lo que se estudia en una muestra o población es una serie de variables en cada individuo o
elemento. Lo usual es considerar primero las variables una a una, sin plantearse problemas
de asociación entre ellas, por lo que podemos pensar sólo en una variable de cuyos datos
imaginamos disponer en una muestra (el número de datos es el llamado Tamaño de
Muestra, para el que habitualmente se utiliza la letra n). Los tipos de variables, y
consecuentemente las clases de datos que se pueden encontrar, son básicamente las
siguientes:
1.1) las variables cualitativas ordinales, que son las que teniendo más de dos modalidades
tienen establecido un orden natural entre las mismas, de forma que sus modalidades se
enuncian siguiendo una cierta ordenación ascendente o descendente y no de otra manera.
Por ejemplo, la variable “gravedad del pronóstico de lesiones traumáticas” podría tener
como orden natural entre sus modalidades “leve”, “moderado”, “grave”, etc., pero nunca
diríamos “grave”, “leve”, “moderado”, etc. en este orden.
1.2) las variables cualitativas puras, que no tienen un orden natural preestablecido entre
sus modalidades, y podemos utilizar cualquier ordenación para ellas, como por ejemplo el
grupo sanguíneo o la nacionalidad de una persona (no hay que confundirse con
ordenaciones arbitrarias, como el orden alfabético, pensando que convierten en ordinales a
las variables, ya que no significan una verdadera ordenación natural de las modalidades).
1.3) las variables dicotómicas, que tienen sólo dos modalidades posibles, y en las que ni
siquiera tiene sentido plantearse si son o no ordinales; el hecho de tener sólo dos
modalidades les confiere características especiales. Cabe citar como ejemplos el ya citado
del sexo, el pertenecer o no a una asociación, o en general cualquier situación que sólo
admita una respuesta “sí o no”.
2) Variables cuantitativas o numéricas, que son aquellas que necesitan números para ser
expresadas, como la edad de alguien o el número de páginas de un libro. Cada forma
particular en que se presentan es un valor numérico, y un dato es en estas variables un
2.1) las variables cuantitativas discretas, cuyos valores son aislados (habitualmente
números enteros), de forma que pueden enumerarse y existen valores “consecutivos” entre
los que no puede haber otro; por ejemplo, un resumen puede tener 349 ó 350, pero no
349.17 palabras.
2.2) las variables cuantitativas continuas, que pueden tomar cualquier valor numérico,
entero o decimal, de forma que teóricamente entre dos valores posibles siempre se pueden
encontrar otros (entre 65.3 Kg. y 65.4 Kg. de peso siempre está 65.37 Kg., por ejemplo),
aunque en la práctica el número de cifras decimales está limitado y la variable se maneja en
cierto modo como discreta.
La distinción entre los distintos tipos de variables es importante porque las técnicas a
aplicar a cada uno pueden ser muy diferentes, y muchos parámetros y cálculos tienen
sentido para las variables de un tipo y no para las de otro. Hay que tener en cuenta también
que una misma variable de la realidad puede venir expresada de diversas maneras, incluso
como cualitativa o como cuantitativa, dependiendo de que usemos valores numéricos o sólo
modalidades; piénsese, por ejemplo, en que la estatura puede darse en centímetros (variable
cuantitativa continua) o diciendo de alguien que es “bajo”, “mediano” o “alto” (variable
cualitativa ordinal). En estos casos, debe quedar claro que la variable es en esencia
cuantitativa y que su tratamiento como cualitativa supone una pérdida de calidad en la
información, sólo admisible si no podemos disponer de los datos numéricos.
Sea cual sea el tipo de variable, lo que se tiene como información de una variable en una
muestra es un número finito n de datos, es decir, de valores o de anotaciones sobre qué
modalidad (cualitativas) o qué valor (cuantitativas) tiene cada elemento de la muestra; a
este conjunto de datos se le llama distribución y, salvo cuando el tamaño de muestra n sea
muy pequeño, se debe resumir para que el lector pueda comprender bien los resultados.
- Frecuencia absoluta es el número de veces que una modalidad o un valor de una variable
aparece entre los datos de una muestra; si en una muestra de la variable “nivel de estudios”
aparecen 148 personas con nivel de estudios “superiores”, diremos que 148 es la frecuencia
absoluta de la modalidad “superiores”. Naturalmente, el número total de datos es n y, por
tanto, la suma de las frecuencias absolutas de todas las modalidades o valores debe ser igual
al tamaño muestral n.
Las frecuencias absolutas y relativas son aplicables a cualquier tipo de variable, y de ahí su
importancia; además, pese a su simplicidad, dan lugar a conceptos muy importantes, como
el de proporción, y son la base sobre la que se construye cualquier resumen de los datos.
Gráficas Estadísticas
Además, con carácter general puede recomendarse que el pie de la gráfica explique
convenientemente de qué se trata, que no se intente representar demasiada información en
una sola gráfica, que los detalles sean lo suficientemente visibles, etc.
Existen diversos tipos de gráficas, cada uno de ellos adecuado a un cierto tipo de variables,
por lo que podemos clasificar las gráficas atendiendo a estos tipos.
Hay otras gráficas menos frecuentes pero igualmente válidas para variables cualitativas;
cabe citar los pictogramas, en los que se representa una misma figura para cada modalidad
pero con tamaño proporcional a las frecuencias (pictograma por extensión) o una misma
figura repetida tantas veces como sea necesario para reflejar la frecuencia de cada
modalidad (pictograma por repetición), los cartogramas, en los que se representa cada
modalidad sobre puntos o regiones de un mapa, o los diagramas de superficie, en los que se
divide una figura geométrica, generalmente un rectángulo, en trozos proporcionales a las
frecuencias.
Por su parte, para variables cuantitativas los tipos de gráficas más importantes son los
siguientes:
Se trata de resumir más la información de una tabla o de una gráfica, y de encontrar algunos
valores lo más simples posible que nos permitan dar información sobre la muestra o
Dra. Martha Nohemy Gutiérrez Cereceres.
comparar dos muestras entre sí. Para hacer ese resumen o información de los datos hay tres
enfoques fundamentales:
- En primer lugar, dar un valor lo más representativo posible de todos los valores de la
muestra, que no sea, por tanto, ni de los más bajos ni de los más altos. Así se crean las
medidas o parámetros de centralización, tendencia central o posición central.
- En segundo lugar, y como complemento a lo anterior, dar una valoración de hasta qué
punto los datos se parecen entre sí o bien están muy diferenciados (dispersos); además,
cuanto más se parezcan entre sí los valores que nos salen, más se parecerán al
representante o parámetro de centralización que elijamos, y mejor sería éste. Por todo
esto conviene medir las diferencias internas de los datos mediante las medidas o
parámetros de dispersión.
- Finalmente, en tercer lugar, se puede también tratar de medir qué valor supera a una
cierta porción o proporción de valores, o lo que es lo mismo, tratar de informar sobre la
distribución de la variable diciendo a cuántos de sus valores supera uno dado. Para ello
se usan los cuantiles como medidas ó parámetros de posición.
Definiremos a continuación los más importantes entre todos los parámetros de estos tres
tipos y para ilustrar su cálculo usaremos el ejemplo siguiente, donde los datos son el
número de hermanos (excluido él mismo) de una muestra de 13 niños; presentamos los
datos ordenados de menor a mayor para mejor comprensión, pero en principio los datos nos
vendrían en cualquier orden. Supongamos que son los siguientes:
0 0 0 0 1 1 1 2 2 3 4 5 7
-2 -2 -2 -2 -1 -1 -1 0 0 +1 +2 +3 +5
que como puede calcularse suman cero (las negativas, que proceden de datos inferiores a la
media, suman –11, y las positivas, que proceden de datos superiores a la media, suman +11,
de modo que todas suman 0).
Existen otras medidas de centralización de uso menos frecuente, como la media ponderada
(que es una media aritmética con distintos pesos de importancia para los distintos datos), la
media geométrica (raíz enésima del producto de los datos) o la media armónica (la inversa
de la media aritmética de los inversos de los datos).
Por su parte, las medidas de dispersión se basan en la idea de medir las diferencias entre
unos datos y otros midiendo las diferencias de cada dato con la media, esto es, usando las
desviaciones; sin embargo, como éstas siempre suman cero, es preciso considerar su valor
absoluto o su cuadrado para que ello no ocurra (serían ya todas positivas). Las más
importantes medidas de dispersión son las siguientes:
Por motivos difíciles de explicar aquí, relacionados con cuestiones de inferencia estadística,
es más recomendable usar el denominador n-1 en lugar del n al calcular la varianza y la
desviación típica de una muestra, quedándose el n para el caso en que se conoce toda la
población; en nuestro ejemplo, pues, sería mejor calcular como varianza 58/12 = 4.83 y
como desviación standard su raíz cuadrada 2.20 (estos últimos serían la varianza muestral o
quasivarianza y la desviación típica muestral y serían los utilizados en la práctica, aunque
la definición teórica sea con denominador n por ser la varianza una "media"). A efectos
comparativos entre distintas muestras e incluso entre distintas variables, se define:
Además de las citadas, la más simple de las medidas de dispersión es el rango, recorrido ó
amplitud, que es la diferencia entre el valor máximo y el mínimo de la muestra, y que
indica qué extensión de la recta de los números ocupan los datos de nuestra muestra.
Los cuantiles completan el cuadro de los parámetros de una distribución. En cierto modo
pueden ser considerados como medidas de centralización (de hecho la mediana es uno de
ellos) y también como medidas de dispersión (algunas pueden construirse a partir de ellos)
pero en realidad son medidas de posición. Se define el cuantil p como aquel valor de la
variable (que puede estar o no en la muestra) que supera al p% de los datos de la muestra;
resultan útiles sólo cuando la muestra es numerosa y permiten saber en que “posición” se
encuentra un valor dado con respecto al conjunto de una muestra o población. Se definen
entre los más importantes:
Los cuartiles, que definen las cuartas partes de la muestra mediante tres “cortes”: el primer
cuartil deja por debajo al 25% de la distribución, el segundo coincide con la mediana y el
tercero deja por debajo al 75% de la distribución. No tienen mucho sentido en muestras
pequeñas, pero en nuestro ejemplo valdrían respectivamente 0, 1 y 3.5 (que están situados
en las posiciones “tercera y media”, séptima y “décima y media” de los datos ordenados).
Los percentiles, que son como los deciles pero de uno en uno por ciento, y por tanto son
noventa y nueve; por ejemplo, el percentil 37 deja por debajo al 37% de la distribución, y
está claro que no tienen sentido en muestras tan pequeñas como la de nuestro ejemplo, ya
que trece elementos no se pueden “partir” en cien partes.
Todos los cuantiles son definibles sobre variables cuantitativas o sobre cualitativas
ordinales, porque requieren siempre que los datos estén ordenados.
Los cuantiles más próximos al percentil 50, como la propia mediana o los cercanos a ella,
pueden considerarse como parámetros de centralización y sin embargo los más lejanos al
centro ayudan a medir la dispersión; por ejemplo, si restamos el tercer cuartil menos el
primero obtenemos el rango intercuartílico, quees una medida de dispersión. Con el rango
intercuartílico estamos midiendo la extensión que nos cubre la mitad central de nuestros
datos; recuérdese que el rango era la extensión cubierta por toda la muestra ordenada (se
define como máximo menos mínimo), mientras que el rango intercuartilico es la extensión
cubierta por la mitad central de los datos ordenados, excluyendo la cuarta parte inicial (los
que son inferiores al primer cuartil) y la cuarta parte final (los que son superiores al tercer
cuartil).
3.3.1. PUNTUACIONES Z.
Clases de puntuaciones
Las medidas directas que se efectúan sobre una muestra no siempre informan claramente de
algunos hechos o propiedades que permanecen ocultos, y que un cambio de escala o el uso
de una medida derivada puede destacarlos. Este es el objeto de esta sesión teórica: el uso de
medidas derivadas e índices que faciliten el conocimiento de hechos no percibidos en la
medida inicial.
Medida directa.
Medida diferencial.
Dada una medida directa X, llamaremos medida diferencial x a su diferencia con la media
del grupo.A suma de las medidas diferenciales será igual a cero y que, además, unas serán
positivas y otras negativas La consecuencia es que la media de las medidas diferenciales
siempre es cero, y se puede demostrar que la desviación típica s de las medidas
diferenciales es la misma que la de las medidas directas.
La medida diferencial nos informa sobre lo cerca o lejos que se encuentra un dato respecto
a la media. Es, por tanto, representativa de la situación del individuo dentro de su grupo,
pero no nos permite evaluar si esa distancia es importante o no. En realidad, es una simple
traslación.
Medida típica Z
Si se divide una medida diferencial entre la desviación típica del grupo, se obtiene la
medida o puntuación típica Z: Esta medida es muy importante, pues permite comparar dos
colectivos distintos, debido a la siguiente propiedad: La media de las puntuaciones Z
siempre es cero y su desviación típica siempre es 1.
De esta forma, mediante Z, las medidas obtenidas por cualquier sujeto en variables
diferentes, siempre tendrán media 0 y desviación 1, con lo que Z mide el verdadero nivel
dentro de cada grupo, al haber eliminado los parámetros de centro y dispersión. Es como si
dos conjuntos los redujéramos a la misma escala para poderlos comparar.
RAZONES
En términos general o amplio una razón es el resultado de dividir una cantidad con
otra.
R = a / b.
Se define como el cociente de dos variables, los valores del numerador y del
denominador son independientes, ninguno está contenido en el otro es decir no
tienen elementos comunes.
El numerador con el denominador son disjuntos, no se interceptan.
Indica cuantas veces sucede el hecho que está en el numerador con respecto al
hecho que está en el denominador.
Ejemplo: Razón de masculinidad = Nº de hombres / Nº de mujeres.Indica cuantos
hombres hay por cada mujer.
PROPORCIONES
TASAS
Se denotara por Ω como el espacio paramétrico que denota el conjunto de todos los
posibles valores que el parámetro θ puede asumir. Si Θ es un vector entonces Ω será un
subconjunto del espacio euclidiano de la misma dimensión y ladimensión de Ω va a
corresponder al número de parámetros reales no conocidos. Se asume que n x , x ,..., x 1 2
es una muestra aleatoria de f (x,θ ) y que τ (θ ) es una función de θ.
Definición
Equivalentemente se puede abusar y decir que un estimador es una regla que establece
cómo calcular una estimación basada en las mediciones contenidas en una muestra. Es
posible obtener varios estimadores (reglas para la estimación) diferentes para un mismo
Dra. Martha Nohemy Gutiérrez Cereceres.
parámetro poblacional. Esto nos lleva a tratar de definir cuáles son buenos o malos en la
aproximación.
1. Poblaciones y muestras
La estadística consiste en acumular y analizar datos
Los objetos de los que uno toma medidas para generar datos son los sujetos del
estudio: pueden ser individuos, familias, países, ciudades, empresas, instituciones...
La población: conjunto de sujetos sobre el que el estudio quiere saber algo
Una muestra: es un subconjunto de la población sobre el que el estudio toma datos.
A veces se estudian poblaciones enteras: ◆Elecciones ◆Censos ◆Números
“pequeños”: los alumnos de una facultad, los habitantes de una ciudad, los
miembros de una asociación...
Pero otras muchas veces estudiamos muestras
Razones económicas
Tiempo: la variable cambiaría (ejemplo: paro)
El estudio altera el objeto (investigaciones sanitarias o industriales, biológicas...)
En todos esos casos: muestra
Otra razón para estudiar muestras: existen poblaciones “virtuales” o “conceptuales” que no
podemos estudiar.
★Todas las personas que ahora o en el futuro puedan padecer insomnio (un estudio
de fármacos)
★Todos los coches que se puedan fabricar de un determinado modelo (en estudio
de consumos)
★Todos los estudiantes de universidad actuales y futuros (en un estudio sobre
efectos de un método de estudio)
Por todas esas razones: hay que estudiar una muestra, no una población. Ejemplo: encuestas
de opinión pública:
Tipos de muestras
Preocupación principal al hacer una muestra: que sea “representativa” de la
población.
Que sea una “buena” muestra, que se “parezca” a la población.
Los resultados serán “sensatos” (los parámetros se parecerán a los estadísticos).
Si seguimos ciertas reglas: podremos calcular matemáticamente, a partir del
estadístico, el valor aproximado del parámetro.
Muestreo aleatorio simple
Mecanismo ideal para la mejor muestra posible: el muestreo aleatorio simple,
muestreo en el que.
Cada elemento de la población tiene la misma probabilidad de ser escogido.
Todas las posibles muestras del tamaño muestral escogido (n) tienen la misma
probabilidad de ser seleccionadas.
Ejemplo teórico:
Todos los nombres en una lista
Papeleta o bola por cada nombre
Mezcla y extracción de las n bolas o papeletas
Cumple las dos condiciones.
En la práctica:
Numerar todos los sujetos de la población
Obtener lista de números aleatorios
En libros: ejemplo, Apéndice B, Tabla 6
Por ordenador (Excel)
www.random.org
Propiedades:
Cada número elegido separadamente
Igual probabilidad de ser 0, 1, 2, ... 9