Está en la página 1de 45

Mateo Machín

Métodos y técnicas cuantitativas

Métodos y técnicas cuantitativas 2021


Índice
Prólogo .................................................................................................................... 2
Unidad 1: Introducción y nociones básicas acerca de variables .................................. 3
Introducción .............................................................................................................................. 3
Variables .................................................................................................................................... 4
Unidad 2: Variables categóricas I .............................................................................. 6
Análisis descriptivo de variables categóricas ............................................................................ 6
Unidad 3: Variables categóricas II ........................................................................... 11
Gráficos para variables categóricas......................................................................................... 11
Tendencia central y dispersión ............................................................................................... 13
Unidad 4: Variables numéricas I .............................................................................. 16
Cuantiles .................................................................................................................................. 16
Representación gráfica: diagrama de cajas............................................................................. 20
Unidad 5: Variables numéricas II ............................................................................. 22
Tendencia central y dispersión ............................................................................................... 22
Histogramas ............................................................................................................................ 27
Unidad 6: Puntuaciones Z y distribución normal...................................................... 30
Puntuaciones Z ........................................................................................................................ 30
Distribución normal................................................................................................................. 33
Unidad 7: Población y Muestra ............................................................................... 36
Población y Muestra................................................................................................................ 36
Distribución muestral .............................................................................................................. 39
Unidad 8: Intervalos de confianza ........................................................................... 42
Estimación de parámetros: Intervalo de confianza ................................................................ 42
Unidad 9: Prueba de hipótesis ................................................................................ 44

1
Mateo Machín
Métodos y técnicas cuantitativas

Prólogo
Antes de dar comienzo, he aquí algunas aclaraciones preliminares.
El presente escrito trata de ser un recopilado de contenidos bibliográficos
de manera breve y acortada, que, en otras palabras, es conocido como un
resumen. La única intención de este escrito es introducir y abordar un
determinado conjunto de temáticas de manera clara y concisa, sin
pretender bajo ninguna circunstancia ser un reemplazo de la bibliografía
que da sustento a este documento.
Debido a que solo es un recopilado de contenidos, el documento no cuenta
con un estilo de escritura académico ni referencias bibliográficas formales.
Tampoco es una copia exacta de lo que han escrito los autores que aquí
se encuentran, sino que se han realizado modificaciones, cambiando
palabras, acortando párrafos, agregando anotaciones, entre otras cosas.
En consecuencia, se advierte que cada quien se hace responsable de
cualquier uso que se le realice a este documento. Como autor del mismo,
aclaro desde el principio que no me haré cargo de ninguna situación que
comprometa este archivo y que pueda darse en cualquier lugar, tiempo y
circunstancias.
Habiendo aclarado estas cuestiones, y asumiendo que el lector ha
entendido y asumido las aclaraciones, se puede dar comienzo a los
contenidos aquí presentes.

2
Mateo Machín
Métodos y técnicas cuantitativas

Unidad 1: Introducción y nociones básicas


acerca de variables
Introducción
¿Qué son los métodos cuantitativos?
Los métodos cuantitativos son un método de investigación que se
fundamenta en la medición de variables mediante el uso de un sistema
numérico, el análisis de estas mediciones mediante el uso de modelos
estadísticos y el reporte de las relaciones y asociaciones entre las
variables estudiadas. El objetivo de reunir los datos cuantitativos es
entender, describir y predecir la naturaleza de un fenómeno,
particularmente mediante el desarrollo de modelos y teorías.
¿Qué es el análisis de datos?
El análisis de datos es un conjunto de procedimientos diseñados para
resumir y organizar datos con el objetivo de extraer información y elaborar
conclusiones. En general, el análisis de datos es un proceso que se
desarrolla en fases: empieza con la selección y recopilación de los datos,
continúa con la aplicación de herramientas descriptivas para organizar y
resumir la información contenida en los datos y termina con la aplicación
de herramientas inferenciales para efectuar comparaciones y estudiar
relaciones.
El análisis de datos debe ser entendido, ante todo, como un conjunto de
herramientas al servicio de la investigación empírica. En las ciencias
empíricas, se busca encontrar relaciones generales (leyes) que expliquen
el comportamiento de un fenómeno de interés. Sin embargo, no somos
capaces de observar todas las instancias posibles relacionadas con ese
fenómeno. Las conclusiones sobre lo que ocurrirá con la totalidad de una
clase particular de eventos se extraen a partir de la observación de solo
unos pocos eventos de esa clase. El acto de ir desde lo que se observa
que ocurre en un conjunto reducido de observaciones hasta la afirmación
de que eso mismo es válido también para el total de observaciones de la
misma clase es lo que se conoce como inducción o generalización
inductiva.
La ciencia que recoge, ordena y analiza los datos de una muestra extraída
de una determinada población para hacer inferencias acerca de esa
población valiéndose del cálculo de probabilidades es la estadística. Es
común encontrar la estadística subdividida en estadística descriptiva
(resumir y organizar datos) y estadística inferencial (extraer información y
elaborar conclusiones).

3
Mateo Machín
Métodos y técnicas cuantitativas

Variables
Concepto y generalidades
Una variable es la representación numérica de una característica
sometida a medición. Dicho de otro modo, las variables son características
que pueden ser medidas y que en cada medición pueden cambiar (variar).
En los análisis cuantitativos de datos, los datos corresponden
esencialmente con números. Esto significa que para llevar adelante los
análisis es práctico asignar números a las características de las personas,
objetos, lugares, etc., que se quiere estudiar. Lo que representen los
números asignados a los distintos valores de una variable dependerá de
la variable que estemos midiendo.
Tipos de variables
• Variables categóricas
Una variable categórica es una variable que puede tomar un conjunto de
valores posibles, asignando cada observación a un grupo o categoría
nominal de acuerdo con una propiedad de interés. Ejemplos de variables
categóricas son: color, sexo, grupo sanguíneo, estado civil, etc.
• Variables cuantitativas o numéricas
Una variable cuantitativa es una variable que puede tomar valores
numéricos. Las variables cuantitativas se clasifican en discretas o
continuas. En las variables discretas existe una distancia mínima entre
los valores posibles, es decir, no puede darse un valor intermedio (ejemplo:
número de hijos). En las variables continuas no existe distancia mínima
entre valores posibles, es decir, puede tomarse cualquier valor de la escala
de medición que estemos usando (ejemplo: temperatura).
Niveles o escalas de medida
En las variables categóricas los niveles de medida pueden ser nominales
u ordinales.
• La medida nominal consiste en clasificar en categorías a los
sujetos u objetos que se desea medir haciendo que todos los sujetos
u objetos clasificados dentro de la misma categoría sean
equivalentes a la característica que se está midiendo. Un ejemplo
de variable nominal son las especies.
• La medida ordinal consiste en asignar a los sujetos u objetos
medidos un número que permita ordenarlos según la cantidad que
poseen de la característica medida. En la escala ordinal, además de
estar presente la relación de igualdad-desigualdad propia de la
escala nominal, los números asignados permiten saber si la

4
Mateo Machín
Métodos y técnicas cuantitativas

cantidad de característica que posee un sujeto u objeto es mayor o


menor que la cantidad que posee otro sujeto u objeto cualquiera,
pero sin distinguir en cuanto varían. Por ejemplo, el resultado de una
maratón (primer, segundo y tercer lugar) nos informa del orden de
llegada y por tanto quien lo hizo más rápido pero no cuánto más
rápido.
En las variables cuantitativas los niveles de medida pueden ser de
intervalo o razón.
• La medida de intervalo se da cuando intervalos iguales en una
escala representan diferencias iguales en la propiedad que estamos
midiendo. Es decir, un objeto al que se le asigna la puntuación 12
en una escala de intervalos tiene 2 unidades de medida más que un
objeto al que se le asigna la puntuación 10; del mismo modo, un
objeto al que se le asigna la puntuación 6 tiene 2 unidades de
medida más que un objeto al que se le asigna la puntuación 4. Entre
10 y 12 existe la misma diferencia, en cantidad de característica, que
entre 4 y 6. Las variables de intervalo no poseen un cero absoluto,
es decir no existe un valor que indique ausencia de esta propiedad.
Un ejemplo es la temperatura, el valor 0 C es un punto arbitrario de
la escala y, no indica que no hay temperatura.
• La medida de razón añade a la de intervalos la presencia del cero
absoluto. Es decir, el cero de una escala de razón indica ausencia
total de la característica medida. Al igual que en la escala de
intervalos, las diferencias entre los objetos medidos son constantes.
Ejemplos de este tipo de variables son el peso, la edad o los tiempos
de reacción.

5
Mateo Machín
Métodos y técnicas cuantitativas

Unidad 2: Variables categóricas I


Análisis descriptivo de variables categóricas
Una vez recogidos los datos y preparados para el análisis, la primera tarea
que conviene abordar es la de formarse una idea lo más exacta posible
acerca de las características de cada variable.
Tablas de frecuencia
Una tabla o distribución de frecuencias es una forma particular de
ordenar los datos basada en los valores concretos que adopta una variable
categórica y en el número de veces que se repite cada valor. El objetivo
de una tabla de frecuencias es organizar y resumir la información.
Tipos de distribuciones de frecuencias:
• Frecuencias absolutas A partir de estas distribuciones
• Frecuencias relativas se pueden calcular también las:
• Frecuencias porcentuales Frecuencias acumuladas
La frecuencia absoluta es la representación de los datos que muestra el
número concreto de casos que tiene una variable en cada una de sus
categorías. Es decir, es la frecuencia con la que aparece cada categoría
de la variable en la base de datos.

La frecuencia relativa es la proporción de veces que se repite cada


categoría de la variable en la base de datos. Se calcula, para cada
categoría, como frecuencia absoluta / número total de casos.

6
Mateo Machín
Métodos y técnicas cuantitativas

La frecuencia porcentual es un tipo de frecuencia relativa. Es el


porcentaje de veces que se repite cada categoría de la variable en la base
de datos. Se calcula multiplicando por 100 la frecuencia relativa.

Debido a que la frecuencia relativa y porcentual ofrecen prácticamente la


misma información, se suele utilizar para describir los datos, solamente
una de ellas. Y, además, debido a que tanto la frecuencia relativa como la
porcentual se calculan a partir de las absolutas, se recomienda que las
absolutas siempre se presenten en la tabla.
Veamos ahora un ejemplo:
La siguiente tabla muestra las frecuencias obtenidas al clasificar una
muestra de n = 200 sujetos en la variable X = «tabaquismo». Se trata de
una variable categórica que toma tres valores: X1 = «fumadores», X2 =
«exfumadores» y X3 = «no fumadores».
La primera columna de la tabla recoge los tres valores de la variable. La
segunda columna muestra las frecuencias absolutas (ni), es decir, el
número de veces que se repite cada valor. La tercera columna contiene
las frecuencias relativas (Pi), las cuales se obtienen dividiendo las
correspondientes frecuencias absolutas entre el total de casos. En la
última columna se muestran las frecuencias porcentuales (%i) que se
obtienen multiplicando por 100 las frecuencias relativas.

7
Mateo Machín
Métodos y técnicas cuantitativas

La frecuencia acumulada podemos calcularla solamente para variables


categóricas con nivel de medición ordinal, es decir, en donde sus
categorías están cuantitativamente ordenadas.
La siguiente tabla ofrece la frecuencia de la variable nivel de estudios. Esta
variable es categórica, al igual que la variable tabaquismo; pero, a
diferencia de esta, el nivel de estudios es una variable ordinal.

La frecuencia absoluta acumulada (nai) recoge el número de veces que


se repite un valor más cualquier otro inferior a él. La frecuencia relativa
acumulada (Pai) se obtiene dividiendo la frecuencia absoluta acumulada
entre el número total de casos (Pa1 = na1 / n). Y la frecuencia porcentual
acumulada (%ai) se obtiene multiplicando por 100 la frecuencia relativa
acumulada (%ai = 100Pai).
Entonces, en definitiva, las distribuciones de frecuencia contienen
informaciones útiles para resumir y analizar la información, y nos indican:
➢ Cuáles son las categorías de la variable con la que estoy trabajando.
➢ Cuáles son las categorías más y menos frecuentes y qué tan
frecuentes son.
➢ En el caso de variables ordinales, cuántas personas alcanzan un
determinado valor o variables o están por encima de él.

Tabla de frecuencia bivariada


Las tablas de frecuencia bivariadas (o tablas de contingencia) se
emplean para analizar el comportamiento de los datos utilizando dos o más
variables categóricas. Se construyen combinando las categorías de todas
las variables y permiten analizar cómo se distribuye una variable en
relación a otras.
Veamos ahora un ejemplo. En la tabla 10.1 podemos observar dos tablas
univariadas, una para la variable categórica sexo y otra para la variable
categórica tabaquismo. En la tabla 10.2 se ha combinado la información

8
Mateo Machín
Métodos y técnicas cuantitativas

de los 200 sujetos mostrados en las tablas 10.1 para formar una tabla de
frecuencia bivariada con ambas variables.

En estas tablas los valores presentados corresponden con frecuencias


absolutas. Es decir que cada número corresponde con la cantidad de
individuos que pertenecen a las categorías definidas. Como ya vimos, las
frecuencias absolutas pueden convertirse a frecuencias relativas y
porcentuales dividiendo las frecuencias absolutas para cada valor de la
variable entre el número total de casos.
Por ejemplo, en la tabla 10.1 se observa que 60 son los individuos
fumadores. Considerando que de los 200 individuos evaluados fueron 60
las personas clasificadas como fumadoras, podemos decir que la
frecuencia relativa de fumadores en el grupo es 0.3, lo que corresponde
con una frecuencia porcentual de 30%.

En una tabla bivariada son relevantes las distribuciones condicionales,


es decir, qué pasa con la variable 1 si la variable 2 toma cierto valor. Un
ejemplo para las variables sexo y tabaquismo sería conocer cómo se
distribuye la variable tabaquismo en las mujeres, es decir, qué porcentaje
de mujeres fuma, qué porcentaje de mujeres no fuma y qué porcentaje de
mujeres es ex fumadora. La información sobre cómo se distribuye la
variable sexo en cada categoría de la variable tabaquismo podemos
encontrarla en los porcentajes de fila y los porcentajes de columna de

9
Mateo Machín
Métodos y técnicas cuantitativas

una tabla bivariada de porcentajes de frecuencias para estas variables


(Tabla 10.4 y Tabla 10.5)

En la tabla 10.4 se muestra los porcentajes de fila correspondiente a las


frecuencias absolutas de la tabla 10.2. Estos porcentajes indican cómo se
distribuye la variable tabaquismo en cada categoría de la variable sexo. La
última fila corresponde a las distribuciones marginales de la variable
tabaquismo, indican cuál es la distribución no condicional de la variable
tabaquismo: es decir, cuántos fumadores, no fumadores y ex fumadores
hay en total sin importar el sexo de los individuos.
La tabla 10.5 muestra los porcentajes de columna correspondientes a las
frecuencias absolutas de la tabla 10.2. Estos porcentajes indican cómo se
distribuye la variable sexo en cada categoría de la variable tabaquismo.
Los porcentajes marginales de las filas (la última columna) contienen la
distribución no condicional de la variable sexo; estos porcentajes indican
que hay un 47% de hombres y un 53% de mujeres independientemente
del valor de tabaquismo.
A modo de conclusión:
“Los datos, aún los más objetivos, se obtienen por la aplicación de
estadísticas que implican supuestos teóricos y, por lo mismo, dejan
escapar información que hubiera podido captar otra construcción de los
hechos” (Pierre Bourdieu, 1973).

10
Mateo Machín
Métodos y técnicas cuantitativas

Unidad 3: Variables categóricas II


Gráficos para variables categóricas
Los informes sobre los resultados de un análisis descriptivo raramente se
limitan a presentar la información numérica de una tabla de frecuencias; lo
habitual es acompañar esa información numérica con algún gráfico que
permita formarse una impresión rápida de lo que está ocurriendo. Los
gráficos más utilizados y apropiados con variables categóricas son los de
barra (ideales para nivel ordinal) y los de sectores (ideales para nivel
nominal). Ambos ofrecen la misma información, pero con distinto aspecto.
Un gráfico de barras se construye sobre un plano definido por dos ejes:
en el eje horizontal se colocan valores de la variable; en el vertical, las
frecuencias; y sobre cada valor se levanta una barra de altura proporcional
a su frecuencia.
Cuando se construyen gráficos de barras hay que tomar algunas
precauciones para no distorsionar la información que se está ofreciendo.
En primer lugar, debe evitarse cortar el eje vertical, pues, si no representa
toda su altura, la diferencia entre las barras puede resultar engañosa.
En segundo lugar, es muy desaconsejable sustituir las barras por figuras
o dibujos de aquello que se quiere representar; la razón de esto es que los
dibujos correspondientes a las frecuencias más altas no solo son más altos
sino, además, más anchos, con lo que el área que ocupan es
sensiblemente mayor que su correspondiente frecuencia.
Según tendremos ocasión de comprobar, los gráficos de barras no solo
son útiles para representar variables categóricas; también lo son para
representar variables cuantitativas discretas cuando estas toman solo
unos pocos valores (por ejemplo, número de hijos).

11
Mateo Machín
Métodos y técnicas cuantitativas

Una herramienta alternativa para representar variables categóricas es el


gráfico de sectores. Se construye dividiendo un círculo en tantos
sectores como valores distintos toma la variable representada y asignando
a cada valor un sector de tamaño proporcional a su frecuencia.
En general, un gráfico de sectores no permite comparar el tamaño de los
sectores con la misma facilidad que lo hace un gráfico de barras. Y pierde
eficacia cuando la variable tiene muchas categorías. No obstante, tiene
una interesante ventaja que es posible, en caso de que se considere
conveniente, destacar un sector separándolo del resto.

12
Mateo Machín
Métodos y técnicas cuantitativas

Tendencia central y dispersión


Además de sistematizar los datos a través de distribuciones de frecuencias
y gráficos, algunos estadísticos descriptivos complementan una buena foto
de matriz con estadísticos de tendencia central y de dispersión.
Tendencia central
La tendencia central son medidas estadísticas que pretenden resumir en
un solo valor a un conjunto de valores. Representan un centro en torno al
cual se encuentra ubicado el conjunto de los datos. Las medidas de
tendencia central más utilizadas son: media, mediana y moda. Pero para
variables categóricas solo tiene sentido conocer esta última.
La moda es el valor con mayor frecuencia en mi base de datos y coincide
con una de las puntuaciones en dicha base de datos. Es decir, es el valor
que se repite más veces, la categoría que se repite más veces. El cálculo
de la moda proviene de la suma de las veces de cada valor o categoría.
Veamos un ejemplo.

La moda en esta distribución es la categoría mujer, puesto que es la que


más se repite dentro de todas las categorías. Entonces, en una tabla
podemos conocer cuál es la moda de esa distribución. Lo mismo sucede
a través de un gráfico.

13
Mateo Machín
Métodos y técnicas cuantitativas

Dispersión
Los estadísticos de dispersión de una distribución de datos me informan
sobre qué tan concentradas o alejadas están las puntuaciones del centro
de dicha distribución.
En el caso de los datos categóricos lo que me informan estos estadísticos
es qué tan heterogéneas son las puntuaciones, es decir, qué tanto varían
la distribución de las categorías. Se calculan examinando los porcentajes
y concentración de los datos.
Una forma de cuantificar esa dispersión es a través del Índice de
Variación Cualitativa (IVC). Este índice expresa el grado en que los casos
están dispersos en las diferentes categorías de las variables. Tiene un
valor máximo de 1 y un valor mínimo de 0.
• Cuanto más cercano al 1, mayor igualdad de las frecuencias
relativas (distribución uniforme). Ejemplo: Igual proporción de
fumadores, de exfumadores y de no fumadores.
• Cuanto más cercano al 0, menor igualdad de frecuencias relativas
(distribución con dispersión nula). Ejemplo: Todos fumadores,
ningún exfumador y ningún no fumador.

No es necesario aprenderse esta


fórmula, no será utilizada en
ningún parcial o examen. Solo se
muestra de manera ilustrativa.

Ejemplos de aplicación del IVC:


1. ¿Ha recibido alguna orientación a cerca de la educación sexual por parte
de sus padres?
Frec. Rel.
Sí 0,56
No 0,43
Presenta una distribución uniforme.

14
Mateo Machín
Métodos y técnicas cuantitativas

2. ¿Recibe apoyo emocional y económico por parte del padre de su hijo?


Frec. Rel.
Sí 0,76
Es una distribución casi uniforme. No 0,23

3. ¿Planeó con anticipación su embarazo?


Frec. Rel.
Sí 0
No 1

No es una distribución uniforme.

15
Mateo Machín
Métodos y técnicas cuantitativas

Unidad 4: Variables numéricas I


Cuantiles
Los cuantiles son medidas de posición que sirven para organizar y
resumir la información de una variable y clasificar a un individuo dentro de
un conjunto de datos.
Los cuantiles dividen el conjunto de medidas (ordenadas) en partes
iguales:
➢ Mediana: un valor que divide la distribución en 2 partes iguales.
➢ Cuartiles: tres valores que dividen la distribución en 4 partes iguales.
➢ Quintiles: cuatro valores que dividen la distribución en 5 partes iguales.
➢ Deciles: nueve valores que dividen la distribución en 10 partes iguales.
➢ Percentiles: noventa y nueve valores que dividen la distribución en 100
partes iguales.
El concepto de cuantil está estrechamente asociado al de frecuencia
porcentual acumulada. La mediana, por ejemplo, es el valor que acumula
el 50% de los casos; el primer cuartil (Q1) es el valor que acumula el 25%
de los casos; el octavo decil (D8) es el valor que acumula el 80% de los
casos; etc. Conviene advertir, sin embargo, que los cuantiles no son
porcentajes, sino valores de la variable. Si se está trabajando con la
variable edad, un cuantil es una edad.
Mediana
La mediana es el valor de la variable que divide al total de las medidas
(ordenadas) en dos partes iguales. Por encima de la mediana se encuentra
el 50% de los casos, por debajo de la mediana se encuentra el otro 50%.

El primer paso es ordenar


los valores de la variable de
una base de datos de menor
a mayor.

16
Mateo Machín
Métodos y técnicas cuantitativas

4 casos
y medio

La edad mediana de este


grupo es 27 años.

4 casos
y medio

Cuartiles
Los cuartiles (Q) son los tres valores de la variable que dividen al total de
las medidas (ordenadas) en cuatro partes iguales.

Q1: 21 años

Q2: 27,5 años

Q3: 37,5 años

17
Mateo Machín
Métodos y técnicas cuantitativas

Quintiles
Los quintiles son los cuatro valores de la variable que dividen al total de
las medidas (ordenadas) en cinco partes iguales.

Quintil 1: 21 años

Quintil 2: 25,2 años

Quintil 3: 32,8 años

Quintil 4: 40,8 años

Como estamos utilizando una base de datos de ejemplo, que es muy


pequeña, se pueden calcular los cuantiles “a ojo”. Sin embargo, cuando se
trabaja con una gran base de datos, se utiliza una fórmula para calcular
los cuantiles. La lógica de ambos procedimientos es la misma, la diferencia
es que realizando el cálculo matemático se obtiene valores más exactos
de la variable que dividen al total de las medidas (ordenadas) en partes
exactamente iguales.

18
Mateo Machín
Métodos y técnicas cuantitativas

Otra forma de considerar los cuantiles es considerarlos como los grupos


de puntuaciones.

Esta forma de considerar los cuantiles no se trata de medidas, sino de


una variable categórica construida a partir de esas medidas.

19
Mateo Machín
Métodos y técnicas cuantitativas

Representación gráfica: diagrama de cajas


El diagrama de cajas es un ingenioso gráfico que permite formarse una
idea muy rápida sobre las tres propiedades esenciales de una distribución:
centro, dispersión y forma.
Este diagrama permite conocer:
➢ Posición de la mediana.
➢ Posición del primer y tercer cuartil (percentiles 25 y 75).
➢ Grado de asimetría de la distribución de la variable.
➢ Rango total de la variable y el rango intercuartil.
➢ Existencia o no de valores extremos.

20
Mateo Machín
Métodos y técnicas cuantitativas

Un ejemplo de diagrama de caja:

21
Mateo Machín
Métodos y técnicas cuantitativas

Unidad 5: Variables numéricas II


Tendencia central y dispersión
Tipos de estadísticas o medidas

• Media → Suma de todos los datos dividido entre la cantidad de los


mismos (promedio).
• Moda → Dato que más se repite.
• Mediana → Dato central.

Tendencia central
Una buena manera de identificar el centro de una variable consiste en
elegir el valor que mejor representa al resto de valores. Anteriormente
habíamos elegido como mejor representante de una variable categórica el
valor que más se repite, es decir, la moda. Pero en una variable
cuantitativa o numérica se dan muy pocas repeticiones y el valor que más
se repite no tiene por qué estar en el centro; consecuentemente, la moda
puede resultar engañosa.
El centro de una variable cuantitativa, entonces, hay que intentar
encontrarlo de otra manera. Y lo cierto es que existen diferentes formas de
hacerlo; todo depende de qué aspectos de la variable se consideren
relevantes.

22
Mateo Machín
Métodos y técnicas cuantitativas

Media
La media es, sin duda, el estadístico de tendencia central más utilizado.
Se define como la suma de todas las puntuaciones dividida por el número
de puntuaciones.

= 508 / 5 = 101.6
= 693 / 6 = 115.5

Como centro de la distribución que es, la media está identificando el valor


de la distribución en torno al cual cabe esperar encontrar más valores.
Pero, por sí sola, tiene una capacidad descriptiva bastante limitada. Por un
lado, el valor de la media no dice nada acerca de lo bien o mal que está
representando al resto de valores; para saber algo sobre esto hace falta
recabar información adicional relacionada con el grado de dispersión del
conjunto de valores. Por otro lado, el hecho de que en el cálculo de la
media intervengan todos los valores hace de ella un estadístico muy
sensible a la presencia de asimetría en la distribución, es decir, a la
presencia de valores muy alejados del centro por uno de los dos extremos
de la distribución.

23
Mateo Machín
Métodos y técnicas cuantitativas

Dispersión
Describir un conjunto de datos a partir de un solo número conlleva,
obviamente, una importante pérdida de información: un estadístico de
tendencia central informa sobre el centro de la distribución, pero no dice
nada sobre el resto de los valores. La consecuencia de esta limitación es
que un mismo valor puede ser el centro de conjuntos de datos muy
diferentes.
Los estadísticos de dispersión nos permiten conocer el grado de
alejamiento que existe entre las diferentes observaciones. Esto es
particularmente útil cuando trabajamos con la media que es un estadístico
poco robusto, como vimos momentos atrás.
La dispersión es un concepto esencialmente positivo: pueden todos los
valores ser iguales y, consecuentemente, no existe dispersión (en cuyo
caso no estaríamos hablando de una variable sino de una constante), o
unos valores son distintos de otros y, consecuentemente, existe dispersión
(en cuyo caso se puede cuantificar si es baja, media o alta; pero nunca
podría ser negativa).

Rango o amplitud
El estadístico de dispersión más simple de todos consiste en calcular la
diferencia entre el valor más grande y el valor más pequeño. A esta
diferencia se la llama rango o amplitud.

24
Mateo Machín
Métodos y técnicas cuantitativas

Varianza
La varianza es el promedio de las desviaciones cuadráticas de la media,
es decir, el promedio de las desviaciones de la media elevadas al
cuadrado. Se trata, por tanto, de una media de cuadrados o media
cuadrática.

Podemos ver cómo la variabilidad dentro de estos tres conjuntos de datos


es muy diferente. Aunque su tendencia central, medida a través de la
media, es la misma.
Así, cuando analizamos la tendencia central de un conjunto de datos, es
importante tener en cuenta también su valor de dispersión.

25
Mateo Machín
Métodos y técnicas cuantitativas

Desviación típica
La varianza no permite formarse una idea acertada del grado de dispersión
de una variable. Por esta razón, lo que suele hacerse es utilizarla raíz
cuadrada de la varianza. A este valor se le llama desviación típica.

26
Mateo Machín
Métodos y técnicas cuantitativas

Histogramas
Entre los gráficos disponibles para describir la forma de la distribución de
una variable cuantitativa, los más utilizados son: el histograma, el polígono
de frecuencias, el diagrama de tallo y hojas, y el diagrama de caja.
El histograma consiste en una representación gráfica de la distribución de
frecuencias de una variable cuantitativa continua en un gráfico con forma
de barras. El histograma es parecido entonces al gráfico de barras, pero
con las barras juntas, dando así una impresión de continuidad. Se
constituye sobre el plano definido por dos ejes cartesianos: en el eje
horizontal se colocan los valores de la variable ordenados de menor a
mayor (comenzando por la izquierda), en el eje vertical se colocan las
frecuencias (número de veces que se repite cada valor) y sobre cada valor
se levanta una barra de altura proporcional a su frecuencia.

27
Mateo Machín
Métodos y técnicas cuantitativas

28
Mateo Machín
Métodos y técnicas cuantitativas

Resumen esquemático de lo abordado

29
Mateo Machín
Métodos y técnicas cuantitativas

Unidad 6: Puntuaciones Z y distribución normal


Puntuaciones Z
Introducción y conceptos claves
Las puntuaciones Z (también llamadas puntuaciones típicas o
puntuaciones estandarizadas) son transformaciones que se realizan a los
valores o puntuaciones directas de una distribución normal para analizar
su distancia respecto a la media. Se expresan en unidades de desviación
estándar.
Así, la puntuación Z representa el número de desviaciones típicas o
estándar por encima o por debajo de la media. Forman una distribución
que siempre tiene el mismo centro, la misma dispersión y la misma
métrica. La puntuación Z solo se aplica en variables cuantitativas.
Repasemos algunos de estos conceptos vistos anteriormente:
• Puntuaciones directas: Valor de la variable asignado a un sujeto a
partir de la mediación de una propiedad (por ejemplo, inteligencia).
• Media: Promedio de las puntuaciones directas de una distribución.
• Desviación estándar o típica: Promedio o variación esperada con
respecto a la media de la distribución (la raíz cuadrada de la
varianza).
Utilizamos las puntuaciones Z para comparar puntuaciones de diferentes
distribuciones: diferente métrica, diferente centro (media) y diferente
dispersión. Por ejemplo, cuando quiero comparar las puntuaciones de una
persona en pruebas diferentes o que midan el mismo concepto a través de
dos pruebas diferentes.
Ahora bien, los centiles también permiten comparar las puntuaciones de
diferentes distribuciones. Calculando percentiles, las puntuaciones
directas (cualquiera sea su métrica) se transforman en posiciones relativas
que pasan a tener el mismo centro (la media, el percentil 50), la misma
dispersión (de 0 a 100) y la misma métrica (unidades porcentuales). Pero
esta forma de comparar convierte la métrica original en ordinar, alterando
la forma de la distribución. Para eso se pueden utilizar las puntuaciones
típicas
¿Cómo calculo las puntuaciones Z?

Puntuación directa – Media población de referencia


Z=
Desviación típica población de referencia

30
Mateo Machín
Métodos y técnicas cuantitativas

Veamos ahora un ejemplo:


Distribución a través de puntuaciones directas

Si queremos comparar la puntuación de 4 en lenguaje, matemática y


filosofía no podríamos hacerlo. ¿Por qué? Porque nuestra distribución
tiene diferente media y diferente desvío estándar o típico.
Veamos ahora un ejemplo utilizando puntuaciones típicas.
Comparación de puntuaciones directas y típicas

31
Mateo Machín
Métodos y técnicas cuantitativas

En las puntuaciones directas, observamos que la media es diferente (6, 4,


6). Sin embargo, en las puntuaciones típicas observamos que la media es
la misma (0, 0, 0). Entonces, un 6 de puntuación en lenguaje, un 4 en
matemática y un 6 en filosofía (que son 3 puntuaciones que están en el
entorno de la media de cada una de esas distribuciones) tienen una
puntuación típica de 0. Y los desvíos que eran diferentes en las
puntuaciones directas ahora tienen el mismo valor de 1 en las
puntuaciones típicas.
Ahora, ¿qué pasa cuando tenemos puntuaciones que se alejan del valor
de la media? Por ejemplo, 7.4 en lenguaje, 2.8 en matemática y 4.8 en
filosofía. Entonces, en las puntuaciones típicas, observamos que el 7.4
está a 1.3 desvíos de la media, 2.8 está a -0.2 desvíos de la media y 4.8
está a -1.1 desvíos de la media.

Entonces, las puntuaciones Z obtenidas forman una distribución que


siempre tiene el mismo centro (0), la misma dispersión (1) y la misma
métrica (desviaciones típicas), por lo que se pueden comparar.
Representan el número de desviaciones típicas o estándar por encima o
por debajo de la media.
En el ejemplo:
• Puntuación directa = 7,4 en la prueba de lenguaje (M=6, Dt=1,1)
• Puntuación Z = 1,3 → (7,4 – 6) / 1,1
• Esta puntuación Z me dice que está 1,3 Dt por encima de la media.

32
Mateo Machín
Métodos y técnicas cuantitativas

Distribución normal
Gráfica de puntuaciones directas

Tomemos, como ejemplo, la prueba de filosofía. ¿Qué sucede cuando


graficamos las puntuaciones Z de la prueba de filosofía?

33
Mateo Machín
Métodos y técnicas cuantitativas

Cuando transformamos los datos en puntuaciones Z, la forma de la


distribución se mantiene. Es decir, cuando calculo las puntuaciones Z
cambia el centro y la dispersión en relación a la distribución de las
puntuaciones directas, pero la forma se mantiene inalterada (es decir,
sigue siendo una distribución normal).

La distribución de puntuaciones Z tiene una forma de “Campana de


Gauss”. Esta distribución teórica es la más importante en estadística,
puesto que es la más frecuente, la más usada en test de hipótesis y
muchos test estadísticos asumen que la distribución de los datos es
normal.
Entonces, cuando tenemos una distribución normal, podemos aplicar
algunas reglas que nos facilitan el análisis de datos. La más importante:
• En una variable continua, el área bajo la curva me da la probabilidad
de un intervalo de valores.

34
Mateo Machín
Métodos y técnicas cuantitativas

• El 68% de los valores está comprendido entre -1 y 1.


• El 95% de los valores está comprendido entre -2 y 2.
• El 99,7% de los valores está comprendido entre -3 y 3.

35
Mateo Machín
Métodos y técnicas cuantitativas

Unidad 7: Población y Muestra


Población y Muestra
Uno de los objetivos fundamentales del análisis de datos es el de extraer
conclusiones de tipo general a partir de unos pocos datos particulares.
A este salto de lo particular a lo general es a lo que llamamos inferencia
estadística. Para esto es preciso utilizar procedimientos que permitan
realizar de forma correcta esta generalización. Las técnicas de muestreo
son las responsables de garantizar que la inferencia se sustenta en una
buena base y los análisis de datos engloban las herramientas que
permiten desarrollar correctamente las inferencias.
Población
Una población corresponde con un conjunto de elementos (sujetos,
objetos, entidades abstractas) que poseen una o más características en
común. De forma general, el término población se utiliza para referirse al
conjunto total de elementos que interesa estudiar y queda definida cuando
se explicitan las características que esos elementos comparten.
Muestra
Una muestra es un subconjunto de elementos de una población. En
comparación con las poblaciones, las muestras suelen ser conjuntos de
tamaño más reducido. Para describir las propiedades de una determinada
población con exactitud, necesitaríamos examinar todos los elementos
que la componen. Sin embargo, dado que las poblaciones son muy
grandes y generalmente no es posible acceder a todos sus elementos, las
muestras proporcionan información necesaria para describir las
propiedades de interés de la población en estudio.
El punto clave, para que las conclusiones obtenidas sean válidas, es que
la muestra utilizada debe ser representativa de la población que se supone
representa, esto se logra a través de las técnicas de muestreo.
Parámetros y estadísticos
Un parámetro es un valor numérico que describe una característica
poblacional. Tomemos como ejemplo el caso de los varones uruguayos
entre 20 y 30 años de edad. Se trata de una población ya que corresponde
a un conjunto de sujetos que comparten alguna propiedad: sexo y rango
de edad en este caso. Suponiendo que tenemos acceso a la población
entera, podemos medir la altura de cada sujeto de esa cantidad de
individuos. Si calculamos el promedio de esos valores numéricos
habremos definido un parámetro poblacional, tendremos un valor

36
Mateo Machín
Métodos y técnicas cuantitativas

numérico que describe una característica de la población: la altura media


de los varones uruguayos de entre 20 y 30 años.
Los parámetros son generalmente valores poblacionales desconocidos ya
que no se suele tener acceso a todos los elementos que la conforman.
Asimismo, se tratan de valores numéricos constantes en el sentido que
son valores únicos, no varían. Definida una población cualquiera y un
parámetro en ella, ese parámetro sólo puede tomar un valor numérico
concreto en un momento dado. La altura promedio de varones en la
población es un valor único.
Un estadístico es un valor numérico que describe una característica
muestral. Un estadístico es a la muestra lo que un parámetro es a la
población. Al igual que para una población, una vez definida una o más
características en las que no todos los elementos coinciden, es posible
obtener un valor numérico que las describa: a ese valor numérico se le
llama estadístico. Es posible entonces, tomar un subconjunto de la
población de varones uruguayos de entre 20-30 años y medir su altura. El
promedio de la altura obtenido para esa muestra será un estadístico.
No es posible calcular los parámetros, pero cada parámetro poblacional
posee su réplica muestral en un estadístico concreto que sí puede ser
calculado. De este modo, los estadísticos muestrales se van a utilizar para
intentar formarnos una idea sobre los verdaderos valores de sus
correspondientes parámetros poblacionales desconocidos. Este proceso
que consiste en atribuir a un parámetro el valor que toma su
correspondiente estadístico se conoce con el nombre de estimación.
Es importante notar que dada una población cualquiera es posible extraer
más de una muestra diferente del mismo tamaño. Esto significa que,
definido un estadístico, cualquiera que este sea, su valor exacto
dependerá de los valores concretos que tomen cada uno de los elementos
que formen parte de la muestra obtenida. Si para cada muestra posible
calculamos un determinado estadístico encontraremos que el valor de ese
estadístico no siempre es el mismo; es decir, encontraremos que el valor
del estadístico varía de una muestra a otra. Esto significa que un
estadístico no es un valor numérico constante (como lo es un parámetro),
sino que es una variable.
A modo de resumen:
• Un parámetro es un valor poblacional, un estadístico es un valor
muestral.
• Un parámetro es un valor desconocido. Un estadístico es conocido.
• Un parámetro es un valor numérico constante. Un estadístico es una
variable.

37
Mateo Machín
Métodos y técnicas cuantitativas

Muestreo
El muestreo se refiere al proceso seguido para extraer una muestra de
una población. El muestreo puede ser de dos tipos: probabilístico y no-
probabilístico. En el probabilístico se conoce la probabilidad de que salga
cada muestra y cada elemento, en el no-probabilístico se desconocen
dichas probabilidades.
Un subtipo de muestreo probabilístico es el muestreo aleatorio. En el
muestreo aleatorio todos los elementos poblacionales tienen la misma
probabilidad de ser elegidos, y el resultado de cada extracción no afecta
ni depende del resultado de cualquier otra, es decir son independientes
entre sí.
Es importante destacar que, dado que las poblaciones con las que
trabajamos son desconocidas, no hay manera de saber si la muestra
elegida es representativa o no de la población muestreada. Lo que
podemos saber es si se ha utilizado un método de selección que garantiza
que la muestra elegida sea representativa de la población.

38
Mateo Machín
Métodos y técnicas cuantitativas

Distribución muestral
La distribución muestral es un constructo teórico que nos permite
conocer de qué forma y qué tanto varían las medias muestrales. Uno de
los estadísticos más útiles y utilizados en el contexto de la inferencia
estadística es la media aritmética. En tanto es un estadístico, su valor
concreto depende de la muestra concreta en la que se calcula. Si en cada
una de esas muestras calculamos la media aritmética, podremos
comprobar que no siempre toma el mismo valor, sino que varía de una
muestra a otra. La discrepancia entre los valores que toma el estadístico
en las muestras y el valor real del parámetro que nos interesa saber se
denomina error. Pueden llegar a variar bastante (por ejemplo, oscilar entre
18 y 26 puntos de una escala cuando en realidad la media poblacional es
de 22). Esta variabilidad se captura en un parámetro llamado error
estándar.
Entonces, ¿cómo se reduce el error?

Las muestras erran tanto por arriba como por debajo, así el promedio de
muchísimas muestras es justamente la media poblacional y el desvío de
esta distribución es justamente cuánto suelen errarle en promedio cada
una de esas muestras. Por eso el desvío estándar de la distribución
muestral se conoce como error estándar.
Error estándar
Un error estándar grande significa que las medias muestrales erran por
mucho a la media poblacional. Como casi siempre tengo una única
muestra, mi media muestral puede estar cerca o lejos del valor que quiero
estimar. Para que esto no ocurra se busca reducir el error estándar.

39
Mateo Machín
Métodos y técnicas cuantitativas

El error estándar es simplemente un cociente entre dos números,


podemos pensarlo como un balance entre dos fuerzas que tiran en
direcciones opuestas.
La fórmula del error estándar es:

Tenemos por una parte el desvío poblacional que tiende a aumentar al


error estándar, y por otra parte el tamaño de la muestra que, cuando
aumenta, reduce el error estándar.
Si el desvío de la población es grande, la muestra también tendrá que se
grande si quisiéramos mantener un error estándar bajo o constante. Si por
el contrario el desvío de la población es bajo, con una muestra pequeña
alcanzará.
Pero, tenemos un problema. El desvío poblacional es un parámetro, y
recordemos que los parámetros usualmente no son conocidos y se
debería hacer un censo para conocerlos. Entonces, no conocemos ese
valor para aplicar a la ecuación.

40
Mateo Machín
Métodos y técnicas cuantitativas

La solución es que puedo estimar ese valor de desvío poblacional con el


desvío de la muestra que es un estadístico.

El desvío de la muestra va a variar según la muestra, pero es lo mejor que


podemos hacer, no vamos a conocer el error estándar, pero sí lo podemos
estimar. Esta estimación del error la podemos calcular. Veremos cómo se
usa en la siguiente unidad.

41
Mateo Machín
Métodos y técnicas cuantitativas

Unidad 8: Intervalos de confianza


Estimación de parámetros: Intervalo de confianza
La estimación de parámetros se refiere al proceso mediante el cual la
información muestral es utilizada para inferir valores poblacionales.
Podemos llevar a cabo dos tipos de estimaciones: puntual y por intervalos.
La estimación puntual corresponde con asignar un valor muestral
concreto al valor poblacional que se desea estimar. Un buen estimador
deberá ofrecer en promedio estimaciones correctas. Asimismo, un
estimador es eficiente cuanto menor sea su varianza. En la estimación
puntual el valor que tome el estadístico en una muestra no tiene por qué
coincidir con el valor del parámetro estimado. Debido a la variación
muestral, siempre existe la posibilidad de encontrar discrepancias entre
estos dos valores, a esto se le llama error muestral. Utilizando la
estimación puntual, no es posible conocer la magnitud del error, pero si es
posible si recurrimos a la estimación por intervalos. Esta forma de
inferencia, consiste en asignar al parámetro que se desea estimar, no un
valor concreto, sino un rango de valores entre los que se espera que pueda
encontrarse el verdadero valor del parámetro con una probabilidad
conocida.
¿Qué sabemos para construir un rango?
1. Que la distribución muestral
de la media se aproxima a
una distribución normal.
2. Que en una distribución
normal hay un 95% de
probabilidades de que los
valores caigan entre ± 2
desvíos estándar de la
media.
3. Entonces, hay un 95% de
probabilidades de que la
media muestral (x̄) caiga a ± 2 errores estándar (σ) de la media
poblacional (µ).

42
Mateo Machín
Métodos y técnicas cuantitativas

Pero, quiero un rango alrededor de la media muestral, redondeo:


Al rango de valores que
se asigna al parámetro
se le llama Intervalo de
Confianza (IC), y a los
extremos del intervalo se
les llama límites de
confianza: límite inferior
y límite superior. Esto
permite conocer la
probabilidad con la que
cabe esperar que el
intervalo construido incluya el verdadero valor del parámetro estimado.
Pongamos un ejemplo: Una muestra aleatoria de 100 estudiantes
universitarios responde a una prueba de comprensión lectora (X), en la
que se obtiene una media de 80 y una desviación típica de 10.
¿En qué límites cabe esperar que se encuentre la verdadera comprensión
electora media de los estudiantes universitarios, con un nivel de confianza
de 0,95?
IC = x̄ ± 2σ
IC = 80 ± 2σ
𝑆
IC = 80 ± 2
√n
10
IC = 80 ± 2 IC = 78 – 82
√100
10
IC = 80 ± 2
10

IC = 80 ± 2
Estimamos, con una confianza del 95%, que el verdadero valor del
parámetro estimado se encuentra entre los límites del intervalo construido.
Esto significa que de cada 100 intervalos que se construyan en las mismas
condiciones, 95 de ellos incluirán el verdadero valor del parámetro,
mientras que 5 de ellos no lo harán.

43
Mateo Machín
Métodos y técnicas cuantitativas

Unidad 9: Prueba de hipótesis


¿Qué son las pruebas de hipótesis?
Una prueba de hipótesis es un proceso de decisión en el que una
hipótesis formulada en términos estadísticos es puesta en relación con los
datos empíricos para determinar si es o no compatible con ellos.
Las pruebas de hipótesis permiten decidir si el grado de asociación entre
variables o la diferencia entre grupos es estadísticamente significativa.
Elementos básicos
1. Hipótesis.
2. Datos.
3. Estadístico con una determinada distribución muestral.
4. P valor.
¿Qué es una hipótesis estadística?
El primer paso del proceso de verificación de una hipótesis consiste en
formular estadísticamente la hipótesis científica que se desea contrastar;
es decir, en transformar la hipótesis científica en hipótesis estadística.
Esta hipótesis estadística se divide en dos:
Hipótesis nula (H0) Hipótesis alternativa (H1)

Es la negación de la hipótesis Contiene la hipótesis científica o


científica o de investigación. de investigación.

Ejemplo: Ejemplo:
H0: π ≤ 0,5 H1: π > 0,5

La relación entre la hipótesis nula y alternativa suelen plantearse como


hipótesis rivales, son mutuamente excluyentes y el signo = siempre va en
la hipótesis nula, que es la que se somete a contraste.
Estadístico del contraste
Recordemos que el estadístico es un valor numérico que refiere a la
característica de la muestra, mientras que el parámetro refiere a la
característica de la población.
El estadístico se va a referir a la afirmación establecida en la hipótesis nula
y tiene que tener una distribución muestral conocida.

44
Mateo Machín
Métodos y técnicas cuantitativas

P Valor
El P Valor es la probabilidad de haber obtenido mis datos, si la hipótesis
nula fuera verdadera.
Si la probabilidad de haber obtenido mis datos en una distribución es
suficientemente pequeña, entonces es improbable que la hipótesis nula
sea verdadera y decido rechazarla; y si mi probabilidad es más grande,
mantengo la hipótesis.
Ahora bien, ¿cuán pequeña? El criterio de este valor se llama alfa. Su
valor es arbitrario, pero en psicología y en ciencias sociales suele usarse
un valor de 5% (0,05) o 1% (0,01).
Veamos un ejemplo:
Pickle Rick, ¿puede adivinar lo que estás pensando?
• Hipótesis: H0: π ≤ 0,5; H1: π > 0,5
• Estadístico: Cantidad de aciertos o proporción.
• Valor estadístico: 32 aciertos (o proporción: 0,64).
• Distribución muestral: Binomial (50 ensayos; 0,5 probabilidad de
acierto).
• P valor: 0,003
• Alfa: 0,05

Entonces: 0,03 < 0,05


Por tanto, rechazo la hipótesis nula.

45

También podría gustarte