Está en la página 1de 28

Medidas de dispersión: rango, varianza y desviación estándar, coeficiente de variación

(no confundir con coeficiente de determinación), la amplitud intercuartil

Unidad 1 - Introducción. Tipos de variable


¿Qué son los métodos cuantitativos?
Es un método de investigación que se fundamenta en la medición de variables mediante el uso de
un sistema numérico, el análisis de estas mediciones mediante el uso de modelos estadísticos, y el
reporte de las relaciones y asociaciones entre las variables estudiadas.
Por ejemplo, estas variables pueden ser puntajes de tests o mediciones de tiempo de reacción. El

OM
objetivo de reunir los datos cuantitativos es entender, describir, y predecir la naturaleza de un
fenómeno, particularmente mediante el desarrollo de modelos y teorías.

Estadística descriptiva e inferencial


En las ciencias empíricas, se busca encontrar relaciones generales (leyes) que expliquen el
comportamiento de un fenómeno de interés. No Podemos conocer todas las instancias de ese

.C
fenómeno. Las conclusiones sobre lo que ocurrirá con la totalidad de un evento se extrae a partir
de la observación de unos pocos. Ir de lo que se observa en un conjunto reducido a afirmar que eso
es válido para el total de observaciones es la inducción o generalización inductiva.
DD
Estadística: Es la ciencia recoge, ordena y analiza los datos de una muestra extraída de una
determinada población, para hacer inferencias acerca de esa población valiéndose del cálculo de
probabilidades.
Se subdivide en : estadística descriptiva y estadística inferencial.
La estadística descriptiva : una serie de procedimientos diseñados para describir la información
contenida en un conjunto de datos (muestra). Resume y organiza datos.
LA

La estadística inferencial (también llamada inductiva) engloba una serie de procedimientos que
permiten generalizar (inferir, inducir) la información contenida en ese conjunto particular de datos
(muestra) al conjunto total de datos (población); es decir extraer información y elaborar
conclusiones.
FI

Variables: Representación numérica de una característica sometida a medición.


Son características que pueden ser medidas y que en cada medición pueden cambiar (variar).

En los análisis cuantitativos de datos, los datos corresponden esencialmente con números.


Esto significa que para analizar es práctico asignar números a las características de las personas,
objetos, lugares, etc., que se quiere estudiar. Qué representan los números asignados a los
distintos valores de una variable depende de la variable que estamos midiendo.
Existen dos tipos de variables: categóricas y cuantitativas.

Variables categóricas
Una variable categórica es una variable que puede tomar un conjunto de valores posibles,
asignando cada observación a un grupo o categoría nominal de acuerdo con una propiedad de
interés. Un ejemplo: especie (no vamos a encontrar un organismo mitad perro mitad ratón).
Las variables categóricas pueden clasificarse en nominales u ordinales.
La medida nominal consiste en clasificar en categorías a los sujetos u objetos de una misma
categoría sean equivalentes en la característica que se está midiendo.

1
Este archivo fue descargado de https://filadd.com
Los sujetos u objetos asignados a categorías diferentes se consideran cualitativamente distintos. La
especie es un ejemplo de variable nominal.
La medida ordinal: asignar a los sujetos u objetos medidos un número que permita ordenarlos
según la cantidad que poseen de la característica medida.
En la escala ordinal ésta presente la relación de igualdad-desigualdad propia de la escala nominal, y
los números asignados permiten saber si la cantidad de característica que posee un sujeto u objeto
es mayor que o menor que la que tiene otro sujeto u objeto, pero sin decir en cuanto varían. Por
ejemplo, resultado de una carrera, primero segundo tercero.

Variables cuantitativas

OM
Se clasifican en DISCRETAS o CONTINUAS y DE INTERVALO o RAZÓN.
Variable Continua: puede tomar cualquier valor de la escala de medición que estamos usando, es
decir, que entre dos valores consecutivos siempre es posible encontrar un valor intermedio; Ej:
edad, tiempos de reacción.
Variable Discreta: cuando entre dos valores consecutivos no puede darse un valor intermedio. Ej:
número de hijos.
Variable Cuantitativa de Intervalo: cuando intervalos iguales en una escala representan

.C
diferencias iguales en la propiedad que estamos midiendo.
Un objeto al que se le asigna un 12, tiene 2 unidades más que un objeto al que se le asigna 10. Lo
mismo que uno de 6 y uno de 4. Entre 12 y 10 hay la misma diferencia que entre 6 y 4.
DD
Las variables de intervalo no poseen un cero absoluto, es decir no existe un valor que indique
ausencia de esta propiedad. Ej: temperatura, 0 no indica que no hay temperatura.
Variable Cuantitativa de Razón: añade a la de intervalos la presencia del cero absoluto. Es decir, el
cero de una escala de razón indica ausencia total de la característica medida.
Ej: peso, edad, tiempos de reacción
LA

VARIABLES CATEGORICAS
Cuando la variable es categórica, cada opción de respuesta se llama categoría o valor de
la variable (ej: sexo: H M otros)
FI

Para variables numéricas (ej EDAD) cada opción de respuesta se llama VALOR o NIVEL
DE LA VARIABLE. En la base de datos, cada respuesta es un CASO.
Para ordenar la base de datos hay que resumir todas las respuestas de una encuesta. Se
resume con herramientas para variables categóricas.


Una herramienta son las distribuciones de frecuencias: frecuencias absolutas, relativas y


porcentuales. A partir de estas también se pueden calcular las frecuencias acumuladas.

Unidad 2 - Tablas uni y bivariadas


Tablas de frecuencia
Tabla de frecuencias: es una forma específica de ordenar los datos basada en valores que adopta
una variable categórica y en el número de veces que se repite cada valor.
El objetivo de una tabla de frecuencias es organizar la información y resumirla.

Una tabla de frecuencia de variables categóricas puede presentar:

2
Este archivo fue descargado de https://filadd.com
Frecuencia absoluta (número de casos por categoría)
Frecuencia relativa (proporción)
Porcentaje (frecuencia relativa x 100)
Frecuencias acumuladas (sólo para variables ordinales)
Las tablas de frecuencias pueden contener mucha información sobre una variable categórica.

OM
.C
Ejemplo para variable categórica “nivel de estudios”. Muestra resumen de qué valores toma la
variable de interés, qué valores son más frecuentes (frecuencias absolutas, frecuencias relativas,
frecuencias porcentuales) y por tratarse de una variable categórica ordinal, cuántos casos alcanzan
DD
un determinado valor o están por encima de él (frecuencias acumuladas).

Tabla de frecuencia bivariada: También llamadas cruzadas, de doble entrada o de


contingencia.
Se usan para analizar el comportamiento de los datos usando dos o más variables categóricas.
LA

Se construyen combinando las categorías de todas las variables y permiten analizar cómo se
distribuye una variable en relación a otras.
FI


Tabla 10.1 : dos tablas univariadas, una para la variable categórica sexo y otra para la variable
categórica tabaquismo.

3
Este archivo fue descargado de https://filadd.com
Una tabla DE CONTINGENCIA: 10.2 combina info de las 200 personas más hábito fumador,
formando una tabla de frecuencia bivariada con ambas variables. Reponde a preguntas: Cuántos
hombres declaran no fumar, cuántas mujeres son ex fumadoras etc

Frecuencias absolutas y frecuencias relativas


En las tablas univariada y bivariada se presentaron frecuencias absolutas, o sea cada número
corresponde con la cantidad de individuos que pertenecen a las categorías definidas.
Las frecuencias absolutas pueden convertirse a frecuencias relativas y porcentuales dividiendo
las frecuencias absolutas para cada valor de la variable entre el número total de casos.

OM
De los 200 personas evaluadas, 60 personas fuman: La frecuencia relativa de fumadores es 0,3%
(frecuencia porcentual de 30%)

.C
En una tabla bivariada son relevantes las distribuciones condicionales, es decir qué pasa con la
variable 1 si la variable 2 toma cierto valor.
Ejemplo: qué % de mujeres fuma, no fuma
La información sobre cómo se distribuye la variable sexo en cada categoría de la variable
DD
tabaquismo podemos encontrarla en los porcentajes de fila y los porcentajes de columna de una
tabla bivariada de porcentaje de frecuencias para estas variables.

Porcentajes indican cómo se distribuye la variable tabaquismo en cada categoría de


la variable sexo.
LA

La última fila corresponde a los porcentajes MARGINALES de la variable tabaquismo, indican cual es
la distribución no condicional de la variable tabaquismo; es decir cuántos fumadores, no fumadores
y ex fumadores hay en el total sin importar el sexo de los individuos.
FI


La Tabla 10.5 muestra porcentajes de columna correspondientes a las frecuencias absolutas de la


tabla 10.2. Estos porcentajes contienen las distribuciones condicionales de la variable colocada
en las filas. Indican cómo se distribuye la variable sexo en cada categoría de la variable tabaquismo.
Los porcentajes marginales de las filas (última columna) contienen la distribución no condicional de
la variable sexo: un 47% de hombres y un 53% de mujeres independientemente del valor de
tabaquismo.
La prevalencia es una proporción que también indica la frecuencia de un evento.
Ej: enfermedades de prevalencia de la población es la proporción de la población que padece la
enfermedad en estudio en un momento dado.

4
Este archivo fue descargado de https://filadd.com
Prevalencia: número de individuos que, en relación con la población total, padecen una
enfermedad equis en un momento específico. Como todas las proporciones, no tiene dimensiones
y nunca puede tomar valores menores de 0 o mayores de 1.
Se suele expresar como casos por mil o casos por cien habitantes.

FRECUENCIAS ABSOLUTAS: Son una representación de los datos. Muestra el número


total de casos que tiene una variable en cada una de sus categorías. Es la frecuencia
con que aparece cada categoría de la variable en la base de datos. Ej:
sexo Frecuencia absoluta

OM
Varon 250
Mujer 1154
Otro 5
Total 1409

.C
FRECUENCIA RELATIVA: Muestra la proporción de veces que se repite cada categoría
de la variable en la base de datos. Se calcula a partir de la frecuencia absoluta. Divido cada
frecuencia absoluta (varón, mujer, otro) entre el total de casos (n). Da la proporción en la
que aparece cada categoría.
DD
FRECUENCIA PORCENTUAL: También es relativa. Representa el porcentaje de veces
que se repite cada categoría de la variable en la base de datos. Se calcula multiplicando por
100 la frecuencia relativa.
La información que proporciona la frecuencia porcentual para describir la variable sexo es
LA

que del total de estudiantes, equis % son varones, equis mujeres y equis son otros.
Por lo general se una o relativa o porcentual en una tabla. Pero la absoluta va siempre.
Se usa Frecuencia Relativa o Frecuencia Porcentual (y no sólo la Absoluta) para comparar
bases de datos, para obtener respuestas.
FI

FRECUENCIA ACUMULADA: Sólo tiene sentido si la calculamos para variables


categóricas que tengan medición ORDINAL (o sea, que las categorías tengan un orden
determinado). Ej de variable categórica ordinal es el salario (franjas):
De 1 a 4999


De 5000 a 9999
De 10000 a 29999 etc

Si fuera la cifra de un sueldo sería numérica (no categórica), no tendría categorías.


Frecuencias Acumuladas se definen como la suma de todas las frecuencias hasta una
categoría determinada de una variable.
Puedo calcular la Frecuencia Acumulada tanto para la frecuencia Absoluta (que sería la
frecuencia absoluta acumulada) o para la Frecuencia Porcentual (que sería la frecuencia
porcentual acumulada) o la Frecuencia Relativa acumulada.

5
Este archivo fue descargado de https://filadd.com
La Frecuencia Acumulada sólo tiene sentido cuando existe un orden lógico en las categorías
de la variable. Por eso se calcula sólo para variables categóricas con nivel de medición
ordinal.
Ej: la frecuencia absoluta acumulada me permite saber cuántos estudiantes ganan hasta
$9.999. Se suman las frecuencias, esa sumatoria se presenta en la frecuencia acumulada.

DISTRIBUCIONES DE FRECUENCIAS. Sirven para organizar, resumir, analizar la info. Y


además: conocer cuáles son las categorías de la variable con la que estoy trabajando; saber
cómo se distribuye la variable y cuáles son las categorías más frecuentes y qué tan

OM
frecuentes son.
A través de las acumuladas me permite saber la cantidad de casos hasta una determinada
categoría de la variable.
Distribución de frecuencias también pueden ser usadas para variables numéricas PERO
siempre que sean variables con pocos niveles (ej: cantidad de días de la semana que se

.C
asiste a clase -hay sólo siete días 7 -)
TABLAS DE CONTINGENCIA: Permiten describir dos variables o más al mismo tiempo.
También se llaman tablas BIVARIADAS o tablas CRUZADAS o de DOBLE ENTRADA.
DD
Permiten analizar una variable con relación a otra u otras variables.
Muestran frecuencia conjunta de dos o más variables.

Frecuencias marginales: las de los totales


LA

Se pueden encontrar tablas SIN los marginales, la lectura es la misma (porque el porcentaje
está implícito). % i = P1 x 100
Frecuencias condicionales: los datos de la tabla (sin totales)
Para comparar información es más conveniente usar porcentajes. Permite responder más
interrogantes. Para ello hay que calcular tablas de contingencia porcentuales. Un tipo
FI

de tabla porcentual es la tabla de DISTRIBUCION PORCENTUAL.


Lectura de tabla porcentual POR FILA es muy distinta de la lectura que se hace de la tabla
porcentualizada POR COLUMNA.
Una categoría tiene que tener un mínimo de 30 casos para sacar porcentaje, sino se saca


de la tabla esa categoría

Análisis descriptivo de variables categóricas


Una vez recogidos los datos la primera tarea es la de formarse una idea lo más exacta
posible acerca de las características de cada variable (ej: con listado de los valores, o sea
toda la información disponible).
Sin embargo, un listado de datos tiene poca utilidad.

6
Este archivo fue descargado de https://filadd.com
Lo útil es poder organizar y resumir esos datos que facilite entender de lo que está
pasando. Resumen sólo capta un aspecto parcial de los datos. Por eso es importante
elegir bien la herramienta estadística que nos dé respuesta a lo que queremos estudiar.

En este sentido, ya sea si es variable categórica o cuantitativa, hay que atender tres
características: el CENTRO, la DISPERSIÓN y la FORMA de la distribución.

Los conjuntos de respuesta múltiple se emplean para agrupar


varias variables categóricas, las cuales contienen las respuestas de una pregunta Abierta

OM
(Los encuestados ingresan las respuestas que deseen) o Cerrada (Los encuestados
admiten reconocer o no las opciones que se ofrecen).

Tablas de frecuencias
Una tabla o distribución de frecuencias: es una forma de ordenar datos basada en valores
concretos que adopta una variable categórica y en el número de veces que se repite cada

.C
valor. El objetivo de la tabla de frecuencias ordenar y RESUMIR la información.

Frecuencias relativas o “Proporciones” (Pi) se obtienen dividiendo las correspondientes


frecuencias absolutas entre el número total de casos:
DD
Frecuencias relativas indican proporción de veces que se repite cada valor (también se
les llama proporciones). Son usadas para hacer comparaciones entre grupos.
LA

Multiplicando por 100 las frecuencias relativas se obtienen las frecuencias porcentuales (%
i):
FI

Estas frecuencias indican el porcentaje de veces que se repite cada valor. Información
Frecuencias relativas y porcentuales es idéntica, no es necesario incluir ambas en la
misma tabla.


La Tabla 3.2 ofrece las frecuencias de la variable nivel de estudios (es categórica, igual
que tabaquismo); pero el nivel de estudios es una variable ordinal (sus categorías están

7
Este archivo fue descargado de https://filadd.com
cuantitativamente ordenadas). En estos casos es posible calcular un tipo particular de
frecuencias llamadas acumuladas.

OM
La frecuencia absoluta acumulada (nai) recoge el número de veces que se repite un

.C
valor más cualquier otro inferior a él. La frecuencia relativa acumulada (Pai) se obtiene
dividiendo la frecuencia absoluta acumulada entre el número total de casos (Pai = nai /n).
Y la frecuencia porcentual acumulada (% ai) se obtiene multiplicando por 100 la
frecuencia relativa acumulada (% ai = 100Pai).
DD
Las frecuencias absolutas (ni) constituyen el punto de referencia de una tabla de
frecuencias: todas las demás frecuencias se calculan a partir de las absolutas.

Es recomendable que las frecuencias absolutas (incluido el n total) siempre estén


presentes.
LA

Una tabla de frecuencias no es una herramienta apropiada para describir variables


cuantitativas.

En general, si una variable cuantitativa se mide con suficiente precisión, se repetirán poco,
por lo que más que un resumen será un listado de casos.
FI

Las frecuencias porcentuales acumuladas de una tabla de frecuencias constituyen la base


de unos estadísticos muy útiles llamados cuantiles.

Una tabla o distribución de frecuencias contiene casi toda la información sobre una variable


categórica:
• Indica qué valores toma la variable representada (ej variable tabaquismo toma 3
valores: fumador, no fumador, ex fumador)
• Informa qué valores son más frecuentes y qué valores son menos frecuentes (por
ejemplo, algo más de la mitad de los sujetos no fuma)
• En el caso de variables categóricas ordinales, las frecuencias acumuladas indican
cuántos sujetos alcanzan un determinado valor o están por encima de él (ej: aprox
60% de los sujetos no pasa de estudios secundarios).

Por tanto, de las tres propiedades o características a las que conviene prestar atención

8
Este archivo fue descargado de https://filadd.com
para describir apropiadamente una variable (centro, dispersión y forma de la
distribución), una tabla de frecuencias ofrece información precisa sobre dos de ellas: el
centro y la forma de la distribución.
El centro de la distribución es el valor con la frecuencia más alta (el valor que más se
repite). Recibe el nombre de moda.
La moda entendida como centro de una distribución (es decir, como representante del
resto de valores) tiene una capacidad descriptiva muy limitada, por lo que debe
interpretarse con cautela: puede ocurrir que el valor que más se repite tenga una
frecuencia baja; también puede ocurrir que haya más de una moda (categorías con la

OM
misma frecuencia) o que haya muy poca diferencia entre las dos categorías que más se
repiten.

La forma de la distribución es visible a partir del tamaño de las frecuencias, que son las
que indican dónde tienden a agruparse los valores y qué categorías tienen frecuencias
pequeñas.
En relación con la forma de la distribución, es importante valorar categorías con frecuencia

.C
nula o muy pequeña. Y si la variable es ordinal, hay que prestar atención a si las
frecuencias se agrupan en torno al centro (simetría) o están desplazadas hacia uno de los
extremos (asimetría). Por supuesto, un gráfico apropiado puede ayudar a hacerse una
DD
buena idea de la forma de la distribución.

Sobre el tercer aspecto, la dispersión (grado de concentración o alejamiento de los


valores
en torno al centro de la distribución), la información de una tabla de frecuencias es poco
precisa. Sabemos que la dispersión es mínima o nula cuando todas las frecuencias están
LA

concentradas en un mismo valor y máxima cuando están repartidas homogéneamente por


todos ellos. Pero cuando no se da una de estas dos pautas no resulta nada fácil formarse
una idea sobre el grado de dispersión. En estos casos puede utilizarse algún estadístico
capaz de captar el grado de dispersión e informar de lo que está ocurriendo. Uno de estos
estadísticos es el índice de variación cualitativa (IVC):
FI


El IVC toma valores comprendidos entre cero y uno. Cuando todas las frecuencias están
concentradas en una sola categoría (dispersión mínima o nula), toma el valor cero;
cuando las frecuencias están uniformemente repartidas entre todas las categorías
(dispersión máxima) toma el valor uno. Por tanto, los valores obtenidos (0,85 y 0,74)
están indicando, en ambos casos, un grado de dispersión medio-alto.

Gráficos para variables categóricas


Lo habitual es presentar información con algún gráfico que de una impresión rápida de lo
que está ocurriendo. Los gráficos más utilizados (también los más apropiados) con
variables categóricas son los de barras y los de sectores.

9
Este archivo fue descargado de https://filadd.com
Un gráfico de barras : dos ejes cartesianos: en el eje horizontal valores variables, en el
vertical las frecuencias. Sobre cada valor se levanta una barra de altura proporcional a su
frecuencia (la anchura de las barras no es relevante, pero todas ellas han de tener la
misma). Las barras van separadas para resaltar que son distintos valores de la variable.

Elegir uno u otro tipo de frecuencias (absolutas, relativas o porcentuales) afecta


a los números que aparecen en el eje vertical, pero no a la forma del gráfico.

OM
Cuando la variable es categórica ordinal (variable con categorías cuantitativamente
ordenadas),
también pueden representarse las frecuencias acumuladas colocando el valor menor
a la izquierda y el mayor a la derecha. Pero como una variable ordinal suele medir una
característica continua, común es usar histogramas.

Al construir gráfico de barras evitar cortar el eje vertical (para que altura barras no sea

.C
engañosa (diferencias chicas pueden parecer muy grandes). Se distorsiona. Ni usar
imágenes
DD
Gráficos de barras son útiles para representar variables categóricas (variables medidas
con una escala nominal u ordinal); y variables cuantitativas discretas con pocos valores ej.
Cantidad de hijos.
Gráfico de sectores (torta, queso etc) también útil para variables categóricas. El ángulo
de cada sector: frecuencia relativa x 360 (360Pi) Forma del gráfico no se afecta por elegir
frecuencias absolutas, relativas o porcentuales.
LA

Gráfico barras permite comparar sectores más fácilmente que gráfico sectores, que
además pierde eficacia cuando la variable tiene muchas categorías. Ventaja gráfico
sectores es poder destacar un sector separándolo del resto.
FI


10
Este archivo fue descargado de https://filadd.com
Unidades 4 y 5 - Estadística descriptiva de variables cuantitativas
Las tablas de frecuencia no son útiles para resumir información de variables cuantitativas
(numéricas), porque presentan demasiados valores distintos y generalmente con pocas
repeticiones de cada uno, lo que la transforma en un listado que no resume datos (no es
informativo).
Describir de forma organizada los valores de una variable cuantitativa requiere utilizar otras
herramientas. Tres propiedades básicas van a ser importantes: centro, dispersión y forma
de la distribución. Representación gráfica : Histogramas

OM
Para variables categóricas : gráficos de barras / Para variables cuantitativas : histograma
Propiedades histograma: Las barras se disponen juntas generando una impresión de
continuidad que permiten ver si hay patrones en los datos.
En el eje horizontal se encuentran los valores de la variable ordenados de menor a mayor,
de izquierda a derecha. En el eje vertical se colocan las frecuencias para cada valor.
Sobre cada valor se levanta una barra con altura proporcional a la frecuencia del valor. Por

.C
ser variables cuantitativas hay pocas repeticiones de cada valor, por lo que se suelen
generar intervalos tomando algunos valores consecutivos como valores en el eje horizontal.
De este modo, se reemplazan los valores individuales por estos intervalos y se suman las
DD
frecuencias del conjunto de valores que conforman el intervalo.
La elección del tamaño del intervalo definirá la apariencia del histograma resultante.
Un histograma de pocos intervalos y muy grandes será muy poco informativo (Fig.1), así
como un histograma de muchos intervalos muy pequeños no será muy distinto a un gráfico
de barras. Una relación óptima entre estos dos valores permitirá crear un histograma que
LA

nos permita observar la presencia de algún patrón en nuestros datos. Conocer la forma de
la distribución ayuda a elegir entre los estadísticos más apropiados para describirla, permite
obtener una visión rápida de sus características, facilitando la detección de valores
anómalos, valores que se repiten demasiado o valores que no aparecen.
FI


11
Este archivo fue descargado de https://filadd.com
OM
Figura 1: Histogramas de la edad de los psicológos en Uruguay reailzados con distintos intervalos

Distribución normal de probabilidad

.C
Las variables cuantitativas pueden presentar formas diversas, sin embargo, para muchas
variables que medimos se observa que la mayoría de los valores se encuentran cercanos al
centro de la distribución y se vuelven menos frecuentes a medida que nos alejamos del
DD
centro.
LA
FI

Figura 2: Histograma para la variable altura (izq) e histograma para la variable altura con una curva
normal superpuesta (der)


La Figura 2 muestra el ejemplo de este comportamiento con la variable altura. Este


histograma se parece a una distribución teórica llamada curva normal. En una primera
aproximación, la curva normal es una especie de histograma suavizado cuyas barras se han
levantado sobre intervalos infinitamente pequeños. Conocer la curva de probabilidad a la
que se aproximan nuestros datos nos permite calcular la probabilidad de que se presente
cualquier valor de la distribución, es decir que nos permite realizar inferencias. La
probabilidad es la frecuencia relativa con que ocurre un suceso.
La curva normal sirve como referente para describir cómo se distribuyen muchos de los datos
que recogemos, ya que muchos de los fenómenos naturales o sociales se estudian tienen
distribuciones empíricas que se parecen a la distribución teórica normal.

12
Este archivo fue descargado de https://filadd.com
Propiedades que describen la forma de una distribución
Medidas de tendencia central: son los estadísticos para identificar el centro de una
variable. Los estadísticos que permiten cuantificar el grado de dispersión (alejamiento) de
las puntuaciones respecto de su centro suelen llamarse medidas de dispersión o de
variabilidad. Finalmente, los estadísticos que sirven para describir la forma de la distribución
suelen atender a la asimetría y curtosis.

Medidas de tendencia central

OM
Para identificar el centro de una variable es posible
elegir el valor que mejor representa al resto de los
valores.
Para variables categóricas una medida informativa es
la moda: es la categoría que más se repite de una
variable.

.C
Las variables cuantitativas generalmente presentan
valores con pocas repeticiones, por lo que la moda no
suele ser una buena medida, ni tiene porqué
DD
corresponder con el centro de la variable.
Existen diferentes formas de hacerlo y depende de
qué aspectos de la variable son de interés o se
consideran relevantes.
Una manera de identificar el centro de una variable:
LA

consiste en elegir el valor que mejor representa al


resto de valores. Hay que tener en cuenta que no
existe una medida (o estadístico) perfecto para
describir el centro de todas las variables. Cada estadístico, de acuerdo a sus características
tendrá sus fortalezas y sus debilidades, y será más apropiado para algunas variables según
FI

la capacidad de resumir información de la distribución de cada variable.


La media aritmética (también llamada media o promedio) es el estadístico de tendencia
central más utilizado. Se define como la suma de todas las puntuaciones dividida por el
número de puntuaciones y se representa con el nombre de la variable coronado con un guion


(en la formula la variable es Y).

La media es el centro de la distribución, identifica el valor de la distribución en torno al


cual cabe esperar encontrar más valores. Pero el valor de la media no dice nada acerca de
lo bien o mal que está representando al resto de valores; para saber más hace falta saber el
grado de dispersión del conjunto de valores (que tanta variación hay).

13
Este archivo fue descargado de https://filadd.com
El hecho de que en el cálculo de la media intervengan todos los valores de la variable hace
de ella un estadístico muy sensible a la presencia de valores muy alejados del centro por
uno de los dos extremos de la distribución.
La mediana de una variable (Y) es el centro de la variable en sentido literal: es el valor que
ocupa la posición central cuando los casos están ordenados. Con otras palabras, la mediana
es el valor que deja por debajo de sí el 50% de los casos, como vemos en la Figura 3. Si el
número de casos es impar, la mediana es el valor que ocupa la posición:

OM
i = (n + 1) / 2
Si el número de casos es par, la mediana es la media entre los dos valores que ocupan las
posiciones

.C
Dispersión
Describir un conjunto de datos a partir de un solo número es una importante pérdida de
información: un estadístico de tendencia central informa sobre el centro de la distribución,
pero no dice nada sobre el resto de los valores.
DD
Como consecuencia, un mismo valor puede ser el centro de conjuntos de datos muy
diferentes, y por lo tanto no permite diferenciarlos. Por eso es necesario conocer el grado de
dispersión, o sea, el grado de parecido entre los datos en el sentido de concentración o
alejamiento entre ellos.
LA

el grado de dispersión de un conjunto de datos nos dice si el centro de una distribución es o


no un buen representante del resto de valores. Cuando la mayoría de los valores se
encuentran próximos al centro, la dispersión es baja; cuando la mayoría de los valores se
encuentran alejados del centro, la dispersión es alta. Por tanto el grado de representatividad
del centro de una distribución será mayor cuanto menor sea la dispersión.
FI

Dos de los estadísticos de dispersión más utilizados se basan en las desviaciones de la


media, pero para evitar que se compensen los valores positivos y negativos, en lugar de
tomar esas desviaciones en valor absoluto se elevan al cuadrado.
La varianza es el promedio de las desviaciones cuadráticas de la media, es decir, el


promedio de las desviaciones de la media elevadas al cuadrado.


La varianza sirve para comparar distintos grupos entre sí y ver donde hay mayor dispersión,
pero no es tan informativa del grado de dispersión. Por esta razón, lo que suele hacerse
es utilizar la raíz cuadrada de la varianza, a este valor se le llama desviación típica o
desviación estándar:

14
Este archivo fue descargado de https://filadd.com
Asimetría y Curtosis
Conocer la forma de la distribución ayuda a elegir entre los estadísticos más apropiados para
describirla y tener una visión rápida de sus características. Permite detectar valores
anómalos, advertir valores que se repiten demasiado o valores que no aparecen. Hay dos
características principales de la forma de una distribución: la curtosis y la asimetría. La

OM
.C
DD
Figura 4: Histogramas correspondientes a distribuciones con distinto grado de asimetría y curtosis
LA

curtosis determina el grado de concentración que presentan los valores en la región central
de la distribución. Es decir que indica el grado de “afinamiento” de la distribución en el centro
(en comparación a la distribución normal). Como se ve en la Figura 4, una distribución
“picuda” (valores concentrados) se llama Leptocúrtica; una distribución similar a la curva
FI

normal se llama Mesocúrtica; y una distribución ”chata” (baja concentración de valores) se


conoce como Platicúrtica.
Para evaluar el grado de curtosis se utiliza el índice de curtosis: valores mayores que cero
indican leptocurtosis; índices menores que cero indican platicurtosis (Ver g2 en Figura 5).


La asimetría refiere a si la curva presenta la misma forma a izquierda y derecha de un valor


central (la media aritmética). Se puede cuantificar con el coeficiente de asimetría de Fisher
(asimetría positiva o negativa). Índices de asimetría mayores que cero indican asimetría
positiva (como el caso de la Figura 4); índices menores que cero indican asimetría negativa.
Si la distribución es simétrica el índice vale cero (Ver g1 en Figura 5).

15
Este archivo fue descargado de https://filadd.com
Figura 5: Ejemplos de Índices de asimetría (g1) y curtosis (g2)

Cuantiles
Los cuantiles tienen como objetivo ubicar a los sujetos individualmente considerados en la
posición relativa que ocupan respecto del resto. Es decir que son medidas de posición.
Los cuantiles son cada uno de los J valores que dividen la distribución en J + 1 partes iguales.
Algunos cuantiles tienen nombre específico. Así, la mediana es un valor que divide la
distribución en dos partes iguales, los cuartiles son tres valores (Q1, Q2, Q3) que dividen

OM
la distribución en cuatro partes iguales (el 25% de los casos en cada parte) Para calcular los
cuantiles se comienza ordenando los casos de forma ascendente por su valor en la variable
(que en este caso llamamos Y).
Si se quiere calcular por ejemplo los percentiles (100), se calcula la posición
i = k(n+1) / 100

.C
para el valor del percentil k (ej. si se busca el percentil 25, k=25). Si i es un número entero,
DD
entonces el percentil k tendrá el valor de la variable Y en la posición i. Si i es un número
decimal, entonces el percentil k se calcula como : Pk = (1 - d)Yi + (d)Yi+1
LA

Donde d corresponde a los decimales de i (ej: si i =3.25, entonces d=0.25)


El concepto de cuantil está estrechamente asociado al de frecuencia porcentual
acumulada.
Una de las principales aplicaciones de los cuantiles tiene que ver con la elaboración de tablas
de clasificación o baremos. Por ejemplo, si los resultados prueba se transforman en
FI

percentiles, a partir de ese momento cada resultado individual podrá ser ubicado en la
posición relativa que le corresponde en el conjunto de los resultados de la prueba.


16
Este archivo fue descargado de https://filadd.com
Diagramas de Caja y bigotes
Permite dar una idea rápida sobre las tres 3 tres
propiedades esenciales de una distribución:
centro, dispersión y forma.
Incluye la mediana, los cuartiles (Q1, Q2 y Q3), y
una serie de puntos que identifican los valores que
se alejan mucho del centro (valores extremos).
La Mediana (que es también Q2) identifica el

OM
centro de la distribución.
La altura de la caja (rectángulo) y la longitud de
los bigotes (las T que le siguen a la caja) permiten
valorar el grado de dispersión y de asimetría
(los bigotes se extienden hasta lo que podríamos
llamar una dispersión razonable).

.C
Los círculos (también se usan asteriscos), si
existen, delatan casos excesivamente alejados
del centro
DD
Unidad 6
UNIDAD 6
Puntuaciones z y curva normal
LA

Puntuaciones Z, típicas o estándar refieren al mismo tipo de puntuación. Se usan solamente para
variables cuantitativas (no para categóricas). Y son transformaciones que se realizan a los valores o
puntuaciones directas de una distribución normal para analizar su distancia respecto a la media. Se
expresan en unidades de desviación estándar.
Puntuación Z representa el número de desviaciones típicas o estándar por encima o por debajo de
FI

la media. Las puntuaciones Z forman una desviación que siempre tiene el mismo centro, la misma
dispersión y la misma métrica.
Puntuaciones DIRECTAS: son el valor de la variable asignado a un sujeto a partir de la medición de
una propiedad, por ejemplo, inteligencia.


Media: el promedio de las puntuaciones directas de una medición.


Desviación estándar o típica: es el “promedio” o variación esperada con respecto a la media de la
distribución (o lo que es lo mismo, la raíz cuadrada de la varianza)
Varianza: La varianza es una medida de dispersión que representa la variabilidad de una
serie de datos respecto a su media. Se calcula como la suma de los datos al cuadrado
divididos entre el total de observaciones. También se puede calcular como la desviación
típica al cuadrado.
Puntuaciones Z, típicas o estándar las uso para COMPARAR puntuaciones de diferentes
distribuciones (diferente métrica, diferente centro(media) y diferente dispersión)

17
Este archivo fue descargado de https://filadd.com
Ejemplo: se usa para comparar las notas de una persona en pruebas diferentes, o que midan el
mismo concepto a través de dos pruebas diferentes.
También se usan para comparar puntuaciones diferentes a través de centiles. Los centiles también
permiten comparar las puntuaciones de distintas distribuciones.

Distribuciones
Una tabla de frecuencias tiene información sobre la forma de la distribución de una variable
categórica. O sea, las frecuencias relativas (proporciones) de una tabla de frecuencias

OM
indican con qué probabilidad cabe esperar encontrar cada uno de los valores de la
variable.
Ej: si sabemos que el 30% de las personas de un determinado colectivo son fumadoras,
sabemos que la probabilidad de que una persona seleccionada al azar de ese colectivo
sea fumadora es 0,30.
En este sentido, una tabla de frecuencias relativas puede concebirse como una distribución
de probabilidad, como una distribución que contiene todos los valores de la variable junto

.C
con la probabilidad asociada a cada uno de ellos.
Esto mismo vale también para las variables cuantitativas.
Ej: cuando se mide la altura en un grupo de sujetos y con los valores obtenidos se
DD
construye un histograma estamos captando la forma de la distribución; y las frecuencias
relativas asociadas a cada valor o rango de valores están indicando con qué probabilidad
cabe esperar encontrar cada uno de ellos.
En ambos casos estamos hablando de distribuciones empíricas, es decir, distribuciones
construidas a partir de los datos observados.
LA

Pero sabemos que también existen distribuciones teóricas como la normal que ya
mencionamos, o la binomial. Son distribuciones que, aunque no están generadas a partir
de los datos sino a partir de una función matemática, son representaciones de los
datos que tienen la enorme utilidad de ayudar a interpretarlos mejor.
Las distribuciones de probabilidad, las empíricas y las teóricas, son importantes porque
FI

contienen toda la información relativa a una variable.


Una distribución de probabilidad, es decir, los valores de la variable combinados con la
frecuencia con la que se da cada uno de ellos, informa sobre el centro, la dispersión y la
forma de la distribución; y eso, ya lo sabemos, es todo lo que necesitamos para
caracterizar una variable.


Distribución normal
Muchas de las variables cuantitativas que medimos tienen una forma particular: la mayoría de los
valores se encuentran próximos al centro de la distribución y van siendo menos frecuentes a medida
que va aumentando la distancia al centro. Es el caso de la llamada distribución normal.
La curva normal puede concebirse como una especie de histograma suavizado cuyas barras se han
levantado sobre intervalos infinitamente pequeños.
Una vez obtenida la curva es posible calcular el área bajo la curva comprendida entre dos puntos que
corresponde a la proporción de valores que se encuentran en esa porción de área.

18
Este archivo fue descargado de https://filadd.com
OM
Para indicar que una variable se distribuye normalmente utilizaremos la siguiente expresión:

.C
Y ∼ N(µY , σY )
Cambiando los valores de µY y σY en la ecuación anterior se obtienen distintas curvas normales. Por
tanto, no existe una única curva normal, sino muchas (Figura 1), sin embargo todas ellas comparten
DD
las mismas características:
• Tienen un único máximo en µY (por tanto, son unimodales).
• Tienen forma de campana. Esto implica que los valores centrales son más probables que los
que se van alejando del centro.
• Son simétricas respecto al eje central situado en µY .Por lo que las diferentes medidas de
LA

tendencia central (media, mediana, moda) coinciden.


• Son asintóticas respecto al eje horizontal (por mucho que se extiendan, nunca llegan a
tocarlo), por lo que los valores mínimo y máximo del eje de abscisas son −∞ y +∞. No
obstante, sabemos que el 99,73 % del área total se encuentra entre ±3σY .
FI

• El área total bajo la curva vale 1. Todas las puntuaciones posibles se encuentran entre −∞ y
+∞. Por tanto, la probabilidad de encontrar valores menores que −∞ o mayores que y +∞
vale cero.
La mayor parte del trabajo con variables distribuidas normalmente consiste en hallar el área bajo la


curva que queda por debajo o por encima de cada valor del eje horizontal, o sea hallar el tamaño
relativo que cada porción de área representa respecto del área total (proporción de área).
En este contexto, hablar de proporción de área es equivalente a hablar de probabilidad: en la
primera curva normal de la Figura 1, la porción de área situada antes del valor µY representa la
proporción de valores menores que µY ; es decir, la probabilidad de encontrar valores por debajo de
µY . Estas probabilidades se obtienen a partir de las densidades que ofrece la función (1). No
obstante, para evitar este tipo de cálculos, se han construido tablas con las probabilidades
(proporciones de área bajo la curva) ya calculadas. Estas tablas recogen las probabilidades de una
curva normal muy especial llamada curva normal tipificada o estandarizada; es decir, una curva que
tiene media 0 y desviación típica 1; lo cual se expresa mediante N(0, 1) (Figura 3). Por supuesto, el

19
Este archivo fue descargado de https://filadd.com
hecho de que la distribución normal tabulada tenga media 0 y desviación típica 1 no es un problema
sino, de hecho, una ventaja, pues cualquier variable cuantitativa Y puede ser transformada en otra
variable equivalente Z con media 0 y desviación típica 1 sin que se altere la forma de su distribución
(a esta transformación la hemos llamado tipicación y, al resultado de la tipicación, puntuaciones
típicas o puntuaciones Z).
Una vez que una puntuación directa (valores en la escala original, ej. edad en años) ha sido
transformada en puntuación Z, ya es posible conocer la probabilidad asociada a cada puntuación
directa a partir de la probabilidad asociada a su correspondiente puntuación típica.

OM
.C
DD
LA

Figura 2: Equivalencia entre posiciones que ocupan las puntuaciones directas (gráficos de la parte superior) y
las que ocupan sus correspondientes puntuaciones típicas (gráficos de la parte inferior).
FI

En estos gráficos se observa con claridad que la proporción de área que queda por debajo (o por
encima) de una puntuación directa en una curva N(µY , σY ) es exactamente la misma que queda por
debajo (o por encima) de su correspondiente puntuación típica en la curva N(0, 1).


Y como se está asumiendo que proporción es equivalente a probabilidad, lo que se está armando es
que la probabilidad de encontrar valores menores (mayores) que una puntuación directa es
exactamente la misma que la de encontrar valores menores (mayores) que su correspondiente
puntuación típica.
Para conocer la probabilidad de encontrar valores menores (o mayores) que una puntuación directa
es necesario:
1. Transformar esa puntuación directa en puntuación típica
2. Utilizar la tabla de áreas bajo la curva normal para conocer la probabilidad buscada

20
Este archivo fue descargado de https://filadd.com
OM
.C
Unidad 7 - Población y Muestra
Conceptos de muestreo poblacional, distribución muestral de la media, el error estándar de la
media y los intervalos de confianza.
DD
Inferencia estadística: extraer conclusiones de tipo general a partir de unos pocos datos
particulares, que permitan realizar de forma correcta esta generalización, los análisis de datos a
implementar deben ser tan apropiados como la selección de los mismos.
Las técnicas de muestreo garantizan que la inferencia se sustenta en una buena base y los análisis
de datos engloban las herramientas que permiten desarrollar correctamente las inferencias.
LA

Población: conjunto de elementos (sujetos, objetos, entidades abstractas) que poseen una o
más características en común. Población se utiliza para el conjunto total de elementos que interesa
estudiar y queda definida cuando se explican las características que esos elementos comparten.
FI

Muestra: subconjunto de elementos de una población. Conjuntos más reducidos que la


población. Ya que es caro y a veces no es viable, para describir las propiedades de una
determinada población con exactitud, las muestras proporcionan información necesaria para
describir las propiedades de interés de la población en estudio.


El punto clave, para que las conclusiones obtenidas sean válidas, es que la muestra utilizada debe
ser representativa de la población que se supone representa, esto se logra a través de las técnicas
de muestreo.

Parámetros y estadísticos

Parámetro: Un valor numérico que describe una característica poblacional.


Ejemplo: varones uruguayos entre 20-30 años de edad. Comparten sexo y rango de edad.
Suponiendo que tenemos acceso a la población entera y medimos altura de cada uno de esa
cantidad de individuos. Si calculamos el promedio de esos valores numéricos habremos definido un

21
Este archivo fue descargado de https://filadd.com
parámetro poblacional: tendremos un valor numérico que describe una característica de la
población: la altura media de los varones uruguayos de entre 20 y 30 años.
Los parámetros son generalmente valores poblacionales desconocidos ya que no se suele tener
acceso a todos los elementos que la conforman.
Asimismo, se tratan de valores numéricos constantes en el sentido que son valores únicos, no
varían. Definida una población cualquiera y un parámetro en ella, ese parámetro sólo puede tomar
un valor numérico concreto en un momento dado.
La altura promedio de varones en la población es un valor único. Finalmente, para referirnos a los
parámetros se utilizan letras griegas minúsculas:

OM
Estadístico: es un valor numérico que describe una característica muestral. Un estadístico es a la
muestra lo que un parámetro es a la población.
Al igual que para una población, una vez definida una o más características en las que no todos los
elementos coinciden, es posible obtener un valor numérico que las describa: a ese valor numérico
se le llama estadístico.
Es posible entonces, tomar un subconjunto de la población de varones uruguayos de entre 20-30
años y medir su altura. El promedio de la altura obtenido para esa muestra será un estadístico. A

.C
diferencia de los parámetros, los estadísticos se suelen representar con letras latinas mayúsculas (X,
S, B, P).
No es posible calcular los parámetros, pero cada parámetro poblacional posee su réplica muestral
en un estadístico concreto que si puede ser calculado. De este modo, los estadísticos muestrales se
DD
van a utilizar para intentar formarnos una idea sobre los verdaderos valores de sus
correspondientes parámetros poblacionales desconocidos.
Este proceso que consiste en atribuir a un parámetro el valor que toma su correspondiente
estadístico se conoce con el nombre de estimación.
Es importante notar que dada una población cualquiera es posible extraer más de una muestra
diferente del mismo tamaño. Esto significa que, definido un estadístico, cualquiera que éste sea, su
LA

valor exacto dependerá de los valores concretos que tomen cada uno de los elementos que formen
parte de la muestra obtenida. Si para cada muestra posible calculamos un determinado estadístico
encontraremos que el valor de ese estadístico no siempre es el mismo; es decir, encontraremos
que el valor del estadístico varía de una muestra a otra.
Esto significa que un estadístico no es un valor numérico constante (como lo es un parámetro),
FI

sino que es una variable: su valor concreto varía dependiendo de la muestra en la que se calcula.

A modo de resumen:
Un parámetro es un valor poblacional, un estadístico es un valor muestral.
Un parámetro es, por lo general, un valor desconocido, un estadístico es un valor conocido o


susceptible de ser conocido.


Un parámetro es un valor numérico constante, un estadístico es una variable.

Muestreo: El proceso seguido para extraer una muestra de una población. El muestreo
puede ser de dos tipos: probabilístico y no-probabilístico.
Muestreo probabilístico: se conoce la probabilidad de que salga cada muestra y cada elemento
Muestreo no-probabilístico: se desconocen dichas probabilidades.
Un subtipo de muestreo probabilístico es el muestreo aleatorio. En el muestreo aleatorio todos los
elementos poblacionales tienen la misma probabilidad de ser elegidos, y el resultado de cada
extracción no afecta ni depende del resultado de cualquier otra, es decir son independientes entre
sí.

22
Este archivo fue descargado de https://filadd.com
Se destaca que dado que las poblaciones con las que trabajamos son desconocidas, no hay manera
de saber si la muestra elegida es representativa o no de la población muestreada. Lo que podemos
saber es si se ha utilizado un método de selección que garantiza que la muestra elegida sea
representativa de la población.

Distribución muestral
Uno de los estadísticos más útiles y utilizados en la inferencia estadística es la media aritmética: Y
En tanto es un estadístico, su valor concreto depende de la muestra concreta en la que
se calcula.

OM
De una población cualquiera es posible extraer más de una muestra de tamaño n (en una población
infinita es posible extraer infinitas muestras de cualquier tamaño). En cada una de esas muestras si
calculamos Y se verá que no siempre toma el mismo valor, varía de una muestra a otra.
Estos posibles valores del estadístico Y constituyen su distribución muestral.

Construcción de la distribución muestral


Imaginemos una población formada por N = 5 puntuaciones: Yi = {1, 2, 3, 4, 5}.

.C
Si de esa población se seleccionan aleatoriamente y con reposición todas las posibles muestras de
tamaño n = 2, se obtendrán Nn = 52 = 25 muestras distintas (variaciones con repetición de N
elementos tomados de n en n), las que tendrán todas igual probabilidad de ser elegidas: 1/ 25
Son equiprobables.
DD
Si se calcula en cada una de esas 25 muestras el estadístico Y se obtendrán los resultados que
muestra la Tabla 6.1.

Se ven las 25 muestras


que es posible obtener y
LA

el valor que toma el


estadístico Y en cada una
de ellas.
El estadístico Y puede
tomar el mismo valor en
FI

más de una muestra, y


aunque las 25 muestras
son equiprobables
(misma probabilidad), los
posibles valores del


estadístico Y no lo son:
hay unos valores de Y que
son más probables que
otros porque unos
pueden obtenerse en un
mayor número de
muestras que otros.

Esto puede comprobarse en la tabla 6.2 que resume los diferentes valores que puede tomar el
estadístico y la probabilidad (frecuencia relativa) asociada a cada uno de ellos, es decir, la

23
Este archivo fue descargado de https://filadd.com
distribución muestral de la media (en concreto, la distribución muestral correspondiente a
muestras).
Se observa entonces, por ejemplo, que hay más muestras en las que se obtiene Y = 2; 5 que Y = 1; 5,
por lo tanto es más probable que la media tome el valor 2,5 a que tome 1,5. Un ejemplo similar
sucede al lanzar dos dados y observar la suma de los valores obtenidos (ver Recuadro).

En la Figura 1 se observa cómo puede obtenerse la distribución muestral de la media a partir de


todos sus posibles valores. Puede observarse que la media coincide con el valor que tiene asociada
la probabilidad más alta (3), la distribución tiene forma simétrica y los valores más alejados del
centro son los que tienen asociadas probabilidades más pequeñas. El gráfico muestra un hecho

OM
interesante: la forma de la distribución muestral de Y no se parece a la de la distribución
poblacional de Y: mientras que ésta es uniforme (los 5 elementos poblacionales son equiprobables),
la distribución muestral de Y sigue siendo simétrica pero con forma de campana (se parece a una
distribución normal).

Distribución muestral del estadístico media: caso general


Con poblaciones y muestras pequeñas es sencillo conocer la distribución muestral de un

.C
estadístico. Pero las poblaciones que usualmente interesa estudiar suelen ser muy grandes e
incluso, en ocasiones, infinitas. Significa que para obtener la distribución muestral de un
estadístico, no siempre resulta posible extraer todas las posibles muestras de tamaño n. Debemos
DD
apoyarnos entonces en procedimientos matemáticos que son capaces de captar con precisión las
características de una distribución muestral. Sabemos que una distribución muestral es la
distribución de probabilidad de un estadístico.

También sabemos que un estadístico es una variable aleatoria. Por tanto, la distribución muestral
de un estadístico puede quedar caracterizada del mismo modo que la distribución de cualquier
LA

variable aleatoria: haciendo explícitos su centro, su dispersión y su forma.

En el contexto de las distribuciones muestrales, el centro habitualmente utilizado es la media; para


cuantificar la dispersión suele utilizarse la varianza (o su raíz cuadrada, la desviación típica o
estándar, la cual cambia de nombre cuando se refiere a un estadístico pasando a llamarse error
típico; por ejemplo, a la desviación típica del estadístico media se le llama error típico o error
FI

estándar de la media); y para determinar la forma de la distribución se recurre a distribuciones


teóricas como la binomial o la normal.

Es posible conocer la distribución muestral de la media también sin extraer una sola muestra si


conocemos la media y el desvío estándar de la población. El centro de la distribución muestral de Y


es el mismo que el de la distribución poblacional de Y (1), la varianza de la distribución muestral de
Y es la varianza poblacional de Y dividida por el tamaño de la muestra (2), y el error estándar de la
media (desvío estándar de la distribución muestral de la media) es el desvío estándar de la
población sobre la raíz del tamaño de la muestra.

El teorema central del límite afirma que si los datos que se recogen son debidos a la suma de cierto
número de causas independientes entre sí, cada una con un efecto parcial, la distribución de los
datos recogidos se asemejará tanto más a la curva normal cuantos más datos se recojan (cualquiera
que sea la distribución original de esos efectos parciales y siempre que la desviación típica de estos
efectos sea finita).

24
Este archivo fue descargado de https://filadd.com
Es importante no confundir la distribución original de la variable Y con la distribución muestral
del estadístico Y (Y barra arriba).

OM
.C
Unidad 8 - Intervalos de Confianza
Estimación de parámetros: Intervalo de confianza
DD
La estimación de parámetros se refiere al proceso mediante el cual la información muestral es
utilizada para inferir valores poblacionales.
Podemos llevar a cabo dos tipos de estimaciones: puntual y por intervalos.
La estimación puntual corresponde con asignar un valor muestral concreto al valor poblacional
que se desea estimar. Un buen estimador deberá ofrecer en promedio estimaciones correctas
(carencia de sesgo).
LA

Asimismo, un estimador es eficiente cuanto menor sea su varianza.


En la estimación puntual el valor que tome el estadístico en una muestra no tiene por qué coincidir
con el valor del parámetro estimado. Debido a la variación muestral, siempre existe la posibilidad
de encontrar discrepancias entre estos dos valores, a esto se le llama error muestral.
FI

Utilizando la estimación puntual, no es posible conocer la magnitud del error, pero si es posible si
recurrimos a la estimación por intervalos.
Esta forma de inferencia, consiste en asignar al parámetro que se desea estimar, no un valor
concreto, sino un rango de valores entre los que se espera que pueda encontrarse el verdadero
valor del parámetro con una probabilidad conocida.


Al rango de valores que se asigna al parámetro se le llama intervalo de confianza (IC), y a los
extremos del intervalo se les llama límites de confianza: límite inferior (Li ) y límite superior (Ls ). El
intervalo de confianza para el parámetro se construye sumándole y restándole una

cantidad llamada error máximo (Emax ) al estimador puntual Y (Y raya arriba) .


Permite conocer la probabilidad con la que cabe esperar que el intervalo construido incluya el
verdadero valor del parámetro estimado. A esa probabilidad se le llama nivel de confianza.
Para conocer el nivel de confianza es necesario que la cantidad Emax esté referida a alguna
distribución de probabilidad conocida, en concreto, a la distribución muestral del estadístico
utilizado como estimador. Por tanto, para poder construir intervalos de confianza es necesario
utilizar estimadores con distribución muestral conocida.

25
Este archivo fue descargado de https://filadd.com
Un intervalo construido con una confianza de 0,95 puede interpretarse de la siguiente manera:
estimamos, con una confianza del 95 %, que el verdadero valor del parámetro estimado se
encuentra entre los límites del intervalo construido. Y lo que esto significa realmente es que se ha
utilizado un procedimiento que permite afirmar que de cada 100 intervalos que se construyan en
las mismas condiciones, 95 de ellos incluirán el verdadero valor del parámetro (cinco de ellos no lo
harán).

OM
Clasificación Variables: XYX
sexo: categórica nominal
edad: numérica o cuantitativa de razón

.C
tiene trabajo: categórica nominal
salario: ordinal
orientación política: nominal
DD
tercil de ingreso (menor, medio, mayor) categórica ordinal (porque ordena)

VARIABLES CATEGÓRICAS
LA

Representaciones Gráficas: ofrecen info fácil, económica (en recursos)


Representan los casos que tengo en mi base de datos, en función de variables que la
componen.
Se constituyen a partir de frecuencias
FI

Se interpretan en función de las variables que estoy analizando para que la interpretación
de esos datos tenga sentido

Gráficas más comunes para variables categóricas: de columnas, columnas acumuladas




y de sectores (torta)
Representaciones gráficas según niveles de medición de las variables: de columnas (ideal
para NIVEL ORDINAL) / de sectores (ideal para NIVEL NOMINAL)

Gráfico de barras acumuladas: para variables ordinales solamente. Nominales no tiene


sentido acumular sus frecuencias.
RESUMEN representaciones gráficas:
Para leer una gráfica:
− Leer el título

26
Este archivo fue descargado de https://filadd.com
− Cuáles son las variables que se representan
− Cuáles son sus categorías
− Es posible leerlas de forma acumulada? (variables ordinales SI)
− Cada sector, barra, columna representa siempre la misma frecuencia, sea frecuencia
absoluta, relativa, porcentual o acumulada de cada categoría.

TENDENCIA CENTRAL y dispersión de variables categóricas


Además de sistematizar los datos a través de distribuciones de frecuencias y gráficos,

OM
algunos estadísticos complementan la matriz con : tendencia central y dispersión.
Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un
solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra
ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas
son: media, mediana y moda.
La mediana estadística es el número central de un grupo de números ordenados por

.C
tamaño. Si la cantidad de términos es par, la mediana es el promedio de los dos números
centrales: ... Ordena los números según su tamaño. Si la cantidad de términos es impar,
la mediana es el valor central.
DD
En estadística descriptiva, se le llama rango intercuartílico o rango intercuartil, a la
diferencia entre el tercer y el primer cuartil de una distribución. Es una medida de la
dispersión estadística. A diferencia del rango, se trata de un estadístico robusto.
Una variable cuantitativa se refiere a atributos que expresan una cantidad o cantidad de
magnitud y por tanto toma valores numéricos Ejemplos: La edad de una persona (5 años,
12 años, 20 años…) ... La variable cuantitativa puedes ser discretas o continuas.
LA

Discreta: un hijo, un perro (no puede haber hijo y medio, perro y cuarto)
Continuas: 1,5 kg 1,75 kg 2,10 kg 3,154 kg etc
FI

Es importante no confundir la correlación con la causalidad.


Un valor alto del coeficiente de correlación no indica causalidad, cómo puede influir una tercera
variable generando una relación espuria y la paradoja de Simpson.
Una correlación parcial puede evaluar si estamos ante una relación espuria debido a la presencia de


una tercera variable de confusión.


Si la correlación no implica causalidad, entonces, ¿qué hace?
La correlación implica asociación, pero no causalidad. A la inversa, la causalidad implica asociación,
pero no correlación.

Distribución empírica de la muestra. Si se tiene una muestra aleatoria simple, es posible


encontrar una distribución a partir de la muestra que proporcionará un cierto parecido a la
distribución verdadera de la variable asociada con la población. Es lo que se denomina
función de distribución empírica de la muestra.

27
Este archivo fue descargado de https://filadd.com
Distribución muestral : es lo que resulta de considerar todas las muestras posibles que pueden ser
tomadas de una población. Su estudio permite calcular la probabilidad que se tiene, dada una sola
muestra, de acercarse al parámetro de la población.
Distribución teórica : la correspondiente distribución de probabilidades en una variable aleatoria.
Las principales distribuciones teóricas son: Uniforme, de Bernoulli, Bimomial, de Poisson y Normal.

OM
.C
DD
LA
FI


28
Este archivo fue descargado de https://filadd.com

También podría gustarte