Documentos de Académico
Documentos de Profesional
Documentos de Cultura
OM
objetivo de reunir los datos cuantitativos es entender, describir, y predecir la naturaleza de un
fenómeno, particularmente mediante el desarrollo de modelos y teorías.
.C
fenómeno. Las conclusiones sobre lo que ocurrirá con la totalidad de un evento se extrae a partir
de la observación de unos pocos. Ir de lo que se observa en un conjunto reducido a afirmar que eso
es válido para el total de observaciones es la inducción o generalización inductiva.
DD
Estadística: Es la ciencia recoge, ordena y analiza los datos de una muestra extraída de una
determinada población, para hacer inferencias acerca de esa población valiéndose del cálculo de
probabilidades.
Se subdivide en : estadística descriptiva y estadística inferencial.
La estadística descriptiva : una serie de procedimientos diseñados para describir la información
contenida en un conjunto de datos (muestra). Resume y organiza datos.
LA
La estadística inferencial (también llamada inductiva) engloba una serie de procedimientos que
permiten generalizar (inferir, inducir) la información contenida en ese conjunto particular de datos
(muestra) al conjunto total de datos (población); es decir extraer información y elaborar
conclusiones.
FI
En los análisis cuantitativos de datos, los datos corresponden esencialmente con números.
Esto significa que para analizar es práctico asignar números a las características de las personas,
objetos, lugares, etc., que se quiere estudiar. Qué representan los números asignados a los
distintos valores de una variable depende de la variable que estamos midiendo.
Existen dos tipos de variables: categóricas y cuantitativas.
Variables categóricas
Una variable categórica es una variable que puede tomar un conjunto de valores posibles,
asignando cada observación a un grupo o categoría nominal de acuerdo con una propiedad de
interés. Un ejemplo: especie (no vamos a encontrar un organismo mitad perro mitad ratón).
Las variables categóricas pueden clasificarse en nominales u ordinales.
La medida nominal consiste en clasificar en categorías a los sujetos u objetos de una misma
categoría sean equivalentes en la característica que se está midiendo.
1
Este archivo fue descargado de https://filadd.com
Los sujetos u objetos asignados a categorías diferentes se consideran cualitativamente distintos. La
especie es un ejemplo de variable nominal.
La medida ordinal: asignar a los sujetos u objetos medidos un número que permita ordenarlos
según la cantidad que poseen de la característica medida.
En la escala ordinal ésta presente la relación de igualdad-desigualdad propia de la escala nominal, y
los números asignados permiten saber si la cantidad de característica que posee un sujeto u objeto
es mayor que o menor que la que tiene otro sujeto u objeto, pero sin decir en cuanto varían. Por
ejemplo, resultado de una carrera, primero segundo tercero.
Variables cuantitativas
OM
Se clasifican en DISCRETAS o CONTINUAS y DE INTERVALO o RAZÓN.
Variable Continua: puede tomar cualquier valor de la escala de medición que estamos usando, es
decir, que entre dos valores consecutivos siempre es posible encontrar un valor intermedio; Ej:
edad, tiempos de reacción.
Variable Discreta: cuando entre dos valores consecutivos no puede darse un valor intermedio. Ej:
número de hijos.
Variable Cuantitativa de Intervalo: cuando intervalos iguales en una escala representan
.C
diferencias iguales en la propiedad que estamos midiendo.
Un objeto al que se le asigna un 12, tiene 2 unidades más que un objeto al que se le asigna 10. Lo
mismo que uno de 6 y uno de 4. Entre 12 y 10 hay la misma diferencia que entre 6 y 4.
DD
Las variables de intervalo no poseen un cero absoluto, es decir no existe un valor que indique
ausencia de esta propiedad. Ej: temperatura, 0 no indica que no hay temperatura.
Variable Cuantitativa de Razón: añade a la de intervalos la presencia del cero absoluto. Es decir, el
cero de una escala de razón indica ausencia total de la característica medida.
Ej: peso, edad, tiempos de reacción
LA
VARIABLES CATEGORICAS
Cuando la variable es categórica, cada opción de respuesta se llama categoría o valor de
la variable (ej: sexo: H M otros)
FI
Para variables numéricas (ej EDAD) cada opción de respuesta se llama VALOR o NIVEL
DE LA VARIABLE. En la base de datos, cada respuesta es un CASO.
Para ordenar la base de datos hay que resumir todas las respuestas de una encuesta. Se
resume con herramientas para variables categóricas.
2
Este archivo fue descargado de https://filadd.com
Frecuencia absoluta (número de casos por categoría)
Frecuencia relativa (proporción)
Porcentaje (frecuencia relativa x 100)
Frecuencias acumuladas (sólo para variables ordinales)
Las tablas de frecuencias pueden contener mucha información sobre una variable categórica.
OM
.C
Ejemplo para variable categórica “nivel de estudios”. Muestra resumen de qué valores toma la
variable de interés, qué valores son más frecuentes (frecuencias absolutas, frecuencias relativas,
frecuencias porcentuales) y por tratarse de una variable categórica ordinal, cuántos casos alcanzan
DD
un determinado valor o están por encima de él (frecuencias acumuladas).
Se construyen combinando las categorías de todas las variables y permiten analizar cómo se
distribuye una variable en relación a otras.
FI
Tabla 10.1 : dos tablas univariadas, una para la variable categórica sexo y otra para la variable
categórica tabaquismo.
3
Este archivo fue descargado de https://filadd.com
Una tabla DE CONTINGENCIA: 10.2 combina info de las 200 personas más hábito fumador,
formando una tabla de frecuencia bivariada con ambas variables. Reponde a preguntas: Cuántos
hombres declaran no fumar, cuántas mujeres son ex fumadoras etc
OM
De los 200 personas evaluadas, 60 personas fuman: La frecuencia relativa de fumadores es 0,3%
(frecuencia porcentual de 30%)
.C
En una tabla bivariada son relevantes las distribuciones condicionales, es decir qué pasa con la
variable 1 si la variable 2 toma cierto valor.
Ejemplo: qué % de mujeres fuma, no fuma
La información sobre cómo se distribuye la variable sexo en cada categoría de la variable
DD
tabaquismo podemos encontrarla en los porcentajes de fila y los porcentajes de columna de una
tabla bivariada de porcentaje de frecuencias para estas variables.
La última fila corresponde a los porcentajes MARGINALES de la variable tabaquismo, indican cual es
la distribución no condicional de la variable tabaquismo; es decir cuántos fumadores, no fumadores
y ex fumadores hay en el total sin importar el sexo de los individuos.
FI
4
Este archivo fue descargado de https://filadd.com
Prevalencia: número de individuos que, en relación con la población total, padecen una
enfermedad equis en un momento específico. Como todas las proporciones, no tiene dimensiones
y nunca puede tomar valores menores de 0 o mayores de 1.
Se suele expresar como casos por mil o casos por cien habitantes.
OM
Varon 250
Mujer 1154
Otro 5
Total 1409
.C
FRECUENCIA RELATIVA: Muestra la proporción de veces que se repite cada categoría
de la variable en la base de datos. Se calcula a partir de la frecuencia absoluta. Divido cada
frecuencia absoluta (varón, mujer, otro) entre el total de casos (n). Da la proporción en la
que aparece cada categoría.
DD
FRECUENCIA PORCENTUAL: También es relativa. Representa el porcentaje de veces
que se repite cada categoría de la variable en la base de datos. Se calcula multiplicando por
100 la frecuencia relativa.
La información que proporciona la frecuencia porcentual para describir la variable sexo es
LA
que del total de estudiantes, equis % son varones, equis mujeres y equis son otros.
Por lo general se una o relativa o porcentual en una tabla. Pero la absoluta va siempre.
Se usa Frecuencia Relativa o Frecuencia Porcentual (y no sólo la Absoluta) para comparar
bases de datos, para obtener respuestas.
FI
De 5000 a 9999
De 10000 a 29999 etc
5
Este archivo fue descargado de https://filadd.com
La Frecuencia Acumulada sólo tiene sentido cuando existe un orden lógico en las categorías
de la variable. Por eso se calcula sólo para variables categóricas con nivel de medición
ordinal.
Ej: la frecuencia absoluta acumulada me permite saber cuántos estudiantes ganan hasta
$9.999. Se suman las frecuencias, esa sumatoria se presenta en la frecuencia acumulada.
OM
frecuentes son.
A través de las acumuladas me permite saber la cantidad de casos hasta una determinada
categoría de la variable.
Distribución de frecuencias también pueden ser usadas para variables numéricas PERO
siempre que sean variables con pocos niveles (ej: cantidad de días de la semana que se
.C
asiste a clase -hay sólo siete días 7 -)
TABLAS DE CONTINGENCIA: Permiten describir dos variables o más al mismo tiempo.
También se llaman tablas BIVARIADAS o tablas CRUZADAS o de DOBLE ENTRADA.
DD
Permiten analizar una variable con relación a otra u otras variables.
Muestran frecuencia conjunta de dos o más variables.
Se pueden encontrar tablas SIN los marginales, la lectura es la misma (porque el porcentaje
está implícito). % i = P1 x 100
Frecuencias condicionales: los datos de la tabla (sin totales)
Para comparar información es más conveniente usar porcentajes. Permite responder más
interrogantes. Para ello hay que calcular tablas de contingencia porcentuales. Un tipo
FI
6
Este archivo fue descargado de https://filadd.com
Lo útil es poder organizar y resumir esos datos que facilite entender de lo que está
pasando. Resumen sólo capta un aspecto parcial de los datos. Por eso es importante
elegir bien la herramienta estadística que nos dé respuesta a lo que queremos estudiar.
En este sentido, ya sea si es variable categórica o cuantitativa, hay que atender tres
características: el CENTRO, la DISPERSIÓN y la FORMA de la distribución.
OM
(Los encuestados ingresan las respuestas que deseen) o Cerrada (Los encuestados
admiten reconocer o no las opciones que se ofrecen).
Tablas de frecuencias
Una tabla o distribución de frecuencias: es una forma de ordenar datos basada en valores
concretos que adopta una variable categórica y en el número de veces que se repite cada
.C
valor. El objetivo de la tabla de frecuencias ordenar y RESUMIR la información.
Multiplicando por 100 las frecuencias relativas se obtienen las frecuencias porcentuales (%
i):
FI
Estas frecuencias indican el porcentaje de veces que se repite cada valor. Información
Frecuencias relativas y porcentuales es idéntica, no es necesario incluir ambas en la
misma tabla.
La Tabla 3.2 ofrece las frecuencias de la variable nivel de estudios (es categórica, igual
que tabaquismo); pero el nivel de estudios es una variable ordinal (sus categorías están
7
Este archivo fue descargado de https://filadd.com
cuantitativamente ordenadas). En estos casos es posible calcular un tipo particular de
frecuencias llamadas acumuladas.
OM
La frecuencia absoluta acumulada (nai) recoge el número de veces que se repite un
.C
valor más cualquier otro inferior a él. La frecuencia relativa acumulada (Pai) se obtiene
dividiendo la frecuencia absoluta acumulada entre el número total de casos (Pai = nai /n).
Y la frecuencia porcentual acumulada (% ai) se obtiene multiplicando por 100 la
frecuencia relativa acumulada (% ai = 100Pai).
DD
Las frecuencias absolutas (ni) constituyen el punto de referencia de una tabla de
frecuencias: todas las demás frecuencias se calculan a partir de las absolutas.
En general, si una variable cuantitativa se mide con suficiente precisión, se repetirán poco,
por lo que más que un resumen será un listado de casos.
FI
Una tabla o distribución de frecuencias contiene casi toda la información sobre una variable
categórica:
• Indica qué valores toma la variable representada (ej variable tabaquismo toma 3
valores: fumador, no fumador, ex fumador)
• Informa qué valores son más frecuentes y qué valores son menos frecuentes (por
ejemplo, algo más de la mitad de los sujetos no fuma)
• En el caso de variables categóricas ordinales, las frecuencias acumuladas indican
cuántos sujetos alcanzan un determinado valor o están por encima de él (ej: aprox
60% de los sujetos no pasa de estudios secundarios).
Por tanto, de las tres propiedades o características a las que conviene prestar atención
8
Este archivo fue descargado de https://filadd.com
para describir apropiadamente una variable (centro, dispersión y forma de la
distribución), una tabla de frecuencias ofrece información precisa sobre dos de ellas: el
centro y la forma de la distribución.
El centro de la distribución es el valor con la frecuencia más alta (el valor que más se
repite). Recibe el nombre de moda.
La moda entendida como centro de una distribución (es decir, como representante del
resto de valores) tiene una capacidad descriptiva muy limitada, por lo que debe
interpretarse con cautela: puede ocurrir que el valor que más se repite tenga una
frecuencia baja; también puede ocurrir que haya más de una moda (categorías con la
OM
misma frecuencia) o que haya muy poca diferencia entre las dos categorías que más se
repiten.
La forma de la distribución es visible a partir del tamaño de las frecuencias, que son las
que indican dónde tienden a agruparse los valores y qué categorías tienen frecuencias
pequeñas.
En relación con la forma de la distribución, es importante valorar categorías con frecuencia
.C
nula o muy pequeña. Y si la variable es ordinal, hay que prestar atención a si las
frecuencias se agrupan en torno al centro (simetría) o están desplazadas hacia uno de los
extremos (asimetría). Por supuesto, un gráfico apropiado puede ayudar a hacerse una
DD
buena idea de la forma de la distribución.
El IVC toma valores comprendidos entre cero y uno. Cuando todas las frecuencias están
concentradas en una sola categoría (dispersión mínima o nula), toma el valor cero;
cuando las frecuencias están uniformemente repartidas entre todas las categorías
(dispersión máxima) toma el valor uno. Por tanto, los valores obtenidos (0,85 y 0,74)
están indicando, en ambos casos, un grado de dispersión medio-alto.
9
Este archivo fue descargado de https://filadd.com
Un gráfico de barras : dos ejes cartesianos: en el eje horizontal valores variables, en el
vertical las frecuencias. Sobre cada valor se levanta una barra de altura proporcional a su
frecuencia (la anchura de las barras no es relevante, pero todas ellas han de tener la
misma). Las barras van separadas para resaltar que son distintos valores de la variable.
OM
Cuando la variable es categórica ordinal (variable con categorías cuantitativamente
ordenadas),
también pueden representarse las frecuencias acumuladas colocando el valor menor
a la izquierda y el mayor a la derecha. Pero como una variable ordinal suele medir una
característica continua, común es usar histogramas.
Al construir gráfico de barras evitar cortar el eje vertical (para que altura barras no sea
.C
engañosa (diferencias chicas pueden parecer muy grandes). Se distorsiona. Ni usar
imágenes
DD
Gráficos de barras son útiles para representar variables categóricas (variables medidas
con una escala nominal u ordinal); y variables cuantitativas discretas con pocos valores ej.
Cantidad de hijos.
Gráfico de sectores (torta, queso etc) también útil para variables categóricas. El ángulo
de cada sector: frecuencia relativa x 360 (360Pi) Forma del gráfico no se afecta por elegir
frecuencias absolutas, relativas o porcentuales.
LA
Gráfico barras permite comparar sectores más fácilmente que gráfico sectores, que
además pierde eficacia cuando la variable tiene muchas categorías. Ventaja gráfico
sectores es poder destacar un sector separándolo del resto.
FI
10
Este archivo fue descargado de https://filadd.com
Unidades 4 y 5 - Estadística descriptiva de variables cuantitativas
Las tablas de frecuencia no son útiles para resumir información de variables cuantitativas
(numéricas), porque presentan demasiados valores distintos y generalmente con pocas
repeticiones de cada uno, lo que la transforma en un listado que no resume datos (no es
informativo).
Describir de forma organizada los valores de una variable cuantitativa requiere utilizar otras
herramientas. Tres propiedades básicas van a ser importantes: centro, dispersión y forma
de la distribución. Representación gráfica : Histogramas
OM
Para variables categóricas : gráficos de barras / Para variables cuantitativas : histograma
Propiedades histograma: Las barras se disponen juntas generando una impresión de
continuidad que permiten ver si hay patrones en los datos.
En el eje horizontal se encuentran los valores de la variable ordenados de menor a mayor,
de izquierda a derecha. En el eje vertical se colocan las frecuencias para cada valor.
Sobre cada valor se levanta una barra con altura proporcional a la frecuencia del valor. Por
.C
ser variables cuantitativas hay pocas repeticiones de cada valor, por lo que se suelen
generar intervalos tomando algunos valores consecutivos como valores en el eje horizontal.
De este modo, se reemplazan los valores individuales por estos intervalos y se suman las
DD
frecuencias del conjunto de valores que conforman el intervalo.
La elección del tamaño del intervalo definirá la apariencia del histograma resultante.
Un histograma de pocos intervalos y muy grandes será muy poco informativo (Fig.1), así
como un histograma de muchos intervalos muy pequeños no será muy distinto a un gráfico
de barras. Una relación óptima entre estos dos valores permitirá crear un histograma que
LA
nos permita observar la presencia de algún patrón en nuestros datos. Conocer la forma de
la distribución ayuda a elegir entre los estadísticos más apropiados para describirla, permite
obtener una visión rápida de sus características, facilitando la detección de valores
anómalos, valores que se repiten demasiado o valores que no aparecen.
FI
11
Este archivo fue descargado de https://filadd.com
OM
Figura 1: Histogramas de la edad de los psicológos en Uruguay reailzados con distintos intervalos
.C
Las variables cuantitativas pueden presentar formas diversas, sin embargo, para muchas
variables que medimos se observa que la mayoría de los valores se encuentran cercanos al
centro de la distribución y se vuelven menos frecuentes a medida que nos alejamos del
DD
centro.
LA
FI
Figura 2: Histograma para la variable altura (izq) e histograma para la variable altura con una curva
normal superpuesta (der)
12
Este archivo fue descargado de https://filadd.com
Propiedades que describen la forma de una distribución
Medidas de tendencia central: son los estadísticos para identificar el centro de una
variable. Los estadísticos que permiten cuantificar el grado de dispersión (alejamiento) de
las puntuaciones respecto de su centro suelen llamarse medidas de dispersión o de
variabilidad. Finalmente, los estadísticos que sirven para describir la forma de la distribución
suelen atender a la asimetría y curtosis.
OM
Para identificar el centro de una variable es posible
elegir el valor que mejor representa al resto de los
valores.
Para variables categóricas una medida informativa es
la moda: es la categoría que más se repite de una
variable.
.C
Las variables cuantitativas generalmente presentan
valores con pocas repeticiones, por lo que la moda no
suele ser una buena medida, ni tiene porqué
DD
corresponder con el centro de la variable.
Existen diferentes formas de hacerlo y depende de
qué aspectos de la variable son de interés o se
consideran relevantes.
Una manera de identificar el centro de una variable:
LA
13
Este archivo fue descargado de https://filadd.com
El hecho de que en el cálculo de la media intervengan todos los valores de la variable hace
de ella un estadístico muy sensible a la presencia de valores muy alejados del centro por
uno de los dos extremos de la distribución.
La mediana de una variable (Y) es el centro de la variable en sentido literal: es el valor que
ocupa la posición central cuando los casos están ordenados. Con otras palabras, la mediana
es el valor que deja por debajo de sí el 50% de los casos, como vemos en la Figura 3. Si el
número de casos es impar, la mediana es el valor que ocupa la posición:
OM
i = (n + 1) / 2
Si el número de casos es par, la mediana es la media entre los dos valores que ocupan las
posiciones
.C
Dispersión
Describir un conjunto de datos a partir de un solo número es una importante pérdida de
información: un estadístico de tendencia central informa sobre el centro de la distribución,
pero no dice nada sobre el resto de los valores.
DD
Como consecuencia, un mismo valor puede ser el centro de conjuntos de datos muy
diferentes, y por lo tanto no permite diferenciarlos. Por eso es necesario conocer el grado de
dispersión, o sea, el grado de parecido entre los datos en el sentido de concentración o
alejamiento entre ellos.
LA
14
Este archivo fue descargado de https://filadd.com
Asimetría y Curtosis
Conocer la forma de la distribución ayuda a elegir entre los estadísticos más apropiados para
describirla y tener una visión rápida de sus características. Permite detectar valores
anómalos, advertir valores que se repiten demasiado o valores que no aparecen. Hay dos
características principales de la forma de una distribución: la curtosis y la asimetría. La
OM
.C
DD
Figura 4: Histogramas correspondientes a distribuciones con distinto grado de asimetría y curtosis
LA
curtosis determina el grado de concentración que presentan los valores en la región central
de la distribución. Es decir que indica el grado de “afinamiento” de la distribución en el centro
(en comparación a la distribución normal). Como se ve en la Figura 4, una distribución
“picuda” (valores concentrados) se llama Leptocúrtica; una distribución similar a la curva
FI
15
Este archivo fue descargado de https://filadd.com
Figura 5: Ejemplos de Índices de asimetría (g1) y curtosis (g2)
Cuantiles
Los cuantiles tienen como objetivo ubicar a los sujetos individualmente considerados en la
posición relativa que ocupan respecto del resto. Es decir que son medidas de posición.
Los cuantiles son cada uno de los J valores que dividen la distribución en J + 1 partes iguales.
Algunos cuantiles tienen nombre específico. Así, la mediana es un valor que divide la
distribución en dos partes iguales, los cuartiles son tres valores (Q1, Q2, Q3) que dividen
OM
la distribución en cuatro partes iguales (el 25% de los casos en cada parte) Para calcular los
cuantiles se comienza ordenando los casos de forma ascendente por su valor en la variable
(que en este caso llamamos Y).
Si se quiere calcular por ejemplo los percentiles (100), se calcula la posición
i = k(n+1) / 100
.C
para el valor del percentil k (ej. si se busca el percentil 25, k=25). Si i es un número entero,
DD
entonces el percentil k tendrá el valor de la variable Y en la posición i. Si i es un número
decimal, entonces el percentil k se calcula como : Pk = (1 - d)Yi + (d)Yi+1
LA
percentiles, a partir de ese momento cada resultado individual podrá ser ubicado en la
posición relativa que le corresponde en el conjunto de los resultados de la prueba.
16
Este archivo fue descargado de https://filadd.com
Diagramas de Caja y bigotes
Permite dar una idea rápida sobre las tres 3 tres
propiedades esenciales de una distribución:
centro, dispersión y forma.
Incluye la mediana, los cuartiles (Q1, Q2 y Q3), y
una serie de puntos que identifican los valores que
se alejan mucho del centro (valores extremos).
La Mediana (que es también Q2) identifica el
OM
centro de la distribución.
La altura de la caja (rectángulo) y la longitud de
los bigotes (las T que le siguen a la caja) permiten
valorar el grado de dispersión y de asimetría
(los bigotes se extienden hasta lo que podríamos
llamar una dispersión razonable).
.C
Los círculos (también se usan asteriscos), si
existen, delatan casos excesivamente alejados
del centro
DD
Unidad 6
UNIDAD 6
Puntuaciones z y curva normal
LA
Puntuaciones Z, típicas o estándar refieren al mismo tipo de puntuación. Se usan solamente para
variables cuantitativas (no para categóricas). Y son transformaciones que se realizan a los valores o
puntuaciones directas de una distribución normal para analizar su distancia respecto a la media. Se
expresan en unidades de desviación estándar.
Puntuación Z representa el número de desviaciones típicas o estándar por encima o por debajo de
FI
la media. Las puntuaciones Z forman una desviación que siempre tiene el mismo centro, la misma
dispersión y la misma métrica.
Puntuaciones DIRECTAS: son el valor de la variable asignado a un sujeto a partir de la medición de
una propiedad, por ejemplo, inteligencia.
17
Este archivo fue descargado de https://filadd.com
Ejemplo: se usa para comparar las notas de una persona en pruebas diferentes, o que midan el
mismo concepto a través de dos pruebas diferentes.
También se usan para comparar puntuaciones diferentes a través de centiles. Los centiles también
permiten comparar las puntuaciones de distintas distribuciones.
Distribuciones
Una tabla de frecuencias tiene información sobre la forma de la distribución de una variable
categórica. O sea, las frecuencias relativas (proporciones) de una tabla de frecuencias
OM
indican con qué probabilidad cabe esperar encontrar cada uno de los valores de la
variable.
Ej: si sabemos que el 30% de las personas de un determinado colectivo son fumadoras,
sabemos que la probabilidad de que una persona seleccionada al azar de ese colectivo
sea fumadora es 0,30.
En este sentido, una tabla de frecuencias relativas puede concebirse como una distribución
de probabilidad, como una distribución que contiene todos los valores de la variable junto
.C
con la probabilidad asociada a cada uno de ellos.
Esto mismo vale también para las variables cuantitativas.
Ej: cuando se mide la altura en un grupo de sujetos y con los valores obtenidos se
DD
construye un histograma estamos captando la forma de la distribución; y las frecuencias
relativas asociadas a cada valor o rango de valores están indicando con qué probabilidad
cabe esperar encontrar cada uno de ellos.
En ambos casos estamos hablando de distribuciones empíricas, es decir, distribuciones
construidas a partir de los datos observados.
LA
Pero sabemos que también existen distribuciones teóricas como la normal que ya
mencionamos, o la binomial. Son distribuciones que, aunque no están generadas a partir
de los datos sino a partir de una función matemática, son representaciones de los
datos que tienen la enorme utilidad de ayudar a interpretarlos mejor.
Las distribuciones de probabilidad, las empíricas y las teóricas, son importantes porque
FI
Distribución normal
Muchas de las variables cuantitativas que medimos tienen una forma particular: la mayoría de los
valores se encuentran próximos al centro de la distribución y van siendo menos frecuentes a medida
que va aumentando la distancia al centro. Es el caso de la llamada distribución normal.
La curva normal puede concebirse como una especie de histograma suavizado cuyas barras se han
levantado sobre intervalos infinitamente pequeños.
Una vez obtenida la curva es posible calcular el área bajo la curva comprendida entre dos puntos que
corresponde a la proporción de valores que se encuentran en esa porción de área.
18
Este archivo fue descargado de https://filadd.com
OM
Para indicar que una variable se distribuye normalmente utilizaremos la siguiente expresión:
.C
Y ∼ N(µY , σY )
Cambiando los valores de µY y σY en la ecuación anterior se obtienen distintas curvas normales. Por
tanto, no existe una única curva normal, sino muchas (Figura 1), sin embargo todas ellas comparten
DD
las mismas características:
• Tienen un único máximo en µY (por tanto, son unimodales).
• Tienen forma de campana. Esto implica que los valores centrales son más probables que los
que se van alejando del centro.
• Son simétricas respecto al eje central situado en µY .Por lo que las diferentes medidas de
LA
• El área total bajo la curva vale 1. Todas las puntuaciones posibles se encuentran entre −∞ y
+∞. Por tanto, la probabilidad de encontrar valores menores que −∞ o mayores que y +∞
vale cero.
La mayor parte del trabajo con variables distribuidas normalmente consiste en hallar el área bajo la
curva que queda por debajo o por encima de cada valor del eje horizontal, o sea hallar el tamaño
relativo que cada porción de área representa respecto del área total (proporción de área).
En este contexto, hablar de proporción de área es equivalente a hablar de probabilidad: en la
primera curva normal de la Figura 1, la porción de área situada antes del valor µY representa la
proporción de valores menores que µY ; es decir, la probabilidad de encontrar valores por debajo de
µY . Estas probabilidades se obtienen a partir de las densidades que ofrece la función (1). No
obstante, para evitar este tipo de cálculos, se han construido tablas con las probabilidades
(proporciones de área bajo la curva) ya calculadas. Estas tablas recogen las probabilidades de una
curva normal muy especial llamada curva normal tipificada o estandarizada; es decir, una curva que
tiene media 0 y desviación típica 1; lo cual se expresa mediante N(0, 1) (Figura 3). Por supuesto, el
19
Este archivo fue descargado de https://filadd.com
hecho de que la distribución normal tabulada tenga media 0 y desviación típica 1 no es un problema
sino, de hecho, una ventaja, pues cualquier variable cuantitativa Y puede ser transformada en otra
variable equivalente Z con media 0 y desviación típica 1 sin que se altere la forma de su distribución
(a esta transformación la hemos llamado tipicación y, al resultado de la tipicación, puntuaciones
típicas o puntuaciones Z).
Una vez que una puntuación directa (valores en la escala original, ej. edad en años) ha sido
transformada en puntuación Z, ya es posible conocer la probabilidad asociada a cada puntuación
directa a partir de la probabilidad asociada a su correspondiente puntuación típica.
OM
.C
DD
LA
Figura 2: Equivalencia entre posiciones que ocupan las puntuaciones directas (gráficos de la parte superior) y
las que ocupan sus correspondientes puntuaciones típicas (gráficos de la parte inferior).
FI
En estos gráficos se observa con claridad que la proporción de área que queda por debajo (o por
encima) de una puntuación directa en una curva N(µY , σY ) es exactamente la misma que queda por
debajo (o por encima) de su correspondiente puntuación típica en la curva N(0, 1).
Y como se está asumiendo que proporción es equivalente a probabilidad, lo que se está armando es
que la probabilidad de encontrar valores menores (mayores) que una puntuación directa es
exactamente la misma que la de encontrar valores menores (mayores) que su correspondiente
puntuación típica.
Para conocer la probabilidad de encontrar valores menores (o mayores) que una puntuación directa
es necesario:
1. Transformar esa puntuación directa en puntuación típica
2. Utilizar la tabla de áreas bajo la curva normal para conocer la probabilidad buscada
20
Este archivo fue descargado de https://filadd.com
OM
.C
Unidad 7 - Población y Muestra
Conceptos de muestreo poblacional, distribución muestral de la media, el error estándar de la
media y los intervalos de confianza.
DD
Inferencia estadística: extraer conclusiones de tipo general a partir de unos pocos datos
particulares, que permitan realizar de forma correcta esta generalización, los análisis de datos a
implementar deben ser tan apropiados como la selección de los mismos.
Las técnicas de muestreo garantizan que la inferencia se sustenta en una buena base y los análisis
de datos engloban las herramientas que permiten desarrollar correctamente las inferencias.
LA
Población: conjunto de elementos (sujetos, objetos, entidades abstractas) que poseen una o
más características en común. Población se utiliza para el conjunto total de elementos que interesa
estudiar y queda definida cuando se explican las características que esos elementos comparten.
FI
El punto clave, para que las conclusiones obtenidas sean válidas, es que la muestra utilizada debe
ser representativa de la población que se supone representa, esto se logra a través de las técnicas
de muestreo.
Parámetros y estadísticos
21
Este archivo fue descargado de https://filadd.com
parámetro poblacional: tendremos un valor numérico que describe una característica de la
población: la altura media de los varones uruguayos de entre 20 y 30 años.
Los parámetros son generalmente valores poblacionales desconocidos ya que no se suele tener
acceso a todos los elementos que la conforman.
Asimismo, se tratan de valores numéricos constantes en el sentido que son valores únicos, no
varían. Definida una población cualquiera y un parámetro en ella, ese parámetro sólo puede tomar
un valor numérico concreto en un momento dado.
La altura promedio de varones en la población es un valor único. Finalmente, para referirnos a los
parámetros se utilizan letras griegas minúsculas:
OM
Estadístico: es un valor numérico que describe una característica muestral. Un estadístico es a la
muestra lo que un parámetro es a la población.
Al igual que para una población, una vez definida una o más características en las que no todos los
elementos coinciden, es posible obtener un valor numérico que las describa: a ese valor numérico
se le llama estadístico.
Es posible entonces, tomar un subconjunto de la población de varones uruguayos de entre 20-30
años y medir su altura. El promedio de la altura obtenido para esa muestra será un estadístico. A
.C
diferencia de los parámetros, los estadísticos se suelen representar con letras latinas mayúsculas (X,
S, B, P).
No es posible calcular los parámetros, pero cada parámetro poblacional posee su réplica muestral
en un estadístico concreto que si puede ser calculado. De este modo, los estadísticos muestrales se
DD
van a utilizar para intentar formarnos una idea sobre los verdaderos valores de sus
correspondientes parámetros poblacionales desconocidos.
Este proceso que consiste en atribuir a un parámetro el valor que toma su correspondiente
estadístico se conoce con el nombre de estimación.
Es importante notar que dada una población cualquiera es posible extraer más de una muestra
diferente del mismo tamaño. Esto significa que, definido un estadístico, cualquiera que éste sea, su
LA
valor exacto dependerá de los valores concretos que tomen cada uno de los elementos que formen
parte de la muestra obtenida. Si para cada muestra posible calculamos un determinado estadístico
encontraremos que el valor de ese estadístico no siempre es el mismo; es decir, encontraremos
que el valor del estadístico varía de una muestra a otra.
Esto significa que un estadístico no es un valor numérico constante (como lo es un parámetro),
FI
sino que es una variable: su valor concreto varía dependiendo de la muestra en la que se calcula.
A modo de resumen:
Un parámetro es un valor poblacional, un estadístico es un valor muestral.
Un parámetro es, por lo general, un valor desconocido, un estadístico es un valor conocido o
Muestreo: El proceso seguido para extraer una muestra de una población. El muestreo
puede ser de dos tipos: probabilístico y no-probabilístico.
Muestreo probabilístico: se conoce la probabilidad de que salga cada muestra y cada elemento
Muestreo no-probabilístico: se desconocen dichas probabilidades.
Un subtipo de muestreo probabilístico es el muestreo aleatorio. En el muestreo aleatorio todos los
elementos poblacionales tienen la misma probabilidad de ser elegidos, y el resultado de cada
extracción no afecta ni depende del resultado de cualquier otra, es decir son independientes entre
sí.
22
Este archivo fue descargado de https://filadd.com
Se destaca que dado que las poblaciones con las que trabajamos son desconocidas, no hay manera
de saber si la muestra elegida es representativa o no de la población muestreada. Lo que podemos
saber es si se ha utilizado un método de selección que garantiza que la muestra elegida sea
representativa de la población.
Distribución muestral
Uno de los estadísticos más útiles y utilizados en la inferencia estadística es la media aritmética: Y
En tanto es un estadístico, su valor concreto depende de la muestra concreta en la que
se calcula.
OM
De una población cualquiera es posible extraer más de una muestra de tamaño n (en una población
infinita es posible extraer infinitas muestras de cualquier tamaño). En cada una de esas muestras si
calculamos Y se verá que no siempre toma el mismo valor, varía de una muestra a otra.
Estos posibles valores del estadístico Y constituyen su distribución muestral.
.C
Si de esa población se seleccionan aleatoriamente y con reposición todas las posibles muestras de
tamaño n = 2, se obtendrán Nn = 52 = 25 muestras distintas (variaciones con repetición de N
elementos tomados de n en n), las que tendrán todas igual probabilidad de ser elegidas: 1/ 25
Son equiprobables.
DD
Si se calcula en cada una de esas 25 muestras el estadístico Y se obtendrán los resultados que
muestra la Tabla 6.1.
estadístico Y no lo son:
hay unos valores de Y que
son más probables que
otros porque unos
pueden obtenerse en un
mayor número de
muestras que otros.
Esto puede comprobarse en la tabla 6.2 que resume los diferentes valores que puede tomar el
estadístico y la probabilidad (frecuencia relativa) asociada a cada uno de ellos, es decir, la
23
Este archivo fue descargado de https://filadd.com
distribución muestral de la media (en concreto, la distribución muestral correspondiente a
muestras).
Se observa entonces, por ejemplo, que hay más muestras en las que se obtiene Y = 2; 5 que Y = 1; 5,
por lo tanto es más probable que la media tome el valor 2,5 a que tome 1,5. Un ejemplo similar
sucede al lanzar dos dados y observar la suma de los valores obtenidos (ver Recuadro).
OM
interesante: la forma de la distribución muestral de Y no se parece a la de la distribución
poblacional de Y: mientras que ésta es uniforme (los 5 elementos poblacionales son equiprobables),
la distribución muestral de Y sigue siendo simétrica pero con forma de campana (se parece a una
distribución normal).
.C
estadístico. Pero las poblaciones que usualmente interesa estudiar suelen ser muy grandes e
incluso, en ocasiones, infinitas. Significa que para obtener la distribución muestral de un
estadístico, no siempre resulta posible extraer todas las posibles muestras de tamaño n. Debemos
DD
apoyarnos entonces en procedimientos matemáticos que son capaces de captar con precisión las
características de una distribución muestral. Sabemos que una distribución muestral es la
distribución de probabilidad de un estadístico.
También sabemos que un estadístico es una variable aleatoria. Por tanto, la distribución muestral
de un estadístico puede quedar caracterizada del mismo modo que la distribución de cualquier
LA
Es posible conocer la distribución muestral de la media también sin extraer una sola muestra si
El teorema central del límite afirma que si los datos que se recogen son debidos a la suma de cierto
número de causas independientes entre sí, cada una con un efecto parcial, la distribución de los
datos recogidos se asemejará tanto más a la curva normal cuantos más datos se recojan (cualquiera
que sea la distribución original de esos efectos parciales y siempre que la desviación típica de estos
efectos sea finita).
24
Este archivo fue descargado de https://filadd.com
Es importante no confundir la distribución original de la variable Y con la distribución muestral
del estadístico Y (Y barra arriba).
OM
.C
Unidad 8 - Intervalos de Confianza
Estimación de parámetros: Intervalo de confianza
DD
La estimación de parámetros se refiere al proceso mediante el cual la información muestral es
utilizada para inferir valores poblacionales.
Podemos llevar a cabo dos tipos de estimaciones: puntual y por intervalos.
La estimación puntual corresponde con asignar un valor muestral concreto al valor poblacional
que se desea estimar. Un buen estimador deberá ofrecer en promedio estimaciones correctas
(carencia de sesgo).
LA
Utilizando la estimación puntual, no es posible conocer la magnitud del error, pero si es posible si
recurrimos a la estimación por intervalos.
Esta forma de inferencia, consiste en asignar al parámetro que se desea estimar, no un valor
concreto, sino un rango de valores entre los que se espera que pueda encontrarse el verdadero
valor del parámetro con una probabilidad conocida.
Al rango de valores que se asigna al parámetro se le llama intervalo de confianza (IC), y a los
extremos del intervalo se les llama límites de confianza: límite inferior (Li ) y límite superior (Ls ). El
intervalo de confianza para el parámetro se construye sumándole y restándole una
25
Este archivo fue descargado de https://filadd.com
Un intervalo construido con una confianza de 0,95 puede interpretarse de la siguiente manera:
estimamos, con una confianza del 95 %, que el verdadero valor del parámetro estimado se
encuentra entre los límites del intervalo construido. Y lo que esto significa realmente es que se ha
utilizado un procedimiento que permite afirmar que de cada 100 intervalos que se construyan en
las mismas condiciones, 95 de ellos incluirán el verdadero valor del parámetro (cinco de ellos no lo
harán).
OM
Clasificación Variables: XYX
sexo: categórica nominal
edad: numérica o cuantitativa de razón
.C
tiene trabajo: categórica nominal
salario: ordinal
orientación política: nominal
DD
tercil de ingreso (menor, medio, mayor) categórica ordinal (porque ordena)
VARIABLES CATEGÓRICAS
LA
Se interpretan en función de las variables que estoy analizando para que la interpretación
de esos datos tenga sentido
y de sectores (torta)
Representaciones gráficas según niveles de medición de las variables: de columnas (ideal
para NIVEL ORDINAL) / de sectores (ideal para NIVEL NOMINAL)
26
Este archivo fue descargado de https://filadd.com
− Cuáles son las variables que se representan
− Cuáles son sus categorías
− Es posible leerlas de forma acumulada? (variables ordinales SI)
− Cada sector, barra, columna representa siempre la misma frecuencia, sea frecuencia
absoluta, relativa, porcentual o acumulada de cada categoría.
OM
algunos estadísticos complementan la matriz con : tendencia central y dispersión.
Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un
solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra
ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas
son: media, mediana y moda.
La mediana estadística es el número central de un grupo de números ordenados por
.C
tamaño. Si la cantidad de términos es par, la mediana es el promedio de los dos números
centrales: ... Ordena los números según su tamaño. Si la cantidad de términos es impar,
la mediana es el valor central.
DD
En estadística descriptiva, se le llama rango intercuartílico o rango intercuartil, a la
diferencia entre el tercer y el primer cuartil de una distribución. Es una medida de la
dispersión estadística. A diferencia del rango, se trata de un estadístico robusto.
Una variable cuantitativa se refiere a atributos que expresan una cantidad o cantidad de
magnitud y por tanto toma valores numéricos Ejemplos: La edad de una persona (5 años,
12 años, 20 años…) ... La variable cuantitativa puedes ser discretas o continuas.
LA
Discreta: un hijo, un perro (no puede haber hijo y medio, perro y cuarto)
Continuas: 1,5 kg 1,75 kg 2,10 kg 3,154 kg etc
FI
27
Este archivo fue descargado de https://filadd.com
Distribución muestral : es lo que resulta de considerar todas las muestras posibles que pueden ser
tomadas de una población. Su estudio permite calcular la probabilidad que se tiene, dada una sola
muestra, de acercarse al parámetro de la población.
Distribución teórica : la correspondiente distribución de probabilidades en una variable aleatoria.
Las principales distribuciones teóricas son: Uniforme, de Bernoulli, Bimomial, de Poisson y Normal.
OM
.C
DD
LA
FI
28
Este archivo fue descargado de https://filadd.com