Está en la página 1de 61

Taller: Estadística y

técnicas de muestreo
Contenido taller
Sesión 1. Estadística Descriptiva
Sesión 2. Conceptos preliminares de Muestreo y Muestreo Aleatorio
Simple
Sesión 3. Muestreo Estratificado
Sesión 4. Muestreo Sistemático y Muestreo Conglomerados
Sesión 1.
ESTADÍSTICA DESCRIPTIVA
Definición
La estadística descriptiva es una disciplina que se encarga de recoger, almacenar, ordenar,
realizar tablas o gráficos y calcular parámetros básicos sobre el conjunto de datos.
Objetivo
El objetivo de la descripción estadística de datos es resumir las características de
conjuntos de datos, cualitativos o cuantitativos. Como fin último, queremos hacer a los
datos más comprensibles y encontrarles más sentido.

Los datos tal como se obtienen de una investigación están en forma desordenada por lo
que es difícil su interpretación y análisis. Debido a esto se deben organizar en forma de
tablas y gráficas, que permitan una visualización clara y rápida de todo el conjunto.
Tipo de datos
Antes de presentar las principales gráficas que se usan en estadística, debemos clasificar
el tipo de datos. Lo anterior es debido a que a cada tipo de datos le corresponde un tipo
de gráfica.

Cuantitativas: Expresan magnitudes o cantidades que son el resultado de mediciones de


algún instrumento, conteos de eventos o de operaciones matemáticas simples. Estos
pueden ser: discretos y continuos.

Cualitativas: pueden corresponder a dos categorías, denominados dicotómicos,


(vivo/muerto, si/no) o a más de dos categorías (fumador, no fumador, ex fumador). Los
sujetos son clasificados sin un orden. Estos se pueden clasificar en nominales u
ordinales.
Recomendaciones al utilizar gráficos
El objetivo de las gráficas estadísticas es comunicar ideas complejas con claridad, precisión y eficiencia.

Las gráficas deben:

• Mostrar los datos.


• Inducir a pensar en el contenido de la gráfica más que, en su diseño o apariencia.
• No distorsionar la información.
• Presentar un resumen de la información, es decir, muchos números en poco espacio.
• Estimular la comparación de diferentes grupos entre los datos.
• Poner de manifiesto diversos niveles de detalle de la información, desde un punto de vista grueso hasta
un nivel de detalle fino.
• Ayudar en un propósito razonablemente claro: descripción, exploración, tabulación ó decoración.
Gráficos para variables cualitativas
Gráfico de pastel o sectores
Gráfico de barras
Recomendaciones
Gráficos para variables cuantitativas
Gráfico de línea Histograma

Gráfico dispersión
Boxplot o gráfico de caja y
bigotes
Parámetros estadísticos básicos
Con el objetivo de resumir la información, se idearon diversas fórmulas que ofrecían medidas de un
determinado tipo. Así, están aquellas que nos ofrecen información sobre el centro, otras sobre la
dispersión o variabilidad y otras sobre la posición de un valor.

Medidas de tendencia central: Denominadas así porque ofrecen información sobre el centro de conjunto de
datos. Por ejemplo, la media es una medida de tendencia.

Medidas de dispersión: También son conocidas como medidas de variabilidad. Por ejemplo, la desviación
típica es una medida de variabilidad ya que nos dice si los valores de un conjunto de datos son muy dispares o
no.

Medidas de posición: No son las más conocidas, pero se utilizan frecuentemente. Un ejemplo de ello, se
encuentra en los percentiles o los deciles.
Medidas de tendencia central: media
aritmética, mediana, moda
¿Por qué necesitamos medidas descriptivas numéricas para una colección de datos?

Porque algunas veces querrás discutir las características principales de un conjunto de datos y puede
no ser conveniente reproducir un histograma de los datos o gráfico de puntos.
Cuando ocurre esta situación, buscamos algunos números resumen llamadas medidas descriptivas
numéricas, que crean en nuestras mentes una figura de la distribución de frecuencias relativas.
¿Qué es la media aritmética?

La media aritmética es la medida de tendencia central más utilizada y es igual a lo que conocemos
como promedio. Entonces la media es la suma de los valores de todas las observaciones, dividida
entre el número de observaciones realizadas.
Si obtenemos las distancias de cada punto con respecto a 10, observamos que la suma de las
distancias de los puntos a la derecha de 10, es igual a la suma de las distancias de los puntos a
la izquierda de 10. Entonces, en 10 se equilibra la distribución de los datos, es decir es el punto
de equilibrio o centro de gravedad de la distribución de los datos.
Ventajas

● Es la medida de tendencia central más usada.


● Emplea en su cálculo toda la información disponible.
● Se expresa en las mismas unidades que la variable en estudio.
● Es un valor único.
● Es sensible a cualquier cambio en los datos (puede ser usado como un detector de variaciones en los datos)*.
● Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios conjuntos de datos.

Desventajas

● Es sensible a los valores extremos.


● No es recomendable emplearla en distribuciones muy asimétricas*.
● No se puede calcular para datos cualitativos.
¿Qué es la mediana?
¿Qué representa la mediana?

La mediana divide la serie de datos en dos mitades y cada mitad tiene el mismo número de datos
que la otra.

Representemos los datos mediante una gráfica de puntos. Por arriba de la mediana, 11, hay tres
datos y por abajo también, sin importar el valor de los datos. Sólo toma en cuenta el número de
datos y no le da importancia al hecho de que los valores por arriba de 11, estén más cerca de ella
que los que están por debajo.
Ventajas

● Es fácil de calcular si el número de datos no es tan grande.


● Su influencia por valores extremos es nula, ya que sólo lo influye los valores centrales.

Desventajas

● Hay que ordenar los datos antes de determinarla.


● No utiliza en su “cálculo” toda la información disponible.
¿Qué es la Moda?

La moda es el valor más frecuente en una serie de datos. Por ejemplo, para los siguientes datos, la
moda es 15, porque es el valor que se repite más.
Ventajas

● Cálculo sencillo.
● Interpretación muy clara.
● Al depender sólo de las frecuencias, puede calcularse para variables cualitativas.

Desventajas

● Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor.
● No siempre se sitúa hacia el centro de la distribución.
● Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la misma frecuencia (distribuciones bimodales o
multimodales).
Resumen General
Medidas de dispersión
¿Cuáles son las medidas de variabilidad?
Las medidas de variabilidad son el rango o amplitud, la varianza, la desviación estándar y el
coeficiente de variación.

¿Cómo se calculan estas medidas?


Para ejemplificar el cálculo y reafirmar el concepto de variabilidad, supongamos que tenemos dos
muestras de tres datos cada una:
De tal forma, que si nos referimos a una muestra de tamaño 3 y media 18, no sabemos si hablamos de
la muestra 1 o de la muestra 2. Es decir, la media no es una medida suficiente para poder distinguir una
muestra de la otra. Es necesario, entonces construir otra medida que permita diferenciarlas.

Si inspeccionamos las muestras vemos que la primera varía de 17 a 19, mientras que la segunda de 15
a 23. Esta amplitud o rango es la primera medida de variabilidad.

Sin embargo, es una medida que solo toma en cuenta dos datos, el valor máximo y el mínimo y por tanto se ve
afectada por los valores extremos. Es una medida que proporciona la variabilidad en forma muy burda. Si
observamos las muestras vemos que la muestra 1, tiene sus valores más agrupados alrededor de la media, 18,
mientras que los valores de la muestra 2, están más alejados de ella. Entonces, se hace necesaria una medida
que valore la variabilidad o distancia promedio de los datos con respecto a su media
La idea sería obtener las distancias de cada dato con respecto a su media, y a partir de estas obtener la
distancia promedio. Note que una medida construida de esta manera, toma en cuenta todos los datos.
Una manera de resolver este problema es elevar al cuadrado las distancias, con lo cual se resolvería el
problema de los signos. Obtendríamos la distancia cuadrática promedio, lo que nos daría la medida que
buscamos elevada al cuadrado, la cual se conoce como varianza y se representa con s^2 . Una vez
calculada la varianza, obtenemos su raíz cuadrada y con esto la medida buscada, que se conoce como
desviación estándar.
¿Qué significado tiene la varianza y la desviación estándar?

La varianza no tiene significado. Se expresa en las unidades de los datos elevadas al cuadrado. Sí estas
estudiando el número de clientes que llegan a un autolavado, la varianza tiene como unidades clientes^2 , lo
cual no tiene ningún significado. La desviación estándar tiene las mismas unidades que los datos y nos
proporciona la variabilidad promedio de los datos con respecto a su media.

La muestra 1, tiene tres datos, su promedio es 18. No significa que todos los datos sean 18, unos serán
mayores y otros serán menores. ¿Qué tanto se alejan los datos individuales con respecto a 18? Unos se
alejan más, otros se alejan menos, pero en promedio se alejan 1 unidad, que es su desviación estándar.

La muestra 2, tiene tres datos, su promedio es 18. No significa que todos los datos sean 18, unos serán
mayores y otros serán menores. ¿Qué tanto se alejan los datos individuales con respecto a 18? Unos se
alejan más, otros se alejan menos, pero en promedio se alejan 4.36 unidades, que es su desviación
estándar.
Desviación Estándar

Tal vez te preguntes por qué el denominador de


s2 es n-1, en lugar de n, si estamos buscando
una variabilidad promedio. Desde el punto de
vista de la Estadística Descriptiva es irrelevante
dividir entre uno u otro. Desde el punto de vista
de la Inferencia Estadística si es importante la
selección del divisor y se divide entre N si se
trata de la variabilidad de la población y entre n-
1 si es la variabilidad de una muestra.
Medidas de dispersión
Rango:El rango de un conjunto de números es la diferencia entre el mayor y el
menor de todos ellos

Desviación Estándar:La desviación típica o desviación estándar (denotada con el


símbolo σ o s, dependiendo de la procedencia del conjunto de datos) es una medida
de dispersión para variables de razón (variables cuantitativas o cantidades
racionales) y de intervalo. Se define como la raíz cuadrada de la varianza de la
variable.

Varianza: se refieren a la media aritmética de los cuadrados de las desviaciones de


cada valor respecto de la media aritmética de los datos (por lo que a veces también
se denomina desviación cuadrática media).

Rango Entre Cuartiles: La diferencia entre el tercer cuartil y el primer cuartil se


llama rango entre cuartiles, denotado por RQ=Q3-Q1. El rango entre cuartiles mide
la variabilidad de la mitad central de los datos.
¿Cuáles son las ventajas y desventajas de cada una de las medidas de
variabilidad?

El rango es muy fácil de calcular pero su desventaja es que solo toma en cuenta dos valores, el valor
menor y el valor mayor.

La desviación estándar es fácil de calcular, toma en cuenta todos los datos y es una medida importante
en el estudio de la inferencia estadística. Su principal desventaja es que es sensible a los valores
extremos.
Ya que la desviación estándar es una medida de variabilidad ¿Se puede usar para determinar cuántos
datos se encuentran en diferentes intervalos alrededor de la media?

Si, la desviación estándar nos permite determinar, con un buen grado de precisión, donde están
localizados los valores de una distribución de frecuencias con relación a la media.

Si la distribución de los datos es simétrica con forma de campana, lo que conocemos en estadística como
distribución normal, se puede aplicar una regla empírica, para determinar con más precisión el porcentaje de
observaciones que caen dentro de determinada cantidad de desviaciones estándar respecto a la media
aritmética. En este caso podemos decir que:
Para datos con distribución normal:

• Aproximadamente 68% de los valores caen dentro de ± 1 desviación estándar a partir de la media.
• Aproximadamente 95% de los valores caen dentro de ± 2 desviaciones estándar a partir de la media.
• Aproximadamente 99% de los valores caen dentro de ± 3 desviaciones estándar a partir de la media.
Generalizando...
Teorema de Chebyshev

La proporción de cualquier distribución que esté a menos de k desviaciones estándar de la media es


por lo menos

Donde k es cualquier número positivo mayor que 1. Este teorema es válido para todas las
distribuciones de datos.

Este teorema establece que a


menos de dos desviaciones
estándar de la media (k = 2)
siempre se encontrará por lo
menos el 75% (o más) de los
datos.
¿Existe otra forma de describir la variabilidad de un conjunto de datos?

Si. Una forma consiste en determinar la posición de los valores que dividen una serie
de datos en partes iguales. A estas medidas se les conoce por lo general como
medidas de posición.

Si un conjunto de datos lo dividimos en 100 partes iguales, a cada parte se le conoce


como percentil. Si lo dividimos en 10 partes iguales, a cada parte se le conoce como
decil y sí lo dividimos en 4 partes iguales a cada parte se le conoce como cuartil.
¿Qué indica la posición?

Una medida de posición indica el porcentaje de datos que son menores a ella. Por ejemplo,
el 10% de los datos son menores que el decil 1, el 30% de los datos son menores que el
decil 3, etc.
Sí dividimos el conjunto de datos en 4 partes, por ejemplo, el 25% de los datos son
menores que el cuartil 1, el 50% de los datos son menores que el cuartil 2 y el 75%
de los datos son menores que el cuartil 3.

Mediana= Q_2 =D_5=P_50


¿Existe algún tipo de gráfica que muestre las medidas de posición?

Si, únicamente para los cuartiles. Una gráfica de caja y bigotes es la representación
gráfica de la distribución de los datos basada en los cuartiles.
¿Qué es un diagrama de caja y bigotes?
¿Qué es un diagrama de caja y bigotes?
¿Qué información contiene?
Significado:

Límite Superior= Cuartil 3


Línea gruesa = Mediana (Cuartil 2)
Límite inferior = Cuartil 1
¿Qué información contiene?
¿Qué información contiene?
¿Qué información contiene?
¿Qué información contiene?
Representan los valores más
grandes y más bajos de las
variables sin ser considerados
ATÍPICOS.

Marcan el límite del valor que


pueden tomar las observaciones
para ser considerados “típicos”.
Lo que se salga de los bigotes se
consideran como valor atípico
(outlier)
¿Qué información contiene?
¿Qué información contiene?
¿Qué información contiene?
Valores atípicos: Los valores atípicos son aquellos que muestran una gran distancia a la media
del resto de puntuaciones en la variable. Con el diagrama de cajas podemos identificar de una
forma muy fácil aquellos participantes cuyas puntuaciones en la variable se alejan demasiado de
la media, es decir, o son demasiado bajas o son demasiado altas. -

Rango Intercuartil: Es la diferencia en las puntuaciones entre el Q1 y el Q3

Valores atípicos leves: Una puntuación de una variable es un valor atípico leve cuando se sitúa
fuera del siguiente intervalo:

Cálculo en excel: Límite superior


función PERCENTIL o PERCENTIL.INC
¿Qué información contiene?
Rango Intercuartil: Q3-Q1 = 5-2=3

Límite inferior o atípicos (f1): Q1- 1.5*RI= 2-4.5= -2.5

Límite Superior o atípicos (f3): Q3+1.5*RI= 5 +4.5= 9.5


¿Qué información contiene?
¿Qué información contiene?
¿Qué información contiene?
Interpretación.
¿Qué otra información podemos sacar de un diagrama de cajas y bigotes?
La otra información que podemos sacar de un diagrama de cajas y bigotes es sobre la dispersión de las
puntuaciones dentro de una variable. A qué nos referimos con el término dispersión? pues a la distribución
de las puntuaciones dentro de la variable, a si el rango de puntuaciones es muy grande, o si por el
contrario todos los participantes han puntuado más o menos lo mismo. En la figura 4 podemos ver la
diferencia entre una variable con una gran dispersión de puntuaciones (A) y una variable con una
dispersión de puntuaciones muy pequeña (B).
Histograma y gráfico de caja
¿Y en cuanto a la forma de la distribución existen medidas para describirla?

La forma de la distribución se puede describir mediante el sesgo (coeficiente de asimetría)


Curtosis
Miden la mayor o menor concentración de datos alrededor de la media. Se suele
medir con el coeficiente de curtosis:

Si este coeficiente es nulo, la distribución se dice normal (similar a la distribución


normal de Gauss) y recibe el nombre de mesocúrtica.

Si el coeficiente es positivo, la distribución se llama leptocúrtica, más puntiaguda


que la anterior. Hay una mayor concentración de los datos en torno a la media.

Si el coeficiente es negativo, la distribución se llama platicúrtica y hay una menor


concentración de datos en torno a la media. sería más achatada que la primera.
¿Para qué sirve la curtosis?
La curtosis es una medida de variabilidad utilizada para caracterizar la morfología
de una distribución. De esta forma se pueden comparar distribuciones simétricas
con el mismo promedio e igual dispersión (dada por la desviación estándar).

El apuntamiento expresa el grado en que una distribución acumula casos en sus


colas en comparación con los casos acumulados en las colas de una distribución
normal cuya dispersión sea equivalente.

También podría gustarte