Está en la página 1de 25

ASIGNATURA: ESTADISTICA Y PROBABILIDADES

PLAN TEMATICO:
UNIDAD I: ESTADÍSTICA DESCRIPTIVA

UNIDAD II: INTRODUCCIÓN A LA TEORÍA DE LAS PROBABILIDADES


UNIDAD III: VARIABLES ALEATORIAS Y SUS DISTRIBUCIONES
UNIDAD IV: ESTIMACION Y PRUEBA DE HIPOTESIS
FORMA DE EVALUACION:
UNIDAD I SEMANA 1 SESION # 1
Contenido: Definición e importancia de la Estadística.
 Partes de la Estadística.
 Formas de recopilación de datos.
 Clasificación de los datos
Objetivos:
 Conocer algunos conceptos básicos de estadística para el uso adecuado de
los términos estadísticos en la solución de problemas.
 Emplear las diferentes formas de recopilación de datos así como su
clasificación en información estadística de un problema o fenómeno dado.

INTRODUCCION
La estadística se remonta a épocas en que los gobernantes requerían de técnicas
para poder controlar sus propiedades y a las personas.
Posteriormente el desarrollo de los juegos de azar propició el estudio de métodos
matemático para su análisis dando origen a la teoría de probabilidades que hoy en
día es el sustento formal d la estadística.
Actualmente sirve de soporte en todas las ciencias e investigación científica.
Es de gran utilidad para la toma de decisiones en un entorno de incertidumbre.
IMPORTANCIA
La importancia de la estadística en la ingeniería ha quedado manifiesta al
involucrarse en la industria con la mejoría de la calidad.
Muchas compañías se han dado cuenta de que la baja calidad del producto,
manifestada en defectos de fabricación y en la baja confiabilidad del producto
asociadas con su desempeño de campo, afectan directamente a la
productividad global, a su mercado accionario y a su posición competitiva y, en
consecuencia, a sus ganancias. La estadística propicia un criterio para lograr
mejoras, debido a que sus técnicas se pueden usar para describir y comprender la
variabilidad.
En general, la variabilidad es resultado de los cambios que ocurren en las
condiciones en las cuales se hacen las observaciones. Dentro del contexto de la
manufactura, estos cambios pueden ser diferencias en los materiales de
muestras, diferencias en la forma de trabajar del agente, diferencias en las
variables del proceso, tales como temperatura, presión, o duración del proceso,
así como diferencias en los factores ambientales, como la humedad relativa.
La variabilidad también ocurre debido al sistema de medida empleado. Por
ejemplo, el peso obtenido en una báscula puede depender del lugar en donde se
coloque, en el plato, el objeto por pesar.

Ramas de la estadística
Las técnicas estadísticas son tan diversas que los estadísticos, por lo general, las
dividen en dos grandes categorías: estadística descriptiva y estadística
inferencial.
Suponga que un profesor de una determinada materia calcula la calificación
promedio de uno de sus grupos. Como la estadística describe el desempeño del
grupo, pero no hace ninguna generalización acerca de los diferentes grupos.
Podemos decir que el profesor está utilizando estadística descriptiva.
Suponga ahora que el profesor decide utilizar el promedio de calificación obtenido
por uno de sus grupos en una unidad, para estimar la calificación promedio del
grupo en las diez unidades del curso. El proceso de estimación de tal promedio
sería un problema concerniente a la estadística inferencial.
Los métodos y las técnicas de la inferencia estadística se pueden utilizar también
en una rama de la estadística conocida como teoría de probabilidad o de
decisiones. Es de gran importancia para tomar decisiones en condiciones de
incertidumbre, cuando, por ejemplo, un fabricante de aparatos de sonido no puede
especificar precisamente la demanda de sus productos, o en una escuela se
deben asignar grupos y definir horarios sin tener el conocimiento preciso del
número de estudiantes que entrarán al primer grado.
Definiciones básicas:
Estadística: estudia los métodos científicos para recoger, organizar, resumir y
analizar datos, para sacar conclusiones válidas y tomar decisiones razonables
mediante el análisis.

Estadística descriptiva: técnicas para recopilar, organizar y presentar datos


obtenidos en una muestra.
Estadística inferencial: técnicas para la obtención de resultados a partir de la
información tomada de las muestras.
Población o universo: conjunto total de individuos u objetos con alguna
característica de interés de estudio.
Muestra: subconjunto de la población cuya información es usada para estudiar a
la población misma.
Variable: característica observable de los elementos de una población y que
puede tomar diferentes valores.
Tipos:
Variable cualitativa: sus valores no se pueden asociar a un número.
Nominales: si sus valores no se pueden ordenar.
Ordinales: si sus valores se pueden ordenar.
Variable cuantitativa: si sus valores son numéricos.
Discreta: si toma valores enteros.
Continua: si entre dos valores son posibles infinitos valores intermedios.
Dato: es cada valor incluido en la muestra. Se pueden obtener mediante
observación o medición.
Parámetro: característica de la población en estudio y que es de interés conocer.
Ejemplo: valor promedio de la altura de un grupo de estudiantes.

Fuentes de datos Estadísticos:

Los datos estadísticos necesarios para la comprensión de los hechos pueden


obtenerse a través de fuentes primarias y fuentes secundarias.

Fuentes de datos primarias: es la persona o institución que ha recolectado


directamente los datos.
Fuentes secundarias: son las publicaciones y trabajos hechos por personas o
entidades que no han recolectado directamente la información.

Método para la recolección de datos:

La entrevista personal: consiste en enviar un entrevistador o agente,


directamente a la persona investigada.

Cuestionarios por correo: consiste en enviar por correo el cuestionario


acompañado por el instructivo necesario, dando en este no solo las instrucciones
pertinentes para cada una de las preguntas, sino también una breve explicación
del objeto de la encuesta con el fin de evitar interpretaciones erróneas.

Entrevista por teléfono: consiste en telefonear a la persona a entrevistar y


hacerle una serie de preguntas. Este método es bastante simple y económico, ya
que el entrenamiento y supervisión de las personas encargadas de efectuar las
preguntas es siempre fácil.

Presentación de datos.

Todos los todos los cuadros y gráficos estadísticos, ya sea para una presentación
pública o algún informe escrito deben tener:
 Un número de figuras, para una identificación rápida.
 Un título, que describa qué se presenta como se clasifica la información,
cómo, qué, cuándo y dónde ocurrió el fenómeno.
 Al pie de la figura se debe indicar la fuente de información (libro,
investigación científica, revista boletín, etc.
Los cuadros estadísticos se clasifican según el número de variables a presentar, si
solo hay una variable se les llama cuadro de frecuencia, si son dos o más
variables se les llama cuadro de asociación.
Ejemplo: cuadro de asociación deporte vs baile
Los datos que se obtienen al momento de la medición se le llaman frecuencia
absoluta u observada.
Para la construcción de tablas de frecuencia se procede de la siguiente manera:
 Identificar las unidades de medidas de los datos.
 Encontrar el Rango. (se recomienda ordenar los datos). Si el rango es
pequeño, podemos presentar para cada valor del rango su frecuencia.
Rango = dato mayor – dato mayor.
 Seleccionar el número K de clases. 5 ≤ k ≤15
 Si K es el número de intervalos del mismo tamaño C (Amplitud) entonces:
Rango+1
C=
K

La tabla de distribución debe contener la siguiente información


clase Limites M fi fr Fi fr% Fi%
reales
(a,b) Distancia a+b fi
Marca de clase= Conte F1=f1 frX100 Fr,1 %
media del o2de n fr1+fr,2
límite datos F2=f1+f2 ….
superior e F3=
inferior de
f1+f2+f3…
las clases
sucesivas.
n 1.00 100

En los siguientes datos se recogen los pesos de 40 estudiantes varones de una


universidad con precisión de 1 lb
138 164 150 132 144 125 149 157
146 158 140 147 136 148 152 144
168 126 138 176 163 119 154 165
146 173 142 147 135 153 140 135
161 145 135 142 130 156 145 128
Construir una tabla de distribución.
Primer paso ordenar los datos
119, 125, 126, 128, 130, 132, 135, 135, 135, 136, 138, 138, 140, 140, 142, 142,
144, 144, 145, 145, 146, 146, 147,147, 148, 149, 150, 152, 153, 154, 156, 157,
158, 161, 163, 164, 165, 168, 173, 176.
Segunda sesión
Contenido: Tablas de distribución de frecuencia.
Representación gráfico de conjuntos de datos.

Representación gráfico de conjuntos de datos


1. HISTOGRAMA: Consiste en un conjunto de rectángulos con bases en el
eje X con igual longitud a los tamaños de los intervalos de clases,
centro en las marcas de clases. Las alturas de los rectángulos son
proporcionales a las frecuencias de clases.

2. Polígono de frecuencia: se obtiene conectando los puntos medios de


los extremos superiores de los rectángulos del histograma.
3. Ojiva: La ojiva es la polígona frecuencia acumulada, es decir, que permite ver
cuántas observaciones se encuentran por encima o debajo de ciertos valores,
en lugar de solo exhibir los números asignados a cada intervalo

La ojiva apropiada para información que presente frecuencias mayores que el dato
que se está comparando tendrá una pendiente negativa (hacia abajo y a la
derecha) y en cambio la que se asigna a valores menores, tendrá una pendiente
positiva.

4. Diagramas circulares : Son utilizados en aquellos casos donde nos


interesa no sólo mostrar el número de veces que se da una
característica o atributo de manera tabular sino más bien de manera
gráfica, de tal manera que se pueda visualizar mejor la proporción en
que aparece esa característica respecto del total.

5. Diagrama de barras

Este gráfico consiste de una serie de barras horizontales o verticales asignadas a


cada categoría de la variable cualitativa cuyas alturas son dadas por la frecuencia
de la categoría. A continuación se dan algunas sugerencias para la elaboración de
gráficas de barras.

 Para respuestas categóricas cualitativas, las barras se deben diseñar en


forma horizontal y para respuestas categóricas numéricas, en forma
vertical.
 Todas las barras deben ser del mismo ancho para no confundir al lector.
 Los espacios entre barras deben ser igual a la mitad del ancho de las
barras.
 Se deben incluir las escalas y algunas indicaciones para que ayuden a la
lectura de las gráficas.
 Los ejes de las gráficas se deben identificar en forma clara.
 Se deben incluir dentro del cuerpo de la gráfica, o debajo, todo tipo de
``claves'' para la interpretación de las gráficas.

Son de gran utilidad para distribución de variables cualitativas.


TERCERA SESION

Semana # 2

Unidad I

Encuentro #1

Contenido: Medidas de tendencia central

 media,

 mediana,

 moda para un conjunto de datos agrupados.

Objetivos: Analiza datos estadística calculando parámetros de medidas de


tendencia central o valores promedios para emitir una conclusión en la
toma de decisiones de una situación dada.

MEDIDAS DE TENDENCIA CENTRAL

Un promedio es un valor típico o representativo de un conjunto de datos.


Como tales valores suelen situarse hacia el centro de conjuntos de datos
ordenados se les conoce como medidas de tendencia central.

Media Aritmética: la media aritmética o simplemente X media de un


conjunto de datos N no agrupados X 1 , X 2 , X 3 , … X N

N
Xi
X 3 +¿…+ X ∑i=1
X =X 1 + X 2 + =N
¿
N N

Datos con frecuencia


N

X 3+¿… +f X ∑ f i Xi
X =f 1 X 1 + f 2 X 2+ f 3 N N
= i=1 ¿
f 1 +f 2 + f 3 +…+ f n N

Media aritmética para datos agrupados: similarmente al caso anterior


N

M 3+¿ …+ f M ∑ f i Mi
X =f 1 M 1+ f 2 M 2+ f 3 N
= i=1
N
¿
f 1+ f 2 + f 3+ …+ f n N
Moda: Es el valor que ocurre con mayor frecuencia en un conjunto de
datos. Puede no existir ser única o multimodal.

Para datos agrupados: En este caso la moda puede deducirse con la


fórmula:

∆1
Moda=Li+ ( )
∆ 1+ ∆2
c

Li= límite inferior de la clase modal.

∆ 1=Exceso (o diferencia) de la frecuencia modal sobre la de la clase inferior


inmediata

∆ 2= Exceso de la frecuencia modal sobre la de la clase superior inmediata.

c= amplitud

Mediana: En un conjunto de datos ordenados es el valor central (N-impar) o


la media de los dos valores centrales (N-par).

Para datos agrupados: La mediana viene dado por

N
Mediana=Li +
2
( )
−F a
f mediana
c

Li=límite inferior de la clase de la mediana

F a= frecuencia acumulada anterior a la de la mediana

f mediana=frecuencia observada de la mediana.


ENCUENTRO # 2

Contenido: Otros tipos de mediadas de tendencia central

 cuartiles,

 decíles,

 percentiles para un conjunto de datos agrupados,

 diagrama de caja, interpretación.

Objetivo: Aprende otras mediadas de posición tanto para datos agrupados como
para datos no agrupado así como su debida interpretación de acuerdo al análisis
de datos dado.

CUANTILES

Los cuantiles son medidas de posición que se determinan mediante un método


que determina la ubicación de los valores que dividen un conjunto de
observaciones en partes iguales.

Los cuantiles son los valores de la distribución que la dividen en partes iguales, es
decir, en intervalos que comprenden el mismo número de valores. Cuando la
distribución contiene un número alto de intervalos o de marcas y se requiere
obtener un promedio de una parte de ella, se puede dividir la distribución en
cuatro, en diez o en cien partes.

Los más usados son los cuartiles, cuando dividen la distribución en cuatro partes;
los deciles, cuando dividen la distribución en diez partes y los centiles o
percentiles, cuando dividen la distribución en cien partes. Los cuartiles, como los
deciles y los percentiles, son en cierta forma una extensión de la mediana .
CUARTILES
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en
cuatro partes porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q1, Q2, Q2. El segundo cuartil es
precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del
cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el
tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas
partes (75%) de los datos.

Para Datos No Agrupados

Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las
siguientes fórmulas:

 El primer cuartil:
Cuando n es par:

Cuando n es impar:

 Para el tercer cuartil

Cuando n es par:

Cuando n es impar:

Datos Agrupados

Como los cuartiles adquieren su mayor importancia cuando contamos un número


grande de datos y tenemos en cuenta que en estos casos generalmente los datos
son resumidos en una tabla de frecuencia. La fórmula para el cálculo de los
cuartiles cuando se trata de datos agrupados es la siguiente:
k= 1,2,3
Donde:
Lk = Límite real inferior de la clase del cuartil k
n = Número de datos
Fk= Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
fk = Frecuencia de la clase del cuartil k
c = Longitud del intervalo de la clase del cuartil k

Otra manera de verlo es partir de que todas las medidas no son sino casos
particulares del percentil, ya que el primer cuartil es el 25% percentil y el tercer
cuartil 75% percentil.

DECILES
Los deciles son ciertos números que dividen la sucesión de datos ordenados en
diez partes porcentualmente iguales. Son los nueve valores que dividen al
conjunto de datos ordenados en diez partes iguales, son también un caso
particular de los percentiles. Los deciles se denotan D 1, D2,..., D9, que se leen
primer decil, segundo decil, etc.
Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el
aprovechamiento académico.

Datos Agrupados
Para datos agrupados los deciles se calculan mediante la fórmula.

k= 1, 2,3,... 9
Donde:
Lk= Límite real inferior de la clase del decil k
n = Número de datos
Fk= Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
c = Longitud del intervalo de la clase del decil k
CENTILES O PERCENTILES
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de
ubicación o clasificación de las personas cuando atienden características tales
como peso, estatura, etc.
Los percentiles son ciertos números que dividen la sucesión de datos ordenados
en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en
cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,...
P99), leídos primer percentil,..., percentil 99.
Datos Agrupados
Cuando los datos están agrupados en una tabla de frecuencias, se calculan
mediante la fórmula:

k= 1,2,3,... 99
Donde:
Lk = Límite real inferior de la clase del decil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
c = Longitud del intervalo de la clase del decil k
Otra forma para calcular los percentiles es:
SEMANA 2

Contenido: Formas de las distribuciones: simétricas y anti-simétricas,


 medidas de dispersión: rango, varianza, desviación estándar. Coeficiente
de variación,
 teorema de Chebyshev.
 Otras medidas especiales.

OBJETIVO: Analiza la dispersión de los datos con respecto al valor central


a través del cálculo de las medidas de dispersión.

Formas de distribución
 Simétricas: Cuando su curva de frecuencia es simétrica con respecto al
centro de los datos.

Media y mediana coinciden en las distribuciones simétricas. Si sólo hay


una moda (distribución unimodal), el valor de ésta también será igual a las
dos anteriores. • En distribuciones unimodales, el nivel de simetría se suele
describir de acuerdo a tres grandes categorías: distribuciones simétricas,
distribuciones asimétricas positivas (o sesgada a la derecha) y
distribuciones asimétricas negativas (o sesgada a la izquierda). Tomando
como eje de referencia a la moda, estas categorías de asimetría vienen
definidas por el diferente grado de dispersión de los datos a ambos lados
(colas) de ese eje virtual. La cola más dispersa en el lado de los valores
altos de la variable caracteriza a la asimetría positiva; si en el lado de los
más bajos, a la asimetría negativa; y si la dispersión es igual o muy similar
a ambos lados, a una distribución de frecuencias simétrica.
• En caso de asimetría, los valores de la media, mediana y moda difieren.
En concreto si la asimetría es positiva: media>mediana>moda. Si la
asimetría es negativa: media<mediana<moda.

MEDIDAS DE DISPERSION
INTRODUCCION
Para el tratamiento de cierta enfermedad se quieren probar 3 drogas. Para
esto se seleccionan a 15 pacientes que están en similares condiciones a 5
pacientes le aplican un tipo de droga, luego, se mide el tiempo que
transcurre hasta observar cierta manifestación. Los resultados fueron:
60, 60, 60, 60, 60
60, 58, 61, 59, 62
40, 70, 50, 60, 80
La media para los 3 casos es 60. Entonces se podría pensar que los tratamientos
son igualmente efectivos.
Por todo esto necesitamos de una medida que nos permita comparar el grado de
dispersión de los datos con respecto al promedio.

Medidas de dispersión:
Existe otro tipo de medidas que indican la tendencia de los datos a dispersarse
respecto al valor central.
Algunas de las medidas de dispersión más usuales son:
a) Rango, amplitud o recorrido (R)
b) Desviación estándar (S , muestral; s , poblacional ).
c) Varianza (S² , s² )
d) Desviación media (DM).
e) Coeficiente de Variación (C. V.
Rango: es la diferencia del valor máximo y el valor mínimo de los datos.
Una desventaja del rango es que sólo considera los valores extremos y no la
dispersión de los datos a nivel interno.
Desviación media: es un promedio de las distancia de las observaciones a la
media.
n

Para datos no agrupados


∑| X i− X́|
Dm= i=1
n
n

Para datos agrupados


∑|M i − X́|f i
Dm= i=1
n
VARIANZA: Es la medida que cuantifica la variabilidad de los datos respecto al
valor de la media.
2
∑ ( X i− X́ )
Para datos sin agrupar: S = 2
n−1
n
2

Para datos agrupados:


∑ ( M i− X́ ) f i
S2= i=1
n−1

DESVIACION ESTANDAR: Es la raíz cuadrada positiva de la varianza. Mide la


variabilidad de los datos en las unidades en que se midieron originalmente. Los
símbolos son: s, si es si es una muestra y σ si es una población.

Para datos no agrupados: S= √ S2

Características de la desviación estándar:


1. Siempre es un valor positivo
2. Está influenciada por todos los valores de la muestra o población.
3. Mayor influencia ejercen los valores extremos debido a que son elevados al
cuadrado en el cálculo.
4. Sirve para definir la dispersión de los datos alrededor de la media.
Dos grupos teniendo la misma media podemos identificar el más disperso.
Cuando las medias son diferentes, para identificar cuál es el más variado se tiene
que hacer utilizando el COEFICIENTE DE VARIACIÓN.

COEFICIENTE DE VARIACIÓN: Medida de variabilidad relativa: Se usa para


comparar la variabilidad entre dos o más muestras medidas en las mismas
unidades o no.
S
Cv= ×100

Si el coeficiente es:
< 10 % poca dispersión
10 –33% aceptable
34 –50% alta dispersión
> 50% muy alta

Diagrama de Caja y Bigotes

Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una


presentación visual que describe varias características importantes, al mismo
tiempo, tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y
máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.

Construcción:

Una gráfica de este tipo consiste en una caja rectangular, donde los lados más
largos muestran el recorrido intercuartílico. Este rectángulo está dividido por un
segmento vertical que indica donde se posiciona la mediana y por lo tanto su
relación con los cuartiles primero y tercero (recordemos que el segundo cuartil
coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los
valores mínimo y máximo de la variable. Las líneas que sobresalen de la caja se
llaman bigotes. Estos bigotes tienen un límite de prolongación, de modo que
cualquier dato o caso que no se encuentre dentro de este rango es marcado e
identificado individualmente

Ejemplo distribución de edades

Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que


representan la edad de un colectivo de 20 personas.

36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40

Ordenar los datos

Para calcular los parámetros estadístico, lo primero es ordenar la distribución

20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45

Q1=(24 + 25) / 2 = 24,5

me= Q2 = (33 + 34)/ 2 =33,5

Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la


distribución. En nuestro caso, como 3N / 4 = 15, resulta

Q3=(39 + 39) / 2 = 39

Dibujar la Caja y los Bigotes


El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1)
La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).

Información del diagrama


Podemos obtener abundante información de una distribución a partir de estas
representaciones. Veamos alguna:

 La parte izquierda de la caja es mayor que la de la derecha; ello quiere


decir que las edades comprendidas entre el 25% y el 50% de la población
está más dispersa que entre el 50% y el 75%.
 El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por
ello el 25% de los más jóvenes están más concentrados que el 25% de los
mayores.
 El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población
está comprendido en 14,5 años.

ANEXO

Comparar distribuciones

Comparación distribución de edades

Análogamente a lo realizado con los diagramas de tallo y hojas, comparamos,


mediante estos diagramas, esta distribución con la del otro ejemplo de distribución
de edades.

35 38 32 28 30 29 27 19 48 40

39 24 24 34 26 41 29 48 28 22
A partir de dicha comparación puede obtenerse bastante información de ambas
distribuciones.

Comparación clasificación liga

Las puntuaciones de los equipos de la liga de futbol BBVA de las temporadas


10/110 y 11/12 se pueden comparar con un diagrama caja y bigotes, como
aparece aquí,
Contenido: Otros tipos de mediadas.

Coeficiente de asimetría

Coeficiente de curtosis.

A continuación se presentan diferentes índices estadísticos que permiten


cuantificar el nivel de asimetría de una variable. Destacar antes que para
variables nominales no tiene sentido el plantear este tipo de índices, dado que no
existe un orden intrínseco a los valores de la variable.

Índice de asimetría para variables ordinales (Variable cualitativa que se pueden


ordenar): Se basa en las distancias entre los cuartiles a fin de establecer un
resumen de la asimetría de la distribución.

( Q3−Q2 )− ( Q2−Q1 )
A s= −1< A s<1
Q 3−Q 1

Índice de asimetría para variables cuantitativas: Primer coeficiente de Pearson:


se basa en la relación existente entre la media y la moda en distribuciones
unimodales asimétricas.

X́−M O
A s=
S
Interpretación del coeficiente de Pearson: los valores menores que 0 indican
asimetría negativa; los mayores, asimetría positiva y cuando sea cero, o muy
próximo a cero, simétrica. No está limitado a un rango de valores.

Coeficiente de asimetría de Fisher: se basa en las desviaciones de los valores


observados respecto a la media. La interpretación de los resultados
proporcionados por este coeficiente es igual a la del primer coeficiente de
Pearson.
n
3
∑ ( X i − X́ )
A s= i=1
n S3

Y para el caso de datos tabulados:


n
3
∑ ( M i− X́ ) fi
i=1
A s=
n S3

Acorde al tipo de variable que nos ocupa, el histograma representa la mejor opción
en la visualización de la asimetría de una variable, por otro lado, el diagrama de
caja y bigotes (boxplot) también constituye una opción válida para tal fin.

Apuntamiento (curtosis)

El apuntamiento o curtosis de una distribución de frecuencias no tiene un


referente natural como en el caso de la simetría, sino que se sustenta en la
comparación respecto a una distribución de referencia, en concreto, la distribución
normal o campana de Gauss. En consecuencia, su obtención sólo tendrá sentido
en variables cuya distribución de frecuencias sea similar a la de la curva normal –
en la práctica ello se reduce, básicamente, a que sea unimodal y más o menos
simétrica. El apuntamiento expresa el grado en que una distribución acumula
casos en sus colas en comparación con los casos acumulados en las colas de una
distribución normal cuya dispersión sea equivalente. Así, de forma análoga a la
asimetría, se diferencian 3 grandes categorías de apuntamiento:

Distribución platicúrtica (apuntamiento negativo): indica que en sus colas hay


más casos acumulados que en las colas de una distribución normal.
Distribución leptocúrtica (apuntamiento positivo): justo lo contrario.
Distribución mesocúrtica (apuntamiento normal): como en la distribución
normal.
Coeficiente de apuntamiento de Fisher para variables cuantitativas: se basa
en las desviaciones de los valores observados respecto a la media.
n
4
∑ ( X i− X́ )
K= i=1 −3
n S4
Y para el caso de datos tabulados:
n
4
∑ ( M i − X́ ) fi
i=1
K= −3
n S4
Interpretación: el valor de este coeficiente para la distribución normal será igual a
0, o sea que cualquier distribución para la que se obtenga un valor de K igual o
próximo a 0 significará que su nivel de apuntamiento es como el de la distribución
normal (mesocúrtica). Valores mayores que 0, expresan que la distribución es
leptocúrtica, mientras que si son menores que 0 ponen de manifiesto que la
distribución es platicúrtica.

La regla de Chebyshev
• Es una regla que pone un límite sobre la dispersión de la mayoría de los datos en
torno de la media.

• Teorema. Para cualquier conjunto de datos, la proporción de datos que distan


menos de m desviaciones estándar de la media es como mínimo.
1
1−
m2
Dice, por ejemplo, que por lo menos 75% de las observaciones están a menos de
m=2 desviaciones estándar de la media y por lo menos, 88.88% de las
observaciones están a menos de m=3 desviaciones estándar de la media.
Ejemplo: Los siguientes datos son los números de crías nacidas conjuntamente
para 18 parejas de ratones campestres.
365657576665554564
Calculando la media 5.33 y la desviación estándar 1.03. Luego, la regla de
Chebyshev dice que por los menos un 75% de los datos están contenidos en el
intervalo (3.27, 7.39) y que el intervalo 5.33±3x1.03=(2.24, 8.42) contiene por lo
menos un 88.88% de los datos.
( X́ −2 S , X́ + 2 S )

También podría gustarte