Está en la página 1de 62

I.

ESTADISTICA DESCRIPTIVA

Definiciones de términos básicos.


• Estadística, Tipos de estadística
• Población , características, tipos de Investigación, Muestra, tipos de muestreo
Variable , parametors, intervalo de confianza
Tablas de distribución de frecuencias.
• (Frecuencias relativas y relativas acumuladas. )Graficas estadísticas
• Histogramas
• Polígonos
• Ojivas
• Grafico de Torta o Pastel
Medidas de tendencia central
• Media
• Mediana
• Moda
• percéntiles y cuartiles
Medidas de dispersión
• Rango
• Varianza
• desviación estándar
• coeficiente de variación
• Diagrama de cajas.
1. Definiciones
• La palabra "estadística" suele utilizarse como
colección de datos numéricos.-

se puede definir la estadística como


“la ciencia que permite estudiar las
regularidades o patrones en un conjunto de
datos para tomar decisiones racionales”.
Aplicación de la estadística
• Estadística como descripción, es decir, el
análisis de conjuntos coherentes de datos para
su comparación y análisis. (ESTADÍSTICA
DESCRIPTIVA)
• Estadística matemática o inferencia, unida a la
teoría de probabilidades. Se encarga de extraer
conclusiones a partir de una Muestra o
población con un margen de error.
(ESTADÍSTICA INDUCTIVA o INFERENCIAL)
Estadística descriptiva
Población: Es un conjunto de personas, eventos o
cosas de las cuales se desea hacer un estudio, y
tienen una característica en común, pueden ser
Población Finita o Población Infinita

Muestra: Es un subconjunto cualquiera


de la población; es importante escoger la
muestra en forma aleatoria (al azar), pues
así se logra que sea representativa y se
puedan obtener conclusiones más a fines
acerca de la población.
Muestras

No
Probabilistica
Probabilistica

Muestra
Muestra Muestra Muestra por Muestra a Muestra por Muestra de
Aleatoria
Sistemática Estractificada conglomerado Juicio cuota Voluntarios
simple
• CARACTERISTICA: son los rasgos o
cualidades que se van a estudiar en una
población, todos los elemento o unidades
de la población deben tenerlos, estas
pueden ser características cualitativas o
características cuantitativa
Variables
Todo estudio estadístico debe considerar
diferentes tipos de variables:

Variables

Variables cualitativas o atributos


Variables Cuantitativas
Variables y Atributos.
TIPO DE PROPIEDAES EJEMPLOS
VARIABLE
Cuando las característica que se va estudiar alude a Bebidas preferidas, sexo, color de
cualidades, gustos, preferencias u opiniones cabello, candidato favorita.

Juicios de valor en educación


CUALITATIVA Ordinal Se puede ordenar pero no es (excelente, bueno, aceptable…),
numérica niveles de satisfacción (bueno,
malo regular…)

Hace referencia a cualidades pero Profesión, color de ojos, marca de


Nominal no se ordenan carros etc.

Cuando la estadística que se va a estudiar se mide en una Edad, sueldo, cantidad de bacteria,
escala numérica, son características numéricas del individuo , precio de un producto, ingresos
anuales

CUANTITATIVA Discreta: Aquellas a las que se les puede asociar un número Cantidad de amigos, edad en años,
entero, es decir, aquellas que por su naturaleza no admiten cantidad de hermanos, cantidad de
un fraccionamiento de la unidad apartamentos

Continua: aquellas que pueden tomar cualquier valor en un Velocidad de auto, estatura de una
intervalo real, persona, pesos,
CLASES DE INVESTIGACIÓN O DE
ANALISIS ESTADISTICO
• Investigación o Análisis Descriptivo:
Son las que se realizan sobre hechos
reales con el fin de explicar las
características o variables, se utilizar el
método de caso o el estadístico.
• Investigación o Análisis Experimental:
Son observaciones dirigidas en unas
condiciones rigurosamente controladas,
determinando las relaciones causa y
efecto
Etapas para un análisis estadístico
• Definición del problema de estudio y objetivos
• Selección y recogida de la información que
depende del presupuesto con el que contemos y de
la calidad de los datos exigida.
• Ordenación y clasificación de la información en
tablas y gráficos.
• Resumen de los datos mediante medidas de
posición, dispersión, asimetría y concentración.
• Análisis, interpretación y extracción de conclusiones
obteniendo hipótesis y contrastándolas.
• Extrapolación y predicción.
Ordenando la Información

Al ordenar datos muy numerosos, es


usual agruparlos en clases o categorías.
Al determinar cuántos pertenecen a
cada clase, establecemos la frecuencia.
Construimos así una tabla de datos
llamada tabla de frecuencias. Que
Sirve para visualizar y organizar los
datos
TABLAS DE DISTRIBUCION DE FRECUENCIAS.

xi fi fr pi Fi Fr Pi

• xi Valor de la variable
• fi Frecuencia absoluta: Número de veces que aparece un determinado valor
de x
• fr Frecuencia relativa: Número de veces que aparece un determinado valor de
x respecto al total
• pi Frecuencia absoluta acumulada: Suma de la frecuencia absoluta
correspondiente más todas las anteriores
• Frecuencia Absoluta: La frecuencia absoluta de una
variable estadística es el número de veces que aparece
en la muestra dicho valor de la variable, la
representaremos por fi
• Frecuencia Relativa:
• es el cociente entre la frecuencia absoluta y el tamaño
de la muestra. La denotaremos por fr
fi
fr 
N
• Donde N es el tamaño de la muestra
Frecuencia Porcentual
• La frecuencia relativa es
un tanto por uno, sin
embargo, hoy día es
bastante frecuente hablar
siempre en términos de
tantos por ciento o pi  fr  100%
porcentajes, por lo que
esta medida resulta de
multiplicar la frecuencia
relativa por 100. La
denotaremos por pi.
Frecuencia Absoluta Acumulada:
• Para poder calcular este tipo de frecuencias hay
que tener en cuenta que la variable estadística
ha de ser cuantitativa o cualitativa ordenable.
La frecuencia absoluta acumulada es la suma
de las frecuencias absolutas. y lo
representaremos por F.
Frecuencia Relativa Acumulada:
• Al igual que en el
caso anterior la
frecuencia relativa
acumulada es la
fi
suma de las Fr  
frecuencias relativas N
y se denotaremos por
Fr
Porcentaje Acumulado:

• Análogamente se define
el porcentaje acumulado
y lo vamos a denotar por Pi  Fi  100%
Pi como la frecuencia
relativa acumulada por
100.
EJEMPLOS
1.Supongamos que queremos hacer un estudio en la CUN
sobre el grupo de danza, hay 20 estudiantes, y les
pregunta lo siguiente:
1: Edad del encuestado
2: sexo
Las respuestas a las pregunta fueron:
mujeres_: 16,16,16,18, 16, 17,17,16,17,17,18,18,16
Hombre_: 16,17,18,18,16,17,17,
• Cuantas variables se identifican?
• De que tipo?
Ejemplo
• Veamos esto con un ejemplo: tomamos para ello los
datos relativos a las personas activas. 
Personas Número
activas familias
Xi Ni Fi Pi Ni Fi Pi
1 16 16/50 32% 16 16/50 32%
2 20 20/50 40% 36 36/50 72%
3 9 9/50 18% 45 45/50 90%
4 5 5/50 10% 50 50/50 100%
Total 50
• En este ejemplo se puede ver fácilmente como se
calculan estas frecuencias.
• En una institución de enseñanza del ingles se clasifican
a los estudiantes en unos de los siguientes niveles:
elementary (E) beginner (B) intermediate (I), y upper (U),
deacuerdo con los resultados de las pruebas de
admision elementary es el nivel mas bajo y upper es el
nivel es el mas alto. La clasificación de 20 inscritos para
el primer semestre del año fue:
E, I, .E, I, I, I, B, E,U, B,U, B ,B, B, I, U, B, E, B, U
Tablas de frecuencias

• Existen dos formas diferentes de tablas de


frecuencia, teniendo …
• Que la variable estadística tome pocos valores
diferentes (ya sea grande o pequeño el tamaño
de la muestra).
• Que, en una muestra de gran tamaño,  la
variable estadística tome muchos valores
diferentes, ya se trate de variable estadística
discreta como de variable estadística continua
(este último caso es el más habitual).
Caracterización de variables
• Cualitativas: Se emplean tablas de
distribución de frecuencias, gráficos, y
medidas de tendencia central,
dependiendo si la variable es ordinal o
nominal.
• Las medidas de tendencia que se utilizan
son la moda y la mediana.
• MODA (Mo):
Es el valor de la variable que tenga mayor frecuencia
absoluta, la que más se repite. Por su propia definición, la
moda no es única, pues puede haber dos o más valores de
la variable que tengan la misma frecuencia siendo esta
máxima. En cuyo caso tendremos una distribución bimodal
o polimodal según el caso.
• MEDIANA: (Me) La mediana es el valor central de la
variable, es decir, supuesta la muestra ordenada en orden
creciente o decreciente, el valor que divide en dos partes
la muestra. Solo se puede calcular la mediana si la
variable es ordinal.
• Cálculo de la mediana (Me): Se tiene en cuenta el
tamaño de la muestra.
• Si n es impar, hay un término central, el término
que será el valor de la mediana.

• Si n es par, hay dos términos centrales, la mediana será la


media de esos dos valores
VARIABLES CUANTITATIVAS

• Cuando manejamos datos no agrupados, se puede utilizar


el diagrama de tallo y hojas. Este diagrama consta de
dos columnas una de tallo y otra de hojas, el tallo
corresponde a las primeras cifras de cada dato, y la hoja la
ultima cifra. Ejem.
Tallo hojas
0 8
1 5 8
2 5 5
3 0 4
4 2
5 0 0
DATOS AGRUPADOS

En este caso por tratarse de variable continua o discreta


pero con un número de datos muy grande, es aconsejable
agrupar los datos en clases.
Agrupamos los valores de la variable estadística en
intervalos de clase contiguos y elegidos.
1. Se halla el RANGO que es la diferencia entre el valor
mayor Xm menos el valor menor Xn que toma la variable
x. asi
RANGO = Xm - Xn
2. Se divide el rango entre intervalos definidos para tener la
longitud de cada intervalo
Xm - Xn
numero de intervalos

si el resultado no es entero se redondea al entero


superior.
• Marca de clases: es el punto medio de
cada intervalo.
ab
Mc 
2
Donde a, b son los limites de los intervalos
ejemplo
• El profesor de edufisica mide las estaturas de 40 alumnos
en centímetros.

147,148,149,149,150,150,151,151,152,153,153,154,156,
157,157,158, 158, 158, 158,

158,159,159,160,162,162,163,163,164,165,166,168,170,
170,170,171,173,176, 178,179, 179,
Representar los datos en tabla de frecuencia,
Analizar la información.
1. se halla el rango
rango =179-147 =32
2. Se halla el numero de intervalos = 6.3
3. Se halla la longitud de intervalo 32/6 = 5.3
que seria 5.3 que seria la longitud de mi intervalo.
Primer intervalo 147, 147  5.3  147 , 152.3

3. Marca de clase de cada intervalo


147  152.3
Mc   149.65
2
xi Mc fi fr pi Fi Fr
Tabla de
frecuencias
de una
variable
estadística
agrupada
en
intervalos.
(Frecuencias relativas y relativas
acumuladas.)Graficas estadísticas

Datos f (en Fr(%)


Ejemplo. (vacunas) miles) (redondeado
• En la siguiente tabla se
muestra el total de BCG 47 17
vacunas aplicadas
durante el verano de SABIN 111 41
l991 en un estado de la
República Colombia.   DPT 73 27

SARAMPION 41 15

TOTAL 272 100


HISTOGRAMA.

• Es una representación grafica de una distribución de


frecuencias por medio de rectángulos.
• Es un recurso común e importante para representar
datos, consiste en una escala horizontal para valores de
los datos que se están representando, una escala
vertical de las frecuencias de dichos datos.
• El histograma es especialmente útil cuando se tiene un
amplio número de datos que es preciso organizar.
• Histograma de frecuencia absoluta. (Xi y fi)
• Histograma de frecuencia relativa (Xi y Fi)
• Histograma de frecuencia relativa porcentual (Xi y pi)
• Histograma de frecuencia relativa acumulada (Xi y Pi)
• Con la distribución de frec. anterior se tiene:  
fi

120

100

80
fi

60

40

20

0
BCG SABIN DPT SARAMPION
POLIGONOS DE FRECUENCIA
• Es una representación grafica de la distribución de
frecuencia que resulta esencialmente equivalente al
histograma y se obtiene uniendo mediante segmentos los
centros de las bases superares de los rectángulos del
histograma.
fi
120

100

80
fi
60

40

20

0
BCG SABIN DPT SARAMPION
OJIVA.

• Una grafica similar al polígono de frecuencias es la ojiva,


pero esta se obtiene de aplicar parcialmente la misma
técnica a una distribución acumulativa y de igual manera
que estas, existen las ojivas mayor que y menor que.
•   
fi
120

100

80

60

40

20

0
BCG SABIN DPT SARAMPION

fi
DIAGRAMA CIRCULAR, PASTEL O
TORTA.

• Cuando lo que se desea resaltar son las proporciones


que representan algunos subconjuntos con respecto al
total, conviene utilizar la grafica o diagrama circular. Es
un grafico en el que cada valor o modalidad se le asigna
un sector circular de área proporcional a la frecuencia
que representan.
• Es un gráfico que se basa en una proporcionalidad entre
la frecuencia y el ángulo central de una circunferencia,
de tal manera que a la frecuencia total le corresponde el
ángulo central de 360°. Para construir se aplica la
siguiente formula:
• X = frecuencia relativa * 360°/ frecuencia relativa
• Este se usa cuando se trabaja con datos que tienen
grandes frecuencias, y los valores de la variable son
pocos, la ventaja que tiene este diagrama es que es fácil
de hacer y es entendible fácilmente, la desventaja que
posee es que cuando los valores de la variable son
muchos es casi imposible o mejor dicho no informa mucho
este diagrama y no es productivo, proporciona
principalmente información acerca de las frecuencias de
los datos de una manera entendible y sencilla.
• Se forma al dividir un círculo en sectores circulares de
manera que:
•   a)      Cada sector circular equivale al porcentaje
correspondiente al dato o grupo que representa.
• b)      La unión de los sectores circulares forma el círculo y
la suma de sus porcentajes es 100.  
Datos f Grados
Fr(%)
(vacunas) (miles) (redondeados)

BCG 47 17 .17 x 360 = 61

SABIN 111 41 .41 x 360 = 148

DPT 73 27 .27 x 360 = 97

SARAMPION 41 15 .15 x 360 =54

TOTAL 272 100 360


fr
BCG SABIN
DPT SARAMPION
15% 17%

27%

41%
MEDIDAS DE TENDICIAS CENTRAL
VARIABLES CUANTITATIVAS

Son los valores promedio que refleja la tendencia de los


datos a concentrarse a un valor central.

Media
También llamado promedio o esperanza matemática, es
un numero calculado mediante la suma de todos los
valores de dicha variable divididos por el numero total de
datos Hay distintos tipos de media.

Se simboliza asÍ
• Media Aritmética:
También llamado promedio o esperanza matemática, La media
aritmética de una variable se define como la suma ponderada de
los valores de la variable por sus frecuencias relativas y lo
denotaremos por y se calcula mediante la expresión:

x i n
xi * f i
X i 1

n i 1 N
xi representa el valor de la variable o en su caso la marca de clase.
• Media geométrica:
• La media geométrica de n observaciones es la raíz de índice n
del producto de todas las observaciones. La representaremos
por g.

• Media armónica:
• La media armónica de n observaciones es la inversa de la media
de las inversas de las observaciones y la denotaremos por h

• Al igual que en el caso de la media geométrica su


utilización es poco frecuente.
• Mediana:
• La mediana es el valor central de la variable, es decir,
supuesta la muestra ordenada en orden creciente o
decreciente, el valor que divide en dos partes la muestra.
• Para calcular la mediana debemos tener en cuenta si la
variable es discreta o continua.
• Cálculo de la mediana en el caso discreto:
• Tendremos en cuenta el tamaño de la muestra.
• Si n es impar, hay un término central, el término
que será el valor de la mediana.
• Si n es par, hay dos términos centrales,
la mediana será la media de esos dos valores
• Ejemplo

N par N impar

1,4,6,7,8,9,12,16,20, 24,25,27 1,4,6,7,8,9,12,16,20, 24,25,27,30


n=12 n=13
Términos centrales el 6º y 7º 9 Término central el 7º , 12
y 12
Me=12
Me=
• Cálculo de la mediana en el caso continúo:
• Si la variable es continua, la tabla vendrá en intervalos, por
lo que se calcula de la siguiente forma:

• Nos vamos a apoyar en un gráfico de un histograma de


frecuencias acumuladas. De donde la mediana vale: donde
ai es la amplitud del intervalo
• Veámoslo por medio de un ejemplo.
• Supongamos los pesos de un grupo de 50 personas se
distribuyen de la siguiente forma:
Li-1 Li Ni Ni
45 55 6 6
55 65 10 16
65 75 19 35
75 85 11 46
85 95 4 50

• Como el tamaño de la muestra es n=50, buscamos el


intervalo en el que la frecuencia acumulada es mayor que
50/2=25, que en este caso es el 3º y aplicamos la fórmula
anterior. Luego la mediana será

Me=
• MODA (Mo):
Es el valor de la variable que tenga mayor frecuencia
absoluta, la que más se repite. Por su propia definición,
la moda no es única, pues puede haber dos o más
valores de la variable que tengan la misma frecuencia
siendo esta máxima. En cuyo caso tendremos una
distribución bimodal o polimodal según el caso.
• .
• Apoyándonos en el gráfico podemos llegar a la determinación de
la expresión para la moda que es:

• Otros autores dan una expresión aproximada para la moda que


viene dada por la siguiente expresión:

• Veamos su cálculo mediante un ejemplo, para ello usaremos los


datos del apartado anterior
Veamos su cálculo mediante un ejemplo, para ello usaremos
los datos del apartado anterior

Li-1 Li Ni Ni
45 55 6 6
55 65 10 16
Utilizando la fórmula aproximada
65 75 19 35
75 85 11 46
85 95 4 50
Parámetros de localización.

• Cuartiles, deciles, percentiles

• Las medidas de localización dividen la distribución en


partes iguales, sirven para clasificar a un individuo o
elemento dentro de una determinada población o muestra.
Así en psicología los resultados de los test o pruebas que
realizan a un determinado individuo, sirve para clasificar a
dicho sujeto en una determinada categoría en función
de la 53-1-u-puntuación obtenida.
• Cuartiles
• Medida de localización que divide la población o muestra
en cuatro partes iguales.
• Q1= valor de la variable que deja a la izquierda el 25%
de la distribución.
• Q2= valor de la variable que deja a la izquierda el 50%
de la distribución = mediana.
• Q3= valor de la variable que deja a la izquierda el 75%
de la distribución.
• Al igual que ocurre con el cálculo de la mediana, el
cálculo de estos estadísticos, depende del tipo de
variable.
• Caso i: variable cuantitativa discreta:
• En este caso tendremos que observar el tamaño de la
muestra: n y para calcular q1 o q3 procederemos como si
tuviésemos que calcular la mediana de la correspondiente
mitad de la muestra.
• Caso ii: variable cuantitativa continua:
• En este caso el cálculo es más simple: sea la distribución
que sigue:
• Siendo el intervalo coloreado
[li-2 -- li-1) Ni-1 Ni-1
. donde se encuentra el
[li-1 -- li) .
cuartil Ni .Ni
correspondiente:

Y
• Deciles
• Medida de localización que divide la población o muestra
en 10 partes iguales
• No tiene mucho sentido calcularlas para variables
cualitativas discretas. Por lo que lo vamos a ver sólo para
las variables continuas.
• Dk = decil k-simo es aquel valor de la variable que deja a
su izquierda el k·10 % de la distribución.

• [li-2 -- li-1) Ni-1 Ni-1


Intervalo donde se encuentra el .
[li-1 -- l.i) Ni Ni decil correspondiente:

k = 1... 9
• Percentiles:
• Medida de localización que divide la población o muestra
en 100 partes iguales
• No tiene mucho sentido calcularlas para variables
cualitativas discretas. Por lo que lo vamos a ver sólo para
las variables continuas.
• Pk = percentil k-simo es aquel valor de la variable que deja
a su izquierda el k % de la distribución.
[li-2 -- li-1) Ni-1 Ni-1 Intervalo donde se encuentra el . .
. percentil correspondiente
[li-1 -- li) Ni Ni

k=1... 99
• Ejemplo:
• Como se puede observar la forma de calcular estas
medidas es muy similar a la del cálculo de la mediana.
• Veamos el cálculo de algunas de estas medidas en el
ejemplo que estamos estudiando.
• Vamos a calcular q1, q3, d3, y p45

Cálculo de q1: buscamos en la .


Li-1 Li Ni Ni
. columna de las frecuencias
45 55 6 6
. ... . acumuladas el valor
55 65 10 16
que65supere al .
75 19 35
25% de n=50,
corresponde
75 85 11al46 2º . .
intervalo.(50/4=12.5)
85 95 4 50
• Análogamente calculemos q3, buscamos ahora en la
misma columna el correspondiente al 75 %de n que en
este caso es el 4º intervalo (3.50/4=37.5)

• Veamos ahora el decil 3º.


(Corresponde al 30 % 3 · 50 / 10 = 15) sería el 2º intervalo.

• Por último veamos el percentil 45 (45·50/100 = 22.5)


corresponde al intervalo 3º.
Parámetro de dispersión.

• Las medidas de dispersión indican que tan lejos o tan


cerca se encuentran unos datos de otros en una
distribución de frecuencia. La medida representativa mas
utilizada para analizar la dispersión de datos es la media.
Las más importantes son el rango, la desviación media,
la desviación típica o estándar, el coeficiente de
variación, la varianza.

• Rango
• Es la medida de dispersión que indica la distancia entre el
valor mayor y menor en un grupo de datos
• Se denota como r. Realmente no es una medida muy
significativa e la mayoría de los casos, pero
indudablemente es muy fácil de calcular.
Varianza para datos no agrupados:
Es una medida de dispersión que se halla mediante la
suma de los cuadrados de la desviación respecto a las
medias, divididas entre el número de datos. Es la media de
los cuadrados de las desviaciones, y la denotaremos por
si se trata de una muestra o también por si se habla de
una población.

Este estadístico tiene el inconveniente de ser poco


significativo, pues se mide en el cuadrado de la unidad de
la variable, por ejemplo, si la variable viene dada en cm. La
varianza vendrá en cm2.
• Desviación estándar: permite medir la dispersión con
respecto al valor de la media o promedio; cuando mas
grande sea el valor mas disperso estarán los datos de la
media.

• Coeficiente de variación : Es un estadístico de dispersión


que tiene la ventaja de que no lleva asociada ninguna
unidad, por lo que nos permitirá decir entre dos muestras
es una medida útil para comparar las dispersiones en
varios conjuntos que tienen distintas escalas de medición.
• Hallar la varianza, la desviación estándar,
el coeficiente de variación,
Un empresario realiza un estudio sobre
las ventas de computadores realizadas
por los mejores vendedores en dos de sus
compañías. Los resultados en miles de
dólares son:
Compañía A 40,2 26,9 29,3 35,6 99,8 70.2 58,5 36,8

Compañía B 44,2 31,9 45,2 35,6 49,8 50,2 53,5

También podría gustarte