Está en la página 1de 52

MATEMÁTICA II

CÁTEDRA SANTA MARIA


“La Estadística tiene por objeto recolectar, organizar, resumir,
presentar y analizar datos relativos a un conjunto de objetos,
personas, procesos, etc.
A través de la cuantificación y el ordenamiento de los datos
intenta explicar los fenómenos observados, por lo que resulta una
herramienta de suma utilidad para la toma de decisiones”
Población o Universo:
Es el total del conjunto de elementos u objetos de los cuales se quiere
obtener información.
La población debe estar perfectamente definida en el tiempo y en el
espacio, de modo que ante la presencia de un potencial integrante de la
misma, se pueda decidir si forma parte o no de la población bajo estudio.
El tamaño de una población viene dado por la cantidad de elementos
que la componen.

 Unidad de análisis:
Es el objeto del cual se desea obtener información. Muchas veces nos
referimos a las unidades de análisis con el nombre de elementos.
Es un subconjunto de unidades de
análisis de una población dada,
destinado a suministrar información
sobre la población.
La muestra debe ser representativa, en
el sentido de que las conclusiones
obtenidas deben servir para el total de
la población.
VARIABLE
Es la cualidad o cantidad medible que se estudia de las unidades de análisis y
que varían de una unidad a otra. Por ejemplo: edad, ingreso de un individuo,
sexo, cantidad de lluvia caída, etc.

VARIABLES CUANTITATIVAS:
VARIABLES
Las variables cuantitativas según el tipo de valores CUALITATIVAS
que pueda tomar pueden ser discretas o continuas.

La característica que
VARIABLE CONTINUA VARIABLE DISCRETA miden de la unidad de
Surgen por procesos de Surgen por procesos de análisis es una cualidad.
medición. conteo. como categorías o
atributos.
• Se refiere a la recolección, presentación, descripción, análisis e
interpretación de una colección de datos. Esencialmente
consiste en resumir éstos mediante medidas descriptivas que
caracterizan la totalidad de los mismos.

• La estadística Descriptiva es el método que permite obtener de


un conjunto de datos conclusiones sobre sí mismos y no
sobrepasan el conocimiento proporcionado por éstos. Puede
utilizarse para resumir o describir cualquier conjunto ya sea que
se trate de una población o de una muestra.
Se refiere al proceso de lograr generalizaciones acerca de las
propiedades de la población, a partir de la información obtenida
de una muestra. Para que éstas generalizaciones sean válidas la
muestra deben ser representativa de la población, además puesto
que las conclusiones así extraídas están sujetas a errores, se tendrá
que especificar el riesgo o probabilidad con que se pueden
cometer esos errores. La estadística Inferencial es el conjunto de
técnicas que se utilizan para obtener conclusiones que sobrepasan
los límites del conocimiento aportado por los datos.


Los datos para que sean útiles se deben organizar de manera que
faciliten su análisis, se puedan seleccionar tendencias, describir relaciones,
determinar causas y efectos y permitan llegar a conclusiones lógicas y
tomar decisiones bien fundamentadas; por esa razón es necesario
conocer los métodos de Organización y Representación, la finalidad de
éstos métodos es permitir ver rápidamente todas las características
posibles de los datos que se han recolectado.
Una forma de presentar ordenadamente un grupo de observaciones,
es a través de tablas de distribución de frecuencias. La estructura de
estas tablas depende de la cantidad y tipo de variables que se están
analizando, siendo las más simples las que se refieren a una variable.

Nombre de la variable Frecuencia

Categorías o
Frecuencias
Recorrido de la
Observadas
variable
TOTAL n
k
Frecuencia Absoluta : Es la cantidad de veces que se
n   fi repite un valor particular de la variable. La suma de las
i 1 frecuencias absolutas simples debe ser igual a la cantidad de
valores observados.

fi
ri  Frecuencia Relativa: Es el cociente entre la
n frecuencia absoluta y el total de observaciones.

Frecuencia Absoluta Acumulada: Se obtiene sumando


Fi los valores de las frecuencias simples hasta un cierto valor
de la variable.

Frecuencia Relativa Acumulada: Se obtiene sumando los


Ri valores de las frecuencias relativas simples hasta un cierto valor
de la variable.
Los siguientes datos corresponden a las notas obtenidas
por un curso de en un examen de
Matemática II:

4,0 5,0 6,0 2,0 4,0 2,0 5,0 3,0 7,0

7,0 2,0 3,0 4,0 5,0 1,0 6,0 4,0 5,0

7,0 5,0 4,0 5,0 2,0 7,0 3,0


Se resume la información en la siguiente tabla de frecuencia.

Frecuencia
Frecuencia Frecuencia Frecuencia Relativa
Nota Absoluta
Absoluta Relativa Acumulada
Acumulada
1 1 1 1/25 1/25

2 4 5 4/25 5/25

3 3 8 3/25 8/25

4 5 13 5/25 13/25

5 6 19 6/25 19/25

6 2 21 2/25 21/25

7 4 25 4/25 25/25= 1,00

25
De esta tabla se pueden sacar conclusiones como:

 4 alumnos obtuvieron nota 2,0.


 8 alumnos obtuvieron nota inferior a 4,0.
 19 alumnos sacaron hasta 5,0 puntos.
 El 50% obtuvo nota 5 o inferior a ésta, mientras que el 24 %
obtuvo una nota superior a 5.
Para representar gráficamente una distribución de frecuencias
absolutas se utiliza un par de ejes de coordenados. En el eje de las
abscisas se representará la variable estudiada y en el eje de las
ordenadas, las correspondientes frecuencias, empleando un gráfico de
bastones.

Para representar gráficamente una distribución de frecuencias


absolutas acumulada se utiliza un par de ejes de coordenadas. En el eje
de las abscisas se representará la variable estudiada y en el eje de las
ordenadas, las correspondientes frecuencias acumuladas, empleando
un grafico escalonado.
 En el gráfico se observa la distribución de las notas del
examen, y que la calificación más alta es la nota 5 que
coinciden con la frecuencia más alta de la tabla.

 La frecuencia más baja de alumnos la alcanza la nota 1.


 Li ; Ls 
Clases o intervalos de clase:

Deben incluir todas las observaciones de la variable dentro de sus


límites, por convención se incluye el limite inferior y se excluye el
superior, es decir cada intervalo de clase corresponde a un intervalo
semiabierto por derecha. Cada uno de los intervalos deben ser
mutuamente excluyentes.
Marca de clases Amplitud del Intervalo

Lim sup  Lim inf Amplitud  Lim sup  Lim inf


x 
2

Número de clases

Es el número total de grupos en que se clasifica la información,


se recomienda que no sea menor que 5 ni mayor que 15.
Esta formado por rectángulos cuya base es la amplitud del intervalo y tiene la
característica que la superficie que corresponde a las barras es representativa de la
cantidad de casos o frecuencia de cada tramo de valores.


Se puede obtener uniendo cada punto medio (marca de clase) de los rectángulos
del histograma con líneas rectas, teniendo cuidado de agregar al inicio y al final
marcas de clase adicionales, con el objeto de asegurar la igualdad del áreas.
Tomemos por ejemplo la siguiente distribución por intervalos de clase
correspondiente al volumen de ingresos (en millones de pesos) de 50
empresas constructoras en agosto del año 2017.

Intervalos de clase fi
45-55 6
55-65 10
65-75 19
75-85 11
85-95 4
n 50
 Medidas de Posición
 Medidas de Dispersión
 Medidas de Forma
 Media Aritmética

 Mediana

 Modo
Para datos agrupados por tablas de frecuencias, la fórmula correspondiente es:

x   ni i (Datos muestrales)
x f

f frecuencia absoluta del valor de variable x


i i

Para datos agrupados con intervalos de clase, la fórmula correspondiente es:

 xi f i
x  n (Datos muestrales)

Aclaración:
x  es el punto medio de cada intervalo  marca de clase 
i
f es la frecuencia de cada intervalo
i
x
 x
i fi

1  1  2  4  3  3  4  5  5  6  6  2  7  4 108
  4,32
n 25 25

La nota promedio es de 4,32 puntos.


 xi fi 3470
x   69, 4
n 50

Intervalos de
x i xi  f i
El volumen de ingreso promedio
fi
clase

45-55 6 50 300 en pesos durante el mes de


55-65 10 60 600 agosto del 20167 fue de $69,4
65-75 19 70 1330
75-85 11 80 880
85-95 4 90 360
n 50 3470
 Todos los valores son incluidos en el cálculo de la media.
 Es una medida muy útil para comparar dos o más
poblaciones.

 Es la única medida de tendencia central donde la suma de


las desviaciones de cada valor respecto a la media es igual a
cero. Por lo tanto, podemos considerar a la media como el
punto de balance de una serie de datos.
 Si alguno de los valores es extremadamente
grande o extremadamente pequeño, la media no
es el promedio apropiado para representar la serie
de datos.

 No se puede determinar si en una distribución de


frecuencias hay intervalos de clase abiertos.
Se define como el valor central en un “conjunto ordenado” de
datos.

Es decir, divide al conjunto de datos en dos partes iguales,


conteniendo cada una de esas partes el 50% de los datos.

𝒏+𝟏
Es el valor que ocupa la posición en la serie ordenada de
𝟐

datos.

No le afectan las observaciones extremas.


Para datos agrupados por tablas de frecuencias

La mediana es el valor de variable hasta donde se acumula el 50% de


las observaciones.

Para datos agrupados con Donde Li es el límite inferior del


intervalos de clase, la formula intervalo que contiene al 50% de las
correspondiente es: observaciones.
a es el ancho del intervalo.

n  Fant es la frecuencia acumulada del


 2  Fant 
Me  Li  a   intervalo anterior al que contiene el
 f  50% de las observaciones.
 
f es la frecuencia absoluta del
intervalo que contiene al 50% de las
observaciones.
Para datos agrupados por tablas de frecuencias
Frecuencia
Frecuencia La ubicación de la mediana se
Nota Absoluta
Absoluta
Acumulada encuentra en :
1 1 1 𝒏+𝟏
𝑷𝒐𝒔 𝑴𝒆 =
2 4 5 𝟐

3 3 8
Entonces (Me)°=26/2= 13 por lo
4 5 13
tanto el valor de la mediana
5 6 19
coincide con la observación 12.
6 2 21
𝑴𝒆 = 𝟒 𝒑𝒖𝒏𝒕𝒐𝒔
7 4 25
25
Para datos agrupados con intervalos de clase

Intervalos de Para calcula la mediana primero hay que


fi Fi
clase
determinar el 50% de la observaciones: 50% de n
45-55 6 6
50% de 50 = 25
55-65 10 16

65-75 19 35

75-85 11 46 n   50 
 2  Fant   2  16 
85-95 4 50 Me  Li  a    65  10    69, 74
 f   19 
n 50    
Es el valor de la variable que más veces se repite, es decir, aquella
cuya frecuencia absoluta es mayor. Puede haber más de una moda
en una distribución.
Para datos agrupados por tablas de frecuencias

Para datos agrupados por tablas de frecuencias, el modo es el valor de


variable de mayor frecuencia

Para datos agrupados con


Donde Li es el limite inferior del intervalo
intervalos de clase:
de mayor frecuencia.(intervalo modal)

 d1  a es el ancho del intervalo, d1 es la


Mo  L i  a .   diferencia entre la frecuencia absoluta
 d1  d 2  del intervalo modal y la frecuencia
absoluta del intervalo anterior,
d2 es la diferencia entre la frecuencia
absoluta del intervalo modal y la
frecuencia absoluta del intervalo
posterior.
Para datos agrupados por tablas de frecuencias

Frecuencia
Nota
Absoluta El modo corresponde al valor de variable de
1 1 mayor frecuencia.

2 4
Mo = 5 puntos
3 3
4 5
5 6 Por lo tanto la nota que se da con mayor
frecuencia es 5 puntos.
6 2
7 4
25
Para datos agrupados con intervalos de clase

Intervalos de fi
clase  d1   9 
M o  Li  a .    6 5  10 .    70, 29
 d1  d 2  9  8
45-55 6

55-65 10

65-75 19
El volumen de ingreso en pesos durante el
75-85 11
85-95 4 mes de agosto del 2017 de mayor frecuencia
n 50 fue $70,29.
 Percentiles
Son valores que dividen a la distribución en 100 partes iguales

Para datos agrupados  k .n 


 100  Fant 
con intervalos de clase Pk  Li  a  
Dónde  f 
 
k.n/100 es la posición del percentil

Li es el límite inferior del intervalo que contiene al k% inferior de las


observaciones.
a es el ancho del intervalo.

Fant es la frecuencia acumulada del intervalo anterior al que contiene al k%


inferior de las observaciones.

f es la frecuencia absoluta del intervalo que contiene al k% inferior de las


observaciones.
¿Cuál es el ingreso por venta del 30% de la
Intervalos de
fi Fi
clase empresas que menos ingreso tienen?
45-55 6 6

55-65 10 16
30% de 50  50 . 0, 30  15

65-75 19 35
 k .n   30.50 
75-85 11 46
 100  Fant   100  6 
85-95 4 50 P30  D3  Li  a    55  10     64
 f   10 
n 50    

El ingreso por venta del 30% de la empresas que menos ingreso tienen es
de $64.
 Rango

 Varianza

 Desvío Entandar

 Coeficiente de Variación
Es la diferencia entre el mayor y el menor valor de la variable.

Si se tienen intervalos de clase, es la diferencia entre el límite


superior de la última clase y el límite inferior de la primera.
Es la suma de los cuadrados de las desviaciones de los valores de la
variable con respecto a la media aritmética, dividida el número de
observaciones menos 1.

1 n 2
s   
  x x .f
2
n  1 i 1  i  i
Para datos agrupados por tablas de frecuencias

n 2
 ( x i  x ) . fi
s  i 1
2
n1

Para datos agrupados por intervalos de clase

n
 ( x  x ) . f
2
s 2  i 1
i i
n1
Es la raíz cuadrada de la varianza. Es una medida de dispersión
absoluta. Cuanto mayor es su valor, mayores son las diferencias
de las observaciones con respecto a la media.

s   s2
Una desviación estándar
grande indica que los
puntos están lejos de la
media.

Una desviación pequeña


indica que los datos están
agrupados cerca de la media.
Es el cociente entre el desvío estándar
y la media aritmética. Se lo expresa s
como porcentaje, para lo cual se lo
CV  100
x
multiplica por 100.

:
Si el coeficiente de variación es menor o igual al 20% se considera que
la distribución de los datos es homogénea, y que la media es
representativa del conjunto de datos. Si es mayor al 20%, los datos serán
heterogéneos.
R  Vmáx  Vmín  95  45  50

Intervalos de
clase fi x i xi  x 2  f i
  x  x  fi
2
6082
45-55 6 50 2258,16 s 
2
  124,12
55-65 10 60 883,6
n1 49
65-75 19 70 6,84
75-85 11 80 1235,96
85-95 4 90 1697,44
s   s 2   124,12  11,141
n 50 6082

s 11,141
CV   100   100  0,16  100  16%
x 69,4
 El rango de variación en los ingresos es de $50.
 La dispersión respecto del promedio es de $11,141.
 La media es representativa del conjunto de datos ya que el
CV es menor al 20% , por lo tanto los datos son homogéneos.
 Asimetría
Si x  Me  La distribución es simétrica

Si x  Me  La distribución es asimétrica por derecha  Sesgo positivo 

Si x  Me  La distribución es asimétrica por Izquierda  Sesgo negativo 


x  4, 32 puntos Me  4 puntos  Me  x  Asimetría positiva o derecha

x  69,40$ Me  69,74$  x  Me  Asimetría negativa o por izquierda

También podría gustarte