Está en la página 1de 28

Estadística y

Probabilidad
 Asignatura ESTA21 I171
 Profesora Carolina Gómez Bravo
 Carolina.gomez27@inacapmail.cl
 http://siga3.inacap.cl/AAPEDescriptor/ShowAsig.
aspx?idasig=ESTA21
Conceptos básicos y definiciones
 La estadística descriptiva, es la rama de la matemática que tiene como
objetivo efectuar el proceso de recopilación, ordenamiento, tabulación,
representación de datos, con el fin de analizarlos e interpretarlos, de
modo de lograr una acertada toma de decisiones.

 Se divide en tres disciplinas relacionadas entre sí:


Análisis exploratorio de datos
Probabilidad
Estadística inferencial
Definiciones
a) Variable: Es una característica de la población o de la muestra que
se desea estudiar.
b) Población: Es el conjunto de todos los elementos (personas, objetos o grupos)
que presentan una característica común determinada, observable y medible.

c) Muestra: Subconjunto de la población que presenta las mismas características


de la población. Por lo general el tamaño de la muestra (n) es mucho menor
que el de la población (N).

d) Parámetro: Valores que resumen una característica de la población.

e) Estadístico: Conocido también como estadígrafo, es el valor calculado en base


a los datos que se obtienen sobre una muestra y por lo tanto, es una
estimación de los parámetros.

f) Dato: Valor de la variable asociada a un elemento de una población o una


muestra.

g) Rango : Diferencia entre el dato mayor y el dato menor.


h) Intervalo de clase: Es el conjunto de datos cuantitativos
comprendido entre dos valores.

i) Amplitud de un intervalo (a) : Conocido también como amplitud de


clase, es la diferencia entre los dos extremos de un intervalo.

Donde:

Ls = Límite o extremo superior de un intervalo.

Li = límite o extremo superior de un intervalo.


j) Marca de clase (MC): Es la denominación que se le da al punto medio de
un intervalo en una tabla de frecuencias de datos agrupados. Este valor
representa a todos los datos que se ubican dentro de un intervalo y se
obtiene como el promedio entre el límite superior e inferior de un
intervalo.

k) Frecuencia : Es el número de veces que la variable asume un valor dado


o pertenece a una clase dada.
l) Histograma : Gráfico utilizado para representar la distribución de frecuencias
de una variable continua. Describe el comportamiento de un conjunto de datos
en cuanto a su tendencia central, forma y dispersión. Está formado por un
conjunto de rectángulos adyacentes, cuya base es igual a la amplitud del
intervalo, y la altura corresponde a la frecuencia del intervalo.
m) Polígono de frecuencias: Es un gráfico utilizado para
representar una distribución de frecuencias de una variable
continua. Se obtiene al unir los puntos formados por cada
marca de clase con su respectiva frecuencia
La ventaja que presenta el polígono de frecuencia con
respecto al histograma, es que se pueden representar 2 o más
distribuciones en un mismo gráfico.
ACTIVIDAD
 Clasifica las siguientes variables
Responde:
1) En una empresa de 700 personas se está planificando
una fiesta de fin de año. Se consulta a 200 personas
del total sobre su intención de colaborar.
 ¿Cuál es la población?
 ¿Cuál es la muestra?
 ¿Por qué consideras que, en general, es conveniente
tomar una muestra en lugar de hacer un estudio
estadístico con toda la población?
Tablas de distribución de frecuencias

 Frecuencia absoluta: frecuencia de cada dato


 Frecuencia absoluta acumulada: hasta un valor
determinado, es el número de observaciones menor o
igual al valor considerado. Se obtiene sumando
sucesivamente las frecuencias absolutas y se simboliza Fi.
 Frecuencia relativa: es el cociente entre la frecuencia
absoluta y el número total de datos de la muestra. Se
simboliza fr.
 Frecuencia relativa porcentual: es la frecuencia relativa
expresada en porcentaje. Se simboliza fr%.
 Frecuencia relativa porcentual acumulada: es la
frecuencia relativa porcentual hasta un valor
determinado. Se simboliza Fr%.
Ejercitando:
1) A un grupo de alumnos y alumnas de Inacap de la sede de Santiago se le
preguntó cuál es tu talla. Las respuestas obtenidas son:

38 42 38 40 38 44 44 40 42

38 39 40 38 40 42 42 38 38

40 44 42 42 42 44 40

 Completa la tabla de distribución de frecuencias y responde

 ¿Cuál es la variable de interés? ¿De qué tipo es?

 ¿Qué porcentaje del total tiene talla 42 ?

 ¿Qué porcentaje tiene talla menor de 42 ?

 ¿Qué porcentaje de la muestra tiene talla a lo más de 42?


2) Un canal de televisión desea conocer las edades de los televidentes que ven
una serie. Para esto se lleva a cabo un estudio y se seleccionan al azar 350
adultos de familia de cinco comunas. Define dato, población y muestra para
esta situación.

3) De las variables siguientes indica cuáles representan datos discretos y cuáles


datos continuos.
a) Número de acciones vendidas cada día en un mercado de valores.
b) Temperaturas registradas cada media hora en un observatorio.
c) Periodo de duración de los tubos de televisión producidos por una
compañía.
d) Censos anuales del colegio de profesores.
e) Longitud de 1.000 antenas producidas en una fábrica.
4) En un grupo de 50 personas, se registraron las estaturas, en cm,
de cada uno de ellos.
161 170 177 182 163 175 183 162 167
183 167 180 177 185 183 176 183 167
178 176 172 180 183 172 184 171 177
182 179 183 166 188 168 174 184 175
173 175 183 184 187 164 183 172 187
177 163 172 184 178
Organiza los datos en una tabla de frecuencia de datos agrupados,
determinar la marca de clase de cada intervalo, dibuja el histograma
y el polígono de frecuencias correspondiente.
 Una agencia de aduanas realiza un inventario de la cantidad de computadores de cada
sucursal y se obtienen los siguientes datos.

a) Realiza una tabla de frecuencias con intervalos de amplitud 5.

b) ¿Qué porcentaje del total de las sucursales tienen una cantidad menor de 160 computadores?

c) ¿Qué porcentaje del total de las sucursales tiene una cantidad de 170 o más computadores?

d) ¿Cuántas sucursales tienen una cantidad de computadores entre 160 y 169?

e) ¿Cuál es la cantidad aproximada de computadores más frecuente?


Taller N°1 Grupal
 Organizar parejas o grupos de 3 personas.
 Desarrollar taller entregado.
Medidas de Tendencia Central

 Las medidas de tendencia central también conocidas como


estadígrafos, son medidas estadísticas que pretenden resumir en
un solo valor a un conjunto de datos. Representan un centro en
torno al cual se encuentra ubicado el conjunto de los datos. Las
medidas de tendencia central más utilizadas son: media
aritmética, mediana y moda.

 Media aritmética (media o promedio): es la medida de posición


utilizada con más frecuencia. Si se tienen N valores de
observaciones, la media aritmética es la suma de todos y cada
uno de los valores dividida entre el total de valores, lo que indica
que puede ser afectada por los valores extremos, por lo queX
puede dar una imagen distorsionada de la información de los
datos. Se simboliza por


 Mediana: es el valor que ocupa el lugar central, divide la muestra
en dos grupos con la misma cantidad de datos. Se simboliza
como Me.

 Moda: es el dato con mayor frecuencia absoluta. Un conjunto de


datos puede tener una o dos modas, en este último caso se dice
que el conjunto de datos es bimodal. Como también puede no
tener moda, en este caso se dice que el conjunto de datos es
amodal. Se simboliza como Mo.
La siguiente tabla de frecuencias muestra la distribución de televisores
100 hogares de la comuna de “Santiago Centro”.
Determine la media, mediana y la moda
I. Se aplica la medición de la presión arterial, a 40 adultos entre
50 y 70 años, en el siguiente histograma veras como se refleja la
cantidad de personas según su presión arterial:

•Completar la tabla de frecuencias con los datos del histograma


•Calcular el promedio de la presión arterial de los adultos.
•¿A cuánto corresponde la presión arterial que más se repite?
•Determine la mediana
Intervalo MCi fi Fi hi Hi hi% Hi MCi fi
60 – 70 65 4 4 0,1 0,1 10 10 260 𝑥ҧ = 95,75
70 – 80 75 5 9 0,125 0,225 12,5 22,5 375
40
80 – 90 85 6 15 0,15 0,375 15 37,5 510 𝑀𝑒 = 90 + 2 − 15 · 10
8
= 96,25
90 – 100 95 8 23 0,2 0,575 20 57,5 760

100 – 110 105 10 33 0,25 0,825 25 82,5 1050

110 – 120 115 2 35 0,05 0,875 5 87,5 230

120 – 130 125 3 38 0,075 0,95 7,5 95 375


130 – 140 135 2 40 0,05 1 5 100 270
40 100 3830
Medidas de posición

 También denominadas cuantiles, son indicadores usados para señalar qué


porcentaje de datos dentro de una distribución de frecuencias superan o
están por debajo de estas expresiones.
 Las medidas de posición dividen a una distribución ordenada en partes
iguales. Para calcular las medidas de posición es necesario que los datos
estén ordenados de menor a mayor.
 Se clasifican en: deciles (Di), percentiles (Pi), cuartiles (Ci) y quintiles (Qi).
Medidas de posición(2)

 Los Cuartiles
(Ci): son los tres valores de la variable de una distribución
que la dividen en cuatro partes iguales, es decir, al 25%, 50% y
75%. Se advierte que la posición del segundo cuartil corresponde
a la ubicación de la mediana, es decir que el valor del segundo
cuartil será siempre igual a la mediana.
 El primer cuartil (C1) es el valor de la variable que supera a lo más
el 25 % de los datos y es superado por a lo más el 75 % de ellos en
la distribución ordenada de menor a mayor. Es decir, por debajo
y en ese valor se encuentra el 25% de los datos y por sobre o en
ese valor se encuentra el 75% de los datos.
 C2, C3, se explican de forma análoga.
 Los Deciles (Di): Corresponden a los 9 valores que dividen a éstos
en 10 partes iguales, es decir, al 10%, al 20%... y al 90%. Los Deciles
se designan por D1, D2,..., D9.
 Los Percentiles (Pi): son los noventa y nueve valores de la variable
de una distribución que la dividen en cien partes iguales es decir,
al 1%, al 2%... y al 99% de los datos. Los percentiles se designan por
P1, P2,... P99
 D5 y P50 coinciden con la mediana.

 Los Quintiles (Qi): son los cuatro valores de la variable de una


distribución que la dividen en cinco partes iguales es decir, al 20%,
40%, 60% y al 80% de los datos. Los quintiles se designan por Q1, Q2,
Q3, Q4.
Medidas de Dispersión

 Las medidas de dispersión miden el grado de dispersión de los


valores de la variable. Dicho en otros términos las medidas de
dispersión pretenden evaluar en qué medida los datos difieren
entre sí. De esta forma, ambos tipos de medidas usadas en
conjunto permiten describir un conjunto de datos entregando
información acerca de su posición y su dispersión.
 Parámetros estadísticos que indican como se alejan los datos
respecto de la media aritmética. Sirven como indicador de la
variabilidad de los datos. Las medidas de dispersión más utilizadas
son el rango, la desviación estándar y la varianza.
 Rango: Indica la dispersión entre los valores extremos de una variable.
se calcula como la diferencia entre el mayor y el menor valor de la
variable. Se denota como R.
 Desviación media: Es la media aritmética de los valores absolutos de
las diferencias de cada dato respecto a la media.
 Desviación estándar: La desviación estándar mide el grado de
dispersión de los datos con respecto a la media, se denota como s
para una muestra o como σ para la población.
 Mientras menor sea la desviación estándar, los datos son más
homogéneos, es decir existe menor dispersión, el incremento de los
valores de la desviación estándar indica una mayor variabilidad de los
datos.
 Varianza: Es otro parámetro utilizado para medir la dispersión de los
valores de una variable respecto a la media. Corresponde a la media
aritmética de los cuadrados de las desviaciones respecto a la media.
 Coeficiente de Variación: Permite determinar la razón existente entre la
desviación estándar y la media. Se denota como CV. El coeficiente
de variación permite decidir con mayor claridad sobre la dispersión de
los datos.
Formulario Oficial