Medidas Descriptivas
Fuente y representación de datos
Gráficos Estadı́sticos
Referencias
PROBABILIDAD Y ESTADÍSTICA
INTRODUCCIÓN
Probabilidad y Estadı́stica
Introducción
Introducción
Introducción
Introducción
Qué es la Estadı́stica?
Definición:
Es una ciencia formal que permite observar los hechos, recolectar
datos, organizar y expresarlos cuantitativamente para procesarlos,
y finalmente interpretar sus resultados para tomar decisiones,
tendientes a explicar condiciones regulares o irregulares en los
fenómeno de estudio o para hacer inferencias (predicciones) lo más
acertadas posibles de fenómenos o situaciones que aún no han
ocurrido.
División de la Estadı́stica
La Estadı́stica en su forma más general, se divide en dos grandes
áreas:
* Estadı́stica Descriptiva o Deductiva:
* Estadı́stica Inferencial o Inductiva:
División de la Estadı́stica
Estadı́stica Descriptiva o Deductiva:
Consiste en observar, registrar y procesar datos, para obtener
información con respecto a un evento en particular, a través de
la apreciación de sus caracterı́sticas. Analiza metódicamente los
datos, simplificándolos y presentándolos en forma clara; eliminando
la confusión presente en datos preliminares.
División de la Estadı́stica
División de la Estadı́stica
Terminologı́a Estadı́stica
Terminologı́a Estadı́stica
Terminologı́a Estadı́stica
Terminologı́a Estadı́stica
Terminologı́a Estadı́stica
Terminologı́a Estadı́stica
Terminologı́a Estadı́stica
Terminologı́a Estadı́stica
Tipos de variables
Cualitativas o categóricas
Cuantitativas o numéricas
Cualitativas o categóricas:
• Cuando la caracterı́stica a estudiar es de tipo no numérico, se
la conoce como variable cualitativa, categórica o de atributos.
Tipos de variables
Cuantitativas o numéricas:
• Cuando la variable que se estudia es de tipo numérico y sus
valores pueden variar dentro de un rango de números reales
(R).
Variables Cuantitativas
Discretas:
• Si toman sólo ciertos valores claramente separados entre sı́.
Generalmente son números enteros, que se obtienen de procesos
de contar algo.
Continuas:
• Las variables continuas toman cualquier valor dentro de un
intervalo especı́fico de valores (recta numérica). Por lo general
las variables continuas son el resultado de procesos de medir
algo.
2 Ordinal,
3 de Intervalo y
4 de Razón.
Escala Nominal:
Son observaciones acerca de una variable cualitativa, que se
clasifican en forma aleatoria, donde NO importa el orden en el que
estén ubicadas en un registro (tablas) y sólo se las cuenta. No existe
una forma particular o un orden lógico o natural para ordenarlas, son
sólo etiquetas.
Escala Nominal
Escala Nominal
Ejemplo:
Si se asigna a los estudiantes de Quito el código 1, de Latacunga el
código 2, de Ambato el código 3, y ası́ sucesivamente.
Esta codificación facilita el conteo por computadora. Sin embargo,
y dado que se han asignado números a las diversas categorı́as, esto
no nos faculta para operar o manipular estos números. Para explicar
mejor, 1 + 2 no es igual a 3, en este tipo de análisis; es decir, Quito
+ Latacunga no da como resultado Ambato.
Escala Ordinal:
Es la escala inmediata superior a la anterior. Las medidas ordinales
tienen imprecisas diferencias entre valores consecutivos, existe un
orden intuitivo para sus valores. La escala ordinal, toma en cuenta
la propiedad de orden o jerarquı́as de los datos.
Escala Ordinal
Ejemplo:
Si se ha calificado el rendimiento académico de los cursos de
décimo año de un colegio en particular, como excelente, muy bueno,
bueno, regular y malo. Y si se codifican estas categorias, excelente
correspondiendo al número 5 y malo al número 1. Al sustituir 5
por excelente y 4 por muy bueno, se puede concluir que excelente
es mejor que muy bueno, pero si se suman estas dos calificaciones,
no se debe esperar que el resultado tenga significado. Tampoco se
debe concluir que la calificación de muy bueno (4) sea dos veces
más alta que regular (2). Sólo tendrá claro que la calificación de
muy bueno, es superior a la calificación de regular, pero no en qué
grado es superior.
Escala de Intervalo
De Intervalo:
Esta escala es superior a la ordinal. No sólo se distingue orden entre
categorias, sino que también se puede establecer diferencias, iguales,
entre observaciones. Se considerá además, las unidades de medida
(grados centı́grados, metros, kg, puntajes, etc.)
Escala de Intervalo
Cero arbitrario,
El valor cero que se puede asignar en esta escala de medida, no
representa ausencia de valor, el cero en este caso es un valor
referencial, en otras palabras la caracterı́stica está presente pero vale
cero, algunos ejemplos son: la temperatura, pruebas de coeficiente
intelectual, altura sobre el nivel del mar, edades AC - DC, etc.
Escala de Intervalo
Ejemplo:
La temperatura, corresponde a este tipo de variable, pues se puede
decir que la distancia entre 10 ◦ C y 12 ◦ C, es la misma que la
existente entre −15◦ C y −17◦ C. Lo que no debemos afirmar, es
por ejemplo que una temperatura de +5 ◦ C en un lugar equivale al
doble de temperatura de −5 ◦ C, medido en otro lugar. Por tanto
una relación en este sentido no tiene significado. Recordar el cero
es relativo o arbitrario (no significa ausencia de medida).
Escala de Razón
Razón:
Esta escala es superior a la de intervalo. Conserva las caracterı́sticas
de la escala de razón, es decir se distinguen orden entre categorias,
se establecen diferencias iguales entre observaciones, se considerán
unidades de medida y además operaciones como la multiplicación y
la división (comparación) son posibles.
Escala de Razón
Cero Absoluto,
El valor cero en este caso representa efectivamente ausencia de valor,
no es referencial, algunos ejemplos son: peso, estatura, velocidad,
distancias, salarios, producción, etc.
Escala de Razón
Ejemplo:
El dinero ilustra bien este caso. Si se tiene cero dólares, entonces
no se tiene dinero.
El peso constituye otro ejemplo. Si la escala de una balanza
correctamente calibrada marca 0.00 en su pantalla, entonces hay
ausencia total de peso.
La razón (división) entre dos números también resulta significativa.
Si Carlos gana $ 30 000 USD anuales dando clases y Roberto gana
$ 60 000 USD al año en sus negocios, entonces se dede concluir
que Roberto gana el doble que Carlos.
Medidas Descriptivas
Medidas Descriptivas
Media Aritmética
La media aritmética o simplemente promedio, es el cociente entre
la suma de todos los valores de los datos y el número total de ellos.
Propiedades de la media aritmética
• La media aritmética es considerada como el punto de equilibrio
de un conjunto de datos.
• Para su cálculo se deben considerar todos los valores presentes
en la muestra.
• la suma de las desviaciones de cada valor con respecto a la
media siempre será cero ni=1 (xi − x̄) = 0
P
Media Geométrica:
Es una medida de tendencia central y es útil cuando se trata de
encontrar el promedio de porcentajes, razones, ı́ndices o tasas, se
la emplea principalmente para determinar cambios porcentuales en
ventas, sueldos, producción, etc. a través del tiempo.
Media Armónica:
Se define como el recı́proco de la media aritmética de los recı́procos
de los valores x1 , x2 , ... , xn .
n
ma =
1 1 1
+ + ··· +
x1 x2 xn
Mediana:
Su valor se ubica en la mitad de una tabla ordenada de datos, la
divide en dos partes iguales. Quedando el 50% de observaciones
sobre este valor y el otro 50% por debajo de él. No es necesariamente
un valor de la tabla. Esta medida no se ve afectada por datos
atı́picos, y es útil para conjuntos de datos con extremos abiertos.
Moda:
Es el valor que más se repite (dato con mayor frecuencia absoluta).
Medidas de Posición
Medidas de Posición:
Llamadas también medidas de partición, dividen al conjunto
ordenado de datos en grupos, cada uno de los cuales debe contener
igual cantidad de ellos.
∗ Cuartiles,
∗ Deciles y
∗ Centiles.
Cuartiles (Q):
Son tres posiciones en la escala de valores de la variable que dividen
al grupo ordenado de datos, en cuatro partes iguales.
i
PQi = n ∗ ; i = 1, 2, 3
4
PQi : Posición en la tabla ordenada de datos, que ubica al valor
correspondiente al cuartil i.
Q1 : cuartil 1, valor hasta el cual se acumula el 25%, de los datos
Q2 : cuartil 2, valor hasta el cual se acumula el 50%, de los datos y
Q3 : cuartil 3, valor hasta el cual se acumula el 75%, de los datos
Decı́les (D):
Son nueve posiciones en la escala de valores de la variable que dividen
al grupo ordenado de datos, en diez partes iguales.
i
PDi = n ∗ ; i = 1, 2, . . . , 9
10
PDi : Posición en la tabla ordenada de datos, que ubica el valor
correspondiente al decil i.
D1 : decil 1, valor hasta el cual se acumula el 10%, de los datos
D2 : decil 2, valor hasta el cual se acumula el 20%, de los datos
..
.
D9 : decil 9, valor hasta el cual se acumula el 90%, de los datos
i
PPi = n ∗ ; i = 1, 2, . . . , 99
100
PPi : Posición en la tabla ordenada de datos, que ubica el valor
correspondiente al percentil i.
P1 : percetil 1, valor hasta el cual se acumula el 1%, de los datos
P2 : percetil 2, valor hasta el cual se acumula el 2%, de los datos
..
.
P99 : percentil 99, valor hasta el cual se acumula el 99%, de los
datos
Medidas de Dispersión:
Describen la dispersión o grado de distanciamiento entre valores de
una serie de datos en forma conjunta, es decir establecen que tan
distantes están unos de otros, o con respecto a algún valor especı́fico
que generalmente es la media.
Cuando sus valores sean pequeños indicarán que los datos se
acumulan alredeor de la media aritmética. Por el contario medidas
de dispersión grandes indicarán que la media aritmética no es del
todo confiable.
∗ Rango o Amplitud,
∗ Desviación Media,
∗ Varianza y Desviación Estándar,
∗ Coeficiente de Variación y
∗ Error Tı́pico.
Carlos E. Balseca C, MSc. Probabilidad y Estadı́stica
Estadı́stica
Medidas de Tendencia Central
Medidas Descriptivas
Medidas de Posición
Fuente y representación de datos
Medidas de Dispersión
Gráficos Estadı́sticos
Medidas de Forma
Referencias
r = Xmax − Xmin
n
X
| xi − x̄ |
i=1
dam =
n−1
Varianza
Es el promedio de las desviaciones de todos los valores de la variable
respecto de su media, elavadas al cuadrado. Su interpretación fı́sica
no tiene ningún sentido lógico, ya que sus unidades de medida
estarán elavadas al cuadrado y no corresponden a las unidades reales
de la variable.
Desviación Estándar
Para resolver el inconveniente de la interpretación de la varianza, se
extrae la raiz cuadrada de su valor, obteniéndose entonces el valor de
la desviación estándar, que tendrá las mismas unidades de la variable
en cuestión.
Parámetro(σ) Estadı́stico(S)
√ √
σ = σ2 ; S = S2
Coeficiente de variación:
Es el cociente entre la desviación estándar y la media. Se interpreta
como el porcentaje de variabilidad de los datos con respecto a la
media.
Poblacional Muestral
σ S
CV = ∗ 100 ; cv = ∗ 100
µ x̄
S
et = √
n
Medidas de Forma
Medidas de Forma:
Describen la forma que adoptan las distribuciones de frecuencias de
los datos.
∗ Asimetrı́a o Sesgo y
∗ Curtosis.
Curtosis (K = α4 ):
1
2 ∗ (Q3 − Q1 )
K=
(D9 − D1 )
Q : cuartil
D : Decil
Curtosis (α4 ):
Si: α4 es igual o tiende a cero será mesocúrtica,
Si: α4 es negativa será platicúrtica y
Si: α4 es positiva será leptocúrtica.
Fuente y representación de
datos
Donde:
∗ n : Número total de datos.
∗ xi : Cada valor diferente que toma la variable de interés
Ejem. Número de hijos; i = 0, 1, 2, · · · , k.
∗ ni : Frecuencia absoluta; representa el número de veces que se
repite un mismo valor de la variable.
k
X
ni = n
i=0
Ejemplo:
Cont... Pasos:
4.- Una vez asignado el valor a la amplitud L, comprobar que:
L ∗ K ≥ rango
Cont... Pasos:
5.- Cada clase o intervalo constará de dos valores, el lı́mite inferior
(Linf ), y el lı́mite superior (Lsup ), de cada clase.
El valor inicial de la tabla, corresponderá al menor valor de los
datos restado la mitad del exceso y será el lı́mite inferior del primer
intervalo, que al ser sumado con el valor asignado a L, dará origen a
su lı́mite superior, ambos valores estarán incluidos en este intervalo.
El último valor ası́ obtenido pasará a su vez a ser el lı́mte inferior del
siguiente intervalo (valor no incluido), que al sumarse nuevamente
con L dará origen al lı́mite superior del segundo intervalo (valor
incluido). Este proceso se repetirá hasta obtener el último intervalo.
Pudiéndose verificar entonces, que el lı́mite superior del último
intervalo coincidirá exactamente con el valor obtenido de la suma
de la mitad del exceso con el mayor valor de los datos.
Donde:
Linf : valor del lı́mite inferior de la clase o intervalo que contiene a la mediana.
n : número total de datos.
N(c−1) : Frecuencia absoluta acumulada de la clase anterior a la clase que contiene a
la mediana.
nc : frecuencia absoluta de la clase que contiene a la mediana.
L : longitud o amplitud del intervalo o clase.
Donde:
Linf : valor del lı́mite inferior de la clase o intervalo que contiene al cuartil q.
n : número total de datos.
N(c−1) : Frecuencia absoluta acumulada de la clase anterior a la clase que contiene al
cuartil q.
nc : frecuencia absoluta de la clase que contiene al cuartil q.
L : longitud o amplitud del intervalo o clase.
Gráficos Estadı́sticos
Gráfico de barras:
Se emplean para variables generalmente cualitativas y para variables
cuantitativas discretas de pocos valores. Muestran los datos de una
distribucion de frecuencias, en el eje horizontal van las etiquetas de
la variable y en el eje vertical los valores de frecuencia absoluta o
relativa, que tenga cada etiqueta o cada valor. Se pueden alternar
los ejes dependiendo del criterio del investigador, de igual forma el
diseño del gráfico.
Gráfico de Pastel:
Se emplean generalmente para representar variables cualitativas en
porcentajes y proporciones. El ángulo de cada sector circular está
dividido de forma proporcional al valor de la frecuencia absoluta o
relativa respectiva de cada etiqueta o clase.
Gráfico de Dispersión:
Se emplean para representar la relación entre dos variables
cuantitativas.
Polı́gono de frecuencias:
Se utiliza básicamente para mostrar la distribución de frecuencias
de variables cuantitativas. Para construir el polı́gono de frecuencia
se toma la marca de clase que coincide con el punto medio de
cada rectángulo de un histograma y puede estar representado
conjuntamente con el histograma o de manera independiente.
Ojiva:
Este gráfico sirve para representar, frecuencias acumuladas ya sean,
absolutas Ni , o relativas Fi . Se la utiliza principalmente para
responder a preguntas del tipo: ¿Cuántos valores son menores
que. . . ?
Diagrama de caja:
Es la expresión gráfica de ciertos indicadores que determinan
el comportamiento de la variable, se emplea para establecer
comparaciones entre 2 o más grupos de datos.
Referencias Bibliográficas: