Está en la página 1de 59

ADE

ADE + DERECHO
Presentación ESTADÍSTICA I
Curso 2022-2023

Profesor
Dr. Juan Manuel Menéndez Blanco
juanmanuel.menendez@urjc.es

https://gestion2.urjc.es/pdi/ver/juanmanuel.menendez
https://www.linkedin.com/in/juan-manuel-men%C3%A9ndez-blanco-94
48a919/?originalSubdomain=es
Aspectos principales de organización
del curso- Guía docente (I)
Objetivos principales
Familiarizar y capacitar al alumno en las técnicas
y métodos estadísticos básicos para el análisis
de datos (Estadística descriptiva) y en los
aspectos relacionados con la Teoría de la
Probabilidad.

Estadística Descriptiva (30%)+ Teoría de la


Probabilidad (70%) como grandes ejes del
programa.
Aspectos principales de organización
del curso- Guía docente (II)
Competencias
 Capacidad de análisis, síntesis, valoración y
toma de decisiones a partir de la información y
datos de una empresa.
 Capacidad de gestión de la información:

fuentes relevantes, obtención y selección de


datos.
 Capacidad de utilizar herramientas de

naturaleza cuantitativa a la toma de decisiones


empresariales.
 Capacidad de aplicar la lógica estadística a

problemas económicos y empresariales.


Aspectos principales de organización
del curso- Guía docente (III)
Programa
1. Análisis estadístico unidimensional.
2. Análisis estadístico bidimensional: Correlación y
regresión.
3. Números índices.
4. Teoría de la Probabilidad: aspectos generales.
5. Variables aleatorias unidimensionales.
6. Características de las distribuciones de probabilidad.
7. Modelos de distribución de probabilidad discretos y
continuos más importantes.
8. Convergencia.
Aspectos principales de organización
del curso- Guía docente (IV)
Evaluación (IV)
 Test teórico - práctico (40% de la puntuación)
8 preguntas con una sola respuesta válida.
Será necesario responder de forma correcta, al
menos, a 3 de las 8 para poder aspirar a superar
la prueba. No se corregirá la segunda parte en caso
de incumplirse esta regla.
 Parte práctica (60 % de la puntuación)
3 problemas a resolver. No pueden utilizarse
utilizarse Manuales de la asignatura sí las tablas de
probabilidad.
Aspectos principales de organización
del curso- Guía docente (V)
Bibliografía
1. Introducción a la Estadística Económica y Empresarial
Empresarial, 3ª ed., Martín - Pliego López, F.J.,
Thompson- Paraninfo.2004.
2. Fundamentos de Probabilidad, 3ª ed., Martín - Pliego
López, F.J., Thompson- Paraninfo. 2009.
3. Problemas de Probabilidad, 3ª ed., Martín - Pliego López,
F.J., Thompson- Paraninfo.2006.
4. Estadística Económica y Empresarial, 1ª ed. 2ª
reimpresión, Casas, J.M., Ed. Universitaria Ramón
Areces. 2010 (2ª reimpresión en 2016).
5. Estadística para Administración y Economía, 8ª ed.,
Newbold, P., Carlson, W. y Thorne, B. Ed. Prentice
Hall
Tema 0-1
Análisis estadístico
unidimensional

Estadística I
ADE
ADE+ DERECHO
1. Introducción: algunos conceptos
básicos

 Utilidad de la Estadística

 ¿De qué se ocupa la Estadística descriptiva?

 Variables categóricas y numéricas


Utilidad de la Estadística

La Estadística ayuda a la toma de


decisiones en un entorno incierto a partir de
unos datos.

Las decisiones del día a día están basadas en


información incompleta.

A partir de unos datos, la Estadística:


1. Los procesa.
2. Los resume.
3. Los analiza.
4. Los interpreta.
Utilidad de la Estadística

 Recoge datos
 Ej. Un censo
 Presenta datos
 Ej. Tablas y gráficos
 Resume datos
 Ej. La media simple = X i

n
Población y muestra

 Una población es el conjunto de todos los elementos o


individuos que tienen unas características comunes (de
interés o a investigar).
 N representa el tamaño de la población
 Una muestra es un subconjunto representativo de la
población.
 n representa el tamaño de la muestra
 Un parámetro es una característica específica de la
población.
 Un estadístico es una característica específica de la
muestra.
Población vs. Muestra

Población Muestra

Los valores calculados Los valores calculados a


utilizando los datos de la partir de datos de la
población se denominan muestra se llaman
parámetros estadísticos
Variables categóricas

Variables categóricas (NO DATOS):


Son variables cualitativas o de atributos

 2 categorías /atributos : sexo (m/f), diabetes(sí/no),


calificación (ap /susp).
 Más de 2 categorías /atributos ordenados:
-Clase social (alta, media, baja).
-Nivel de fallo al fabricar un producto (grave,
moderado, leve).
- Estado de un paciente (muy grave, grave, leve).
Variables numéricas

. Datos o variables numéricas:

 Discretas/os (sólo puede tomar valores enteros:


entre dos valores próximos sólo puede tomar un
número finito de valores):
nº hijos de una mujer
nº bajas laborales por enfermedad
nº de accidentes de autómovil……….
 Continuos/as (puede tomar cualquier valor dentro
los números reales: entre dos valores puede tomar
los infinitos valores que hay entre ellos):
Estatura
Edad
Peso
Variables numéricas

. Datos o variables numéricas:

 En la práctica, por las limitaciones de los instrumentos


de medida, prácticamente casi todas las variables se
comportan como discretas al observarlas.

 Una magnitud que pueda tomar un gran número de


valores y muy próximos –aunque sean valores aislados-
se considera VARIABLE CONTINUA.

Por ej. variables como:

 El salario mensual.
 Beneficio anual de una empresa .
Variables numéricas
. Variables numéricas o datos:

 Discretas/os:
-
-
-

 Continuos/as (puede tomar cualquier valor dentro los


números reales):
-
-
-
-
2. Empleo de medidas numéricas para
describir datos

 Medidas de tendencia central

 Medidas de variación

 Medidas de forma
Empleo de medidas numéricas para tratar
datos

Medidas de tendencia central, de variación, y de


forma de la distribución

 Media, mediana, moda, media geométrica.

 Rango, varianza, desviación estándar y


coeficiente de variación.

 Distribuciones simétricas y asimétricas.


¿Cómo describir numéricamente los datos?

¿Qué pretendemos? Una descripción


numérica de los datos

Tendencia central Variación

Media aritmética Rango

Mediana

Moda Varianza

Desviación
estándar
Medidas de tendencia central

Tendencia central

Media Mediana Moda

x i
x i1
n
Media Punto medio El valor
aritmética de los valores observado más
clasificados frecuente
(si existe uno)
Media aritmética
 La media aritmética es la medida más común de
tendencia central
 Para una población de N valores:

xx1  x 2    x N
i Valores de la
μ 
i1
población
N N
 Para una muestra de tamaño n: Tamaño de la
población
n

x i
x1  x 2    x n Valores
x i1
 observados
n n
Tamaño de la
Media aritmética
 La medida de tendencia central más común. (continuación)
 Media = suma de los valores dividido por el nº de valores.
 Se ve afectada por los valores extremos (valores
atípicos).

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Media= 3 Media = 4
1  2  3  4  5 15 1  2  3  4  10 20
 3  4
5 5 5 5
Mediana

 En una serie ordenada, la mediana es el número


o valor que ocupa la posición media (50% por
encima, 50% por debajo)
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Mediana = 3 Mediana = 3

 No se ve afectada por los valores extremos


(atípicos)
Moda

 Es una medida de tendencia central.


 Es el valor que más frecuentemente se da.
 No se ve afectada por valores extremos.
 Se utiliza tanto con datos numéricos como
categóricos.
 Puede no existir.
 Podría haber varias modas.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6

No hay moda
Moda = 9
Ejemplo

 Cinco casas en una colina junto a la playa


$2,000 K
Precios de las
casas:

$2,000,000 $500 K
500,000 $300 K
300,000
100,000
100,000
$100 K

$100 K
Ejemplo

Precios de las
casas:
 Media: ($3,000,000/5)
= $600,000
$2,000,000
500,000
300,000
100,000
 Mediana: $300,000
100,000
Suma 3,000,000  Moda: $100,000
¿Qué medida de posición es la mejor?

 La media es la más utilizada, a no ser que haya


valores extremos (atípicos) . . .
 La mediana se utiliza a menudo, ya que esta
medida no es sensible a valores extremos

 Ejemplo: la mediana de los precios de la vivienda para


una región (menos sensible a los valores atípicos o
extremos)
Forma de la distribución

 Describe cómo están distribuidos los datos


 Medidas de la forma
 Simétrica o asimétrica

Sesgada a la izda Simétrica Sesgada a la dcha


Media < Mediana Media = Mediana Mediana < Media
Media geométrica

 Media geométrica

Se emplea para calcular la tasa de variación de


una variable a lo largo del tiempo.

x g  (x1  x 2   x n )  (x1  x 2   x n )
n 1/n
Medidas de variabilidad

Variacion

Rango Varianza Desviació Coeficiente


n estándar de variación

 Las medidas de variabilidad


dan información sobre la
amplitud o variabilidad de
los valores de los datos

Mismo centro,
diferente variación
Rango

 Es la medida más simple de variación.


 Diferencia entre el valor mayor y menor de las
observaciones:

Rango = Xmayor – Xmenor

Ejemplo:

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Rango = 14 - 1 = 13
Desventajas del rango

 Ignora la forma de distribución de los datos:

7 8 9 10 11 12 7 8 9 10 11 12
Rango = 12 - 7 = 5 Rango = 12 - 7 = 5

 Sensible a valores extremos (atípicos):


1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Rango = 5 - 1 = 4

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Rango = 120 - 1 = 119
Varianza de la población

 Promedio de las desviaciones al cuadrado


de los valores de la variable respecto de la
media
N

 Varianza población:
 (x  μ) i
2

σ 2 i1
N
Donde: μ = media de la población
N = tamaño de la población
xi = valor de la variable x
Varianza de una muestra

 Promedio (aproximado) de las desviaciones al


cuadrado de los valores de la variable respecto
de la media:
n

Varianza de una muestra:


 (x  x)
i
2

s 

2 i1
n -1
Donde: X media aritmética
n = tamaño de la muestra
Xi = valor de la variable x
Desviación típica de la población
 Es la medida de variación más común.
 Muestra la variación en relación a la media
 Tiene las mismas unidades que los datos
originales

 Desviación típica de una población:

 i
(x  μ) 2

σ i1
N
Desviación típica de la muestra

 Es la medida de variación más empleada.


 Nos muestra la variación de una variable en
relación a la media.
 Tiene las mismas unidades que los datos
originales.
n

 Desviación típica muestra:  (x  x)


i
2

S i1
n -1
Desviación típica de una muestra.
Cálculo

Datos muestra
(xi) : 10 12 14 15 17 18 18 24
n=8 Media = x = 16

(10  X)2  (12  x)2  (14  x)2    (24  x)2


s
n 1

(10  16)2  (12  16)2  (14  16)2    (24  16)2



8 1

130 Una medida de la


  4.3095
7 dispersión "promedio" en
torno a la media
Midiendo la variabilidad

Desviación típica pequeña

Desviación típica grande


Comparando desviaciones típicas

Media = 15.5 para cada serie o conjunto de


datos

11 12 13 14 15 16 17 18 19 20 21
s = 3.338
(comparar con los casos
Datos A B y C)

11 12 13 14 15 16 17 18 19 20 21
s = 0.926
(valores concentrados en
Datos B torno a la media)

11 12 13 14 15 16 17 18 19
s = 4.570
20 21 (valores dispersos y
Datos C lejanos a la media)
3. Empleo de tablas y gráficos

 Tablas de distribuciones de frecuencias


 Gráficos de línea

 Histogramas y diagramas de Pareto

 Excel
Presentación gráfica de datos

 Los datos “en bruto” no se utilizan para tomar


decisiones.
 Es necesario organizarlos en:
 Tablas

 Gráficos

 El tipo de gráfico a utilizar depende de la variable


que esté siendo resumida.
Presentación gráfica de datos

 Vamos a estudiar distintos tipos de gráficos:

Variables Variables
categóricas numéricas

• Distribución de • Gráficos de línea


frecuencias • Distribución de
• Diagrama de Pareto frecuencias
• Histograma
Distribuciones de frecuencias

¿De qué se trata?


 Es una lista o una tabla….
 Que contiene agrupaciones de clase (categorías
o rangos en los que caen los datos).
 Y las frecuencias correspondientes con las
que los datos caen dentro de cada clase o
categoría.
¿Por qué utilizar las distribuciones de
frecuencia?

 Es una forma de resumir datos.


 La distribución transforma los datos “en bruto”
en una presentación más útil.
 Y permite una interpretación visual de los
datos más rápida.
Ejemplo de una distribución de
frecuencias para una variable numérica
Ejemplo: un fabricante de aislamiento
selecciona al azar 20 días de invierno y registra
la temperatura máxima diaria.

24, 35, 17, 21, 24, 37, 26, 46, 58, 30,
32, 13, 12, 38, 41, 43, 44, 27, 53, 27
Ejemplo de una distribución de
frecuencias

 Ordenar los datos en bruto en orden ascendente:


12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
 Calcular el rango: 58 - 12 = 46.
 Seleccionar el nº de clases: 5 (generalmente entre 5 y
15).
 Calcular el ancho del intervalo: 10 (46/5 luego
redondeando hacia arriba: se busca el nº entero superior).
 Determinar el límite del intervalo: entre 10 y 20, entre 20 y
30, . . . , entre 50 y 60.
 Contar las asignaciones y asignarlas a clases.
Ejemplo de una distribución de
frecuencias

Datos de una serie ordenada:


12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58

Frecuenci
Intervalo Frecuencia Porcentaje
a relativa
Entre 10 y 20 3 .15 15
Entre 20 y 30 6 .30 30
Entre 30 y 40 5 .25 25

Entre 40 y 50 4 .20 20
Entre 50 y 60 2 .10 10

Total 20 1.00 100


Histograma

 Un histograma es un gráfico de los datos de


una distribución de frecuencias.
 Los puntos finales de los intervalos se muestran
en el eje horizontal.
 En el eje vertical se mide la frecuencia
absoluta, la frecuencia relativa o el
porcentaje.
 Las barras se utilizan para representar el nº de
observaciones dentro de cada clase.
Ejemplo de Histograma

Intervalo Frecuencia
Histogram: Daily High Temperature
Entre 10 y 20 3
Entre 20 y 30 6 7 6
Entre 30 y 40 5
Entre 40 y 50 4 6 5
Entre 50 y 60 2
5
Frequency
4
4 3
3 2
2
¡Ojo!:No hay
espacios 1 0 0
entre las 0
barras 0 0 10 10 20 20 30 3040 40 50 5060 60
70 Temperatura en Grados
Histogramas en Excel

1
Seleccionar la 2
pestaña Datos Click en Análisis de
Datos
Histogramas en Excel

3
Elegir Histograma

(
Introducir el rango de
entrada y el rango de
4 clases
Seleccionar “ Crear
gráfico” y click “OK”
Tabla de distribución de frecuencias
para una variable categórica
Resume datos por categorías
Ejemplo: Pacientes del hospital por unidad

Unidad Nº de pacientes Porcentaje


(redondeado)

Cuidados corazón 1.052 11.93


Urgencias 2.245 25.46
Cuidados intensivos 340 3.86
Maternidad 552 6.26
Cirugía 4.630 52.50
Total: 8.819 100.0

(Las variables son


categóricas)
Gráfico de distribución de
frecuencias

 Gráfico de barras de los datos de pacientes


Diagrama de Pareto

 Se utiliza para representar datos categóricos.


 Es un gráfico de barras, en el que las
categorías se muestran en orden descendente
de frecuencia.
 En el mismo gráfico se muestra, a menudo, un
polígono de acumulación.
 Empleado para separar los “pocos vitales” de los
“muchos triviales” ------ Ley 80 /20 ( ej.,
accidentes aéreos, problemas de calidad…..).
Ejemplo diagrama de Pareto

Ejemplo: se revisan 400 artículos defectuosos


por tipo (categoría) de defecto
for error
Origen del cause of defect:
Número de artículos
Mala soldadura 34
Mala alineación 223
Falta una pieza 25
Defecto de pintura 78
cortocircuito 19
Caja/embalaje rota 21
Total 400
Ejemplo de Diagrama de Pareto

Paso 1: Ordenar de forma descendente los defectos


por causas (categorías).
Paso 2: Determinar el % en cada categoría (ver en la
práctica la Ley de Pareto).
Fuente de error en la Número de % del total de
fabricación defectos defectos
Mala alineación 223 55.75
Defecto de pintura
78 19.50
Mala soldadura 34 8.50
Falta una pieza 25 6.25
Caja / embalaje rota 21 5.25
Cortocircuito 19 4.75
Total 400 100%
Ejemplo de Diagrama de Pareto

Paso 3: Los resultados se muestran


gráficamente
Pareto Diagram: Cause of Manufacturing Defect
60% 100%
% of defects in each category

90%

cumulative % (line graph)


50%
80%

70%
(bar graph)

40%

60%

30% 50%

40%

20%
30%

20%
10%

10%

0% 0%
Poor Alignment Paint Flaw Bad Weld M issing Part Cracked case Electrical Short
Gráficos para describir datos de
series temporales

 Para mostrar los valores de una variable a lo largo


del tiempo se emplean gráficos de series
temporales.
-- Niveles de empleo desde el año 2000.
-- Creación de empresas desde el 2010.
-- Nº de clientes de una empresa desde 2012.

 El tiempo se mide en el eje horizontal.

 La variable que nos interesa estudiar se mide en el


eje vertical.
Ejemplo de gráfico de línea o de serie
temporal

También podría gustarte