Está en la página 1de 65

INTRODUCCIÓN A DEPARTAMENTO

PRODUCTIVO
LA ESTADÍSTICA LIC. EN SISTEMAS
Lic Edgardo Di Dio

1
Estadística

Introducción
¿Qué es la estadística?
Es una Ciencia que explica y provee de herramientas para trabajar con grandes conjuntos
de datos y se utiliza en casi todas las ciencias
Es la disciplina científica que crea, desarrolla y aplica los adecuados métodos de
recopilación de datos, y su evaluación, para transformarlos en informaciones con las
cuales se describan objetivamente las distintas situaciones investigadas, se analice el
comportamiento de determinadas características que poseen las UNIDADES
EXPERIMENTALES, y se tomen decisiones en condición de incertidumbre.

¿En qué áreas se aplica la estadística?


Actualmente se aplica en todas las áreas del saber, por ejemplo en Sociología,
Educación, Psicología, Administración, Economía, Medicina, Ciencias Políticas, entre
otras.

Ejemplos de su aplicación son:

1) En Administración de Empresas: la estadística se utiliza para evaluar un producto antes


de comercializarlo.

2) En Economía: para medir la evolución de los precios mediante números índice o para
estudiar los hábitos de los consumidores a través de encuestas de presupuestos
familiares.
2
Estadística

Introducción
Ejemplos de su aplicación son:

3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una
votación mediante sondeos y así orientar las estrategias de los candidatos.

4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de
actualidad.

5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del
comportamiento humano (por ejemplo los test que se aplican a los candidatos para un
cargo en una empresa).

6) En Medicina: uno entre muchos usos de la estadística, es para determinar el estado de


salud de la población.

En general en las Ciencias Sociales, la estadística se emplea para medir las relaciones
entre variables y hacer predicciones sobre ellas.

3
Estadística

Introducción
Etapas de un estudio estadístico
Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado
método científico cuyas etapas son:
1) Planteamiento del problema: consiste en definir el objetivo de la investigación y
precisar el universo o población.

2) Toma de la información: consiste en recolectar los datos necesarios relacionados al


problema de investigación.

3) Análisis descriptivo: consiste en resumir los datos disponibles para extraer la


información relevante en el estudio.

4) Inferencia estadística: consiste en suponer un modelo para toda la población


partiendo de los datos analizados para obtener conclusiones generales.

5) Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos han
permitido interpretar los datos y llegar a conclusiones sobre la población

4
Estadística

MODELO

Un MODELO es una representación simbólica de la realidad,


entendemos como modelo de conocimiento una descripción
estructurada de un hecho o situación de análisis. Estructurada implica
que existe un orden que preside el modo en que se articula la
descripción y que los significados de la descripción simbólica se
efectúa en términos precisos elaborados en una teoría del
conocimiento científico. Esta situación estructurada con lenguaje
preciso es lo que llamamos modelo.En nuestra asignarura
utilizaremos modelso matemáticos para el mejor esclarecimiento de
los análsis efectuados
6
Estadística

Introducción
Esquema de las etapas de un estudio estadístico

AREA DE INTERES DATOS

ORGANIZAR Y RESUMIR

Tema de Investigación ESTADÍSTICA DESCRIPTIVA

- Antecedentes Previos (Tablas,


Gráficos, Medidas
- Objetivos Descriptivas, etc.)
- Preguntas de Investigación INTERPRETACIÓN

- Posibles Hipótesis Muestra


- Unidad de Análisis ¿Población o Muestra?

- Población INFERENCIA ESTADÍSTICA


Población
- Variables
CONCLUSIONES

Probabilidad
INFORMACIÓN

7
Estadística

Introducción
Ejemplos de algunos problemas a estudiar

1) Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de la


persona empleada.

2) Se quiere determinar el perfil de los trabajadores en términos de condiciones económicas y


sociales en diferentes comunidades.

3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a


vestuario, alimentación, ocio y vivienda.

4) Se quiere determinar las tallas estándar en vestuario para mujeres .

5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de


distintas empresas del país.

6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad.

7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una Universidad, y
si éste tiene alguna relación con su edad u otras características.

8
Estadística

Resumen de algunos conceptos planteados en la Introducción

• VARIABLE: es lo que se va a medir y representa una característica de la UNIDAD DE


ANÁLISIS.
• ¿QUIÉNES VAN A SER MEDIDOS?: Los sujetos u objetos o Unidades de Análisis de una
• Población
POBLACIÓN o una Muestra
: Es el total de unidades de análisis que son tema de estudio.

• MUESTRA: Es un conjunto de unidades de análisis provenientes de una población.

Población: Muestra

“Las personas que trabajan


en empresas de Muestra: 60 trabajadores de empresas de comunicación
comunicación” Unidad de análisis: Trabajador de empresa de comunicación
Variables: sexo, edad, salario, Nº de horas de trabajo, etc.

9
Estadística

Variable: corresponde a la característica de la Unidad de Análisis

TIPOS DE VARIABLES
Variables Cuantitativas Variables Cualitativas
CONTINUA DISCRETA NOMINAL ORDINAL
Intervalo

Toma valores enteros Característica o cualidad


cuyas categorías no tienen
Ejemplos: Número de Hijos, Número de
un orden preestablecido.
empleados de una empresa, Número de
asignaturas aprobadas en un semestre, etc. Ejemplos: Sexo, Deporte
Favorito, etc.
Toma cualquier valor dentro de un intervalo
Característica o cualidad cuyas
Ejemplos: Peso; Estatura; Temperatura, etc. categorías tienen un orden
preestablecido.
Ejemplos: Calificación (S, N, A);
Grado de Interés por un tema, etc.

Unidad de Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura
10
Estadística

Frecuencia: desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se


presenta una característica.

Variable Variable Variable Variable


Cuantitativa Cualitativa Cualitativa Cuantitativa

CONTINUA NOMINAL NOMINAL CONTINUA

DISCRETA ORDINAL ORDINAL DISCRETA

Frecuencia Absoluta (F) Frecuencia Relativa (f)


TIPO FRECUENCIA
Frecuencia Absoluta Frecuencia Relativa
Acumulada (FAA) Acumulada (fra)

11
FRECUENCIA ABSOLUTA: cantidad de datos que pertenecen a una misma clase de equivalencia fi

FRECUENCIA RELATIVA : al cociente entre la absoluta y la cantidad total de observaciones fri

DISTRIBUCIÓN DE FRECUENCIAS a una relación de clasificación de los datos que asigna a cada valor o grupo de
valores que formen una misma clase de equivalencia , de una o mas variables , su correspondiente FRECUENCIA

FRECUENCIA ABSOLUTA ACUMULADA : es la suma de la frecuencia absoluta correspondientes a un intervalo y las


frecuencias absolutas correspondientes a todos los intervalos anteriores Fi

FRECUENCIA RELATIVA acumulada cociente entre la frecuencia absoluta acumulada y la cantidad de


observaciones. Fri

Ejemplo :
En un empresa se está analizando el cumplimiento del horario por parte de la dotación de operarios y a tal afecto
registró la cantidad de llegadas tardes de cada operarios durante el mes anterior : (40 Operarios)

4 6 1 0 4 1 3 2 1 1
2 3 2 1 3 8 0 1 2 4
0 1 0 4 0 3 1 1 2 3
1 2 1 0 1 1 0 3 6 1
DISTRIBUCIÓN DE
FRECUENCIAS
0 1 2 3 4 5 6 7 8
IIIII IIIII IIIII IIIII IIII II I
II IIIII I I
IIII

xi fi Fi fri Fri
0 7 7 0,1750 0,1750
1 14 21 0,35 0,5250
2 6 27 0,15 O,6750
3 6 33 0,15 0,8250
4 4 37 O,1 0,9250
6 2 39 0,05 0,9750
8 1 40 0,0250 1
xi fi Fi fri Fri
0 7 7 0,1750 0,1750
1 14 21 0,35 0,5250
2 6 27 0,15 O,6750
3 6 33 0,15 0,8250
4 4 37 O,1 0,9250
6 2 39 0,05 0,9750
8 1 40 0,0250 1
Si leemos la fila 4, Xi=2 significa 2 llegadas tardes ese mes
La frecuencia absoluta simple señala 6 , significa que seis operarios
registraron 2 llegadas tardes en el mes .

La frecuencia acumulada simple 27 , significa que 27 operarios


registraron como máximo 2 llegadas tarde en el mes (es decir
llegaron 1 o 2 veces tarde)

La frecuencia relativa simple 0,15 es la proporción de operarios que


tuvieron como máximo 2 llegadas tardes en el mes ( 6/40)

La frecuencia relativa acumulada 0,675 es la proporción de


empleados que tuvieron como máximo 2 llegadas tardes. Se obtiene
dividiendo 27/40
Nivel de Medición de Intervalos:
Método utilizado para organizar Datos en problemas del Nivel de Medición de
Intervalos o Intervalos. Este Método Estadístico utiliza la regla de Sturges.

Items :
1) Calculo del Número de Datos, N
2) Cálculo del Rango, R
3) Número de Intervalos, Ni
4) Ancho de los Intervalos, Ai
5) Extremos o Límites de los Intervalos
6) Elaboración de la Tabla de Distribución por Frecuencias.

Estaturas de niños de siete años


107,107,110,110,107,108,108,111,108,118
108,112,108,109,113,109,109,109,118,109
114,115,114,115,114,115,114,116,118,116
116,113,116,113,117,113,117,113,117,113
117,119,117,119,117,112,119,111,119,119
110,118,134,118,118,120,118,120,120,122
134,119,111,112,121,133,121,121,121,121
118,134,121,125,109,121,110,121,123,123
135,126,127, 28,119,129,130,130,131,132
135,110,133,135,123,111,122,112,110,122 15
Ordenada de menor a mayor y por frecuencia:

107,107,107,108,108,108,108,108,109,109
109,109,109,109,110,110,110,110,110,110
111,111,111,111,112,112,112,112 ,113,113
113,113,113,113,113,114,114,114,114,115
115,115,116,116,116,116,117,117,117,117
117,117,118,118,118,118,118,118,118,118
119,119,119,119,119,119,119,120,120,120
121,121,121,121,121,121,121,121,122,122
122,123,123,123,125,126,127,128,129,130
130,131,132,133,133,134,134,135,135,135
Rango < >Frecuencia
107 < > 3 119 < > 7
108 < > 5 120 < > 3
109 < > 6 121 < > 8
110 < > 6 122 < > 3
111 < > 4 123 < > 3 132 < > 1
112 < > 4 133 < > 2
125 < > 1
113 < > 7 134 < > 2
126 < > 1
114 < > 4 135 < > 3
127 < > 1
115 < > 3 TOTAL <> 100
116 < > 4 128 < > 1
117 < > 6 129 < > 1
118 < > 8 130 < > 2
16
131 < > 1
Cálculo del Rango:
En segundo lugar debemos calcular el Rango, que no es otra cosa que la Diferencia
entre el Mayor Dato y en Menor Dato, el Rango lo Denotaremos con la letra R.

R = (Dato Mayor) - (Dato Menor)


En nuestro Ejemplo: R = 135 -107

R = 28

Cálculo del Número de Intervalos:

En tercer lugar debemos calcular el número de Intervalos o Clases que tendrá


nuestra Distribución, para tal fin utilizaremos la Regla de Sturges un método
muy utilizado en Estadística en programas computarizados, que nos permite
calcular el Número de Clases cuando no se conoce un modelo previo.

El Número de Intervalos lo Denotaremos por: Ni

El Número de Intervalos está Dado por la siguiente Fórmula:


Ni = 1 + 3.3 Log (N)
N ancho o amplitud del Intervalo
Llamado H en otras bibliografías

Observemos que 1/log 2 es aproximadamente 3.3 por lo que es similar la


fórmula del libro de Caprigioni pág 54
17
H=ent[1+(log n/log2)]
Donde: Ni = Número de Intervalos.
Log = Logaritmo Base 10
N = Número de Datos
En nuestro Ejemplo: Ni = 1+ 3.3 Log (100)
Ni = 7.6
Aquí debemos hacer una aproximación en este caso por Exceso:
Ni = 8
Se debe hacer esta aproximación bien sea por defecto o por exceso debido a que
el Número de Intervalos o Clases debe ser un Número Entero.

En la práctica el Número de Intervalos se encuentra o calcula según la necesidad


o finalidad del estudio, grado de variabilidad de los Datos, necesidad de realizar
comparaciones. En general se recomienda que el número de Intervalos no sea
menor de 5 ni mayor de 15 y es precisamente la regla de Sturges la que más se
ajusta a esta condición.

18
Cálculo del ancho de los Intervalos o Clases:
Nos corresponde ahora calcular el ancho de cada Intervalo o Clase, el cual
lo Denotaremos con la letra C, para tal fin utilizaremos la siguiente
Fórmula:

C = R/Ni
Donde: C = Ancho de Clase,
R = Rango.
Ni = Número de Intervalos

En nuestro Ejemplo:
C = 28/8
C = 3.5

El valor obtenido lo ajustamos al siguiente entero, cuando los Datos en


Crudo son Números Enteros, luego:

C=4
19
Cabe anotar que el ancho de Clase debe ser igual para todos los Intervalos, esto es lo más usual.

Ya que el ancho de Clase o ancho de cada Intervalo se refiere al Número de Datos que debe tener
cada uno de los Intervalos, necesariamente tiene que ser un Número Entero.
En nuestro ejemplo:
C = (R) / (Ni)
C = 28/8
C = 3.5
Al hacer el ajuste al Entero siguiente: C=4
Cabe anotar que este ajuste siempre lo debemos hacer, por Ejemplo si: C = 4 ó 4.1 ó 4.2 ó 4.3 ó 4.4 ó
4.5, ... Etc. se debe ajustar a 5.

Límites o extremos de los Intervalos:


Debemos elegir ahora el orden de los Intervalos, en forma generalizada
elegiremos el orden ascendente o creciente que es el más utilizado.
Procederemos de la siguiente manera:
Nuevo Rango = (Número de Intervalos) x (Ancho de Clase)
Nuevo Rango = (Ni) x (C)
en nuestro ejemplo:

Nuevo Rango = 8 x 4
Nuevo Rango = 32
Ahora calculamos la Diferencia de Rangos de la siguiente manera:
DR = (Nuevo Rango) - (Rango Original)
DR = 32 - 28
DR = 4 20
Ahora a la Diferencia de Rangos le restamos 1, si los datos crudos son números
Enteros, la razón de restarle 1 a la Diferencia de Rangos es para justificar el
ajuste al siguiente Entero que se hizo en el paso 4.
Luego:
DR - 1 = 4 -1
DR -1 = 3
Cuando la "Diferencia de Rangos - 1" es Par este Número se divide en partes
iguales y se reparte en los extremos de los Datos originales de la Tabla N° 2.
Si la Diferencia de Rangos - 1 es un Número Impar, este número se reparte la
mitad más uno al extremo izquierdo y la otra mitad al extremo derecho.
En nuestro Ejemplo, DR -1 = 3 por tanto agregamos 2 Datos al extremo izquierdo
de la Muestra y 1 Dato al extremo de la derecha, esto es:
Extremo izquierdo Original = 107 . . . Nuevo Extremo izquierdo = 105
Extremo Derecho Original = 135 . . . Nuevo Extremo Derecho = 136
Lo cual nos indica que el Nuevo Rango está entre 105 y 136.
Límites o extremos de los Intervalos:
La siguiente Tabla muestra en su primera línea los 100 Datos de la Muestra Original del 107 al 135 yen la
segunda fila muestra los 103 Datos del nuevo Rango con Datos entre 105 y 136.

Tabla de Rangos:
Rango Original >>>>107, 107,107, 108, 108, . . . ,134, 134, 135, 135, 135

Nuevo Rango >>>>105, 106, 107, 107, 107, 108, . . . , 134, 134, 135, 135, 135, 136

21
Tabla que muestra los Límites Inferior y Superior de
cada Intervalo

N°(L.I.) (L.S.)
1 105 a 108
2 109 a 112
3 113 a 116
4 117 a 120
5 121 a 124
6 125 a 128
7 129 a 132
8 133 a 136

Elaboración de la Tabla de Distribución por Frecuencias.


Sólo nos hace falta calcular la marca de Clase o punto Medio de cada Intervalo, esto
es,

MARCA DE CLASE = (LIMITE INFERIOR + LIMITE SUPERIOR)/2


MARCA DE CLASE = ((L.I.) + (L. S.))/2

22
° Ancho Marca fi fri% Fa Fra
1 105-108 106.5 8 8 8 0.8
2 109-112 110.5 20 20 28 0.28
3 113-116 114.5 18 18 46 0.46
4 117-120 118.5 24 24 70 0.70
5 121-124 122.5 14 14 84 0.84
6 125-128 126.5 4 4 88 0.88
7 129-132 130.5 5 5 93 0.93
8 133-136 134.5 7 7 100 1

23
Estadística

Problema de Investigación: Se quiere establecer el perfil de las industrias de


EJEMPLO conserva en función de algunas características.
Unidad de Análisis: Industria de Conserva
Población: Industrias de Conservas del país

Variables
- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominal)
- Nº de Empleados: se refiere al número de empleados en las líneas de producción. (cuantitativa discreta)
- Superficie: se refiere a los metros cuadrados (unidad de medida) disponibles para las áreas de
producción. (cuantitativa continua)
- Calificación: calificación realizada por una institución pública sobre cumplimiento de ciertos estándares
(Muy Bien, Bien, Regular, Mal). (cualitativa ordinal)

Datos
Industria nº Tipo Nº Empleados Superficie Calificación
1 A 100 1000,6 Muy Bien
2 B 150 1200,4 Bien
. . . . .
. . . . .
. . . . .
299 D 250 800,3 Mal
300 C 300 4000,2 Regular

24
Estadística

Problema de Investigación: Se quiere establecer el perfil de las industrias de conserva en


EJEMPLO función de algunas características.

TABLAS DE Unidad de Análisis: Industria de Conserva


FRECUENCIA Población: Industrias de Conservas del país

Tipo de Frecuencia Frecuencia Porcentaje Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Industria Absoluta (F j) Relativa (fj) (%) Calificación Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
A Muy Bien
B Bien
C Regular
D Mal 300 1 (o 100)
Total 300 1 100 Total 300 1 (o 100) (2)
(1) Numero de Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Empleados Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<100
[100-150[
. (3)
.
[950-1000] 300 1 (o 100%)
Total 300 1 (o 100%)
Superficie Frec. Frec.Relativa Frec. Absol. Frec. Relat.
(mt2) Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<200
(4) [200-400[
.
.
[50000-5200] 300 1 (o 100%)
Total 300 1 (o 100%)

25
Estadística

Elementos de una tabla de frecuencia cuando la variable es continua (x)

Centro
Intervalo de clase Amplitud F f FAA fra
[LI1 ; LS1 [
I1 c1 a1
[LI2 ; LS2 [ I2 c2 a2
.
.
[LIk ; LSk] Ik ck ak n 1
Total n 1

cj = (LIj) + LSj )/2 aj = (LSj – LIj))

26
Estadística

Ejercicio: confección de una tabla de frecuencia para una variable continua

Los datos corresponden a la edad de los hijos de los


trabajadores de una empresa
10,5 10,7 9,5 10,5 11,8 11,2 Realice la siguiente actividad
12,0 10,3 13,5 12,3 10,6 9,8 1) Construya un Diagrama de Tallo y Hoja
10,7 11,5 11,1 10,6 9,3 12,9 2) ¿Cuál es la variable?; ¿Cuál es la Unidad de
10,4 7,5 10,2 8,7 10,9 9,9 análisis?; ¿Cuánto vale n?; ¿Cuál es el rango
11,7 10,3 10,6 10,5 11,9 11,0 de la variable?.
13,9 10,6 10,0 10,8 10,6 -
3) Sobre una Tabla de frecuencia: ¿Cuántos
7,3 8,0 8,5 12,5 9,7 - intervalos podría construir?; ¿Cuál es la
amplitud de cada intervalo?; ¿Cuántas
Datos ordenados de menor a mayor medidas de frecuencia puede obtener para
7,3 9,7 10,4 10,6 11,1 12,3 cada intervalo?.
7,5 9,8 10,5 10,6 11,2 12,5 4) Construir tabla de frecuencia para la variable:
8,0 9,9 10,5 10,7 11,5 12,9 Intervalos, centro de clase, amplitud,
8,5 10,0 10,5 10,7 11,7 13,5 frecuencias.
8,7 10,2 10,6 10,8 11,8 13,9
9,3 10,3 10,6 10,9 11,9 - Diagrama de Tallo y Hoja: permite organizar los
9,5 10,3 10,6 11,0 12,0 - datos de una variable medida sobre un conjunto de
individuos. Su utilidad viene dada cuando no
contamos con herramientas automáticas para ordenar
los datos.

27
Estadística

TIPOS DE GRÁFICOS 1. Gráfico de Sectores Circulares (de Torta)

Distribución de las unidades de


análisis de acuerdo a variable 1
Distribución de las unidades de análisis de
acuerdo a variable 1 D
10% A
20%

C
D A 40% B
10% 20% 30%

Distribución de las unidades de


análisis de acuerdo a variable 1
C B
40% 30%
D A
10% 20%

C
B
40%
30%

28
Estadística

TIPOS DE GRÁFICOS 2. Gráfico de Barras


Numero de unidades de análisis Proporción de unidad de análisis de acuerdo a
variable 1
de acuerdo a variable 1
D
500

variable 1
400 C
300
B

200

100 A

0
0 0,2 0,4 0,6 0,8 1
A B C D
Proporción de unidad de análisis
variable 1
- Este tipo de gráfico se utiliza generalmente para
Porcentaje de unidad de análisis de acuerdo a representar la frecuencia de las categorías de una
variable 1
variable cualitativa.
D - Cuando una variable es cuantitativa se puede utilizar
este tipo de gráfico sólo si la variable se ha
variable 1

C
transformada en categorías.
B
- Hay distintas versiones de estos gráficos (por
A
ejemplo en Excel), y en algunos casos son muy útiles
0 20 40 60 80 100 para describir el comportamiento de una variable en
% unidad de análisis distintos grupos.
29
Estadística

TIPOS DE GRÁFICOS 3. Histograma


Histograma
Histograma
Distribución de los hijos de trabajadores de
la empresa de acuerdo a edad - Permite la representación de
15 la frecuencia de una variable
Cuantitativa.
-
10
Frecuencia

El eje x se refiere a la

variable.
5

- El eje y se refiere a la
0 frecuencia (Nº , %).
-
7 8 9 10 11 12 13 14

edad
edad Cada barra representa la
frecuencia de la variable en
Ejemplo la población en estudio (o la
En el gráfico se puede observar el número de muestra).
hijos , de menor edad (7-8 años), las de mayor - El histograma se puede
edad (13-14 años); y además que la mayoría de
hijos de los trabajadores están entre los 10 y 12 construir desde los datos de
años. la tabla de frecuencia de la
variable en estudio.

30
Estadística

TIPOS DE GRÁFICOS 5. Polígono de Frecuencia

Distribución de los hijos de trabajadores de


la empresa de acuerdo a edad - Esta representación se basa
15
en el Histograma.
10
- Sólo es útil para variables
Frecuencia

edad cuantitativas.

5 - El eje x se refiere a la
variable.
0
- El eje y se refiere a la
7 8 9 10 11 12 13 14

edad
frecuencia (Nº , %).
- Los puntos que permiten la
unión de las líneas
representa el centro de clase
(o marca de clase).

31
Estadística

TIPOS DE GRÁFICOS 5. Diagrama de Caja

Edad de las personas que se realizaron


angioplastía entre 1980 y 2000
100

90

80

70

60 - Permite identificar gráficamente


la mediana, los cuartiles 1 y 3
Edad

50
(percentiles 25 y 75), mínimo y
40 máximo de una variable.
30 - Sólo es útil para variables
20 cuantitativas.
- El eje x permite identificar la
10
0
poblacion en estudio.
N= 584 1473 - El eje y representa los valores de
Mujeres Hombres la variable en estudio.
32
Estadística

TIPOS DE GRÁFICOS 6. Otros

Número de alumnos matriculados en la Número de alumnos matriculados en la


Carrera A según año de ingreso Carrera B según año de ingreso

100 100
Nº de alumnos

Nº de alumnos
80 80
60 60
40 40
20 20
0 0
1998 1999 2000 2001 2002 2003 1998 1999 2000 2001 2002 2003
año de ingreso año de ingreso

Número de alumnos matriculados en las Carreras


según año de ingreso

Nº de alumnos
200
año de ingreso Carrera A Carrera B
Nº de alumnos

1998 60 80 150
1999 55 70
100
2000 80 50
2001 40 60 50
2002 68 50
0
2003 70 75
1998 1999 2000 2001 2002 2003

Carrera B año ingreso


Carrera A
33
EJEMPLOS DE GRÁFICOS

Gráfico de barras
BARRAS HORIZONTALES
BARRAS
PROPORCIONALES
BARRAS COMPARATIVAS
LÍNEAS
CIRCULARES
DE ÁREAS
CARTOGRAMAS
HISTOGRAMAS
DISPERSOGRAMAS
PICTOGRAMAS
Estadística

NOTACION
Variables Cuantitativas

x  variable xi  valor de la variable en el individuoi


OBSERVACIONES
y  variable y  valor de la variable en el individuoi i  1,..., n
* El Tipo de Gráfico iseleccionado va a depender de la variable en estudio.
* El Gráfico debe contener un aTítulo
, b, c :General
constantes
y la identificación de cada eje
(variable en estudio y frecuencia).
n n n n
 c *cEn
 ocasiones
 c  nc  cx
resulta más
i  cx1    cx n  c  x i
ilustrativo un gráfico que una tabla defrecuencia.
xi2  x12    x n2
i 1
* Al igual que las tablas,i los
1 i 1
gráficos deben ser auto-explicativos.i 1

n n n
 (axi  b) (ax1  b)    (axn  b)  a  xi  b ( xi ) 2  ( x1    x n ) 2
i 1 i 1 i 1

n
 ( xi  yi )  ( x1  y1 )    ( xn  y n )
i 1

n
 ( xi yi )  ( x1 y1 )    ( xn y n )
i 1

45
Estadística

- Media Aritmética (Promedio)

MEDIDAS DE TENDENCIA CENTRAL - Mediana


- Moda

Datos Cuantitativos Datos Cuantitativos ordenados de menor a mayor


x x Mediana
x1 Media Aritmética o Promedio
x(1) M E  x( k ) Si n es impar
x2 n
x( 2)
 xi x( k )  x( k 1) Si n es par
 x i 1  ME 
2
xn n x(n ) x ( k )  dato del centro

Datos Moda
Cualitativos y Cuantitativos M o " el dato que más se repite"

46
Estadística

- Percentil (ejemplo: 25, 50, 75)


Percentiles, Deciles o Cuartiles - Decil (ejemplo: 4, 5, 8)
- Cuartil (ejemplo: 1, 2, 3)

Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n datos
están ordenados de Menor a Mayor
El Percentil va de 1 a 100
El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.
El Decil va de 1 a 10
El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.

El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64.
47
Estadística

- Rango

MEDIDAS DE DISPERSIÓN - Varianza


- Desviación Estándar

Datos Cuantitativos Varianza


x Rango n n
1 n
x1  ( xi  x )  2
x  ( xi ) 2
2
i
n i 1 1 n 2
R  max(xi )  min(xi ) s 2  i 1  i 1
  xi  x 2
x2 n n n i 1

Desviación Típica o Estándar
xn
s  s2

Comparación entre Variables


Coeficiente de Variación
Se refiere al comportamiento de las variables cuantitativas en un
grupo. Por ejemplo: Si se tiene un conjunto de personas a las que se s
cv 
les mide Estatura, Peso, Edad: Entre estas variables ¿cuál presenta x
mayor variación?
48
Estadística

- Asimetría
Otras medidas o Coeficientes
- Kurtosis o Apuntamiento

Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias
es la simetría y el apuntamiento o kurtosis.

n
Si CA=0 si la distribución es simétrica alrededor de la media.
 (x
i 1
i  x)3
Si CA<0 si la distribución es asimétrica a la izquierda
Coeficiente de Asimetría CA  Si CA>0 si la distribución es asimétrica a la derecha
n  s3

n
- Si CAp=0 la distribución se dice normal (similar
 (x
i 1
i  x)4 a la distribución normal de Gauss) y recibe el
Coeficiente de Apuntamiento CAp  nombre de mesocúrtica.
n  s4 - Si CAp>0, la distribución es más puntiaguda que
la anterior y se llama leptocúrtica, (mayor
concentración de los datos en torno a la media).
- Si CAp<0 la distribución es más plana y se
llama platicúrtica.

49
Estadística

- Asimetría
Otras medidas o Coeficientes
- Kurtosis o Apuntamiento

Ejemplos Histogramas con distinta asimetría y apuntamiento

14 30 6

12 5

10
20 4

8
3

10 2
4

1 Desv. típ. = 2,42


2 Desv. típ. = 1,67 Desv. típ. = ,64
Media = 3,9 Media = 0,0 Media = 5,2

N = 30,00 N = 30,00 0 N = 28,00


0 0
1,0 2,0 3,0 4,0 5,0 6,0 7,0 -1,0 0,0 1,0 2,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0

V2 V4 V5

50
Estadística

- Asimetría
Otras medidas o Coeficientes
- Kurtosis o Apuntamiento

Ejemplos

Datos Histograma Medidas descriptivas


16

1 4 4 Media 3,9
14
1 4 4 Mediana 4

1 4 5
12 Moda 4

2 4 5 10
Desviación estándar 1,67

2 4 6 Varianza de la muestra 2,78


8
2 4 6 kurtosis -0,43
6
2 4 6 Coeficiente de asimetría -0,02

3 4 6 4 Rango 6

3 4 7 Desv. típ. = 1,77 Mínimo 1


2
Media = 5,4
4 4 7 Máximo 7
0 N = 66,00
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 Cuenta 30

V1

51
Estadística

Media, Desviación típica, Coeficientes de Asimetría y Apuntamiento para


datos Agrupados (tabla de frecuencias)

Tabla de frecuencia (para variable cuantitativa) 2) La Desviación típica para datos


Centro agrupados esta dada por:
Intervalo de clase Amplitud F f FAA fra
k
n1 f1
I1
I2
c1
c2
a1
a2 n2 f2
sc   (c
j 1
j  xc ) 2 f j
.
.    
Ik ck ak nk fk n 1 3) El Coeficiente de Asimetría para datos
Total n 1 agrupados esta dado por:
k

Sea cj la marca de clase (o centro de clase) y fj la  (c


j 1
j  xc ) 3 f j
frecuencia relativa de la clase j, donde j=1, 2,…, k. CAc 
s c3
1) La Media para datos agrupados es igual a la
suma de los productos de las marcas de clase 4) El Coeficiente de apuntamiento para
por sus frecuencias relativas, de la forma: datos agrupados esta dada por:
k

 (c
k
Media c  x c   c j f j j  xc ) 4 f j
j 1
j 1 CApc 
s c4

52
Estadística

Descripción de 2 variables cualitativas

Problema Distribución conjunta


Interesa estudiar cual es el Tabla 1 Actividad
principal medio de transporte Pensionad
preferido por un grupo de Transporte Estudia o Trabaja
personas a la hora de dirigirse
Autobus 5 7 0
al centro comercial.
Bicicleta 3 3 2
Para esto se consultó a cada Caminar 2 5 2
persona sobre la actividad a Coche 5 4 5
la que se dedicaba y el medio
de transporte preferido. Metro 6 7 4

Transporte Nº %
Autobus 12 20,0 Actividad Nº %

Bicicleta 8 13,3
Estudia 21 35,0

Caminar 9 15,0 Pensionad


o 26 43,3
Coche 14 23,3
Trabaja 13 21,7
Metro 17 28,3
TOTAL 60 100
TOTAL 60 100

53
Estadística

Descripción de 2 variables cualitativas

Distribución conjunta
Nº de personas
Tabla 2 Actividad

Pensionad
Transporte Estudia o Trabaja TOTAL
Autobus 5 7 0 12
Bicicleta 3 3 2 8
Caminar 2 5 2 9
Coche 5 4 5 14
Metro 6 7 4 17
TOTAL 21 26 13 60

Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)

54
Estadística

Descripción de 2 variables cualitativas

Distribución conjunta
Nº de personas y % respecto de tipo de Transporte
Tabla 3 Actividad

Pensionad
Transporte Estudia o Trabaja TOTAL
Autobus 5 7 0 12
% 41,7 58,3 0 100
Bicicleta 3 3 2 8
% 37,5 37,5 25 100
Caminar 2 5 2 9
% 22,2 55,6 22,2 100
Coche 5 4 5 14
% 35,7 28,6 35,7 100
Metro 6 7 4 17
% 35,3 41,2 23,5 100
TOTAL 21 26 13 60
% 35 43,3 21,7 100

55
Estadística

Descripción de 2 variables cualitativas

Distribución conjunta
Nº de personas y % respecto de tipo de Actividad
Tabla 4 Actividad

Pensionad
Transporte Estudia o Trabaja TOTAL
Autobus 5 7 0 12
% 23,8 26,9 0 20
Bicicleta 3 3 2 8
% 14,3 11,5 15,4 13,3
Caminar 2 5 2 9
% 9,5 19,2 15,4 15
Coche 5 4 5 14
% 23,8 15,4 38,5 23,3
Metro 6 7 4 17
% 28,6 26,9 30,8 28,3
TOTAL 21 26 13 60
% 100 100 100 100

56
Estadística

- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos

x
x1 Recordemos que: Hasta ahora hemos estudiado las medidas tendencia
central (Media, Mediana, Moda) y dispersión
x2 (Varianza y Desviación Estándar) para una Variable
 Cuantitativa (x).
xn

Covarianza: Es una medida de Variabilidad Conjunta entre dos variables (x 1 , x2) o bien (x , y)

1 n
x y cov( x , y )   ( xi  x )( yi  y )
n i 1
x(1) y( 1 )
Si Cov(x,y) es positiva: la asociación entre x e y es directamente proporcional, es
x( 2) y( 2 )
decir que cuando x aumenta y también aumenta; y viceversa.
  Si Cov(x,y) es negativa: la asociación entre x e y es inversamente proporcional,
x(n ) y( n ) es decir que cuando x aumenta y disminuye; y viceversa.
Si Cov(x,y) es cero: no existe asociación entre x e y.

57
Estadística

- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos

Correlación: Se refiere al grado de asociación entre dos variables (x 1 , x2) o bien (x , y)


Coeficiente de Correlación de Pearson (r): Mide el grado de Asociación Lineal entre
dos variables Cuantitativas
n
x y
x(1) y( 1 ) r
cov( x , y )  xi yi  nx y 1  r  1
sx s y r i 1
x( 2) y( 2 ) ( n  1 )s x s y
  Si r es positivo: la asociación entre x e y es directamente proporcional, es decir que
x(n ) y( n ) cuando x aumenta y también aumenta; y viceversa. Si r=1: la asociación lineal es
perfecta.
Si r es negativo: la asociación entre x e y es inversamente proporcional, es decir
que cuando x aumenta y disminuye; y viceversa. Si r=-1: la asociación lineal es
perfecta.
Si r es cero: no existe asociación entre x e y.

58
Estadística

EJEMPLO : Representación gráfica de las variables x e y

r=1 r=-1

59
Estadística

Datos Cuantitativos

REGRESION LINEAL SIMPLE


Objetivo 1 Objetivo 2
Determinar si dos variables están x y Estudiar si los valores de una variable
asociadas y en qué sentido se da la x(1) y( 1 ) pueden ser utilizados para predecir el
asociación. valor de la otra
x( 2) y( 2 )
 
Determinar si existe relación x(n ) y( n ) Estudiar la dependencia de una
entre las variables x e y: variable respecto de la otra:
Coeficiente de Correlación Modelo de Regresión
Términos
Variable Respuesta (=variable dependiente)
Variable Explicativa (=variable Independiente)
Relación Lineal (modelo lineal)
Parámetros (intercepto y pendiente)
Intercepto (respuesta media)
Pendiente (efecto de la variable explicativa sobre la respuesta)
Error (residuo)
60
Estadística

Datos Cuantitativos
REGRESION LINEAL SIMPLE
x y
x(1) y( 1 ) Notación
x( 2) y( 2 ) Variable Respuesta: y
Variable Explicativa: x
 
Modelo de Regresión Lineal Simple: yi=+xi+ei
x(n ) y( n )
Intercepto: 
Pendiente: 
Error: e
Modelo Estimado
(recta de regresión) Método de Estimación: Mínimos Cuadrados
a  y  bx
n n n Residuos o Errores
yˆ  a  bx n xy   xi  y i ei  y i  yˆ i
i 1 i 1 i 1
b 2
n
 n 
n  x    xi 
2

i 1  i 1 
61
Estadística

REGRESION LINEAL SIMPLE

MODELO DE REGRESIÓN LINEAL SIMPLE


yi=+xi+ei

DATOS MODELO ESTIMADO


x y
y( 1 )
yˆ  a  bx
x(1)
x( 2) y( 2 )
ESTIMADORES ERRORES
 
x(n ) y( n ) a  y  bx ei  y i  yˆ i
n n n
n xy   xi  y i
i 1 i 1 i 1
b 2
n n
 
n  x 2    xi 
i 1  i 1 
62
Estadística

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple


Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.
niño edad (meses) talla (cm)
i xi yi
1 3 55
y=talla / x=edad / n=14
2 6 68
14
3 5 64
4 5 66  yi  956 y  68,3 s y  5,6
i 1
5 3 62
14
6 4 65
7 9 74  xi  84 x  6 sx  2
i 1
8 8 75
9 9 73 cov(x, y )  9,07 rxy  0,88
10 7 69 14 14
11
12
6
5
73
68
 xi y i  5863  xi2  556
i 1 i 1
13 8 73
14 6 71

63
Estadística

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple


Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.
Modelo Estimado
yˆ  a  bx

b  2,44 a  53,64

yˆ  53,64  2,44x

Interpretación de los resultados


- Existe asociación o dependencia entre la Talla del niño y la edad (r=0,88); a
medida que la edad aumenta la talla aumenta.
- Desde los resultados del modelo de regresión lineal simple, se tiene que la talla
media de un niño es de 53,64 cm. Cuando la edad del niño (meses) aumenta en
una unidad la talla se incrementa en 2,44 cm.

64
Estadística

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple


Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.

niño edad (meses) talla (cm) Talla estimada error


i xi yi ŷ i ei 14

1 3 55 61,0 -6,0  ( yi  yi ) 2  402,86


i 1
2 6 68 68,3 -0,3 14 14
3 5 64 65,8 -1,8
 ( yi  yˆ i ) 2   ei2 92,7
4 5 66 65,8 0,2 i 1 i 1
5 3 62 61,0 1,0
6 4 65 63,4 1,6
7 9 74 75,6 -1,6 Bondad de Ajuste del Modelo
8 8 75 73,2 1,8 R2 = 0,77
9 9 73 75,6 -2,6
10 7 69 70,7 -1,7 De acuerdo al coeficiente de
11 6 73 68,3 4,7 determinación, el modelo ajustado
12 5 68 65,8 2,2 a los datos es adecuado (R2
13 8 73 73,2 -0,2
cercano a 1)
14 6 71 68,3 2,7

65

También podría gustarte