Está en la página 1de 49

ESTADÍSTICA

Universidad Técnica de Cotopaxi


Edison Cárate Tandalia
Octubre de 2022
Estadística

Estudio de la mejor forma de recolectar, analizar y extraer


conclusiones a partir de datos
La estadística se entiende mejor si la consideramos en el contexto de
un proceso general de investigación

1. Identificar una cuestión o problema


2. Recolectar datos relevantes sobre el
mismo
Estadística 3. Analizar los datos
4. Formar conclusiones
Estudio de caso: endoprótesis

1. El uso de endoprótesis ¿reduce el


riesgo de accidente cerebro
vascular? (pregunta)
2. Información sobre 451 pacientes
en riesgo (recolectar
información)
Estudio de caso: endoprótesis

Paciente Grupo 0-30 días 0-365 días


1 Tratamiento No evento No evento
2 Tratamiento Accidente Accidente
Grupo de tratamiento: 3 Tratamiento No evento No evento
reciben tratamiento médico y se ...
les coloca una endoprótesis 450 Control No evento No evento
451 Control No evento No evento
Grupo de control: reciben
tratamiento médico PERO no se
les coloca una endoprótesis. Son 0-30 días 0-365 días

el punto de referencia Accidente No evento Accidente No evento


Tratamiento 33 191 45 179
Control 13 214 28 199
Total 46 405 73 378

(Analizar datos)
Estudio de caso: endoprótesis

Proporción que tuvo un accidente en el grupo de tratamiento: 45/224


= 0,2 = 20%
Proporción que tuvo un accidente en el grupo de control: 28/227 =
0,12 = 12%

1. Resultado contrario a lo esperado


2. ¿Existe una diferencia real entre los dos
grupos?
Los resultados no son generalizables
La diferencia puede ser debida al azar:
factores relacionados con la muestra, etc
Observaciones, variables y matrices

Variables

Observaciones

Caso
Unidad de observación
Observaciones, variables y matrices
Indicator Name Long definition
Total population is based on the de facto definition of population, which counts all residents
Population, total
regardless of legal status or citizenship. The values shown are midyear estimates.

GDP per capita is gross domestic product divided by midyear population. GDP is the sum of gross
value added by all resident producers in the economy plus any product taxes and minus any subsidies
GDP per capita (current US$) not included in the value of the products. It is calculated without making deductions for depreciation
of fabricated assets or for depletion and degradation of natural resources. Data are in current U.S.
dollars.
Business extent of disclosure Disclosure index measures the extent to which investors are protected through disclosure of
index (0=less disclosure to ownership and financial information. The index ranges from 0 to 10, with higher values indicating
10=more disclosure) more disclosure.
Ease of doing business rank Ease of doing business ranks economies from 1 to 190, with first place being the best. The ranking of
(1=most business-friendly economies is determined by sorting the aggregate ease of doing business scores. A high ranking (a
regulations) low numerical rank) means that the regulatory environment is conducive to business operation.

The ease of doing business scores benchmark economies with respect to regulatory best practice,
Ease of doing business score (0
showing the proximity to the best regulatory performance on each Doing Business indicator. An
= lowest performance to 100 =
economy’s score is indicated on a scale from 0 to 100, where 0 represents the worst regulatory
best performance)
performance and 100 the best regulatory performance.
Variables

• Una propiedad con respecto a la cual los individuos de una muestra


o una población se diferencian en algo verificable.
• Son características particulares que presentan variabilidad
• Existe una diferencia entre:
– TODOS los valores que puede tomar una variable (que corresponde al universo
de eventos o casos posibles) y
– los valores realmente observados (que corresponden a los provenientes de una
recolección de información)
Tipos de variables

Variables

Numéricas Categóricas

Continuas Discretas Regulares Ordinales


Categóricas/
Numéricas Nominales

Discreta Continua Ordinal


Relaciones entre variables

Dos variables están asociadas cuando existe cierta conexión entre


ellas.
Esta conexión puede ser visible de forma gráfica

Variables independientes: aquellas cuyo


valor no depende de otras (dada una
construcción a priori)

Variables dependientes: aquellas cuyo


valor depende de otras variables
Población y muestra

• Considere las siguientes preguntas de investigación


– ¿Cuál es la productividad promedio de todos los trabajadores industriales en el
Ecuador?
– Durante la última década ¿cuál es el tiempo promedio de un estudiante de la
UTC para graduarse?
– ¿Cuál ha sido la efectividad de la vacuna de AstraZeneca para evitar
hospitalizaciones por COVID-19 entre pacientes mujeres jóvenes en el Ecuador?
Población y muestra

• Población: Conjunto de TODOS los individuos o elementos


individuales (objetos, mediciones u observaciones) que cumplen con
unas características dadas. El tamaño de la población se denota
por la letra N
• Muestra: Subconjunto de la población que la representa más o
menos fielmente (las variables son independientes entre sí y siguen
la misma distribución de la población). El tamaño de la muestra se
denota por la letra n
Estadística Descriptiva vs. Inferencial

• Descriptiva: Presenta “una fotografía” de la realidad, a partir de


indicadores de síntesis de las observaciones realizadas
• Inferencial: Usa datos muestrales para realizar predicciones
respecto de la población total
Muestra y aleatoriedad

• La calidad de las inferencias depende de cuán bien una muestra


represente a una población
• La representatividad de la muestra se logra, en general, a través de
la aleatoriedad

Una muestra aleatoria simple (o solo muestra aleatoria)


de n sujetos de una población es una en la cual cada muestra
posible de ese tamaño tiene la misma probabilidad (oportunidad)
de ser escogida y en la que no existe una conexión entre los casos
de la muestra.
Muestra y aleatoriedad

Graduados UTC Graduados UTC

muestra muestra

Graduados cc.
administrativas

No sesgada Sesgada

La aleatoriedad está en la base de todas las técnicas estadísticas


Sesgo

• Selección de la muestra: si la selección de la muestra no fue aleatoria


(sesgo de selección) - sobrerepresentación o subrepresentación
• Respuesta: si no se responde con la verdad. Puede estar generado en la
forma cómo se pregunta (confusa o mal planteada)
• No respuesta: si hay demasiadas no-respuestas, o algunos sujetos no
pueden ser entrevistados o no desean participar
• Trabajo de campo: lugar físico, momento del levantamiento
• No intencional
Error muestral

• Información levantada en muestras distintas también será


diferente, AÚN SI todo se “hizo bien”

El error muestral de un estadístico (de un parámetro calculado


con información de una muestra) es el que ocurre cuando usamos
un estadístico basado en una muestra para predecir su valor
poblacional.
Experimentos Observaciones

• Regula las condiciones que • Toma los datos de un evento sin


tener un control experimental
pueden afectar un resultado:
tratamientos • No puede determinar de manera
definitiva causa-efecto
• Establece causalidad: variable • Pueden quedar variables por fuera
explicativa y una variable de que sean las que expliquen un
resultados evento
• Asigna aleatoriamente • No interfiere en la forma como
tratamientos a los distintos surgen los datos
casos
• Controla la forma como
“surgen” los datos

Asociación no implica causalidad


Otras formas de muestreo - Estratos
Estrato 2 Estrato 4 Estrato 6

Estrato 3

Estrato 1

Estrato 5
Agrupa casos similares en cada estrato
Otras formas de muestreo - Cluster

Efectiva cuando los clusters son similares y los individuos no


Estadística descriptiva
Distribución de frecuencias. Variables numéricas

Calificaciones de los estudiantes de estadística en el primer examen


parcial

60 33 85 52 65 77 84 65 57 74
71 81 35 50 35 64 74 47 68 54
80 41 61 91 55 73 59 53 45 77
41 78 55 48 69 85 67 39 76 60
94 66 98 66 73 42 65 94 89 88
Distribución de frecuencias. Variables numéricas

Rango de
Frecuencia Proporción %
notas Frecuencia
relativa
30-39 4 0.08 8
40-49 6 0.12 12
50-59 8 0.16 16
30: límite
Intervalos inferior
60-69 12 0.24 24
de clase 39: límite
70-79 9 0.18 18 superior
80-89 7 0.14 14
90-99 4 0.08 8
50 1 100
Distribución de frecuencias. Variables numéricas

Frecuencia Frecuencia
Rango de Frecuencia Frecuencia
absoluta relativa
notas absoluta relativa
acumulada acumulada
30-39 4 4 0.08 0,08
40-49 6 10 0.12 0,20
50-59 8 18 0.16 0,36
60-69 12 30 0.24 0,60
70-79 9 39 0.18 0,78
80-89 7 46 0.14 0,92
90-99 4 50 0.08 1
Intervalos de clase

• El objetivo del intervalo de clase es simplificar los datos


• Los intervalos deben incluir TODOS los valores posibles de la variable
• Son mutuamente excluyentes: cada valor pertenece a uno Y SOLO UNO
de los intervalos
• Datos discretos no presentan problema para determinar los intervalos.
Para los continuos es necesario establecer una separación “arbitraria”
• El punto medio de un intervalo de clase se denomina marca de clase
Histogramas. Variables numéricas
14

12 Polígono de
12 frecuencias
10

8 9
Frecuencia 8
6 7
6
4
4 4 Histograma
2

0
30-39 40-49 50-59 60-69 70-79 80-89 90-99
notas
Distribución de frecuencias. Variables categóricas

Número
Tipo de familia Proporción %
(millones)
Pareja casada con hijos 23,3 0,20 20 (40)
Pareja casada sin hijos 33,7 0,29 29 (30)
Mujer viviendo sola 17,4 0,15 15 (11)
Hombre viviendo solo 14,0 0,12 12 (6)
Otros hogares familiares 20,9 0,18 18 (11)
Otros hogares no familiares 7,0 0,06 6 (2)
Total 116,3 1,00 100 (100)

Fuente: US Census Bureau


Histogramas. Variables categóricas
0.35

0.3
0.29
0.25

0.2
Frecuencia relativa de 0.2
la estructura del hogar 0.18
0.15
0.15

0.1 0.12

0.05 0.06

0
PAREJA CASADA PAREJA CASADA MUJER VIVIENDO HOMBRE OTROS HOGARES OTROS HOGARES
CON HIJOS SIN HIJOS SOLA VIVIENDO SOLO FAMILIARES NO FAMILIARES
Distribución muestral y poblacional

• Las distribuciones de frecuencias y los histogramas se usan tanto


para datos muestrales como para datos poblacionales
– Distribución de datos muestrales
– Distribución poblacional
• A medida que el tamaño de la muestra aumenta, la
proporción muestral en cualquier intervalo se acerca a
los valores verdaderos poblacionales
• Aún con variables discretas una curva suave muestral puede
aproximarse a la poblacional
Distribución muestral y poblacional

• Las distribuciones
100 observaciones de frecuencias y los histogramas se usan
100 observaciones tanto
Población
Frecuenciapara datos muestrales como para datos poblacionales
Frecuencia Frecuencia
relativa – Distribución de datos
relativa muestrales relativa
– Distribución poblacional
• A medida que el tamaño de la muestra aumenta, la
proporción muestral en cualquier intervalo se acerca a
los valores verdaderos poblacionales
bajo alto bajo alto bajo alto
Valores de la variable Valores de la variable Valores de la variable
Forma de la distribución. Simétricas

Frecuencia Frecuencia
relativa relativa

Forma de
U
Forma de
campana

bajo alto bajo alto


Valores de la variable Valores de la variable
Forma de la distribución. Asimétricas

Frecuencia Frecuencia
relativa relativa

Sesgada a la Sesgada a la
derecha izquierda

ingresos notas del examen


Regla de Sturges.

𝑣𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜


𝑘 = 1 + 𝑙𝑜𝑔2 (𝑛) 𝑎=
𝑘
Medidas de tendencia
central
La media

Es la suma del valor de las observaciones divididas para el número de


observaciones. Conocida también como promedio. Es el valor típico de
una muestra

Propiedades
• La media es apropiada solo para variables cuantitativas
• Cada conjunto de datos posee una y solo una media
• Es altamente sensible a valores atípicos ya sea por arriba o por abajo
• Mientras más sesgada es la distribución de una variable, menos
representa el valor típico de la muestra
• Es el punto de balance de los datos sobre una recta numérica
La mediana

Es el valor que “cae” en la mitad de los valores ordenados de una muestra.


Si n es impar la mediana es un valor único, si n es par la mediana se
calcula como la media de los dos valores medios

Propiedades
• Es apropiada para variables cuantitativas, pero también es válida
para variables categóricas ordinales
• Es el valor que divide a los datos en dos partes iguales
• No es sensible a las distancias de las observaciones desde la mitad, ya
que usa solo las características ordinales de los datos
• No se afecta por valores atípicos
La mediana

Conjunto 1 8 9 10 11 12
Conjunto 2 8 9 10 11 100
Conjunto 3 0 9 10 10 10
Conjunto 4 8 9 10 100 100

La mediana es la misma para todos los conjuntos de datos


𝑀𝑒 = 10
La mediana

Calificaciones de los estudiantes de estadística en el primer examen


parcial (orden ascendente)

33 35 35 39 41 41 42 45 47 48
50 52 53 54 55 55 57 59 60 60
61 64 65 65 65 66 66 67 68 69
71 73 73 74 74 76 77 77 78 80
81 84 85 85 88 89 91 94 94 98
La media vs. La mediana

• Para distribuciones simétricas, la mediana y la media son idénticas


• Para distribuciones sesgadas, la media se ubica en la cola más
larga con respecto a la mediana
• Si una distribución es muy sesgada, la mediana es mejor que la
media para representar los valores típicos de la muestra
• Si la distribución es simétrica o solo ligeramente sesgada, la media
es mejor para representar los valores típicos de la muestra
La mediana

Frecuencia Frecuencia
relativa relativa

media media
mediana mediana
Valores de la variable Valores de la variable
La moda

Es el valor que ocurre más frecuentemente dentro de la muestra

Propiedades
• Es apropiada para cualquier tipo de datos, p. ej. Preferencias
religiosas (categórica), número de personas (numérica), ranking
(ordinal)
• Una distribución bimonal es aquella en la que dos “montículos”
aparecen, es decir, existen dos modas
• La media, mediana y moda son idénticas para distribuciones
simétricas y unimodales tales como la distribución normal.
La moda

Por ejemplo: preferencias políticas polarizadads, horas de


comida en un restaurante, puntuaciones de un examen por
pregunta, entre otros
Media, mediana y moda

También podría gustarte