Estadistica Ev2

ESTADÍSTICA
Universidad Técnica de Cotopaxi

Edison Cárate Tandalia
Octubre de 2022
Estadística
Estudio de la mejor forma de recolectar, analizar y extraer

conclusiones a partir de datos
La estadística se entiende mejor si la consideramos en el contexto de
un proceso general de investigación
1. Identificar una cuestión o problema

2. Recolectar datos relevantes sobre el
mismo
Estadística 3. Analizar los datos
4. Formar conclusiones
Estudio de caso: endoprótesis
1. El uso de endoprótesis ¿reduce el

riesgo de accidente cerebro
vascular? (pregunta)
2. Información sobre 451 pacientes
en riesgo (recolectar
información)
Paciente Grupo 0-30 días 0-365 días

1 Tratamiento No evento No evento
2 Tratamiento Accidente Accidente
Grupo de tratamiento: 3 Tratamiento No evento No evento
reciben tratamiento médico y se ...
les coloca una endoprótesis 450 Control No evento No evento
451 Control No evento No evento
Grupo de control: reciben
tratamiento médico PERO no se
les coloca una endoprótesis. Son 0-30 días 0-365 días
el punto de referencia Accidente No evento Accidente No evento

Tratamiento 33 191 45 179
Control 13 214 28 199
Total 46 405 73 378
(Analizar datos)
Proporción que tuvo un accidente en el grupo de tratamiento: 45/224

= 0,2 = 20%
Proporción que tuvo un accidente en el grupo de control: 28/227 =
0,12 = 12%
1. Resultado contrario a lo esperado

2. ¿Existe una diferencia real entre los dos
grupos?
Los resultados no son generalizables
La diferencia puede ser debida al azar:
factores relacionados con la muestra, etc
Observaciones, variables y matrices
Variables
Observaciones
Caso
Unidad de observación
Observaciones, variables y matrices
Indicator Name Long definition
Total population is based on the de facto definition of population, which counts all residents
Population, total
regardless of legal status or citizenship. The values shown are midyear estimates.
GDP per capita is gross domestic product divided by midyear population. GDP is the sum of gross
value added by all resident producers in the economy plus any product taxes and minus any subsidies
GDP per capita (current US$) not included in the value of the products. It is calculated without making deductions for depreciation
of fabricated assets or for depletion and degradation of natural resources. Data are in current U.S.
dollars.
Business extent of disclosure Disclosure index measures the extent to which investors are protected through disclosure of
index (0=less disclosure to ownership and financial information. The index ranges from 0 to 10, with higher values indicating
10=more disclosure) more disclosure.
Ease of doing business rank Ease of doing business ranks economies from 1 to 190, with first place being the best. The ranking of
(1=most business-friendly economies is determined by sorting the aggregate ease of doing business scores. A high ranking (a
regulations) low numerical rank) means that the regulatory environment is conducive to business operation.
The ease of doing business scores benchmark economies with respect to regulatory best practice,
Ease of doing business score (0
showing the proximity to the best regulatory performance on each Doing Business indicator. An
= lowest performance to 100 =
economy’s score is indicated on a scale from 0 to 100, where 0 represents the worst regulatory
best performance)
performance and 100 the best regulatory performance.
Variables
• Una propiedad con respecto a la cual los individuos de una muestra

o una población se diferencian en algo verificable.
• Son características particulares que presentan variabilidad
• Existe una diferencia entre:
– TODOS los valores que puede tomar una variable (que corresponde al universo
de eventos o casos posibles) y
– los valores realmente observados (que corresponden a los provenientes de una
recolección de información)
Tipos de variables
Variables
Numéricas Categóricas
Continuas Discretas Regulares Ordinales

Categóricas/
Numéricas Nominales
Discreta Continua Ordinal

Relaciones entre variables
Dos variables están asociadas cuando existe cierta conexión entre

ellas.
Esta conexión puede ser visible de forma gráfica
Variables independientes: aquellas cuyo

valor no depende de otras (dada una
construcción a priori)
Variables dependientes: aquellas cuyo

valor depende de otras variables
Población y muestra
• Considere las siguientes preguntas de investigación

– ¿Cuál es la productividad promedio de todos los trabajadores industriales en el
Ecuador?
– Durante la última década ¿cuál es el tiempo promedio de un estudiante de la
UTC para graduarse?
– ¿Cuál ha sido la efectividad de la vacuna de AstraZeneca para evitar
hospitalizaciones por COVID-19 entre pacientes mujeres jóvenes en el Ecuador?
Población y muestra
• Población: Conjunto de TODOS los individuos o elementos

individuales (objetos, mediciones u observaciones) que cumplen con
unas características dadas. El tamaño de la población se denota
por la letra N
• Muestra: Subconjunto de la población que la representa más o
menos fielmente (las variables son independientes entre sí y siguen
la misma distribución de la población). El tamaño de la muestra se
denota por la letra n
Estadística Descriptiva vs. Inferencial
• Descriptiva: Presenta “una fotografía” de la realidad, a partir de

indicadores de síntesis de las observaciones realizadas
• Inferencial: Usa datos muestrales para realizar predicciones
respecto de la población total
Muestra y aleatoriedad
• La calidad de las inferencias depende de cuán bien una muestra

represente a una población
• La representatividad de la muestra se logra, en general, a través de
la aleatoriedad
Una muestra aleatoria simple (o solo muestra aleatoria)

de n sujetos de una población es una en la cual cada muestra
posible de ese tamaño tiene la misma probabilidad (oportunidad)
de ser escogida y en la que no existe una conexión entre los casos
de la muestra.
Muestra y aleatoriedad
Graduados UTC Graduados UTC
muestra muestra
Graduados cc.
administrativas
No sesgada Sesgada
La aleatoriedad está en la base de todas las técnicas estadísticas

Sesgo
• Selección de la muestra: si la selección de la muestra no fue aleatoria

(sesgo de selección) - sobrerepresentación o subrepresentación
• Respuesta: si no se responde con la verdad. Puede estar generado en la
forma cómo se pregunta (confusa o mal planteada)
• No respuesta: si hay demasiadas no-respuestas, o algunos sujetos no
pueden ser entrevistados o no desean participar
• Trabajo de campo: lugar físico, momento del levantamiento
• No intencional
Error muestral
• Información levantada en muestras distintas también será

diferente, AÚN SI todo se “hizo bien”
El error muestral de un estadístico (de un parámetro calculado

con información de una muestra) es el que ocurre cuando usamos
un estadístico basado en una muestra para predecir su valor
poblacional.
Experimentos Observaciones
• Regula las condiciones que • Toma los datos de un evento sin

tener un control experimental
pueden afectar un resultado:
tratamientos • No puede determinar de manera
definitiva causa-efecto
• Establece causalidad: variable • Pueden quedar variables por fuera
explicativa y una variable de que sean las que expliquen un
resultados evento
• Asigna aleatoriamente • No interfiere en la forma como
tratamientos a los distintos surgen los datos
casos
• Controla la forma como
“surgen” los datos
Asociación no implica causalidad

Otras formas de muestreo - Estratos
Estrato 2 Estrato 4 Estrato 6
Estrato 3
Estrato 1
Estrato 5
Agrupa casos similares en cada estrato
Otras formas de muestreo - Cluster
Efectiva cuando los clusters son similares y los individuos no

Estadística descriptiva
Distribución de frecuencias. Variables numéricas
Calificaciones de los estudiantes de estadística en el primer examen

parcial
60 33 85 52 65 77 84 65 57 74
71 81 35 50 35 64 74 47 68 54
80 41 61 91 55 73 59 53 45 77
41 78 55 48 69 85 67 39 76 60
94 66 98 66 73 42 65 94 89 88
Rango de
Frecuencia Proporción %
notas Frecuencia
relativa
30-39 4 0.08 8
40-49 6 0.12 12
50-59 8 0.16 16
30: límite
Intervalos inferior
60-69 12 0.24 24
de clase 39: límite
70-79 9 0.18 18 superior
80-89 7 0.14 14
90-99 4 0.08 8
50 1 100
Frecuencia Frecuencia
Rango de Frecuencia Frecuencia
absoluta relativa
notas absoluta relativa
acumulada acumulada
30-39 4 4 0.08 0,08
40-49 6 10 0.12 0,20
50-59 8 18 0.16 0,36
60-69 12 30 0.24 0,60
70-79 9 39 0.18 0,78
80-89 7 46 0.14 0,92
90-99 4 50 0.08 1
Intervalos de clase
• El objetivo del intervalo de clase es simplificar los datos

• Los intervalos deben incluir TODOS los valores posibles de la variable
• Son mutuamente excluyentes: cada valor pertenece a uno Y SOLO UNO
de los intervalos
• Datos discretos no presentan problema para determinar los intervalos.
Para los continuos es necesario establecer una separación “arbitraria”
• El punto medio de un intervalo de clase se denomina marca de clase
Histogramas. Variables numéricas
14
12 Polígono de
12 frecuencias
10
8 9
Frecuencia 8
6 7
6
4
4 4 Histograma
2
0
30-39 40-49 50-59 60-69 70-79 80-89 90-99
notas
Distribución de frecuencias. Variables categóricas
Número
Tipo de familia Proporción %
(millones)
Pareja casada con hijos 23,3 0,20 20 (40)
Pareja casada sin hijos 33,7 0,29 29 (30)
Mujer viviendo sola 17,4 0,15 15 (11)
Hombre viviendo solo 14,0 0,12 12 (6)
Otros hogares familiares 20,9 0,18 18 (11)
Otros hogares no familiares 7,0 0,06 6 (2)
Total 116,3 1,00 100 (100)
Fuente: US Census Bureau

Histogramas. Variables categóricas
0.35
0.3
0.29
0.25
0.2
Frecuencia relativa de 0.2
la estructura del hogar 0.18
0.15
0.15
0.1 0.12
0.05 0.06
0
PAREJA CASADA PAREJA CASADA MUJER VIVIENDO HOMBRE OTROS HOGARES OTROS HOGARES
CON HIJOS SIN HIJOS SOLA VIVIENDO SOLO FAMILIARES NO FAMILIARES
Distribución muestral y poblacional
• Las distribuciones de frecuencias y los histogramas se usan tanto

para datos muestrales como para datos poblacionales
– Distribución de datos muestrales
– Distribución poblacional
• A medida que el tamaño de la muestra aumenta, la
proporción muestral en cualquier intervalo se acerca a
los valores verdaderos poblacionales
• Aún con variables discretas una curva suave muestral puede
aproximarse a la poblacional
Distribución muestral y poblacional
• Las distribuciones
100 observaciones de frecuencias y los histogramas se usan
100 observaciones tanto
Población
Frecuenciapara datos muestrales como para datos poblacionales
relativa – Distribución de datos
relativa muestrales relativa
– Distribución poblacional
• A medida que el tamaño de la muestra aumenta, la
proporción muestral en cualquier intervalo se acerca a
los valores verdaderos poblacionales
bajo alto bajo alto bajo alto
Valores de la variable Valores de la variable Valores de la variable
Forma de la distribución. Simétricas
relativa relativa
Forma de
U
Forma de
campana
bajo alto bajo alto

Valores de la variable Valores de la variable
Forma de la distribución. Asimétricas
relativa relativa
Sesgada a la Sesgada a la
derecha izquierda
ingresos notas del examen

Regla de Sturges.
𝑣𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜

𝑘 = 1 + 𝑙𝑜𝑔2 (𝑛) 𝑎=
𝑘
Medidas de tendencia
central
La media
Es la suma del valor de las observaciones divididas para el número de

observaciones. Conocida también como promedio. Es el valor típico de
una muestra
Propiedades
• La media es apropiada solo para variables cuantitativas
• Cada conjunto de datos posee una y solo una media
• Es altamente sensible a valores atípicos ya sea por arriba o por abajo
• Mientras más sesgada es la distribución de una variable, menos
representa el valor típico de la muestra
• Es el punto de balance de los datos sobre una recta numérica
La mediana
Es el valor que “cae” en la mitad de los valores ordenados de una muestra.

Si n es impar la mediana es un valor único, si n es par la mediana se
calcula como la media de los dos valores medios
Propiedades
• Es apropiada para variables cuantitativas, pero también es válida
para variables categóricas ordinales
• Es el valor que divide a los datos en dos partes iguales
• No es sensible a las distancias de las observaciones desde la mitad, ya
que usa solo las características ordinales de los datos
• No se afecta por valores atípicos
La mediana
Conjunto 1 8 9 10 11 12
Conjunto 2 8 9 10 11 100
Conjunto 3 0 9 10 10 10
Conjunto 4 8 9 10 100 100
La mediana es la misma para todos los conjuntos de datos

𝑀𝑒 = 10
La mediana
Calificaciones de los estudiantes de estadística en el primer examen

parcial (orden ascendente)
33 35 35 39 41 41 42 45 47 48
50 52 53 54 55 55 57 59 60 60
61 64 65 65 65 66 66 67 68 69
71 73 73 74 74 76 77 77 78 80
81 84 85 85 88 89 91 94 94 98
La media vs. La mediana
• Para distribuciones simétricas, la mediana y la media son idénticas

• Para distribuciones sesgadas, la media se ubica en la cola más
larga con respecto a la mediana
• Si una distribución es muy sesgada, la mediana es mejor que la
media para representar los valores típicos de la muestra
• Si la distribución es simétrica o solo ligeramente sesgada, la media
es mejor para representar los valores típicos de la muestra
La mediana
relativa relativa
media media
mediana mediana
Valores de la variable Valores de la variable
La moda
Es el valor que ocurre más frecuentemente dentro de la muestra
Propiedades
• Es apropiada para cualquier tipo de datos, p. ej. Preferencias
religiosas (categórica), número de personas (numérica), ranking
(ordinal)
• Una distribución bimonal es aquella en la que dos “montículos”
aparecen, es decir, existen dos modas
• La media, mediana y moda son idénticas para distribuciones
simétricas y unimodales tales como la distribución normal.
La moda
Por ejemplo: preferencias políticas polarizadads, horas de

comida en un restaurante, puntuaciones de un examen por
pregunta, entre otros
Media, mediana y moda

Estadistica Ev2

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Ev2

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA

Universidad Técnica de Cotopaxi

Estudio de la mejor forma de recolectar, analizar y extraer

1. Identificar una cuestión o problema

1. El uso de endoprótesis ¿reduce el

Paciente Grupo 0-30 días 0-365 días

el punto de referencia Accidente No evento Accidente No evento

Proporción que tuvo un accidente en el grupo de tratamiento: 45/224

1. Resultado contrario a lo esperado

• Una propiedad con respecto a la cual los individuos de una muestra

Continuas Discretas Regulares Ordinales

Discreta Continua Ordinal

Dos variables están asociadas cuando existe cierta conexión entre

Variables independientes: aquellas cuyo

Variables dependientes: aquellas cuyo

• Considere las siguientes preguntas de investigación

• Población: Conjunto de TODOS los individuos o elementos

• Descriptiva: Presenta “una fotografía” de la realidad, a partir de

• La calidad de las inferencias depende de cuán bien una muestra

Una muestra aleatoria simple (o solo muestra aleatoria)

Graduados UTC Graduados UTC

La aleatoriedad está en la base de todas las técnicas estadísticas

• Selección de la muestra: si la selección de la muestra no fue aleatoria

• Información levantada en muestras distintas también será

El error muestral de un estadístico (de un parámetro calculado

• Regula las condiciones que • Toma los datos de un evento sin

Asociación no implica causalidad

Efectiva cuando los clusters son similares y los individuos no

Calificaciones de los estudiantes de estadística en el primer examen

• El objetivo del intervalo de clase es simplificar los datos

Fuente: US Census Bureau

• Las distribuciones de frecuencias y los histogramas se usan tanto

bajo alto bajo alto

ingresos notas del examen

𝑣𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜

Es la suma del valor de las observaciones divididas para el número de

Es el valor que “cae” en la mitad de los valores ordenados de una muestra.

La mediana es la misma para todos los conjuntos de datos

Calificaciones de los estudiantes de estadística en el primer examen

• Para distribuciones simétricas, la mediana y la media son idénticas

Es el valor que ocurre más frecuentemente dentro de la muestra

Por ejemplo: preferencias políticas polarizadads, horas de

También podría gustarte