Estadística

µ ESTADISTICA DESCRIPTIVA Y
clasificación y representación de data

→
Cualitativa :
Información categórica
°
Nominal : modalidades no numéricas sin criterio de orden
|
a
°
Ordinal : modalidades no numéricas con criterio de orden
→
Cuantitativa : información numérica ; medible
y
contable
°
Discreta : tiene valores numéricos exactos
°
Continua :
puede tomar cualquier valor en un intervalo real -
→
población todos los miembros de un definido a evaluar
grupo
:
→
Muestra : una parte de la población
°
Aleatorio simple : todos tienen la misma probabilidad de ser
elegidos
°
sistemática : aleatorio organizado
°
Estratificada : se divide en
grupos con características similares
Tipos de gráficos
Histograma
→
:
Para información continua ,
se hace una tabla de frecuencia agrupada
de las barras la frecuencia
°
Areas proporcionales a
si anchos no son
iguales en los
grupos se usa densidad de frecuencia
densidad de frecuencia =
frecuencia
tamaño de clase
→
polígono de frecuencia : para presentar información recolectada en clases
°
Se patea el punto medio de una ciase y su frecuencia
→
Frecuencia acumulada :
se suman las
frecuencias en cada clase
Medidas de tendencia
→
Moda : el valor o clase más frecuente en la data
→
Media : forma común de medir la tendencia central
µ
=
Zf
n
°
me =
X NI si n es impar
2
→
Mediana : el valor medio cuando se organiza la data en Orden de tamaño
Xq
=
si por
Xq
°
me t
+ , n es
Medidas de dispersión 2-
→
Rango :
la diferencia entre el
mayor valor y el menor
→
cvartiles :
la media separa la data en dos mitades , esta la separa en cuartos
Cvcrrtil inferior 25.1

°
: .
°
cvavtit superior : 75%
rango intercvartil :
diferencia entre inferior y superior
'
02 Zfixi pí
?
→
Varianza : = Zficx ; -
µ)
=
-
-
-
n n
→
Desviación estándar : a-
=) pí
°
si la media mantiene
agrega una constante aumenta pero la a- se
si multiplica É
multiplican
°
se ; 0 se
y
// DATA SCIENCE µ
Epi Cycles of analysis
→
Proceso iterativo y no linear
→
Estudio : o
desarrollo de hipótesis y pregunta
°
diseño del proceso de recolección de data
•
análisis e interpretación de la data
→
Actividades principales :
1) Identificar y refinar la pregunta

2) Explorar la información a) tomar expectativas
3) Construir modelos estadísticos formales b) recolectar info .
y comparar con expectativas

4) Interpretar los resultados c) refinar las expectativas para coincidir con
5) Comunicar los resultados la data

→
Para definir expectativas se debe
investigar previamente
Recolectar información
→
Pregunta : buscar en literatura o
preguntarle a expertos
→
si expectativas y
data no coinciden : se cambian las expectativas
se cuestiona la data
La pregunta
→ 6 tipos de pregunta : o
descriptiva : resume las características de un
conjunto de información ,
el resultado es un hecho un atributo de la data analizada

y
°
explora tira :
se busca un
patrón o relación entre variables en la data
°
inferencia I : busca transferir los resultados de una prueba representativa a otra
Poblacion
predictiva averiguar si variable específico está
°
:
se enfoca en una
población o
relacionado con otro
si cambio en
°
causal : un una variable representa un cambio en algún aspecto

de una población ,
relación directa
°
Mecanística :
pregunta cómo
→ análisis puede responder varias

un
preguntas
Características de interés respondido
→
buena de ha si el marco es
una
pregunta : es
,
no se antes
,
viable , debe poder responderse ,

es
específica
µ HOWTOLIE WITH STATISTICS //
Capítulo 1
→
Manipulación de muestras
→
Importancia de muestra bien hecha : o aleatoria
°
de muchos sujetos
°
representativo (validez y generalización )
°
evadiendo conveniencia
problemas naturales
→
¿ Qué tan completa es la información metodológica
?
→
promedios : ¿ De qué ? , ¿ parámetros ? ¿frecuencias ?
→
Prácticas manipuati vas sobre las muestras para confundir la opinión pública
→
Resultado depende de la calidad de la muestra
→
Confiabilidad y validez dependen de la muestra
Capítulo 2
→
Diferentes tipos de promedio
→
Promedio da falsa impresión de la distribución de los sujetos
→
No se pueden obtener conclusiones sin información adicional : o
mediana
°
moda
Capítulo 3
→
Interpretación de gráficas
→ se
prioriza generar impacto en vez de presentar información real
→
e. j .
. sin números
sin
leyenda
°
°
sin nivel de significancia
°
sin
parámetros
→ calidad de muestra no depende de la cantidad de gente ,
sino de ser realmente representativa de
las cualidades y diversidad que se busca
niveles de
significancia
→ buen reporte muestra
→
atención 10 ( promedio )
"
normativo
"
con como la norma
Capítulo 4
→ Error probable y estándar
→ Es necesario el error estadístico para conocer la presición y confiabilidad

→
Algunos estudios no publican resultados al no ser favorables
→
Algunos repiten el estudio hasta obtener resultados favorables
→ error estándar =
resultados en importancia
Capítulos 5
y G
→
Imágenes y gráficas suelen usarse engañosamente
→
Deben ser
proporcionales la data
y coherentes con
Capítulos 7 y8
→
Correlación : muchas veces se asume una causalidad
→
relación # causalidad
→ la causalidad suele ser

manipulada
→
dos variables pueden ser causadas por un tercer factor (falacia post )
hoc
→
relación accidental entre variables
→ no se identifica causa o
efecto
→
correlación sin relación real
→
correlación asumida más allá de los datos
capítulos 9
y
lo
→ Mal uso de estadísticas
→
Representaciones gráficas deben guardar relación con los datos
→
Evitar la simplificación gráfica
→
Puntos importantes : o
contaminación consciente I inconsciente ; la confiabilidad depende también de
la fuente
°
número de participantes no es criterio de confiabilidad
corroborar datos crudos analizados Cavsencia de datos)

°
con
semántica sin base

°
:
pueden inducir interpretaciones erróneas ; extrapolaciones
real de datos
110 PEN INTRO STATISTICS 1)capitulo I
Matriz de datos
→
Parámetro :
medida que resume una característica de una
poblacion
promedio poblacional
°
°
O desviación estándar
.
P proporción poblacional
→
Estadístico : medida que resume una característica de la muestra
°
X promedio muestral
°
S desviación estándar muestral
°
F proporción muestra
datos característica (variable)

→
Matriz de :
filas =
elementos maestrales ; columna =
Tipos de variable
→
variables numéricas : se puede operar con esos datos
→
variables discretas : solo pueden ser ciertos valores
variable
/ \
→
variables continuas : pueden tomar cualquier valor en un
rango -
numéricas categóricas
-
→
variables categóricas : categorías ,
los valores posibles son los niveles
Ldiscretasjhcontinvasjlnominalesj@rdinalesj
°
cuando hay un orden son variables ordinales
°
sin orden son variables nominales
Relación entre variables
→
Gráfico de dispersión
→
variables asociadas : variables dependientes
→
asociación negativa :
hay una tendencia negativa
→ asociación positiva :
hay una tendencia positiva
→
variables no asociadas : variables independientes
→
variable exploratoria puede afectar a una variable de respuesta
Tipos de estudio
→
Estudio observacional : se recolecta data de una manera que no interfiere con como ocurre la data
°
suelen mostrar asociaciones pero no causas
→
Estudio experimental : tiene variante exploratoria y de respuesta
°
experimento aleatorio
Estrategias y principios de muestras
Población
→
:
grupo objetivo a analizar
→
la población
Muestra grupo pequeño que representa a
:
→
Evidencia anecdótica :
generaliza un caso
→
muestreo aleatorio la muestra al
: se
erige azar
→
taza de respuesta dar datos parciales
en encuestas una no alta
puede
→
muestreo de conveniencia :
individuos accesibles
Estudio observacional
→
variable de confusión : relacionada a ambas variables a evaluar
→
Estudio prospectivo : recolecta datos a medida que suceden los eventos
→ Estudio retrospectivo : recolectan datos después del evento
→
muestreo estratificado : divide en grupos con características similares
Estudio experimental
→
Diseño : ① controlar variables O diferencias
② aleatorización
③ replicar :
a más casos mejor se estima en efecto
④ bloquear : variables que influyan
11 PROBABILIDADES 11
Conceptos básicos
→
Probabilidad teórica : o
conjunto de todos los resultados posibles
= U
P (A)
NCAINCU)
=
PCA)
'
diagrama de Venn P (A)

→ I
En = -
°
mutuamente excluyentes (A y B no
pueden ser ambos verdaderos )
PCA n B) =
O
→ resultados posibles :
totalitarias
| x 2 × . . . X h
→
Propiedades : OEPCAIEZ
PCU ) =
z
PCAV B) =
PCA ) +
PCB ) -
PCAN B)
PCA )
'
PCA ) = I -
si AEB ; PCBIA) = PCB ) -
PCA)
Probabilidad experimental
frecuenciadeA-n.de
→ :
frecuencia relativa :
pruebas
Probabilidad B)
NCARBIIV
→
condicional : PCAI =
n CR )
si hay A , P de
p ( An B) =
PCAI B) XPCB)
R ?
→
Eventos independientes :
cuando no dependen del otro
PCAIB) = PCA )
PCAIB ) PCA )
'
=
PCA l B) PCA )
' '
=
PCANB ) = PCA ) XPCB)
PCAI
A PCA ) XPCA )
/
→
→ árbol PCA )
Diagrama de : Al
{
B
✓ A
B
PCR )
TB
→
Teorema de Bayes :
Para eventos mutuamente excluyentes
PCBI A) =
PCRNA ) = PC B) XPCAIB )
-
PCA) PC B) x PCAIB) ) PCAIB )

PCB
'
+ '
x
Permutaciones y combinaciones
→
Permutaciones :
n 5
ejemplo : 2 ,
3 ,
,
4- ×
→ 4 !
-4×-4×-4×-4
"
si se pueden → y
repetir
(I) objetos
= n
h -
K ! k que elegir
→
Combinaciones :
si
ejemplo : hay 52 cartas , cuantas 5 puedo elegir
-52×2×-50 Cda permutaciones)

opciones [ 52 ! = combinaciones
Orden [ ¥,
( I)
n objetos
=
K ! Cn K)
k Que elegir
!
-
11 VARIABLES ALEATORIAS DISCRETAS 11

Introducción
→
Experimento tiene valores discretos como resultados :
variables aleatorias discretas
→
los valores de entrada y salida se modelan a través de una función
Funciones
→
Función de distribución de probabilidad :
f 4) =P ( Xx) (asigna una probabilidad a cada valor)
° O EFCXIEI
°
[ f- ( x) =
1
→
Estas funciones se describen por características (parámetros)
°
media M ( valor esperado ECX)) :
M
=
Ex PCX =
)
x
' ' ' "

o
varianza o : 0-2=-2 (x -
M) PCX =
)
x
=
ECX ) -
ECX)
°
deviacioñ estándar o : UF
°
moda :
el máximo valor de fcx)
→ Función de distribución acumulativa : FCXI =P CX Ex) = [ PCX =

H
tcx
X , T X2
°
mediana mi = ; × , valor max .
para FCXDE 0.5 y xa valor min
para FCX a) 70.5
Bernouui
¿
prob P
→
× =
Mob I -
→
f. p.d :-P (1) =P j fs CO)
=
1 P
-
:[ q
→ O
t.ro
-
. "" × < O
→
E =p
→
var IX ) =p CI p)
-
Distribución binomial
→
Hay un número de intentos n
°
son independientes y
ocurren
bajo las mismas condiciones
°
cada intento tiene 2 resultados ( EXITO o FRACASO)
°
para cada intento la pron de éxito es constante (p)
cada intento la proto de constante ( p)

°
para fracaso es r
-
(7) p
"
-
×
"
→
f. p.m PCX ) p) 2
=
( o I
n o
: = = i -
x
×
. . .
, , , ,
(F) =
n Cx
•
X es el número de intentos exitosos
X Bcn p)
°
n ,
[ I ( I) pkcr
X te
"
-
→
f. d. a
:
f
=
pcxsx) -
p)
→
parámetros :
ECX)
°
=
np
Var CX )
.
=
npq
a) ejemplo :
Y =
fusibles defectuosos a =
5 ; p
=
o .
05
PCX » I ) =
y _
pcx a =
y -
PCX =
o
) =
1 -
( ?) p
°
( i -
PP =
1- 0.952
=
0.2262191
Distribución uniforme discreta

→
modela fenómenos equri probables
Yn
→
PCX =
) si
pcx ) x
X setcx )
= =
e
si es como
x C1
¥1
0 si
→ función acumulativa : Fcx) =

PCXEN =
xe [ i. M .
si x su
→
parámetros :
E CX ) EL
° =
°
Var CX ) = nt 12 -
12
Distribución geométrica
experimento primer éxito
→
Bernoulli hasta obtener
× -
"
→ d. PCX ) ( p)
I
f.
=
I × = 2
p
=
p
: x
-
, .
. .
.
° X cuenta el número de veces

que se repite el experimento
E Í '
-
'
→
f. d. FCX ) = CI p) p
-
a : ,
→
parámetros :
°
ECX ) =
pt
Var ( x)
°
=
2
p
Distribución binomial negativa

→
experimento Bernouui hasta outener éxito número r
II ) " "
'
d. ( P) r +2 .
pcy ) p r +
p
i
i
y
: = r
f.
=
-
→ ,
.
.
,
.
→
parámetros :
•
ECX ) =
tp
✓ ( I -
p)
Van cx)
=p
°
2
Distribución hipergeométrica
→
Población tamaño N dividida en dos ; r unidades tipo A y N
-
r
tipo B . se extrae una muestra
tamaño ~ . Van X cuenta en número de unidades tipo A
→
f. d. p :
pcx ) = k)(Nn
→
parámetros :
°
E ( x) =
EN
•
varcxl
-
nlrn ) ( Till II)
Distribución de Poisson
→
Independencia de incrementos de tiempo disjuntos : la probabilidad es independiente a cuando ocurra el evento
→
los eventos no ocurren en grupos
11
muy pequeño
→
tasa de llegada constante ( X) cambia d =
n -
P i n es
grande
; no
muy y p
" ×
→
f. p.m :
PCX =
x ) =
e- y
F.
[ Ío
'
→
f. d. a : Fcx ) =
PCX ex)
=
éttkk !
→
parámetros :
° ECX) =
y
°
Var CX ) =
y
µVARIABLES ALEATORIAS CONTINUAS µ

→
Toma valores en un espectro muestral
"
→
f. d. a :
F ( x) =
PCXSX) =
f. astltldt
)
° =
I
limx →
¿ Of FLX) EI
co
° lim × →
= o
d. p
d
→ f .
: f ( ×) =
dx
°
f (x ) s, O
f Íjfcxsdx =
I
f! ) dx PCOEXE b) Fcb ) Ela)

°
=
f (
-
=
x
°
PCX =
a) =
faa fcxldx = O
→
parámetros :
CECX) )= f xfcx ) DX
°
M
a
°
mediana =
SI a
fcx ) dx = tz Cm )
°
Van cxl =
[( x -
in )
?
fcx) dx
Modelo uniforme
¢×
→ Cx ) si xa c B
f. d. p f-
= = x
otros casos
o x c X
IÍÉ
-
→
a. =
FCN dx
|
f.
=
a =
¡ integran impropias
SI adx
-
→
×
"
f?
-
parámetros f-
|
→
x dx = -
Ecxtf ? x
En dx =
ata Iinyzjrt =
OH
°
Van CX ) =
¥2
12
-
Modelo exponencial
→
en parámetro de l a exponencial tiene unidades de tiempo al inverso
"
té
{
si xz
→
f. d. p .
=
f (× ) =
o
O si x a C
- X X
| e
{
x zo
-
-
"
→
f .
p .
a = FCX) =
de dx =
o × < a
→
ejemplo : Propiedad de perdida de memoria :
°
si X representa la vida Útil de un componente la proa de que un componente de s años dure otros t
,
años es l a misma que de un o nuevo dure t años
Modelo normal
-
-
4¥12
f. d f (x ) = e 2 02 (m d)
✓Ir , media ;
=
→ E
= s
p
=
.
.
→ estándar 0=1
todas se pueden relacionar a una campana µ
= o
°
Z ~ N CO , 1)
X n N (M ,
E)
Z
°
× M
-
-
11PRUEBAS DE HIPÓTESIS 11
Hipótesis estadística
poleracioñ
→
declaración sobre algún aspecto de l a
° Ho :
declaración verdadera
Hr declaración falsa
°
:
→
prueba de hrpátesis específica para que valores de X ,
no se rechaza
Van X
→ =
estadístico de la prueba
→
rango de valores para rechazar
Ho =
region de rechazo de l a prueba
→ errores :
°
× =
PC error tipo I ) =
rechazar Ho cuando es verdadera
°
B =
PC er ror tipo I) =
rechazar H , cuando es verdadera
°
y Cp )
=
PC la prueba rechaza Hol verdadero valor es p )
1/1 NTERVALOS DE CONFIANZAY
Estimadores
→
media :
poblacional cm ) ; muestra CX = )
→
varianza :
póeracional CO2) ; muestra C 5h -
i
= sí ) sn =/ a
°
si se sacan estimadores puntuales de varias muestras ; el promedio se aproxima al poblacional
Intervalos de confianza
→
intervalo con probabilidad específica de incluir el valor real
→ J conocida :
X I 2 YA i nivel de confianza 95% 1=0.05
2 área distribución
° =
valor de z que proporciona un de x o XI 2 en normal
→ unilateral : X la 13 ) ; bilateral : dia ( =

IF )
o × =
. lo X 12 = . 05 Z x 12 =
1 .
64
°
X =
. O 5 X 1 2
=
0 .
025 Z X 12 = / .
9 6 O
•
×
=
0.01 X 12 = 0 . 005 ZX 12 = 2. 57 lo
"
→
en ancho del intervalo de confianza
=
ZZ 15h
Ejemplo :
9 6
→
Para 95.1 . bilateral 2 =L -
P C- 96 C
1.96) www.
EI:[
•
I. a 2 = O . 95 "
: : ¥ . .
. ÷. .
% .
→ s
O desconocida :
E I t Jn
# #
n = 7 n = 30
z
}?I÷;I Interior
°
derenaiendoauvonoraen t
n > 30 se puede usar Z

para
11 PRUEBA DE HIPÓTESIS 11
→ declaración de algún aspecto de la población
Ho hipótesis propuesta)
°
= nula C NO rechaza la
o
H ,
=
hipótesis alternativa ( rechaza la propuesta)
→
p
-
valor :
encontrar la probabilidad de la estadística
°
si el p
-
valor es menor a l nivel de significancia ( I -
n -
confianza)
→
errores :
Ho es cierta Hr es cier ta
No se redraró Ho no hay er ror Error tipo ll ( R )

se secharó Ho Error tipo I (a) No hay er ror

Estadística

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística

Cargado por

Copyright:

Formatos disponibles

µ ESTADISTICA DESCRIPTIVA Y

clasificación y representación de data

Cvcrrtil inferior 25.1

1) Identificar y refinar la pregunta

y comparar con expectativas

5) Comunicar los resultados la data

el resultado es un hecho un atributo de la data analizada

relacionado con otro

causal : un una variable representa un cambio en algún aspecto

→ análisis puede responder varias

viable , debe poder responderse ,

las cualidades y diversidad que se busca

→ Error probable y estándar

→ Es necesario el error estadístico para conocer la presición y confiabilidad

→ la causalidad suele ser

→ Mal uso de estadísticas

corroborar datos crudos analizados Cavsencia de datos)

semántica sin base

datos característica (variable)

Relación entre variables

Estrategias y principios de muestras

→ Estudio retrospectivo : recolectan datos después del evento

④ bloquear : variables que influyan

diagrama de Venn P (A)

si AEB ; PCBIA) = PCB ) -

PCANB ) = PCA ) XPCB)

PCA) PC B) x PCAIB) ) PCAIB )

-52×2×-50 Cda permutaciones)

11 VARIABLES ALEATORIAS DISCRETAS 11

' ' ' "

→ Función de distribución acumulativa : FCXI =P CX Ex) = [ PCX =

cada intento la proto de constante ( p)

Distribución uniforme discreta

→ función acumulativa : Fcx) =

° X cuenta el número de veces

Distribución binomial negativa

tamaño ~ . Van X cuenta en número de unidades tipo A

nlrn ) ( Till II)

µVARIABLES ALEATORIAS CONTINUAS µ

f! ) dx PCOEXE b) Fcb ) Ela)

años es l a misma que de un o nuevo dure t años

→ unilateral : X la 13 ) ; bilateral : dia ( =

n > 30 se puede usar Z

No se redraró Ho no hay er ror Error tipo ll ( R )

También podría gustarte