Está en la página 1de 12

µ ESTADISTICA DESCRIPTIVA Y

clasificación y representación de data



Cualitativa :
Información categórica
°
Nominal : modalidades no numéricas sin criterio de orden

|
a

°
Ordinal : modalidades no numéricas con criterio de orden


Cuantitativa : información numérica ; medible
y
contable

°
Discreta : tiene valores numéricos exactos
°
Continua :
puede tomar cualquier valor en un intervalo real -


población todos los miembros de un definido a evaluar
grupo
:


Muestra : una parte de la población
°
Aleatorio simple : todos tienen la misma probabilidad de ser
elegidos
°
sistemática : aleatorio organizado
°
Estratificada : se divide en
grupos con características similares

Tipos de gráficos
Histograma

:
Para información continua ,
se hace una tabla de frecuencia agrupada
de las barras la frecuencia
°

Areas proporcionales a

si anchos no son
iguales en los
grupos se usa densidad de frecuencia
densidad de frecuencia =
frecuencia
tamaño de clase


polígono de frecuencia : para presentar información recolectada en clases

°
Se patea el punto medio de una ciase y su frecuencia

Frecuencia acumulada :
se suman las
frecuencias en cada clase

Medidas de tendencia


Moda : el valor o clase más frecuente en la data


Media : forma común de medir la tendencia central

µ
=
Zf
n
°
me =
X NI si n es impar
2


Mediana : el valor medio cuando se organiza la data en Orden de tamaño

Xq
=
si por
Xq
°
me t
+ , n es

Medidas de dispersión 2-


Rango :
la diferencia entre el
mayor valor y el menor


cvartiles :
la media separa la data en dos mitades , esta la separa en cuartos

Cvcrrtil inferior 25.1


°
: .

°
cvavtit superior : 75%

rango intercvartil :
diferencia entre inferior y superior
'
02 Zfixi pí
?

Varianza : = Zficx ; -

µ)
=
-

-
-

n n


Desviación estándar : a-
=) pí
°

si la media mantiene
agrega una constante aumenta pero la a- se

si multiplica É
multiplican
°
se ; 0 se
y
// DATA SCIENCE µ
Epi Cycles of analysis

Proceso iterativo y no linear


Estudio : o
desarrollo de hipótesis y pregunta
°
diseño del proceso de recolección de data


análisis e interpretación de la data


Actividades principales :

1) Identificar y refinar la pregunta


2) Explorar la información a) tomar expectativas
3) Construir modelos estadísticos formales b) recolectar info .

y comparar con expectativas


4) Interpretar los resultados c) refinar las expectativas para coincidir con

5) Comunicar los resultados la data



Para definir expectativas se debe
investigar previamente

Recolectar información

Pregunta : buscar en literatura o
preguntarle a expertos


si expectativas y
data no coinciden : se cambian las expectativas

se cuestiona la data

La pregunta
→ 6 tipos de pregunta : o
descriptiva : resume las características de un
conjunto de información ,

el resultado es un hecho un atributo de la data analizada


y
°

explora tira :
se busca un
patrón o relación entre variables en la data

°
inferencia I : busca transferir los resultados de una prueba representativa a otra

Poblacion
predictiva averiguar si variable específico está
°
:
se enfoca en una
población o

relacionado con otro

si cambio en
°

causal : un una variable representa un cambio en algún aspecto


de una población ,
relación directa

°
Mecanística :
pregunta cómo

→ análisis puede responder varias


un
preguntas
Características de interés respondido

buena de ha si el marco es
una
pregunta : es
,
no se antes
,

viable , debe poder responderse ,


es
específica
µ HOWTOLIE WITH STATISTICS //
Capítulo 1


Manipulación de muestras


Importancia de muestra bien hecha : o aleatoria

°
de muchos sujetos
°
representativo (validez y generalización )
°
evadiendo conveniencia

problemas naturales


¿ Qué tan completa es la información metodológica
?


promedios : ¿ De qué ? , ¿ parámetros ? ¿frecuencias ?

Prácticas manipuati vas sobre las muestras para confundir la opinión pública

Resultado depende de la calidad de la muestra


Confiabilidad y validez dependen de la muestra

Capítulo 2

Diferentes tipos de promedio

Promedio da falsa impresión de la distribución de los sujetos

No se pueden obtener conclusiones sin información adicional : o
mediana

°
moda

Capítulo 3

Interpretación de gráficas
→ se
prioriza generar impacto en vez de presentar información real


e. j .
. sin números

sin
leyenda
°

°
sin nivel de significancia
°
sin
parámetros
→ calidad de muestra no depende de la cantidad de gente ,
sino de ser realmente representativa de

las cualidades y diversidad que se busca

niveles de
significancia
→ buen reporte muestra


atención 10 ( promedio )
"

normativo
"
con como la norma

Capítulo 4

→ Error probable y estándar

→ Es necesario el error estadístico para conocer la presición y confiabilidad



Algunos estudios no publican resultados al no ser favorables

Algunos repiten el estudio hasta obtener resultados favorables

→ error estándar =
resultados en importancia

Capítulos 5
y G

Imágenes y gráficas suelen usarse engañosamente

Deben ser
proporcionales la data
y coherentes con

Capítulos 7 y8


Correlación : muchas veces se asume una causalidad


relación # causalidad

→ la causalidad suele ser


manipulada

dos variables pueden ser causadas por un tercer factor (falacia post )
hoc

relación accidental entre variables

→ no se identifica causa o
efecto

correlación sin relación real


correlación asumida más allá de los datos

capítulos 9
y
lo

→ Mal uso de estadísticas


Representaciones gráficas deben guardar relación con los datos


Evitar la simplificación gráfica

Puntos importantes : o
contaminación consciente I inconsciente ; la confiabilidad depende también de

la fuente
°
número de participantes no es criterio de confiabilidad

corroborar datos crudos analizados Cavsencia de datos)


°

con

semántica sin base


°
:
pueden inducir interpretaciones erróneas ; extrapolaciones
real de datos
110 PEN INTRO STATISTICS 1)capitulo I
Matriz de datos


Parámetro :
medida que resume una característica de una
poblacion

promedio poblacional
°

°
O desviación estándar

.
P proporción poblacional

Estadístico : medida que resume una característica de la muestra

°
X promedio muestral

°
S desviación estándar muestral

°
F proporción muestra

datos característica (variable)



Matriz de :
filas =
elementos maestrales ; columna =

Tipos de variable


variables numéricas : se puede operar con esos datos


variables discretas : solo pueden ser ciertos valores
variable
/ \

variables continuas : pueden tomar cualquier valor en un
rango -
numéricas categóricas
-


variables categóricas : categorías ,
los valores posibles son los niveles
Ldiscretasjhcontinvasjlnominalesj@rdinalesj
°
cuando hay un orden son variables ordinales

°
sin orden son variables nominales

Relación entre variables


Gráfico de dispersión

variables asociadas : variables dependientes


asociación negativa :
hay una tendencia negativa
→ asociación positiva :
hay una tendencia positiva

variables no asociadas : variables independientes

variable exploratoria puede afectar a una variable de respuesta

Tipos de estudio


Estudio observacional : se recolecta data de una manera que no interfiere con como ocurre la data

°
suelen mostrar asociaciones pero no causas


Estudio experimental : tiene variante exploratoria y de respuesta
°
experimento aleatorio

Estrategias y principios de muestras

Población

:
grupo objetivo a analizar


la población
Muestra grupo pequeño que representa a
:


Evidencia anecdótica :
generaliza un caso


muestreo aleatorio la muestra al
: se
erige azar


taza de respuesta dar datos parciales
en encuestas una no alta
puede

muestreo de conveniencia :
individuos accesibles

Estudio observacional

variable de confusión : relacionada a ambas variables a evaluar


Estudio prospectivo : recolecta datos a medida que suceden los eventos

→ Estudio retrospectivo : recolectan datos después del evento


muestreo estratificado : divide en grupos con características similares
Estudio experimental

Diseño : ① controlar variables O diferencias

② aleatorización
③ replicar :
a más casos mejor se estima en efecto

④ bloquear : variables que influyan

11 PROBABILIDADES 11
Conceptos básicos

Probabilidad teórica : o
conjunto de todos los resultados posibles
= U

P (A)
NCAINCU)
=

PCA)
'

diagrama de Venn P (A)


→ I
En = -

°
mutuamente excluyentes (A y B no
pueden ser ambos verdaderos )
PCA n B) =
O

→ resultados posibles :
totalitarias
| x 2 × . . . X h


Propiedades : OEPCAIEZ
PCU ) =
z

PCAV B) =
PCA ) +
PCB ) -

PCAN B)

PCA )
'

PCA ) = I -

si AEB ; PCBIA) = PCB ) -

PCA)

Probabilidad experimental

frecuenciadeA-n.de
→ :
frecuencia relativa :

pruebas

Probabilidad B)
NCARBIIV

condicional : PCAI =

n CR )

si hay A , P de
p ( An B) =
PCAI B) XPCB)
R ?


Eventos independientes :
cuando no dependen del otro

PCAIB) = PCA )

PCAIB ) PCA )
'
=

PCA l B) PCA )
' '
=

PCANB ) = PCA ) XPCB)

PCAI
A PCA ) XPCA )
/

→ árbol PCA )
Diagrama de : Al

{
B

✓ A
B
PCR )
TB


Teorema de Bayes :
Para eventos mutuamente excluyentes
PCBI A) =
PCRNA ) = PC B) XPCAIB )
-

PCA) PC B) x PCAIB) ) PCAIB )


PCB
'
+ '
x
Permutaciones y combinaciones

Permutaciones :

n 5
ejemplo : 2 ,
3 ,
,

4- ×
→ 4 !

-4×-4×-4×-4
"
si se pueden → y
repetir

(I) objetos
= n

h -
K ! k que elegir


Combinaciones :

si
ejemplo : hay 52 cartas , cuantas 5 puedo elegir

-52×2×-50 Cda permutaciones)


opciones [ 52 ! = combinaciones

Orden [ ¥,

( I)
n objetos
=

K ! Cn K)
k Que elegir
!
-

11 VARIABLES ALEATORIAS DISCRETAS 11


Introducción

Experimento tiene valores discretos como resultados :
variables aleatorias discretas


los valores de entrada y salida se modelan a través de una función

Funciones

Función de distribución de probabilidad :
f 4) =P ( Xx) (asigna una probabilidad a cada valor)
° O EFCXIEI

°
[ f- ( x) =
1


Estas funciones se describen por características (parámetros)

°
media M ( valor esperado ECX)) :
M
=
Ex PCX =
)
x

' ' ' "


o
varianza o : 0-2=-2 (x -
M) PCX =
)
x
=
ECX ) -

ECX)

°
deviacioñ estándar o : UF

°
moda :
el máximo valor de fcx)

→ Función de distribución acumulativa : FCXI =P CX Ex) = [ PCX =


H
tcx

X , T X2
°
mediana mi = ; × , valor max .
para FCXDE 0.5 y xa valor min
para FCX a) 70.5

Bernouui

¿
prob P

× =

Mob I -


f. p.d :-P (1) =P j fs CO)
=
1 P
-

:[ q
→ O
t.ro
-

. "" × < O


E =p


var IX ) =p CI p)
-
Distribución binomial

Hay un número de intentos n

°
son independientes y
ocurren
bajo las mismas condiciones

°
cada intento tiene 2 resultados ( EXITO o FRACASO)

°
para cada intento la pron de éxito es constante (p)

cada intento la proto de constante ( p)


°

para fracaso es r
-

(7) p
"
-
×
"

f. p.m PCX ) p) 2
=
( o I

n o
: = = i -
x
×
. . .

, , , ,

(F) =
n Cx


X es el número de intentos exitosos

X Bcn p)
°
n ,

[ I ( I) pkcr
X te
"
-


f. d. a
:
f
=
pcxsx) -

p)


parámetros :

ECX)
°
=
np

Var CX )
.
=
npq

a) ejemplo :
Y =

fusibles defectuosos a =
5 ; p
=
o .
05

PCX » I ) =
y _

pcx a =
y -

PCX =
o
) =
1 -
( ?) p
°
( i -
PP =
1- 0.952

=
0.2262191

Distribución uniforme discreta



modela fenómenos equri probables

Yn

PCX =
) si
pcx ) x
X setcx )
= =
e

si es como
x C1

¥1
0 si

→ función acumulativa : Fcx) =


PCXEN =
xe [ i. M .

si x su


parámetros :

E CX ) EL
° =

°
Var CX ) = nt 12 -

12

Distribución geométrica
experimento primer éxito

Bernoulli hasta obtener

× -
"
→ d. PCX ) ( p)
I
f.
=
I × = 2
p
=
p
: x
-

, .
. .
.

° X cuenta el número de veces


que se repite el experimento

E Í '
-
'

f. d. FCX ) = CI p) p
-

a : ,


parámetros :

°
ECX ) =
pt
Var ( x)
°
=
2
p

Distribución binomial negativa



experimento Bernouui hasta outener éxito número r

II ) " "
'
d. ( P) r +2 .
pcy ) p r +
p
i
i
y
: = r
f.
=
-
→ ,
.
.

,
.


parámetros :


ECX ) =
tp
✓ ( I -
p)
Van cx)
=p
°
2
Distribución hipergeométrica

Población tamaño N dividida en dos ; r unidades tipo A y N
-
r
tipo B . se extrae una muestra

tamaño ~ . Van X cuenta en número de unidades tipo A


f. d. p :
pcx ) = k)(Nn


parámetros :

°
E ( x) =
EN

varcxl
-

nlrn ) ( Till II)

Distribución de Poisson

Independencia de incrementos de tiempo disjuntos : la probabilidad es independiente a cuando ocurra el evento


los eventos no ocurren en grupos

11
muy pequeño

tasa de llegada constante ( X) cambia d =
n -

P i n es
grande
; no
muy y p
" ×

f. p.m :
PCX =
x ) =
e- y

F.
[ Ío
'


f. d. a : Fcx ) =
PCX ex)
=

éttkk !


parámetros :
° ECX) =
y

°
Var CX ) =
y

µVARIABLES ALEATORIAS CONTINUAS µ



Toma valores en un espectro muestral
"


f. d. a :
F ( x) =
PCXSX) =
f. astltldt

)
° =
I
limx →
¿ Of FLX) EI
co

° lim × →
= o

d. p
d
→ f .
: f ( ×) =
dx

°
f (x ) s, O

f Íjfcxsdx =
I

f! ) dx PCOEXE b) Fcb ) Ela)


°
=
f (
-

=
x

°
PCX =
a) =
faa fcxldx = O


parámetros :

CECX) )= f xfcx ) DX
°

M
a

°
mediana =
SI a
fcx ) dx = tz Cm )

°
Van cxl =
[( x -
in )
?
fcx) dx

Modelo uniforme

¢×
→ Cx ) si xa c B
f. d. p f-
= = x

otros casos

o x c X

IÍÉ
-

a. =
FCN dx

|
f.
=
a =

¡ integran impropias

SI adx
-


×

"

f?
-

parámetros f-

|

x dx = -

Ecxtf ? x
En dx =
ata Iinyzjrt =
OH

°
Van CX ) =
¥2
12
-
Modelo exponencial

en parámetro de l a exponencial tiene unidades de tiempo al inverso
"

{
si xz

f. d. p .
=
f (× ) =
o

O si x a C

- X X
| e

{
x zo
-

-
"

f .

p .
a = FCX) =
de dx =

o × < a


ejemplo : Propiedad de perdida de memoria :

°
si X representa la vida Útil de un componente la proa de que un componente de s años dure otros t
,

años es l a misma que de un o nuevo dure t años

Modelo normal
-
-

4¥12
f. d f (x ) = e 2 02 (m d)
✓Ir , media ;
=
→ E
= s
p
=
.
.

→ estándar 0=1
todas se pueden relacionar a una campana µ
= o

°
Z ~ N CO , 1)

X n N (M ,
E)

Z
°
× M
-
-

11PRUEBAS DE HIPÓTESIS 11
Hipótesis estadística

poleracioñ

declaración sobre algún aspecto de l a

° Ho :
declaración verdadera

Hr declaración falsa
°
:


prueba de hrpátesis específica para que valores de X ,
no se rechaza

Van X
→ =
estadístico de la prueba


rango de valores para rechazar
Ho =
region de rechazo de l a prueba

→ errores :

°
× =
PC error tipo I ) =
rechazar Ho cuando es verdadera

°
B =
PC er ror tipo I) =
rechazar H , cuando es verdadera

°
y Cp )
=
PC la prueba rechaza Hol verdadero valor es p )
1/1 NTERVALOS DE CONFIANZAY
Estimadores


media :
poblacional cm ) ; muestra CX = )


varianza :
póeracional CO2) ; muestra C 5h -
i
= sí ) sn =/ a

°
si se sacan estimadores puntuales de varias muestras ; el promedio se aproxima al poblacional

Intervalos de confianza

intervalo con probabilidad específica de incluir el valor real

→ J conocida :
X I 2 YA i nivel de confianza 95% 1=0.05

2 área distribución
° =
valor de z que proporciona un de x o XI 2 en normal

→ unilateral : X la 13 ) ; bilateral : dia ( =


IF )

o × =
. lo X 12 = . 05 Z x 12 =
1 .
64

°
X =
. O 5 X 1 2
=
0 .
025 Z X 12 = / .
9 6 O


×
=
0.01 X 12 = 0 . 005 ZX 12 = 2. 57 lo

"

en ancho del intervalo de confianza
=
ZZ 15h

Ejemplo :

9 6

Para 95.1 . bilateral 2 =L -

P C- 96 C
1.96) www.
EI:[

I. a 2 = O . 95 "

: : ¥ . .
. ÷. .
% .

→ s
O desconocida :
E I t Jn

# #
n = 7 n = 30
z

}?I÷;I Interior
°
derenaiendoauvonoraen t

n > 30 se puede usar Z


para

11 PRUEBA DE HIPÓTESIS 11
→ declaración de algún aspecto de la población
Ho hipótesis propuesta)
°
= nula C NO rechaza la

o
H ,
=
hipótesis alternativa ( rechaza la propuesta)


p
-
valor :
encontrar la probabilidad de la estadística

°
si el p
-
valor es menor a l nivel de significancia ( I -

n -

confianza)


errores :

Ho es cierta Hr es cier ta

No se redraró Ho no hay er ror Error tipo ll ( R )


se secharó Ho Error tipo I (a) No hay er ror

También podría gustarte