Está en la página 1de 36

Estadstica: introduccin

Estadstica
} Manera

para qu?

de organizar los datos para que tengan

sentido

file://localhost/Users/leonororozco/Documents/CURSOS/ESTADSTICA 2015/Greenberg 1963.docx

} Argumento

cuantitativo para sustentar


nuestras hiptesis
file://localhost/Users/leonororozco/Documents/CURSOS/ESTADSTICA 2015/Relacin entre la posicin del adjetivo y lectura especfica y
genrica.docx

Poblacin
}

Conjunto de datos, de diversa naturaleza


} Estudiantes
} Adverbios en -mente
} Construcciones para marcar futuro

Estadstica descriptiva
}

Describe cmo se comportan los datos de una muestra,


por ej. cuntos casos de futuro perifrstico/ morfolgico
se documentan en un conjunto de entrevistas, cuntas
veces se encontr el orden Adj+N y cuntas N+ adj

No es posible hacer generalizaciones ms all de la


muestra

file://localhost/Users/leonororozco/Documents/CURSOS/ESTADSTICA 2015/porcentajes datos historia de las peras.docx

Qu es una variable
} Atributo

de una persona o de un objeto que vara


de una persona a otra o de un objeto a otro

} Niveles
}
}

o variantes:

debe haber al menos dos


Ej. posibles realizaciones de /s/ en coda en espaol

} costa
} [ksta]
} [khta]
} [kta]

Tipos de variables segn las escalas de


medicin
VARIABLES CATEGRICAS (o discretas) (se analizan con
pruebas no paramtricas)
} Variables nominales
} Presencia/ausencia (+/-)
} Los niveles (variantes) no estn jerarquizados
} Pueden clasificarse en ms de dos niveles, por ej.
} Consonantes resonantes vs. obstruyentes
} Consonantes oclusivas, fricativas, africadas, nasales, etc
}

Variables ordinales
} Estn jerarquizadas
} La distancia entre puntos NO tiene un valor equivalente
} Por ej. respuestas a prueba de actitudes lingsticas
(completamente de acuerdo, moderadamente de acuerdo, ni
de acuerdo ni en desacuerdo)

Variables continuas ) (se analizan con


pruebas paramtricas)
}

Intervalo
}
}
}

Estn jerarquizadas
La distancia entre puntos tiene un valor equivalente
No hay un cero absoluto (p. ej. temperatura).

Razn o relacin
}
}
}

Estn jerarquizadas
S hay un cero absoluto (significa ausencia de la caracterstica
analizada)
La distancia entre puntos tiene un valor equivalente ej. milisegundos,
hertz, decibeles
NOTA: intervalo y razn o relacin suelen agruparse (ambas son
continuas); en SPSS se les llama variables de escala.

VARIABLE: bilingismo organizada en


diferentes escalas
} Variable
}

nominal

bilinge/ no bilinge

} Variable

ordinal

Poco bilinge
} Muy bilinge
} Completamente bilinge
}

} Variable
}

de intervalo

Nivel de bilingismo medido a travs de una prueba

Tipos de variables
} Dependiente
}

Es el fenmeno que se analiza, la variacin se


explicar por medio de otras variables

} Independientes
}

Aquellas que el investigador asume que inciden en


la variacin del fenmeno analizado

} Variables
}

o explicativas

ocultas

Son aquellas que el investigador no incluye en el


anlisis pero que pueden influir en los resultados

Cmo organizar datos


}

Frecuencia absoluta (F)


}

Frecuencia relativa o proporcin


}

indica el nmero de ocurrencias de un evento en un conjunto de


datos. La suma total de las ocurrencias de todos los eventos es N

Si el total de datos conforma una unidad, entonces la frecuencia


relativa es una fraccin de esa unidad
_f_
N
La suma de todas las frecuencias relativas debe ser igual a 1

Porcentajes
}

Igual que la frecuencia relativa pero la unidad de medida es igual a


100

Medidas de tendencia central


}

Sirven para describir un grupo al hacer afirmaciones del


tipo el promedio, lo tpico, lo ms comn.

Media (aritmtica) : es el promedio de los datos.

Mediana: Se organizan los datos del menor al mayor, es el


valor que se encuentra en medio de los datos.

Moda: es el valor que se repite ms veces.

Desviacin estndar

Muestra el promedio de variabilidad


de todas las puntuaciones a partir
de la media

Ejemplo de datos en excel


}

file://localhost/Users/leonororozco/Documents/CURSOS/
ESTADSTICA 2015/varianza y desviacin.xlsx

Organizar un conjuntos de datos


}
}
}
}

Se agrupan en intervalos de clase


Para hacer intervalos se calcula el rango de los datos
Rango = mximo mnimo
Se grafican en un histograma

Se pidi a un grupo de hablantes afroamericanos que


leyeran una lista de 250 items lxicos que contenan la
terminacin -ing (i.e. surfing, running).
} La siguiente lista presenta la frecuencia en que la nasal se
realiz como alveolar [n], se omiten los casos en que la
nasal se realiz como velar []
}

Resultados 108 mujeres


intervalos de clase Frecuencia Frecuencia Frecuencia Frecuencia relativa
relativa
acumulativa acumulativa
110-124
2
0.02
2
0.02
125-139
2
0.02
4
0.04
140-154
11
0.10
15
0.14
155-169
12
0.11
27
0.25
170-184
19
0.18
46
0.43
185-199
23
0.21
69
0.64
200-214
17
0.16
86
0.80
215-229
15
0.14
101
0.94
230-244
6
0.06
107
0.99
245-250
1
0.01
108
1.00

Histograma
25
20
15
10
5
0
110-124125-139140-154155-169170-184185-199200-214215-229230-244245-259

Distribucin normal (la media y la mediana


tiene el mismo valor)

Sesgos en la distribucin

Sesgo positivo

Cuando el sesgo es negativo, la media suele ser ms alta


que la mediana

Curtosis

Distribucin normal
En una distribucin normal de media () y desviacin
estndar ()
} a)
} El 68% de las observaciones se encuentran entre
1
} El 95% de las observaciones se encuentran entre
2
} El 99% de las observaciones se encuentran entre
3
b) El histograma de los datos es simtrico
}

Distribucin normal

c) La media de medias es muy cercana la de la poblacin (no se


sabe, se asume)
A este valor se le conoce como error estndar
__
N
d) el error estndar de la media ser menor cuanto mayor es el
tamao de la muestra o el nmero de muestras
Ej. si se tiene una de 1.71 en una muestra
Al tener 10 muestras es de 0.54 porque 1.71
10
Al tener 100 muestras es 0.17 porque

1.71
100

Distribucin de la poblacin

Distribucin de medias

Medidas estandarizadas para 95%

Estandarizacin
A partir de distribucin normal, hay una tabla de distribucin normal
con resultados estandarizados

nivel de
confianza

rea de la cola

valor
estandarizado
(z)

90%
95%
99%

.05
.025
.005

1.64
1.96
2.57

}
}
}

}
}

Para conocer donde se encuentra la media verdadera


(), se usa la siguiente frmula
Para 95% de confianza 1.96 (__)
N
Ejemplo, dada una media de 3.45 ms. y una desv.
estndar de 0.84 ms., con un N=100 vocales
3.45 1.96 ( .84)
100
De modo que la media verdadera se ubica entre 3.45
0.1646
NOTA: Al aumentar la probabilidad los lmites son
tambin ms amplios (menos explicativos)
Al incrementar el tamao de la muestra disminuye el
error estndar

Prueba de estandarizacin
(score z)
La puntuacin z es la desviacin entre cualquier valor de
la muestra y la media de la muestra. Se expresa como un
mltiplo de la desviacin estndar.
} X= cualquier valor de la variable
} _
} X= la media
} S= la desviacin estndar
}

}
}
}

}
}
}
}

se pueden hacer una serie de clculos con las tablas de


estandarizacin
Por ejemplo, proporcin (%) de la poblacin en que se
esperara ocurra cierto evento, a partir de una muestra.
Qu proporcin de la poblacin de vocales se espera
que est por debajo de los 3 ms. en un conjunto de datos
con una media de 3.45 y una desv. est. de 0.84
Z = 3-3.45 = -0.54
0.84
Se interpreta como que el valor de 3 ms. se encuentra a
0.54 desv. estndar por debajo de la media.
Se busca en la tabla de valores para z o distribucin
normal, 0.54 es igual a 0.2946, entonces 29.46%, es
decir, que ese porcentaje de la poblacin se ubica desde
el valor menor hasta 3 ms.

Qu proporcin de la poblacin de vocales se


espera que est por arriba de los 4 ms.?
} Z = 4-3.45 = 0.66
}
0.84
} Se interpreta como que el valor de 4 ms., se
encuentra a 0.66 desv. estndar por arriba de la
media.
} Se busca en la tabla de valores para z o distribucin
normal, 0.66 es igual a 0.2546, entonces 25.46%, es
decir, que ese porcentaje de la poblacin se ubica
desde el valor mayor y hasta 4 ms.
} en qu proporcin de casos la duracin de una
vocal ser de entre 3 y 4 ms.?
} Es igual a 100 - 29.46 25.46 = 45.08 %
}

Frmula para variables nominales


En una muestra de 500 lenguas, 150 son SVO
es posible que ocurra as para la poblacin? Con qu nivel de
confianza?
En este caso se calcula el error estndar con la siguiente frmula
p (1-p)
N
.30 (1-.30)
500
.30 (.70) = 0.02 o 2%
500
Entonces con una confianza de 95%
Proporcin de la muestra (1.96 x error estndar)
.30 (1.96 x 0.02)
.30 0.04 = 0.26 a 0.34
Con 95% de confianza se dice que la proporcin de lenguas SVO es
de entre 26 y 34%

Referencias bibliogrficas:
}

Todas las figuras fueron tomadas de Butler 1985, Woods,


Fletcher y Hughes 1986 y Llisterri 1991.

También podría gustarte