Está en la página 1de 11

Estadstica

rama de las matemticas que se ocupa de reunir, organizar y analizar datos numricos y que ayuda a resolver
problemas como el diseo de experimentos y la toma de decisiones.
Muestreo
en estadstica, proceso por el cual se seleccionan los individuos que formarn una muestra.
Para que se puedan obtener conclusiones fiables para la poblacin a partir de la muestra, es importante tanto
su tamao como el modo en que han sido seleccionados los individuos que la componen.
El tamao de la muestra depende de la precisin que se quiera conseguir en la estimacin que se realice a
partir de ella. Para su determinacin se requieren tcnicas estadsticas superiores, pero resulta sorprendente
cmo, con muestras notablemente pequeas, se pueden conseguir resultados suficientemente precisos. Por
ejemplo, con muestras de unos pocos miles de personas se pueden estimar con muchsima precisin los
resultados de unas votaciones en las que participarn decenas de millones de votantes.
Para seleccionar los individuos de la muestra es fundamental proceder aleatoriamente, es decir, decidir al azar
qu individuos de entre toda la poblacin forman parte de la muestra.
Si se procede como si de un sorteo se tratara, eligiendo directamente de la poblacin sin ningn otro
condicionante, el muestreo se llama aleatorio simple o irrestrictamente aleatorio.
Cuando la poblacin se puede subdividir en clases (estratos) con caractersticas especiales, se puede muestrear
de modo que el nmero de individuos de cada estrato en la muestra mantenga la proporcin que exista en la
poblacin. Una vez fijado el nmero que corresponde a cada estrato, los individuos se designan
aleatoriamente. Este tipo de muestreo se denomina aleatorio estratificado con asignacin proporcional.
Las inferencias realizadas mediante muestras seleccionadas aleatoriamente estn sujetas a errores, llamados
errores de muestreo, que estn controlados. Si la muestra est mal elegida no es significativa se producen
errores sistemticos no controlados.
Variable
cada una de las letras que se utilizan en lgebra en expresiones algebraicas, polinomios y ecuaciones, para
designar nmeros desconocidos. Vase Indeterminada.
Tambin se llaman variables a las letras (x, y) que se relacionan mediante las funciones.
Variable discreta
Los distintos valores que puede tomar un carcter cuantitativo configuran una variable estadstica. La variable
estatura, en cierta poblacin estadstica, toma valores en el intervalo 147205; y la variable nmero de
hermanos toma los valores 0, 1, 2, 3, 4, 5, 6, 7 y 8. Una variable estadstica como esta ltima es discreta, ya
que slo admite valores aislados. Una variable estadstica es continua si admite todos los valores de un
intervalo, como ocurre con la estatura.
Variable continua
1
Un carcter puede ser cuantitativo si es medible numricamente o cualitativo si no admite medicin numrica.
El nmero de hermanos y la estatura son caracteres cuantitativos mientras que el sexo y el estado civil son
caracteres cualitativos.
Los distintos valores que puede tomar un carcter cuantitativo configuran una variable estadstica. La variable
estatura, en cierta poblacin estadstica, toma valores en el intervalo 147205; y la variable nmero de
hermanos toma los valores 0, 1, 2, 3, 4, 5, 6, 7 y 8. Una variable estadstica como esta ltima es discreta, ya
que slo admite valores aislados. Una variable estadstica es continua si admite todos los valores de un
intervalo, como ocurre con la estatura.
Muestra de poblacin
seleccin de un conjunto de individuos representativos de la totalidad del universo objeto de estudio, reunidos
como una representacin vlida y de inters para la investigacin de su comportamiento. Los criterios que se
utilizan para la seleccin de muestras pretenden garantizar que el conjunto seleccionado represente con la
mxima fidelidad a la totalidad de la que se ha extrado, as como hacer posible la medicin de su grado de
probabilidad.
La muestra tiene que estar protegida contra el riesgo de resultar sesgada, manipulada u orientada durante el
proceso de seleccin, con la finalidad de proporcionar una base vlida a la que se pueda aplicar la teora de la
distribucin estadstica.
Se distinguen varios tipos de muestras: la muestra simple, en la que cada individuo del universo considerado
tiene las mismas probabilidades de resultar elegido; la muestra estratificada, si la seleccin se realiza sobre
grupos o estratos diferentes; y, finalmente, la muestra por agrupamientos, que se basa en los segmentos o
asociaciones organizadas dentro del universo considerado.
ESTADSTICA DESCRIPTIVA
La estadstica descriptiva analiza, estudia y describe a la totalidad de individuos de una poblacin. Su
finalidad es obtener informacin, analizarla, elaborarla y simplificarla lo necesario para que pueda ser
interpretada cmoda y rpidamente y, por tanto, pueda utilizarse eficazmente para el fin que se desee. El
proceso que sigue la estadstica descriptiva para el estudio de una cierta poblacin consta de los siguientes
pasos:
Seleccin de caracteres dignos de ser estudiados.
Mediante encuesta o medicin, obtencin del valor de cada individuo en los caracteres seleccionados.
Elaboracin de tablas de frecuencias, mediante la adecuada clasificacin de los individuos dentro de cada
carcter.
Representacin grfica de los resultados (elaboracin de grficas estadsticas).
Obtencin de parmetros estadsticos, nmeros que sintetizan los aspectos ms relevantes de una distribucin
estadstica.
ESTADSTICA INFERENCIAL
La estadstica descriptiva trabaja con todos los individuos de la poblacin. La estadstica inferencial, sin
2
embargo, trabaja con muestras, subconjuntos formados por algunos individuos de la poblacin. A partir del
estudio de la muestra se pretende inferir aspectos relevantes de toda la poblacin. Cmo se selecciona la
muestra, cmo se realiza la inferencia, y qu grado de confianza se puede tener en ella son aspectos
fundamentales de la estadstica inferencial, para cuyo estudio se requiere un alto nivel de conocimientos de
estadstica, probabilidad y matemticas.
Estudio Estadstico
La materia prima de la estadstica consiste en conjuntos de nmeros obtenidos al contar o medir elementos. Al
recopilar datos estadsticos se ha de tener especial cuidado para garantizar que la informacin sea completa y
correcta.
El primer problema para los estadsticos reside en determinar qu informacin y en que cantidad se ha de
reunir. En realidad, la dificultad al compilar un censo est en obtener el nmero de habitantes de forma
completa y exacta; de la misma manera que un fsico que quiere contar el nmero de colisiones por segundo
entre las molculas de un gas debe empezar determinando con precisin la naturaleza de los objetos a contar.
Los estadsticos se enfrentan a un complejo problema cuando, por ejemplo, toman una muestra para un sondeo
de opinin o una encuesta electoral. El seleccionar una muestra capaz de representar con exactitud las
preferencias del total de la poblacin no es tarea fcil.
Para establecer una ley fsica, biolgica o social, el estadstico debe comenzar con un conjunto de datos y
modificarlo basndose en la experiencia. Por ejemplo, en los primeros estudios sobre crecimiento de la
poblacin, los cambios en el nmero de habitantes se predecan calculando la diferencia entre el nmero de
nacimientos y el de fallecimientos en un determinado lapso. Los expertos en estudios de poblacin
comprobaron que la tasa de crecimiento depende slo del nmero de nacimientos, sin que el nmero de
defunciones tenga importancia. Por tanto, el futuro crecimiento de la poblacin se empez a calcular
basndose en el nmero anual de nacimientos por cada 1.000 habitantes. Sin embargo, pronto se dieron cuenta
que las predicciones obtenidas utilizando este mtodo no daban resultados correctos. Los estadsticos
comprobaron que hay otros factores que limitan el crecimiento de la poblacin. Dado que el nmero de
posibles nacimientos depende del nmero de mujeres, y no del total de la poblacin, y dado que las mujeres
slo tienen hijos durante parte de su vida, el dato ms importante que se ha de utilizar para predecir la
poblacin es el nmero de nios nacidos vivos por cada 1.000 mujeres en edad de procrear. El valor obtenido
utilizando este dato mejora al combinarlo con el dato del porcentaje de mujeres sin descendencia. Por tanto, la
diferencia entre nacimientos y fallecimientos slo es til para indicar el crecimiento de poblacin en un
determinado periodo de tiempo del pasado, el nmero de nacimientos por cada 1.000 habitantes slo expresa
la tasa de crecimiento en el mismo periodo, y slo el nmero de nacimientos por cada 1.000 mujeres en edad
de procrear sirve para predecir el nmero de habitantes en el futuro.
Media
nmero calculado mediante ciertas operaciones a partir de los elementos de un conjunto de nmeros, x1,
x2,,xn, y que sirve para representar a ste. Hay distintos tipos de medias: media aritmtica, media geomtrica
y media armnica.
La media aritmtica es el resultado de sumar todos los elementos del conjunto y dividir por el nmero de
ellos:
La media geomtrica es el resultado de multiplicar todos los elementos y extraer la raz nsima del producto:
3
La media armnica es el inverso de la media aritmtica de los inversos de los nmeros que intervienen:
Por ejemplo, para el conjunto de valores 4, 6, 9:
En estadstica, la media es una medida de centralizacin. Se llama media de una distribucin estadstica a la
media aritmtica de los valores de los distintos individuos que la componen.
Mediana
en estadstica, una de las medidas de centralizacin. Colocando todos los valores en orden creciente, la
mediana es aqul que ocupa la posicin central.
En geometra, cada uno de los tres segmentos rectilneos que unen un vrtice de un tringulo con el punto
medio del lado opuesto.
Moda (matemticas)
en estadstica, el valor que aparece con ms frecuencia en un conjunto dado de nmeros. Es una de las
medidas de centralizacin. En el conjunto {3,4,5,6,6,7,7,7,10,13} la moda es 7. Si son dos los nmeros que se
repiten con la misma frecuencia, el conjunto tiene dos modas. Otros conjuntos no tienen moda.
Distribucin de Frecuencias:
tabla de datos, referentes a una variable en cuestin, en la que se exponen varias categoras de la misma, junto
con sus frecuencias o nmero de veces que se repite en la muestra (puede expresarse tambin en porcentaje).
La tabla puede tener diferentes formatos y es llamada tabla de frecuencias. Cuando se comparan la frecuencia
de dos variables, se compone una tabla de contingencia, en la cual una variable ocupa las filas y la otra las
columnas.
Ejemplo de una tabla de frecuencias simple de la variable COMA, en sus categoras: Ausente y Presente.
(SPSS).
4
Grfico de barra
grfico de pastel
Si se unen los puntos medios de la base superior de los rectngulos se obtiene el polgono de frecuencias.
5
Los histogramas
se utilizan para representar tablas de frecuencias con datos agrupados en intervalos. Si los intervalos son todos
iguales, cada uno de ellos es la base de un rectngulo cuya altura es proporcional a la frecuencia
correspondiente. El histograma
Medidas de dispersin
parmetros estadsticos que miden cmo de diseminados se encuentran los datos de una distribucin. Los ms
utilizados se refieren al grado de lejana de los datos respecto a la media y son la desviacin media, la
varianza, la desviacin tpica y el coeficiente de variacin.
La desviacin media, D.m., es un promedio de los valores absolutos de las desviaciones, |xi |, de cada
elemento, xi, de la distribucin respecto a su media, :
Por ejemplo, en la distribucin 4, 6, 6, 7, 9, 11, 13, cuya media es 8, la desviacin media es:
La varianza, V, es el promedio de los cuadrados de las desviaciones, (xi )2, de cada elemento, xi, respecto
a la media, :
La frmula anterior es equivalente a esta otra:
que resulta ms cmoda de aplicar, sobre todo cuando la media, , no es un nmero entero.
En la distribucin 4, 6, 6, 7, 9, 11, 13, de media 8, la varianza es:
Aplicando la segunda frmula se obtiene, obviamente, el mismo resultado:
6
La desviacin tpica o desviacin estndar
es la raz cuadrada de la varianza:
La razn de ser de este parmetro es conseguir que la medida de dispersin se exprese en las mismas unidades
que los datos a los que se refiere. Por ejemplo, en una distribucin de estaturas en la que los datos estn dados
en centmetros (cm), la media viene dada en centmetros, pero la varianza en centmetros cuadrados (cm2).
Para evitar este inconveniente se calcula su raz cuadrada, obtenindose as la desviacin tpica en
centmetros.
El par de parmetros formado por la media y la desviacin tpica (, ) aporta una informacin
suficientemente buena sobre la forma de la distribucin.
El coeficiente de variacin, C.V., es el cociente entre la desviacin tpica y la media de la distribucin:
Este parmetro sirve para relativizar el valor de la desviacin tpica y as poder comparar la dispersin de dos
poblaciones estadsticas con gamas de valores muy discretas. Por ejemplo, si en una compaa mexicana los
salarios de los empleados tienen una media 1 = 7.000 pesos y una desviacin tpica 1 = 500 pesos y en otra
empresa espaola la media de los salarios es 2 = 200.000 pesetas y la desviacin tpica 2 = 40.000 pesetas,
para comparar la dispersin de salarios se recurre al coeficiente de variacin:
C.V.1 = 500/7.000 = 0,07
C.V.2 = 40.000/200.000 = 0,2
Se aprecia as que en la primera compaa los salarios tienen menor dispersin que en la segunda.
Otras medidas de dispersin son el recorrido y el recorrido intercuartlico.
El recorrido es la diferencia entre los valores mayor y menor de la distribucin. Indica, pues, la longitud del
tramo en el que se hallan los datos. Tambin se llama rango.
El recorrido intercuartlico es la diferencia, Q3 Q1 , entre el cuartil superior, Q3, y el cuartil inferior, Q1. El
par de parmetros formado por la mediana, Me, y el recorrido intercuartlico, Q3 Q1, proporciona una buena
informacin sobre la forma de la distribucin.
Medidas de centralizacin
parmetros estadsticos que marcan, bajo distintos criterios, los valores en torno a los cuales se disponen los
datos de una distribucin. Tambin se llaman medidas de tendencia central, pues entorno a ellas se disponen
los elementos de las distribuciones. Las ms importantes son la media, la mediana y la moda.
7
La media aritmtica, promedio o, simplemente, media, de los valores x1, x2,, xn, se designa por y se obtiene
as:
Por ejemplo, si las edades de 7 nios son 4, 6, 6, 7, 9, 11 y 13, la media es:
La mediana, Me, es un nmero que supera a la mitad de los valores de la distribucin y es superada por la otra
mitad.
Si el nmero de trminos de la distribucin es impar, la mediana es el valor del individuo que ocupa el lugar
central cuando los datos estn ordenados de menor a mayor. Por ejemplo, en la distribucin de edades 4, 6, 6,
7, 9, 11, 13, la mediana es Me = 7, pues hay tres datos menores que 7 y tres mayores que 7.
Si el nmero de trminos de la distribucin es par, la mediana es el valor medio de los datos centrales. As, en
la distribucin 4, 6, 6, 7, 8, 9, 11, 13, los valores 7 y 8 son los centrales. La mediana es Me = 7,5.
La moda, Mo, de una distribucin estadstica es el valor que ms se repite. Una distribucin puede tener ms
de una moda o no tener ninguna. En la distribucin 4, 6, 6, 7, 9, 11, 13, la moda es Mo = 6.
Grfico Lineal de Perfil
en el siglo XIX, el matemtico alemn Johann Benedict Listing demostr que un grfico lineal con 2n vrtices
impares se puede dibujar utilizando n trazos continuos, si cada uno de ellos comienza y termina en un vrtice
impar.
Frecuencias Matemticas
Frecuencia (matemticas), en estadstica, el nmero de veces que ocurre un cierto suceso. Tambin se
denomina frecuencia absoluta, en contraposicin con la frecuencia relativa, que consiste en la proporcin de
veces que ocurre dicho suceso con relacin al nmero de veces que podra haber ocurrido.
Por ejemplo, si una experiencia aleatoria se repite 80 veces y un cierto suceso, S, ocurre 36 veces, decimos
que su frecuencia ha sido 36, y su frecuencia relativa 36/80 = 0,45:
f(S) = 36 fr(S) =36/80 = 0,45
8
La frecuencia relativa tambin se expresa, en ocasiones, en tantos por ciento (45%).
FRECUENCIAS ACUMULADAS
En una tabla de frecuencias, cuando la variable es cuantitativa y, por tanto, los distintos valores de la tabla
aparecen ordenados de menor a mayor, se llama frecuencia acumulada de un valor de la variable a la suma de
su frecuencia con las frecuencias de los valores anteriores. Por ejemplo, si al lanzar un dado 100 veces se
obtienen los siguientes resultados:
f(1) = 16 f(2) = 13 f(3) = 21
f(4) = 19 f(5) = 14 f(6) = 17
las frecuencias acumuladas son:
fa(1) = 16 fa(2) = 16 + 13 = 29
fa(3) = 29 + 21 = 50 fa(4) = 50 + 19 = 69
fa(5) = 69 + 14 = 83 fa(6) = 83 + 17 = 100
Estos resultados se aprecian mejor en una tabla:
Las frecuencias relativas acumuladas son las frecuencias acumuladas divididas por el nmero total de
individuos.
Diagramas de Tallo y Hojas
Una tcnica de recuento y ordenacin de datos la constituye los diagramas de Tallos y Hojas.
Supongamos la siguiente distribucin de frecuencias
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama
de Tallos y Hojas.
Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que
reordenadas son 2, 3 y 4.
A continuacin efectuamos un recuento y vamos aadiendo cada hoja a su tallo
9
Por ltimo reordenamos las hojas y hemos terminado el diagrama
Diagrama de Cajas y Bigotes
Teniendo en cuenta que con las representaciones anteriores los datos estn ordenados, podemos aprovechar
estas disposiciones para representar los diagramas de Cajas y Bigotes (boxplots o box and whiskers).
Estos diagramas se basan en los siguientes parmetros de la distribucin: valor mnimo, los cuartiles Q 1, Q 2
y Q 3 y el valor mximo.
Para la primera distribucin
Su diagrama de Cajas y Bigotes es
Intervalo de clase
En la tabla adjunta se muestra cmo se han repartido 1.200 calificaciones entre 0 y 10, en 10 intervalos
iguales columna (a). Las marcas de clase (centros de los intervalos) estn en la columna (b), las frecuencias en
la (c), las frecuencias relativas en la (d), las frecuencias acumuladas en la (e) y las frecuencias acumuladas
relativas en la columna (f).
(a) (b) (c) (d) (e) (f)
INTERVALO
MARCA
DE
CLASE
FRECUENCIA
FRECUENCIA
RELATIVA
FRECUENCIA
ACUMULADA
FRECUENCIA
ACUMULADA
RELATIVA
01 0,5 20 0,017 20 0,017
12 1,5 15 0,012 35 0,029
23 2,5 18 0,015 53 0,044
34 3,5 25 0,021 78 0,065
45 4,5 44 0,037 122 0,102
56 5,5 88 0,073 210 0,175
67 6,5 222 0,185 432 0,360
78 7,5 335 0,279 767 0,639
89 8,5 218 0,182 985 0,821
910 9,5 215 0,179 1.200 1,000
1.200 CALIFICACIONES DISTRIBUIDAS EN 10
INTERVALOS
10
Rango y amplitud
El nmero de clases y la amplitud de los intervalos los fija el investigador de acuerdo con el conocimiento que
posea de la poblacin, la necesidad de hacer comparacin con otras investigaciones y la presentacin de la
informacin. Sin embargo, se recomienda que la informacin no sea demasiado compacta, lo cual le restara
precisin, ni demasiado dispersa, ya que no se tendra claridad.
La amplitud debe ser igual para todos los intervalos y, en lo posible, no se debe trabajar con clases abiertas.
11

También podría gustarte