Está en la página 1de 33

Metodologa de la Investigacin y Elaboracin de Trabajos Cientficos.

Estadstica. Conceptos bsicos

Lic. MSc. Alberto Rojas Pukall


Facultad Politcnica UNE. alberto.rojaspukall@gmail.com Junio de 2009.

Estadstica
Definicin.
"La estadstica concierne los mtodos cientficos de recoleccin, organizacin, resumen, presentacin y anlisis de datos, as como la elaboracin de conclusiones vlidas y la toma de decisiones razonables sobre la base de tal anlisis Spiegel (1961). Por lo tanto, la Estadstica es un campo del estudio relacionado con: 1) la recopilacin, organizacin y resumen de los datos, 2) la obtencin de inferencias acerca de un conjunto de datos cuando slo se observa una parte de ellos.

Estadstica
Significados.
Estadstica tiene un doble significado; Primero, la estadstica-ciencia: concierne los mtodos cientficos para coleccionar, organizar, resumir, presentar, y analizar datos, as como expresar conclusiones vlidas, tomando decisiones pertinentes sobre la base de tal anlisis. En otro sentido, la estadstica-datos se usa para denotar los propios datos. Puede hablarse de estadsticas econmicas, estadsticas geofsicas, estadsticas del empleo, estadsticas de accidentes, estadsticas financieras, estadsticas de la poblacin, etc.

Estadstica
Campos de aplicacin.
En la antigedad, la estadstica era empleada en economa (mediciones del Nilo en el antiguo Egipto). En el siglo 17, aparecieron diferentes aplicaciones: botnica, sistemtica, ciencias naturales, taxonoma (Linn, Buffon, Adanson). En el siglo XIX, se produjo una gran expansin debido a los progresos de la biologa, psicometra y agronoma, (Fisher). Luego se us en fsica, astronoma, termodinmica y meteorologa. Finalmente, en el siglo XX, se extendi para estudiar problemas industriales como fiabilidad, control de calidad, y control de produccin. La estadstica se ha vuelto una herramienta aceptada subsecuentemente en el manejo comercial, estudios de comercializacin, calidad de servicio, encuestas de opinin, planificacin y prevencin. As, la estadstica es ahora una herramienta de toma de decisin as como un mtodo especfico para mejorar el conocimiento fundamental.

Estadstica
Mtodos estadsticos segn el nmero de variables.
Mtodos univariantes (1-D): Datos descriptos por variables nicas. Mtodos bivariantes (2-D): Comparaciones de dos variables, relaciones causaefecto y covariacin. Mtodos multivariantes (N-D): Tres o ms variables.

Estadstica
Estadstica inductiva. Proceso inductivo: Se basa en la elaboracin de modelos matemticos. Del modelo a los datos. Se debe validar el modelo con la realidad. Verificar su validez. Pueden tener una construccin correcta, pero no ser pertinentes a la situacin estudiada.

Estadstica
Estadstica deductiva. Proceso deductivo: Se basa en la deduccin a partir de los hechos observados. Genera modelos matemticos a partir de la realidad. Ejemplos: Anlisis de datos multivariables. Diseos experimentables.

Estadstica
Datos: un conjunto de informacin organizada de cualquier tipo que cubre todos los aspectos de un dominio relacionado con un objetivo especfico. Es una cuantificacin del mundo real en una imagen, aceptable al cerebro humano, y adems procesable por las computadoras. No todos los datos son datos estadsticos, es decir, capaces de ser analizados por mtodos estadsticos. La elaboracin de los datos se realiza con el objetivo de su anlisis futuro. Los datos deben procesarse para resaltar sus rasgos particulares ms significativos.

Estadstica
Para que los datos sean estadsticos deben:
Haber sido producidos sistemticamente. Ser pasibles de ser comparados. Ser representativos y coherentes.

Se procesan para resaltar sus rasgos ms significativos.

Estadstica
Estadstica descriptiva: se utiliza sobre todo en anlisis univariante. Resume una serie estadstica (resultante de numerosas observaciones) en un pequeo conjunto de nmeros. Este resumen puede ser: Numrico Grafico En general se usan resmenes grficos y numricos simultneamente.

Estadstica
Inferencia estadstica: es el proceso de deducir los parmetros de la poblacin a partir de la estimacin de los parmetros de una muestra. Con las muestras se realizan estimaciones. La teora de muestreo estudia la relacin entre una poblacin y las muestras tomadas de ella. Las muestras deben ser representativas de la poblacin para que las inferencias estadsticas sean vlidas. La validez de las inferencias se obtiene a partir de: Los intervalos de confianza Los test de hiptesis.

Variable
Si conforme se observa una caracterstica, esta toma valores distintos en un determinado dominio (diferentes personas, lugares o cosas), se dice que esta caracterstica es una variable. Variable cuantitativa: aquella que puede medirse en la forma habitual, i.e. por comparacin con una unidad de medida correspondiente. Variable cualitativa: caracterstica que no puede medirse en un estricto sentido, sino que solo puede catalogarse.

Variable
Variable aleatoria: aquella cuyos valores se generan por factores fortuitos. Variable discreta: solo toma valores cuantizados, o sea que presenta saltos o interrupciones en los valores que puede tomar. Variable aleatoria continua: puede tomar cualquier valor dentro de un intervalo especificado. Debido a las limitaciones de los instrumentos de medicin, algunas variables continuas suelen tratarse como discretas.

Estadstica Descriptiva

Poblacin y muestra
Poblacin: es el mayor grupo de valores de una variable por los cuales se tiene inters en un momento dado. Pueden ser finitas o infinitas. Ejemplos: La totalidad de rboles de una plantacin dada. La totalidad de rboles del departamento Alto Paran. Muestra: parte de una poblacin. Ejemplo: cinco rboles tomados al azar de una plantacin dada.

Estudio numrico de variables 1-D

Buscar los valores ms representativos de la serie de datos en trminos de: Concentracin: medidas de tendencia central. Dispersin: medidas de dispersin. Forma: medidas de asimetra.

Medidas de tendencia central


Media aritmtica
- De la poblacin:

- De la muestra:

Medidas de tendencia central


Mediana (M): es el valor central de la distribucin (divide a un conjunto de valores en dos partes iguales). Para obtener la mediana deben ordenarse previamente los nmeros en orden de magnitud. Si la distribucin posee una cantidad par de valores, la mediana es igual a la media aritmtica de los dos valores centrales. Ventaja: no se ve afectada tan drsticamente por los valores extremos como la media. Moda (Mo): es el valor ms frecuente de la distribucin. Si todos los valores son diferentes, no existe moda. Pueden existir ms de una moda.

Medidas de tendencia central


Media geomtrica (Xgm): es la raz n-sima del productorio de los valores de la distribucin.

Se llama media geomtrica porque es el trmino central de una progresin geomtrica de un nmero de observaciones.

Medidas de tendencia central


Media armnica (Xa o H): es el recproco de media aritmtica de los recprocos de los valores de la distribucin.

Resulta poco influida por la existencia de determinados valores mucho ms grandes que el conjunto de los otros, siendo en cambio sensible a valores mucho ms pequeos que el conjunto. La media armnica no est definida en el caso de la existencia de valores nulos.

Medidas de tendencia central Cuantiles, Deciles (D), Percentiles (p) y Cuartiles (Q)
K-cuantiles: Q1, Q2, , Q, Qk-1, valores de X que dividen la serie X en k partes iguales. Q es el cuantil , tal que un % de las observaciones es menor que Q. Deciles: D1, D2, , D9, valores de X que dividen la serie X en 10 partes iguales (deciles = 10-cuantiles). D1 es el 1er decil; D9 es el ltimo decil; D5 es la mediana.
D1 D5 D9

Medidas de tendencia central Cuantiles, Deciles (D), Percentiles (p) y Cuartiles (Q)
Percentiles (o puntos porcentuales p): Son los valores de X que dividen la serie X en 100 partes iguales (percentiles = 100-cuantiles). Valor de la observacin para el cual un porcentaje igual a p de los valores es menor que el. Por ejemplo, el 75 percentil de un grupo de 64 observaciones ordenadas de menor a mayor es la observacin nmero 48 (0,75 * 64 = 48).

Medidas de tendencia central Cuantiles, Deciles (D), Percentiles (p) y Cuartiles (Q)
Cuartiles (Q1, Q2, Q3): son los valores de X que dividen la serie X en cuatro partes iguales (cuartiles = 4-cuantiles). Q1 es el cuartil inferior; Q3 es el cuartil superior; y Q2 coincide con la mediana M. Equivalen a los percentiles 25 (Q1), 50 (Q2), y 75 (Q3).
Q1

Q2

Q3

Medidas dispersin
Recorrido o Rango (R): es la diferencia entre el mayor y el menor de los valores de la distribucin, al ordenar los datos en forma ascendente o descendente (los extremos de la lista ordenada). Este ordenamiento es til cuando el nmero de datos no es demasiado grande.

Medidas dispersin
Rango intercuartil (IQR): es la diferencia entre los cuartiles superior e inferior. Describe el rango de la mitad central de la distribucin. Se utiliza para reducir la influencia de los valores extremos de una serie o distribucin.

Medidas dispersin
Varianza (2 o s2): representa la dispersin de valores en torno a la media. De la poblacin:

De la muestra:

Medidas dispersin

Aditividad de varianzas
Ejemplo: determinacin de la varianza de la humedad de una muestra (la varianza aumenta con la cantidad de pasos)
a) variacin debida a la materia prima: b) variacin debida a la tcnica analtica: - por precisin de la balanza: - por variacin de temperatura en estufa: - por variacin de humedad en pesafiltros: c) error de apreciacin de pesada: d) error por diferentes operadores: Variacin total:

Medidas dispersin
Desvo estndar: es la raz cuadrada de la varianza. De la poblacin:

De la muestra:

Medidas dispersin
Coeficiente de variacin: Es una medida de variacin relativa. Representa el desvo existente con respecto a la media de un conjunto de observaciones dado. Como es una medida relativa y adimensional, sirve para comparar la dispersin o variabilidad entre muestras o distribuciones:

Medidas dispersin
Error estndar de la media: Es una medida de la variabilidad de las muestras de una poblacin, es decir, de la variabilidad de las medias de muestras sucesivas. Se calcula como el desvo estndar dividido entre la raz cuadrada del nmero de valores de la muestra:

Medidas de asimetra
Asimetra (skewness): Cuando la mediana es significativamente menor o mayor que la media. Coeficiente de asimetra (g1): medida de la simetra o forma. g1=0 indica que los datos se distribuyen simtricamente. En una distribucin sesgada, la media queda en el lado de la cola ms larga.

Medidas de asimetra
Asimetra: Cola ms larga a la derecha: sesgada a la derecha (g1>0). Cola ms larga a la izquierda: sesgada a la izquierda (g1<0).

Medidas de asimetra

Curtosis
Coeficiente de curtosis (g2): Medida del achatamiento o altura de la distribucin con respecto a una distribucin normal (g2=0).

g2<0: curva achatada con colas cortas (platicrtica) g2>0: curva muy alta en el centro o colas muy largas
(leptocrtica).

También podría gustarte