Está en la página 1de 13

INTRODUCCIÓN A LA ESTADÍSTICA

Y A LA ESTADÍSTICA DESCRIPTIVA
ÍNDICE
1. Iniciemos
2. Organiza tus ideas: Conceptos clave
3. Profundiza tus conocimientos: Fundamentos de estadística
4. Fortalece tus conocimientos: Recolección de información
5. Visualiza: Organización de datos mediante tablas
6. Activa tus aprendizajes: Representación gráfica de datos
7. Conclusiones/Para terminar …
Iniciemos
¡Bienvenido a la introducción a Estadística y a Estadística descriptiva!

Aquí vamos a ver los fundamentos de la estadística y de la estadística descriptiva,


los cuales nos servirán de base para el resto de temáticas que veremos en próximas
oportunidades.

Al cumplir con el desarrollo de la presente unidad estarás en capacidad de:

1. Comprender los principales conceptos de la estadística y la estadística descripti-


va.
2. Identificar las principales técnicas para organizar y describir información por me-
dio de gráficos y tablas.

¡Avancemos!

Organiza tus ideas: Conceptos clave


A continuación, se presentan algunos conceptos importantes en el área de la esta-
dística.

•   Estadística: Es la ciencia que se encarga de recolectar, organizar, analizar e in-


terpretar datos.
•   Estadísticas: Son números obtenidos de un conjunto o colección de datos.
•   Estadística descriptiva: Es la rama de la estadística que comprende todos los
métodos y técnicas usados para organizar y describir información.
•   Estadística inferencial: Es la rama de la estadística que comprende todos los
métodos y técnicas usados para hacer inferencias, estimaciones o predicciones
sobre poblaciones a partir de una muestra.
•   Dato: Es una porción de información.
•   Datos: Sinónimo de muestra.
•   Población: Es el conjunto de todos los elementos de interés para un investigador.
•   Muestra: Es cualquier subconjunto de la población.
•   Parámetro: Cualquier característica numérica de una población.
•   Estadístico: Cualquier característica numérica de una muestra.
•   Big Data: Término utilizado para describir conjuntos de datos tan grandes que los
tradicionales y típicos procesos de almacenamiento, gestión, búsqueda, análisis,
entre otros se han convertido en un reto debido a su tamaño.
•   Datos cualitativos: Información categórica.
•   Datos cuantitativos: Información numérica. Se puede clasificar en continuos y
discretos.
•   Datos cuantitativos discretos: Son obtenidos de un proceso de conteo. Núme-
ros naturales, enteros o racionales.
•   Datos cuantitativos continuos: Datos obtenidos de un proceso de medición.
Números reales.
•   Encuesta: Es un cuestionario aplicado en una muestra.
•   Censo: Es un cuestionario aplicado en una población.

Ya conociste los conceptos que necesitas en tu camino de aprendizaje. Continue-


mos, es hora de viajar a Profundizar tus conocimientos

Profundiza tus conocimientos: Funda-


mentos de estadística
Fundamentos de estadística

Estadística descriptiva y estadística inferencial

La estadística es la ciencia que se encarga de recolectar, organizar, analizar e inter-


pretar datos.

La estadística se divide en dos ramas:

• Estadística descriptiva.
• Estadística inferencial.

La estadística descriptiva es la rama de la estadística que comprende todos los mé-


todos y técnicas usados para organizar y describir información.

Por su parte, la estadística inferencial es la rama de la estadística que comprende


todos los métodos y técnicas usados para hacer inferencias, estimaciones o predic-
ciones sobre poblaciones a partir de una muestra.

En este curso de Estadística probabilística se tratará solamente los temas corres-
pondientes a la estadística descriptiva, de manera que sirva como base a los temas
de probabilidad.
Los temas correspondientes a Estadística inferencial se tratarán en el curso Esta-
dística para analítica de datos.
Poblaciones y muestras:

En la estadística se trabaja en poblaciones y en muestras, una población es el


conjunto de todos los elementos de interés para un investigador y una muestra es
cualquier subconjunto de la población.

Por ejemplo, todos los estudiantes de una universidad pueden servir como una
población y una muestra puede ser cualquier subconjunto de estudiantes de esa
universidad, digamos los estudiantes de ingeniería de sistemas.

Cualquier característica numérica de una población recibe el nombre de paráme-


tro y cualquier característica numérica de una muestra recibe el nombre de esta-
dístico.

El objetivo de toda investigación es obtener un parámetro y ese parámetro en


teoría puede ser obtenido de manera precisa mediante un censo que consiste en
aplicar un cuestionario a todos los elementos de una población.

Sin embargo, eso no siempre es posible debido a que surgen dos problemas:
Un problema a nivel técnico debido a que no siempre se tiene acceso a todos los
elementos de la población. Por ejemplo, la población consiste en todas las ga-
laxias del universo en la investigación de un astrónomo.
Un problema financiero, debido a que evaluar todos los elementos de una pobla-
ción puede ser demasiado costoso. Por ejemplo, la población puede tener millo-
nes de individuos.

La forma de solucionar estos dos inconvenientes es seleccionando una muestra


representativa (representativa quiere decir que todos los elementos de la pobla-
ción deben estar representados en la muestra) y en esa muestra representativa
se realiza una encuesta que permita calcular un estadístico que servirá como
estimación del parámetro de interés en nuestra investigación.

Es decir, para una cierta probabilidad llamada confiabilidad se tiene que


Parametro=Estadistico±Error
donde Error=Error muestral+Errores no muestrales

El Error muestral surge de la variación que existe entre las muestras y la pobla-
ción. Es decir, entre más diferente sea la muestra a la población, mayor será el
error muestral.

Los errores no muestrales son todos los demás errores que no dependen de la
variación de la muestra con la población, como por ejemplo errores de medición
al tomar los datos o errores de redondeo.
Para que nuestra estimación del parámetro sea precisa es importante que el Error
sea lo más pequeño posible.

Probabilidad y estadística:

Para entender cómo se relacionan la probabilidad y la estadística con la pobla-


ción y con la muestra debemos recordar que

Deducción es razonar de lo general a lo particular y que Inducción es razonar de


lo particular a lo general.

En ese sentido la probabilidad es razonamiento deductivo pues va de la población


a la muestra y la estadística inferencial es un razonamiento deductivo pues va de
la muestra a la población.

Estadística y Big Data

El Big Data es un término utilizado para describir conjuntos de datos tan grandes
que los tradicionales y típicos procesos de almacenamiento, gestión, búsqueda,
análisis, entre otros se han convertido en un reto debido a su tamaño.

En ese sentido para grandes conjuntos de datos muchas de las técnicas tradi-
cionales de estadística pueden llegar a ser difíciles de aplicar debido al tamaño y
en estos casos se hace necesario utilizar algoritmos y técnicas avanzadas de la
estadística. Sin embargo, muchas técnicas tradicionales siguen siendo útiles por
ejemplo en la exploración de los datos.

¡Hasta pronto!

¡Excelente! ¿Verdad? No olvides que el objetivo de toda investigación es obtener


un parámetro

Fortalece tus conocimientos: Recolec-


ción de información
Objetivo:

El proceso de recolección de información depende del objetivo que tenga el


investigador. A partir de ese objetivo se obtiene la población de interés del inves-
tigador y la muestra representativa y de los recursos y del tiempo que disponga el
investigador depende el tamaño de la muestra.
Fuentes de Consulta:
Las fuentes de consulta pueden ser primarias o secundarias.

Las fuentes primarias de consulta:


Son las fuentes que contienen la información original, sin modificar. Esta es, por
ejemplo

• Monografías
• Libros
• Artículos
• Fotografías
• Videos
• Datos en bruto

Las fuentes secundarias de consulta: Son fuentes donde la información no se


obtiene directamente, sino que hay un intermediario que ya ha realizado un análi-
sis o tratamiento sobre la información original. Estas son, por ejemplo

• Periódicos
• Bases de datos
• Enciclopedias
• Estadísticas.

Técnicas de recolección de datos:

• Método de observación
• Cuestionarios o encuestas
• Diccionario de datos
• Entrevistas

Ver (Hernández Sampieri et al., 1997) y (Lebet, 2016)

¡Y bien! Recuerda que el proceso de recolección de información depende del


objetivo que tenga el investigador.
¡Avancemos!

Visualiza: Organización de datos median-


te tablas
Para poder llevar a cabo análisis y poder encontrar características interesantes
en un conjunto de datos es muy útil organizar los datos.
Los datos que no están organizados en una categoría reciben el nombre de da-
tos no agrupados y los que sí están organizados en categorías reciben el nom-
bre de datos agrupados.

Ejemplo [ Datos no agrupados]


Estatura de estudiantes masculinos en una universidad (en metros)

1.74, 1.83, 1.69, 1.76, 1.78, 1.75, 1.68, 1.81, 1.76, 1.79, 1.65

Ejemplos [ Datos agrupados]


1. Apellidos de estudiantes en un curso de matemáticas
González, Perez, Martinez, González, Martinez, Rodriguez, Perez, Perez

2. Notas de un parcial:
• Mal: Todas las notas de 0.0 hasta 2.9.
• Regular: Todas las notas desde 3.0 hasta 3.5
• Bien: Todas las notas desde 3.6 hasta 4.5.
• Excelente: Todas las notas desde 4.6 hasta 5.0

La frecuencia absoluta (se suele notar por f) de una categoría o de un dato es el


número de veces que se repite esa categoría o ese dato en el conjunto de datos.

Ejemplo [ Frecuencia absoluta]


Sea el conjunto de apellidos del ejemplo anterior, que tiene N=8 datos.
González, Perez, Martinez, González, Martinez, Rodriguez, Perez, Perez
La frecuencia absoluta de González es 2, la de Martínez es 2, la de Pérez es 3 y
la de Rodríguez es 1.

En forma de tabla, queda de la siguiente forma:

Se observa que la suma de todas las frecuencias absolutas es igual al número


total de datos. Es decir:
∑ f=N

La frecuencia relativa se suele notar con h y se calcula por medio de la siguiente


ecuación
h= f/N

Para el ejemplo anterior la tabla queda en la forma

Se observa que la suma de todas las frecuencias relativas es igual a 1. Es decir:


∑ h=1

La frecuencia acumulada de cualquier categoría o dato se suele notar por F y es


la suma de las frecuencias absolutas de esa categoría o dato, esto es

Para el ejemplo anterior la tabla queda en la forma

Se observa que:

La frecuencia relativa acumulada se suele notar por H y se define por medio de la


ecuación
O por medio de la ecuación

Y de manera análoga se tiene que

Para el ejemplo anterior se tiene que la tabla de frecuencias para datos no agru-
pados es

En el caso de que por ejemplo exista una gran cantidad de datos cuantitativos
diferentes, producidos por una medición. Las tablas de frecuencias para datos no
agrupados pueden no ser una buena idea debido a que los datos tenderán a ser
diferentes unos de otros y podemos terminar con cientos o miles de categorías
que no dan ninguna información.

En casos como estos es recomendable agrupar los datos en clases (que viene a
jugar el papel de las categorías en las tablas de datos no agrupados) y la frecuen-
cia absoluta de cada clase se define como el número de elementos presente en
cada clase.

Por ejemplo, para la estatura de estudiantes masculinos en una universidad (en


metros)

1.74, 1.83, 1.69, 1.76, 1.78, 1.75, 1.68, 1.81, 1.76, 1.79, 1.65

Se puede proponer crear 3 clases, estas clases serán [1.61 – 1.70], [1.71 – 1.80]
y
[1.81 – 1.90]. En ese sentido la tabla de frecuencias para datos agrupados queda
en la forma
Donde X recibe el nombre de marca de clase y se calcula sumando los limites de
una clase y dividiendo esa suma en 2. Es decir,

Donde LI es el límite inferior de la clase y LS es el limite superior de la clase. Por


ejemplo, para la primera clase se tiene que la marca de clase es

Por último, se observa que

El valor w recibe el nombre de amplitud de la clase.

Tablas de contingencia

Las tablas de contingencia son tablas de frecuencias absolutas para dos varia-
bles categóricas, por ejemplo

Una muestra de electores fue interrogada sobre su preferencia entre los candida-
tos a alcalde. Los resultados están registrados en la siguiente tabla.

Se observan algunos elementos importantes en la tabla de contingencia:

• Las casillas centrales corresponden a la intersección entre la variable Género


y la variable Candidato. Esto es por ejemplo el número de personas que es
mujer y siente preferencia por el candidato libertario es igual a 4.
• Cada fila y cada columna de la tabla es en sí misma una tabla de frecuencias
para datos no agrupados.
• El número total de datos es 45.
¡Genial! ¿Verdad? ¿Ahora quieres conocer acerca de representación gráfica de
datos?
¡Vamos a descubrirlo!

Activa tus aprendizajes:


Representación gráfica de datos
Diagramas de barras y torta
Los gráficos que pueden ser usados dependen del tipo de dato, de la escala de
medida y de lo que se quiera comunicar.

Por ejemplo, para la tabla

La frecuencia absoluta y la frecuencia relativa pueden ser representadas gráfica-


mente por medio de diagramas de barras, esto es

La frecuencia relativa también puede ser representada gráficamente por medio de


un diagrama de torta
Polígonos e histogramas

En el caso de datos agrupados se recomienda usar histogramas, por ejemplo,


para las estaturas

1.74, 1.83, 1.69, 1.76, 1.78, 1.75, 1.68, 1.81, 1.76, 1.79, 1.65

Cada rectángulo del histograma corresponderá a una clase en la que estén agru-
pados los datos. En esa dirección es importante que al momento de realizar un
histograma o una tabla de frecuencias para datos agrupados se tengan en cuenta
las dos siguientes condiciones:

• El número de clases debe ser tal que no existan clases vacías. En el caso de
darse clases vacías hay que disminuir el número de clases.
• El número de clases debe ser tal, que una clase no acumule todos los puntos.
En este caso hay que aumentar el número de clases.

En ocasiones se realiza una gráfica teniendo en cuenta las marcas de clase del
histograma, esta se llama polígono y puede ayudarnos a entender cómo se com-
porta nuestra población
En caso que el histograma contenga las frecuencias acumuladas, el polígono
recibirá el nombre de ojiva.

Diagramas de dispersión

Si se tienen dos variables cuantitativas es recomendable usar un diagrama de


dispersión, por ejemplo, si tenemos las variables estatura y peso

A partir de estos diagramas de dispersión es posible observar la relación que


existe entre las dos variables, por ejemplo, si la relación es lineal o no lo es o si
es linealmente positiva o negativa, entre otras.

Recuerda que en caso que el histograma contenga las frecuencias acumuladas,


el polígono recibirá el nombre de ojiva.

Hemos llegado al final de esta unidad, pero espera; conoce lo que aprendiste

Conclusiones:
De la temática vista hasta el momento, podemos sacar las siguientes conclusio-
nes:

• La estadística nos proporciona técnicas y métodos que nos permite organizar


y describir información; así como hacer predicciones y estimaciones.
• La calidad y precisión de los resultados que obtengamos gracias a la estadísti-
ca, depende de la calidad de los datos que ingresemos.

También podría gustarte