Viernes, 29 noviembre 2019

Lenguaje R, ¿qué es y por qué es tan usado en Big Data?

¿Conoces el lenguaje R? En UNIR abordamos los detalles de R y por qué se ha extendido tanto en las áreas de análisis de datos y big data.

R es un entorno de software libre (licencia GNU GLP) y lenguaje de programación interpretado, es decir, ejecuta las instrucciones directamente, sin una previa compilación del programa a instrucciones en lenguaje máquina. El término entorno, en R, se refiere a un sistema totalmente planificado y coherente, en lugar de una acumulación de herramientas específicas e inflexibles, como suele ser el caso en otros softwares de análisis de datos.

Este entorno es comúnmente utilizado para la computación estadística y gráfica, ya que dispone de una amplia variedad de técnicas estadísticas (modelos lineales y no lineales, pruebas estadísticas clásicas, análisis de series de tiempo, clasificación, agrupamiento, etc.) y gráficas. Funciona en plataformas UNIX y sistemas similares (incluidos FreeBSD y Linux), Windows y MacOS.

Su desarrollo actual es responsabilidad del R Development Core Team. Forma parte de un proyecto colaborativo y abierto donde los usuarios pueden publicar paquetes que extienden su configuración básica (repositorio oficial de paquetes). Además, se puede descargar gratis a través del siguiente enlace: https://www.r-project.org/.

Características de R 

  • – Manejo y almacenamiento efectivo de los datos.
  • – Un conjunto de operadores para la realización de cálculos con matrices.
  • – Una gran colección de herramientas para el análisis de datos.
  • – Utilidades gráficas para la visualización de datos.
  • – Un lenguaje de programación bien desarrollado que incluye saltos condicionales, bucles, funciones recursivas, utilidades para la entrada y salida de datos, etc.
  • – Tiene un formato de documentación basado en LaTeX, que se utiliza para proporcionar documentación completa tanto en formato físico como digital.

El lenguaje de programación R se integra bien con otros lenguajes de programación como C, C++ o Fortran para tareas de análisis de datos computacionalmente intensivas (alto consumo de recursos como CPU y RAM). Además, puede integrarse con distintas bases de datos y existen bibliotecas que facilitan su utilización desde lenguajes de programación interpretados como Perl y Python.

Uso de R en Big Data

En el ámbito del Big Data se utiliza para la manipulación, procesamiento y visualización gráfica de los datos. R nos permite:

  • – Crear visualizaciones de datos de alta calidad. 
  • – Crear dashboards para visualizar y analizar datos. 
  • – Crear informes automáticos. 
  • – Disponer de herramientas de análisis estadístico para ahondar en el conocimiento de los datos.

R es algo más que un lenguaje de programación. El usuario no programa propiamente, sino que utiliza R interactivamente: ensaya, se equivoca y vuelve a probar. Solo cuando termina el ciclo y el resultado es satisfactorio, produce un resultado final que, generalmente, no es un programa, sino un informe.

Se utiliza en todas las fases de análisis de datos:

  • – Adquisición de los datos de las fuentes disponibles: bases de datos, archivos de texto, etc.
  • – Preparación de los datos: eliminación de duplicados, datos incorrectos, valores extremos, etc.
  • – Análisis de los datos: construcción de modelos predictivos, de clasificación, de agrupamiento…
  • – Comunicación de los resultados: realización de informes para presentación de los resultados y conclusiones.
  • – Aplicación de los resultados obtenidos: por ejemplo, utilización de modelos predictivos desarrollados para en función de una serie de datos históricos (datos de entrenamiento y test del modelo) predecir ciertas salidas.

Las características y diferentes aplicaciones de R lo convierten en una herramienta básica para los analistas de datos.