Tag Archive for Software libre

Minería de datos – ¿Y si utilizo R?

Si estás familiarizado con el análisis de datos y la estadística, entenderás que la elección de un programa o software para trabajar depende del presupuesto que tengas para gastarte y de las prestaciones que dicho software te proporcione.

En entornos de empresas medianas y grandes es más fácil contar con potentes programas como SAS o SPSS, con sus múltiples módulos. Sin embargo, si trabajas en pequeñas empresas, es posible que no cuentes ni con suficiente presupuesto ni con la comprensión del equipo de dirección.

En este último caso, una buena opción consiste en utilizar R.

R-CRAN y sus inicios como S

En sus inicios, R se llamaba S, y fue desarrollado por John Chambers y otros compañeros de los laboratorios Bell, allá por el año 1976 (un año antes de que naciera el que suscribe). Posteriormente, S sufrió diversos cambios, entre los que están su reescritura en C, y su cambio de denominación a S-Plus.

Según sus creadores, “queremos usuarios que sean capaces de adentrarse en un entorno interactivo, donde no sean conscientes de que están programando. Así, a medida que sus necesidades se hagan más claras y el nivel de sofisticación crezca, los usuarios deberían ser capaces de imbuirse paulatinamente en la programación, donde el lenguaje y los aspectos del sistema se vuelven más importantes”.

Formalmente, R fue creado en 1991 y abierto al público en 1993. En 1995 Martin Mächler convence a Ross Ihaka y Robert Gentleman a usar la Licencia General Pública GNU. Hasta el año 2000, año en que fue publicado R, el Grupo R Core trabaja en el desarrollo del código de R. A partir de entonces, diferentes versiones de R han sido lanzadas y multitud de profesionales, científicos y programadores de todo el mundo han contribuido a su desarrollo.

¿Software libre? Sí, gracias

Al trabajar con R contamos con las bondades del software libre, que son bastantes (aunque haya muchos de vosotros que seguro que no sois tan partidarios del software libre). Algunas de sus ventajas son:

  • Libertad para analizar y estudiar como funciona el programa, y así adaptarse a sus necesidades.
  • Libertad para ejecutar el programa, para cualquier propósito.
  • Libertad para mejorar el programa, compartir las mejoras con el público, y beneficiar al resto de usuarios.
  • Libertad para redistribuir versiones, de forma que cualquiera nos pueda ayudar a mejorarlas y testarlas.

¿Cómo está construido R?

Las funcionalidades de R están divididas en un buen número de “paquetes”:

  • El R Base que contiene, entre otros, los paquetes básicos requeridos para hacer funcionar el programa (funciones fundamentales)
  • Otros paquetes que incluyen utils, stats, datasets, grid, tools, etc., contenidos en el R básico.
  • Otros paquetes recomendados como class, cluster, rpartial, etc.

Actualmente existen casi 5000 paquetes en CRAN desarrollados por contribuidores de todo el mundo.

Ejemplo de gráfico con R.

Si no quieres pelearte directamente con la consola (aunque un poco de lucha con la programación pura y dura siempre está bien), es conveniente que te instales R-Studio, que en palabras de sus distribuidores es una familia de software de recuperación de disco de gran alcance y rentable. Originalmente desarrollada por R-tools Technology, Inc., para los profesionales de recuperación de datos experimentados, R-Studio ha sido rediseñada como una herramienta de recuperación de datos multifunción, escalable, fácil de usar. Al unir nuestra más avanzada tecnología de recuperación de archivos y tecnología de reparación de discos con una interfaz de usuario intuitiva, R-Studio proporciona a los especialistas de recuperación de datos empresariales y profesionales las herramientas que necesitan sin obstaculizar la experiencia de los usuarios de nivel básico. (Fuente: http://www.r-studio.com/es)

No todo serán ventajas, ¿no?

No, está claro que todo tiene sus pros y sus contras. Entre sus ventajas podemos citar la gran facilidad para combinar paquetes de código R y de otros programas, su alta calidad de gráficos, matrices y texto, y sobre todo, una amplia comunidad de usuarios, muy trabajadora y que comparte sus evoluciones y desarrolles al resto de usuarios.

Sin embargo, pueden citarse algunas desventajas. Una de las principales es que hasta hace poco el uso de R estaba limitado a entornos universitarios y de usuarios con gran conocimiento de la estadística y la programación. Unido a esto, su primera impresión entre los usuarios “más normales” es de dureza y poca amigabilidad (aunque esto queda superado con el uso). Con todo ello, su presentación a aquellos que han de avalar el trabajo (y garantizar el presupuesto del área) exige de cierta destreza comercial, ya que los resultados no son tan vistosos como los de otros programas del mercado como SPSS o SAS.

Aprendamos con R

Muchos de aquellos que solemos trabajar con datos y requerimos de análisis de los mismos, podemos contar o no con software en nuestros entornos profesionales. Si estás en este segundo grupo, y estás interesado en aprender R (yo lo estoy), hay multitud de bibliografía y muy buenos cursos (como los de Coursera) que seguro te vendrán como anillo al dedo, en función de tu conocimiento de Estadística y/o de Programación.

Fuentes:

http://cran.r-project.org/

http://coursera.org

http://www.psicothema.com/pdf/3686.pdf

http://www.uned.es/doctoradoisc_analisisdatos/Files/analisisDatosR.pdf

http://www.estadisticas.gobierno.pr/iepr/LinkClick.aspx?fileticket=p71ePCZXuYM%3D&tabid=100

http://bioinfo.cipf.es/sites/bioinfo.cipf.es/files/file/course_materials/Buenos%20Aires%202011/fgarcia1.pdf

 

 

 

Share on Facebook