Tag Archive for Estadística

Minería de datos – ¿Y si utilizo R?

Si estás familiarizado con el análisis de datos y la estadística, entenderás que la elección de un programa o software para trabajar depende del presupuesto que tengas para gastarte y de las prestaciones que dicho software te proporcione.

En entornos de empresas medianas y grandes es más fácil contar con potentes programas como SAS o SPSS, con sus múltiples módulos. Sin embargo, si trabajas en pequeñas empresas, es posible que no cuentes ni con suficiente presupuesto ni con la comprensión del equipo de dirección.

En este último caso, una buena opción consiste en utilizar R.

R-CRAN y sus inicios como S

En sus inicios, R se llamaba S, y fue desarrollado por John Chambers y otros compañeros de los laboratorios Bell, allá por el año 1976 (un año antes de que naciera el que suscribe). Posteriormente, S sufrió diversos cambios, entre los que están su reescritura en C, y su cambio de denominación a S-Plus.

Según sus creadores, “queremos usuarios que sean capaces de adentrarse en un entorno interactivo, donde no sean conscientes de que están programando. Así, a medida que sus necesidades se hagan más claras y el nivel de sofisticación crezca, los usuarios deberían ser capaces de imbuirse paulatinamente en la programación, donde el lenguaje y los aspectos del sistema se vuelven más importantes”.

Formalmente, R fue creado en 1991 y abierto al público en 1993. En 1995 Martin Mächler convence a Ross Ihaka y Robert Gentleman a usar la Licencia General Pública GNU. Hasta el año 2000, año en que fue publicado R, el Grupo R Core trabaja en el desarrollo del código de R. A partir de entonces, diferentes versiones de R han sido lanzadas y multitud de profesionales, científicos y programadores de todo el mundo han contribuido a su desarrollo.

¿Software libre? Sí, gracias

Al trabajar con R contamos con las bondades del software libre, que son bastantes (aunque haya muchos de vosotros que seguro que no sois tan partidarios del software libre). Algunas de sus ventajas son:

  • Libertad para analizar y estudiar como funciona el programa, y así adaptarse a sus necesidades.
  • Libertad para ejecutar el programa, para cualquier propósito.
  • Libertad para mejorar el programa, compartir las mejoras con el público, y beneficiar al resto de usuarios.
  • Libertad para redistribuir versiones, de forma que cualquiera nos pueda ayudar a mejorarlas y testarlas.

¿Cómo está construido R?

Las funcionalidades de R están divididas en un buen número de “paquetes”:

  • El R Base que contiene, entre otros, los paquetes básicos requeridos para hacer funcionar el programa (funciones fundamentales)
  • Otros paquetes que incluyen utils, stats, datasets, grid, tools, etc., contenidos en el R básico.
  • Otros paquetes recomendados como class, cluster, rpartial, etc.

Actualmente existen casi 5000 paquetes en CRAN desarrollados por contribuidores de todo el mundo.

Ejemplo de gráfico con R.

Si no quieres pelearte directamente con la consola (aunque un poco de lucha con la programación pura y dura siempre está bien), es conveniente que te instales R-Studio, que en palabras de sus distribuidores es una familia de software de recuperación de disco de gran alcance y rentable. Originalmente desarrollada por R-tools Technology, Inc., para los profesionales de recuperación de datos experimentados, R-Studio ha sido rediseñada como una herramienta de recuperación de datos multifunción, escalable, fácil de usar. Al unir nuestra más avanzada tecnología de recuperación de archivos y tecnología de reparación de discos con una interfaz de usuario intuitiva, R-Studio proporciona a los especialistas de recuperación de datos empresariales y profesionales las herramientas que necesitan sin obstaculizar la experiencia de los usuarios de nivel básico. (Fuente: http://www.r-studio.com/es)

No todo serán ventajas, ¿no?

No, está claro que todo tiene sus pros y sus contras. Entre sus ventajas podemos citar la gran facilidad para combinar paquetes de código R y de otros programas, su alta calidad de gráficos, matrices y texto, y sobre todo, una amplia comunidad de usuarios, muy trabajadora y que comparte sus evoluciones y desarrolles al resto de usuarios.

Sin embargo, pueden citarse algunas desventajas. Una de las principales es que hasta hace poco el uso de R estaba limitado a entornos universitarios y de usuarios con gran conocimiento de la estadística y la programación. Unido a esto, su primera impresión entre los usuarios “más normales” es de dureza y poca amigabilidad (aunque esto queda superado con el uso). Con todo ello, su presentación a aquellos que han de avalar el trabajo (y garantizar el presupuesto del área) exige de cierta destreza comercial, ya que los resultados no son tan vistosos como los de otros programas del mercado como SPSS o SAS.

Aprendamos con R

Muchos de aquellos que solemos trabajar con datos y requerimos de análisis de los mismos, podemos contar o no con software en nuestros entornos profesionales. Si estás en este segundo grupo, y estás interesado en aprender R (yo lo estoy), hay multitud de bibliografía y muy buenos cursos (como los de Coursera) que seguro te vendrán como anillo al dedo, en función de tu conocimiento de Estadística y/o de Programación.

Fuentes:

http://cran.r-project.org/

http://coursera.org

http://www.psicothema.com/pdf/3686.pdf

http://www.uned.es/doctoradoisc_analisisdatos/Files/analisisDatosR.pdf

http://www.estadisticas.gobierno.pr/iepr/LinkClick.aspx?fileticket=p71ePCZXuYM%3D&tabid=100

http://bioinfo.cipf.es/sites/bioinfo.cipf.es/files/file/course_materials/Buenos%20Aires%202011/fgarcia1.pdf

 

 

 

Share on Facebook

Curiosidades frecuentistas

Share on Facebook

El papel de la Estadística en el Marketing moderno

Actualmente, las técnicas de Marketing invaden y saturan la vida cotidiana. Sin embargo, pocos conocen que, tras todo esto, la Estadística juega un papel importantísimo.

Según la American Marketing Asociation (AMA), el Marketing: “es una función de la organización y un conjunto de procesos para crear, comunicar y entregar valor a los clientes, y para manejar las relaciones con estos últimos, de manera que beneficien a toda la organización…”

Sin embargo, esta tradicional descripción académica de la asociación americana se ha tenido que adaptar a las nuevos cambios que la sociedad ha conocido en estas últimas décadas. Philip Kotler, uno de los grandes nombres del Marketing moderno, describe el Marketing de la siguiente forma: “El marketing se ocupa de identificar y satisfacer las necesidades humanas y sociales. Una de las definiciones más cortas de marketing es ”.

Para nuestra sociedad, la conocida como “Sociedad del Consumo“, el Marketing ya no constituye únicamente una simple función de la organización; sino que se ha convertido en una función imprescindible en muchos negocios y actividades empresariales, formando parte de la estrategia general de partida de las empresas.

La tecnología lo cambió casi todo

Debido a los enormes avances tecnológicos experimentados desde finales del siglo XX hasta el presente, los especialistas en marketing han movido ficha para adaptarse a los nuevos comportamientos y pautas sociales de forma que su actividad no se quedase desfasada con respecto a los inciertos mercados sobre los que trabajan.

Uno de los principales aspectos del Marketing lo constituye la recogida y el tratamiento de la información. Hace apenas 30 años, el tratamiento de millares de datos procedentes de clientes de diversa índole no solo se convertía en un claro objeto de deseo sino que económicamente era poco más que inviable.

Gracias a los avances tecnológicos, y en especial, gracias al desarrollo de la Informática, este problema se ha superado con creces, ya que hoy en día, los sistemas computacionales permiten un tratamiento preciso y, sobre todo rápido, de ingentes cantidades de datos.

La Estadística como base científica

Consecuentemente, la Estadística, basada tradicionalmente en el tratamiento de datos, ha adoptado con sumo gusto la utilización de software cada vez más potente. El cálculo que antes costaba varios días o incluso semanas usando una antigua máquinas de hojas perforadas, hoy en día se resuelve en cuestión de segundos o milisegundos, gracias a los potentes microprocesadores.

Además, el software estadístico ha evolucionado de forma brillante tanto en el ámbito de las licencias privadas (SPSS; SAS, STATISTICA, etcétera) como en el ámbito del desarrollo abierto (R-Cran). La integración de paquetes y motores estadísticos en aplicaciones informáticas constituye un avance sensacional en el tratamiento y exposición de la información.

Gracias al avance tecnológico, la “Minería de Datos” o Data Mining, se ha constituido hoy en día como una herramienta empleada en muchas multinacionales y grandes empresas, las cuales, explotan sus enormes bases de datos de forma estadística para averiguar hasta el más mínimo detalle que les ayude a optimizar su Marketing Mix, es decir, la gestión de su producto, sus rangos de precios, sus canales de distribución y su promoción y/o publicidad.

¿Qué aporta la Estadística al marketing?

La Estadística aporta una base científica y una metodología que justifica, entre otras cosas, la aprobación final de presupuestos para la realización de investigaciones comerciales, que en el caso de las grandes multinacionales, suelen ser de gran cuantía.

Es más, la Estadística permite optimizar las estrategias de Marketing a seguir, reduciendo el riesgo y aportando una medición real del retorno de inversión (ROI). Esto es importante, puesto que además de saber cuánto ha de invertir una empresa en sus acciones de marketing, también es necesario medir qué rentabilidad se ha obtenido con dichas acciones.

Los pequeños detalles son los que llevan al éxito

Lo cierto es que todavía, muchas empresas consideran la función de Marketing como un gasto y no como una inversión, lo cual constituye un enorme error. En épocas de crisis generalizada como la que vivimos, es todavía más tentador suprimir y dilapidar las funciones de Marketing de la empresa hasta que vengan tiempos mejores.

Lo cierto es que aquella vieja frase de “la información es poder” es cada más cierta. La diferenciación de los productos de una empresa con respecto a sus competidores ha de apoyarse en un buen sistema de información relevante y actualizado.

En Estadística, la información no sólo aporta medias y varianzas, como normalmente se suele aducir, en cierta manera de forma despectiva. Los datos pueden seguir patrones subyacentes que son definitivos para la explicación de fenómenos, y en el caso que nos ocupa, de patrones de comportamiento en el análisis de los componentes del Marketing Mix.

En muchas ocasiones, la aplicación de un análisis estadístico multivariante desentraña una serie de comportamientos que a través del ojo del especialista en marketing de la empresa a simple vista no se aprecian. En ese momento un buen analista estadístico entra a jugar con sus propias cartas.

El azar ya no tiene hueco en la actual mercadotecnia

Pese a las reticencias tradicionales que ha habido entorno al uso de la Estadística en diversos campos profesionales, poco a poco va teniendo cabida y aplicación en un sinfín de proyectos relacionados con la Sanidad, Demografía, Seguridad Social, Biología, Medicina, Investigación Social, etc.

En lo concerniente a la Investigación de Mercados, las técnicas cuantitativas utilizadas con metodologías estadísticas avanzadas garantizan un análisis objetivo, científico y mesurable, que se trasladan directamente en la obtención de mejores márgenes productivos para las empresas.

Y es que, la suerte cada vez juega un papel menos importante en la consecución de los objetivos comerciales. El escritor americano de ciencia ficción Robert Heinlein dijo una vez: “No existe la suerte. Sólo hay preparación adecuada o inadecuada para hacer frente a una estadística“. En la aplicación de las técnicas de mercadotecnia actuales no se deja lugar al azar, la Estadística ha logrado ocuparse en gran medida de él y ayuda a que la suerte juegue a favor de las acciones comerciales puestas en marcha.

Share on Facebook

Biografía estadística: Karl Friedrich Gauss (1777-1855)

Comenzaré una serie de biografías de matemáticos y estadísticos directamente relacionados con el desarrollo y progreso de la Estadística, en las que intentaré no solo ceñirme a datos de su vida como científicos, sino también a anécdotas y curiosidades interesantes.

Hoy, iniciamos esta serie con un hombre cuyo apellido ha creado quebraderos de cabezas para muchos en esas largas noches de estudio de alguna asignatura estadística.

Johann Carl Friedrich Gauss nació en Brunswick (Alemania) en 1777 y murió en Göttingen (Alemania) en 1855. Ha sido catalogado como astrónomo, físico y matemático y ha sido un gran protagonista en el estudio y desarrollo del análisis matemático, la geodesia, el magnetismo, la óptica y la geometría diferencial.

Su obra maestra es Disquisitiones arithmeticae, escrita en Latín constituye un tratado de la teoría de números.

Aunque muchos estudiantes y licenciados recordamos a este personaje como “el de la distribución de la Normal”. En 1823 publicó Theoria combinationis observationum erroribus minimis obnoxiae, dedicado a la Estadística y más en concreto a la distribución normal cuya curva característica, denominada como Campana de Gauss, es muy usada en disciplinas no matemáticas donde los datos son susceptibles de estar afectados por errores sistemáticos y casuales.

Curiosidades sobre Gauss

Aprendió a leer y a utilizar calculos aritméticos con tan solo … ¡3 años!

En cierta ocasión, cuando nuestro protagonista tenía 10 años, su maestro solicitó a la clase que encontrará la suma de todos los números comprendidos entre uno y cien. Pues bien,  Gauss levantó al instante la mano y dio la respuesta correcta.

Gauss le asertó a su profesor que encontró la solución usando el álgebra. No había que ser un lince para darse cuenta de que el muchacho prometía y sería un auténtico genio.

En otro episodio, cuando Gauss todavía tenía 12 años, ¡criticó los fundamentos de la geometría euclidiana!, dedicando sus estudios e investigaciones a la geometría no euclidiana.

A los 15,  probó el binomio de Newton.

Cuando Gauss contaba 19 años, su madre preguntó a Wolfgang Bolyai, un amigo de éste, si Gauss llegaría a ser alguien. Bolyai no dudó ni un segundo en responderle: ¡El más grande de los matemáticos de Europa!, y ella se puso a llorar.

Ya un poco más maduro, con 24 años, Gauss tuvo una destacada participación en el nacimiento de la astrofísica: en el año 1.801 predijo la posición del asteroide Ceres utilizando el método de mínimos cuadrados. Consiguió demostrar que la estimación de una medida usando este método es óptima cuando los errores en las mediciones siguen una curva que él llamó “de errores” y que nosotros llamamos normal o campana de Gauss.

Gauss no se andaba con miramientos

Se dice, se cuenta, se rumorea … que en 1807 la esposa de Gauss estaba muy enferma y que el médico se encontraba en su dormitorio atendiéndola. Gauss, esperaba pacientemente en el salón cuando de repente sus ojos volvieron sobre el estudio en que había estado trabajando arduamente durante los últimos días.

Entonces, sus pensamientos volvieron a dicho proyecto y pronto le puso todo su énfasis, olvidándose por momentos de la situación tan grave de su esposa. Mientras trabajaba en ello, el médico bajó a comunicar a Gauss la triste noticia de que su mujer se estaba muriendo.

Gauss, con su mente fija en el problema, hizo un ademán al médico y dijo: “Sí, sí, pero pídale que espere un momento hasta que acabe con esto“.

Su muerte

Nunca publicaba un trabajo hasta estar totalmente seguro de que estaba elaborado de forma perfecta y no dejaba rastro de cómo obtenía sus resultados. Gauss llegó a expresarse en estos términos: “cuando se finaliza un noble edificio no deben quedar visibles los andamios”.

Su leyenda aumentó, como otros tantos grandes personajes de la Historia, tras su muerte. Se dice que tras su fallecimiento se descubrieron gran cantidad de importantes e inéditos resultados que él no había querido publicar.

Hay un rumor que corre sobre la lápida de la tumba de Gauss, que dice  su tumba fue escrita con un diagrama, que construyó él mismo, y que consta de un polígono de diecisiete lados.

Este personaje constituye para mí, sin duda alguna, una sana envidia sobre lo que una persona de origen humilde puede llegar a ser en el mundo de la Ciencia, con trabajo, tesón y … una mente privilegiada de la que yo no dispongo.

Share on Facebook

Los orígenes de la Estadística I

En esta sección trataré de desgranar las causas y motivos que dieron lugar a la aparición y posterior integración de la Estadística dentro de las ciencias. Un lento paseo por sus orígenes y sus primeros pasos. Espero que lo disfrutéis.

Primeros resquicios del azar

El determinismo sufrió un proceso de erosión durante el siglo XIX y provocando la aparición de un espacio que dió cabida a las leyes autónomas del azar. La idea de la naturaleza humana fue desplazada por el modelo de “persona normal” y las leyes de la dispersión.

Ambas transformaciones se dieron en forma paralela y se fortalecieron la una a la otra, de forma que el azar hizo que el mundo pareciera menos caprichoso: el azar estaba legitimado porque aportaba orden al caos.

 

El azar como parte de la explicación de los fenómenos sociales

Cuanto mayor era el indeterminismo en nuestra concepción del mundo y de la sociedad de la época correspondiente al final de la erea napoleónica, más elevado era el nivel de control que se esperaba.

Muchas clases de conducta humana, especialmente conductas como el crimen y el suicidio, fueron especial objeto de recuento, ya que se manifestaban de forma regular año tras año. Por tanto, las leyes estadísticas de la sociedad parecían desprenderse de las tablas oficiales de desviación. Los datos sobre promedios y dispersiones formaron la idea de persona normal y llevaron a nuevas clases de manejo social, a nuevos medios de modificar “clases indeseables”.

 

Leyes no solo estadísticas

En los primeros años del siglo XX se suponía que las leyes estadísticas podrían reducirse a hechos subyacentes deterministas, pero el aparente predominio de esas leyes fue minando lenta y erráticamente el determinismo. Las leyes estadísticas llegaron a considerarse como leyes de derecho propio y su alcance se extendió a los fenómenos naturales.

Nació, por tanto, un nuevo tipo de “conocimiento objetivo”, producto de nuevas tecnologías para obtener información sobre procesos naturales y sociales. Surgieron nuevos criterios sobre lo que debía considerarse como prueba del conocimiento de este tipo. Las leyes estadísticas que podían justificarse así se usaron no solo para describir sino para explicar también el curso de los sucesos. El azar era domesticado en el sentido de convertirse en la materia misma de los procesos fundamentales de la naturaleza y de la sociedad.

Bibliografía: La domesticación del azar (The taming of Chance) – Autor: Ian Hacking. Editorial Gedisa 1990

Share on Facebook