lunes, 30 de mayo de 2016

Segunda parte Datos abiertos

En el documento de políticas públicas de la Republica Argentina, las investigadoras Elena y Pichon mencionan, en el resumen ejecutivo publicado el año 2014 con el título “Recomendaciones para implementar una política de datos abiertos en el Poder Judicial”, que el acceso a la información pública es un derecho humano fundamental, reconocido en numerosos tratados internacionales: Su objetivo es garantizar la disponibilidad, conocimiento y transmisión de la información que genera el Estado; su ejercicio potencia el desarrollo de los derechos civiles, la transparencia y la rendición de cuentas de los funcionarios, y fomenta el debate público e informado para evitar la corrupción y los abusos por parte de los poderes estatales. Por eso, una gestión pública eficaz debe basar sus decisiones en datos objetivos y de calidad. Una nueva faceta del acceso a la información es la tendencia a publicar datos en formatos abiertos, para que la sociedad pueda acceder a la información y sea capaz de reutilizarla para diferentes fines, como cruzar bases de datos para generar nueva información o potenciar su utilidad al hacerla más compresible y dinámica.

Álvarez Espinar, en el artículo publicado el año 2014 con el título “Apertura y reutilización de datos públicos”, menciona que “datos abiertos” es un término que se refiere a la exposición pública de información de una forma adecuada para su acceso y libre reutilización por la ciudadanía, empresas u otros organismos. Datos abiertos del sector público es la publicación de la información custodiada o producida por las administraciones públicas a través de canales electrónicos basados en las tecnologías de la información y la comunicación. Habitualmente, se trata a los conceptos de datos abiertos y datos abiertos gubernamentales o del sector público, como términos equivalentes, aunque datos abiertos también abarcaría aquellos datos que el sector privado expone públicamente, muchas veces motivado por los mismos principios de transparencia, eficiencia, no obstante en este caso también incluirían la responsabilidad social corporativa. El concepto de datos abiertos gubernamentales es relativamente novedoso, ya que no fue hasta el año 2007 cuando se definió claramente. Aunque existen numerosas interpretaciones, todas se basan en los principios de esta primera definición, siempre enfocados en el objetivo final, que es la reutilización de dicha información de forma efectiva y eficiente, sin trabas. Entre los precursores de la apertura de datos para motivar la potencial reutilización se encuentra el Gobierno de los Estados Unidos de América, quien ya hace más de dos décadas puso a disposición de sus ciudadanos y a los de todo el mundo, su “Sistema de Posicionamiento Global” y las señales con información sobre localización geográfica, un proyecto que ha demostrado cómo los recursos compartidos, abiertos y gratuitos, en este caso particular subvencionado por los contribuyentes norteamericanos, permiten un desarrollo del negocio muchas veces inesperado.

En el artículo titulado “Open data o datos abiertos en Costa Rica”, escrito por el investigador Durán el año 2013, se menciona que en la era actual de la información, el concepto de datos abiertos emerge en forma congruente con la tendencia de movimientos y comunidades que promueven los sistemas y aplicaciones informáticas de código abierto con acceso libre. La filosofía de datos abiertos puede ser definida como la información expuesta en la Web en formato tabular de números, estadísticas, métricas, datos micro y macro económicos, con georeferencia o no, de todo tipo de temas, sin restricciones de propiedad intelectual o mecanismos de control en cuanto acceso a los mismos se refiere. La información publicada como datos abiertos tiene tres características fundamentales: Accesibles, preferiblemente vía Internet, en formato digital, interoperables capaces de ser leídos por computadoras para ser usados y reutilizados, es decir, reutilizable por diversas aplicaciones o sistemas, además de tener un licenciamiento de libre restricción en el uso y distribución. No son datos personales o individuales de las organizaciones, sino más bien de los productos ofrecidos y logros traducidos en beneficios para los usuarios de esos servicios. Pueden estar almacenados en hojas electrónicas y preferiblemente en formato de “Estructura de descripción de recursos”, que transformados son expuestos o publicados en Internet en un formato que por lo general corresponde a cuadros tabulares agrupados en paneles de control para facilitar su comprensión. Una vez publicados los cuadros puede “bajarse” o guardar esos datos en diferentes formatos por los usuarios finales de la información.

Curto Rodríguez, en el artículo publicado el año 2015 con el título “Los portales de datos abiertos autonómicos y la rendición de cuentas”, menciona que los objetivos de las iniciativas de datos abiertos son: (1) Generar valor agregado. Facilitando la creación de nuevos servicios por parte de los ciudadanos con los datos proporcionados por la administración pública. (2) Aumentar la transparencia a la administración pública. Publicando datos de tipo económico y legislativo, para favorecer el análisis y la evaluación de la gestión pública. (3) Incrementar la interoperabilidad. Permitirá interconectar de forma más eficiente todas las administraciones locales y permitirá que todas utilicen una fuente de datos común y por lo tanto más consistente. (4) Incrementar la participación ciudadana. Permitirá al ciudadano disponer de más información de tipo económico, administrativo, estadístico, etc. (5) Incrementar gobernanza abierta y de servicio. Voluntad de avanzar hacia la gobernanza abierta, basada en los valores de transparencia, participación, servicio y eficiencia.

lunes, 23 de mayo de 2016

Datos abiertos

En la serie de estudios de gestión pública patrocinados por el Instituto Latinoamericano y del Caribe de Planificación Económica y Social, se destaca el estudio realizado el año 2012 por los investigadores Concha y Naser titulado “Datos abiertos: Un nuevo desafío para los gobiernos de la región”, en el que se menciona que en los últimos años ha comenzado una verdadera revolución en materia de acceso a la información pública por parte de los ciudadanos. A esta revolución se la ha denominado “Open Data” o “Datos Abiertos”, la cual consiste en poner a disposición de la sociedad los datos de interés común de la ciudadanía para que, de cualquier forma, estos puedan desarrollar una nueva idea o aplicación que entregue nuevos datos, conocimientos u otros servicios que el gobierno no es capaz de entregar. Esta revolución ha generado un nuevo paradigma a través del cual el Estado ya no se encarga de generar todas las aplicaciones necesarias para los ciudadanos, sino que por el contrario, es la sociedad misma quien genera sus propias aplicaciones para sacar provecho a los datos que el Estado deja a su disposición. ¿En qué hospital público hay menos infecciones intrahospitalarias?, ¿Cuál de todos los colegios públicos tiene el mejor rendimiento escolar?, ¿En qué municipio existe el menor grado de delincuencia?, ¿Cuál de los municipios tiene la mejor calidad del aire?, ¿Cuál es la demanda de artículos de escritorio en los ministerios del Estado?. Como se aprecia, las consultas pueden ser muy simple y también de una gran complejidad, donde se requiere, necesariamente, cruzar datos para obtener cifras estadísticas, económicas, científicas, presupuestarias, entre otras. La información para contestar estas preguntas se encuentra escondida en algún rincón de una base de datos del Estado o en una carpeta en papel en una oficina pública. Entonces la pregunta es ¿cómo acceder a esta información?, pues bien, la respuesta se encuentra específicamente en lo que se conoce como “datos abiertos del gobierno”, que consiste en una iniciativa mundial de acceso a la información del Estado por parte de los ciudadanos.

El investigador Bron, en la obra publicada el año 2015 con el título “Open Data: Miradas y Perspectivas de los Datos Abiertos”, señala que hablar de datos abiertos es mucho más que un concepto o una creencia, es toda una filosofía y una gran práctica cuya finalidad es que determinados tipos de datos estén accesibles y sin restricciones para acceder a ellos. Son considerados como tales, todos aquellos datos accesibles y reutilizables que no requieren permisos y no presentan exigencias para llegar a ellos. Lo que sucede con los datos abiertos es algo similar a lo que sucede con el software libre, el código abierto, o el acceso libre. Lo que hoy se conoce como datos abiertos se refiere en general a fuentes de datos que históricamente han sido cerradas y que han estado bajo control de organizaciones, tanto públicas como privadas, y cuyo acceso ha estado restringido mediante diferentes tipos de limitaciones, licencias, derechos de autor o patentes. La referencia a datos abiertos está relacionada con diferentes tipos de material no documental que en tiempos pasados se encontraba a disposición de sólo unos pocos. Algunos ejemplos son los compuestos químicos, el genoma, y hasta la propia información geográfica, pasando por las fórmulas matemáticas y científicas.

Es necesario evolucionar, como indica García, en el artículo publicado el año 2014 con el título “Gobierno abierto: Transparencia, participación y colaboración en las administraciones públicas”, de un gobierno electrónico trivial, que simplemente traslada el modelo existente en la prestación de servicios públicos al modo electrónico, con las únicas ventajas para el ciudadano de la oportunidad horaria y ahorro de desplazamientos, al gobierno abierto, que aboga por un modelo abierto y participativo, en el que se solicita la colaboración de la ciudadanía, y se toma decisiones basadas en sus preferencias y necesidades. Para ello, los ciudadanos deben contar previamente con información pública que permita, al ciudadano, formar su opinión y emitir sus valoraciones, algo que puede posibilitarse gracias a los datos abiertos.

De Ferrari, en el artículo publicado el año 2012 titulado “Sociedad civil y gobierno abierto: La necesidad de un trabajo colaborativo”, menciona que los datos abiertos, hacen referencia a cualquier dato e información producida o comisionada por organismos públicos, y que cualquier persona puede usar para cualquier propósito. Para calificar la información de abierta, debe ser posible, tanto para el gobierno como para cualquier ciudadano, copiarla libremente, compartirla, combinarla con otro material, o re-publicarla como parte de aplicaciones Web, de manera que permita a los usuarios analizarla, representarla visualmente y comentarla, así como reutilizarla y presentarla en otros formatos. El propósito de las políticas de datos abiertos, como política pública, es que la información pública sea detectable y reutilizable, mejorando la accesibilidad y optimizando los recursos que se invierten en su sistematización y archivo. El uso de las tecnologías de la información debería permitir a las agencias gubernamentales la publicación rápida de los datos que generan así como su almacenamiento. En un sentido más amplio, una política de datos abiertos facilita, entre otras cosas, profundizar la comprensión pública de las actividades del gobierno, y que la ciudadanía pueda, a través de la reutilización de estos datos, elaborar herramientas que mejoren la calidad de vida en diversos ámbitos, como transporte, salud, seguridad, etcétera.

lunes, 16 de mayo de 2016

Segunda parte Big Data

Según la consultora McKinsey Global Institute, el noventa por ciento de los datos del planeta se ha generado en los últimos dos años, 2013 y 2014, su proliferación va en aumento en una progresión difícil de calcular. Están en todas partes, provienen de redes sociales, sistemas de telemedición, fotografías, vídeos, correo electrónico, son de múltiple naturaleza y se almacenan en distintos lugares y formatos. El conjunto de toda esta explosión de información recibe el nombre de Big Data y, por extensión, así también se denomina al conjunto de herramientas, técnicas y sistemas destinados a extraer todo su valor. Big Data también está emparentado con lo que se conoce como minería de datos, un campo de las ciencias de la computación que intenta descubrir patrones en grandes volúmenes de datos. La minería de datos, al igual que el Big Data, utiliza los métodos de la inteligencia artificial y la estadística para analizar los patrones en las bases de datos con las que trabaja.

La empresa consultora Gartner, en el glosario de tecnologías de la información publicado el año 2012, define Big Data como “aquellos recursos de información caracterizados por su alto volumen, velocidad o variedad, que requieren formas de procesamiento innovadoras y eficientes para la mejora del conocimiento y la toma de decisiones”. Laney, en el artículo publicado el año 2011 con el título “Gestión de datos en tres dimensiones: Controlando volumen de datos, velocidad y variedad”, menciona que de acuerdo con esta definición, las características que definen el Big Data pueden resumirse en lo que se conoce como las tres Vs: Volumen, Velocidad y Variedad. En palabras de Normandeau, en el artículo publicado el año 2013 con el título “Mas allá del volumen, variedad y velocidad es el resultado de la veracidad del Big Data”, a estas tres Vs que forman parte de la definición intrínseca del Big Data, los expertos añaden una cuarta V que tiene que ver con la Veracidad, ya que es fundamental que los datos en los que se basan los análisis sean correctos y no contengan sesgos o ruido que puedan distorsionar las conclusiones que se extraigan de ellos. La definición de Big Data propuesta por Gartner contiene una segunda parte, también importante, que tiene que ver con la capacidad para analizar los datos y extraer de ellos información relevante. En el artículo de Brustein, publicado el año 2014 con el título “Entrevista con Andreas Weigend sobre refinerías de Big Data”, se menciona que Andreas Weigend, antiguo científico de Amazon y profesor en varias universidades americanas, afirma que los datos son el nuevo petróleo, no sólo en el sentido económico, sino también porque, al igual que el petróleo, es necesario refinarlos y depurarlos para que aporten valor. Aceptando la definición propuesta por Gartner, se utilizara el término Big Data para hacer referencia de manera indisoluble a los grandes conjuntos de datos y a los resultados que puedan derivarse del análisis de los mismos.

Demchenko, en el artículo publicado el año 2013 con el título “Definición de un marco de trabajo para la arquitectura de datos”, menciona que la gestión y procesamiento de Big Data es un problema abierto y vigente que puede ser manejado con el diseño de una arquitectura de cinco niveles, la cual está basada en el análisis de la información y en el proceso que realizan los datos para el desarrollo normal de las transacciones. A continuación se pueden ver los niveles que contienen un ambiente Big Data y la forma en que se relacionan e interactúan entre ellos: (1) Fuente de Datos. Entre las cuales se encuentran las redes sociales, transacciones de bancos, Google. (2) Ingreso de datos. Relacionado con la integración de los datos y el formato de los mismos. (3) Gestión de datos. La que tiene que ver con la transformación, manipulación y correlación de los datos. (4) Análisis de datos. Relacionado con los modelos de datos y las métricas de cálculo. (5) Tiempo Real de procesamiento. Que tiene relación con las alertas y los triggers.

A continuación se citan los beneficios e inconvenientes más relevantes que han sido extraídos del artículo publicado por Vauzza el año 2013 con el título “Todo lo que necesitas saber sobre Big Data”: (1) Gestión del cambio. Comprende la búsqueda de nuevas oportunidades de negocio a través de segmentación mejorada y venta cruzada de productos. Mediante la aplicación de análisis y modelado predictivo a los datos de cuentas de clientes e historial de transacción. Mediante el análisis de consumo de los servicios y productos de los clientes. Se puede predecir con mayor exactitud qué productos son los más apropiados para cada cliente. Ofrecer la combinación adecuada de servicios y productos mejora la eficacia y la eficiencia de la fuerza de ventas de la compañía. (2) Mejoras Operativas. Comprende la mayor capacidad de visibilidad del negocio a través de informes más detallados. Análisis de navegación web y hábitos de consumo online. Análisis de Redes Sociales. Se genera una visión completa de los clientes, identificando el papel que desempeñan en sus círculos y su grado de influencia. Marketing viral, que detecta clientes más influyentes, roles sociales, etc., para maximizar la difusión de los productos y servicios. Análisis de datos de navegación, que analiza la navegación Web y los hábitos de consumo en línea. Se identifica al usuario, se monitorizan sitios y búsquedas por palabra, vínculos visitados, tiempo de navegación, etc. Cuadro de mando en tiempo real, la información siempre está disponible sin esperas de actualización de los datos. (3) Anticipación a los problemas. Un sistema predictivo de análisis y cruce de datos permite anticipar posibles problemas que puede surgir en el futuro. (4) Mejoras de procesos. Permite la simplificación de procesos actuales y control del negocio. Análisis de seguridad, con la analítica proactiva que permite la reducción de riesgos y pérdidas frente a fraudes. Permite detectar patrones complejos de fraude en tiempo real analizando los datos históricos, el patrón de uso de información de geolocalización, análisis de transacciones y operaciones sospechosas. (5) Soporte a la toma de decisiones a través de algoritmos automáticos. Una analítica sofisticada que analice todos los informes y datos, ayuda a la toma de decisiones, reduciendo los riesgos y descubriendo información que antes podría estar oculta, pero a la vez importante.

lunes, 9 de mayo de 2016

Primera parte Big Data

En la tesis de maestría de Ramos, publicada el año 2015 con el título “Big Data en sectores asegurador y financiero”, se menciona que el progreso de las tecnologías de la información provoca la generación de una gran cantidad de datos a nivel global, de hecho el volumen de los datos generados diariamente es tan grande que las bases de datos actuales se están quedando obsoletas, debido a que, los datos crecen más rápido que la capacidad de las bases de datos para almacenar dicha información. Si las empresas, tanto públicas como privadas, no aprenden a tratar y administrar este tipo de flujo de información dejarán de ser competitivas en los próximos años. Con el tratamiento de estos datos, las empresas podrían tener una visión global del cliente, utilizando datos de fuentes internas. Datos que ya poseen y no están analizados y de fuentes externas, como redes sociales, aplicaciones móviles y datos de geolocalización entre otros. El objetivo principal de este tratamiento y cruce de datos es reducir riesgos. Esto se logra prediciendo el comportamiento y las necesidades del cliente. Gracias a esta ventaja, las empresas podrían desde aplicar microsegmentación con alta precisión a detectar posibilidades de propensión a la fuga del cliente, adelantarse a sus necesidades, conociendo que necesita el cliente antes de que este lo sepa; hasta detectar, identificar y evitar el fraude. En el mercado, se observa hechos y fenómenos que afectan a otros sectores donde se empieza a aprovechar este flujo de datos. Por ejemplo, utilizando Big Data para analizar y cruzar los datos generados por sus usuarios empresas como Amazon que, cruzando datos de compras de sus clientes, han logrado algoritmos de recomendación con los que proveen de ofertas a clientes que han comprado un artículo y se anticipan a sus necesidades posteriores.

La primera vez que se empleó el término Big Data fue el año 1997 en un artículo de dos investigadores de la NASA David Ellsworth y Michael Cox, titulado “Aplicación controlada por la demanda de paginación para la visualización fuera del núcleo”, los cuales indicaban que el ritmo de crecimiento de los datos empezaba a ser un problema para los sistemas informáticos de los que se disponía. Posteriormente, en el año 2001, Douglas Laney publicó un artículo titulado “Gestión de datos 3D: Control del volumen de datos, la velocidad y la variedad”. Este artículo definía lo que actualmente se conoce como las tres V que definen Big Data: Volumen, velocidad y variedad. Asimismo, Big Data no deja de ser un anglicismo que indica datos masivos y que se refiere a la utilización de sistemas informáticos para la acumulación y tratamiento de grandes cantidades de datos y de cómo se revisan y manipulan para identificar distintos tipos de patrones.

Ramos, en la tesis citada, menciona que no obstante y si se pretende entender que significa Big Data, primero es necesario conocer cómo y cuantos datos se generan. Ya que actualmente todo el mundo realiza cualquier cosa desde cualquier lugar, algo que es posible gracias a la tecnología. Esta gran conectividad es una fuente de cantidades ingentes de datos. Cuando se habla de Big Data se está hablando de grandes cantidades de datos. Estos serían: (1) Byte (B) equivale a ocho bits. (2) Kilobyte (KB) corresponde a mil bytes. (3) Megabyte (MB) equivale a mil kilobytes. (4) Gigabyte (GB) corresponde a mil megabytes. (5) Terabyte (TB) equivale a mil gigabytes. (6) Petabyte (PB) corresponde a mil terabytes. (7) Exabyte (EB) equivale a mil petabytes. (8) Zettabyte (ZB) corresponde a mil exabytes. Según la Empresa Domo, en un estudio sobre la cantidad de datos que se generaban en el año 2014 en un minuto en la red por usuarios de social media, se pueden resaltar las siguientes empresas y cantidades asociadas al Big Data: (1) YouTube, los usuarios suben setenta y dos horas de videos nuevos. (2) Email, los usuarios envían doscientos cuatro millones de mensajes. (3) Google, los usuarios envían cuatro millones de consultas de búsqueda. (4) Facebook, los usuarios comparten dos millones cuatrocientos sesenta mil piezas de contenido. (5) Whatsapp, los usuarios comparten trescientos cuarenta y siete mil doscientos veintidós fotos. (6) Twitter, los usuarios envían doscientos setenta y siete mil tuits. (7) Instagram, los usuarios publican doscientas dieciséis mil fotos. (8) Amazon, genera ochenta y tres mil dólares de ventas en línea. (9) Pandora, los usuarios escuchan sesenta y un mil ciento cuarenta y un horas de música. (10) Skype, los usuarios se conectan por veintitrés mil trescientas horas.

Maté, en el artículo publicado el año 2015 titulado “Big data: Un nuevo paradigma de análisis de datos”, complementa mencionando que existen tres grandes bloques o tipos de datos en Big Data, donde es posible realizar la clasificación: (1) Datos estructurados. Corresponde a datos con longitud y formato definidos, como fechas, números o cadenas de caracteres. Se almacena este tipo de datos en tablas. Como ejemplo se tiene una ficha de clientes con: Fecha de nacimiento, nombre, dirección, transacciones en un mes, puntos de compra. (2) Datos semiestructurados. Son datos combinados que no se limitan a campos determinados, pero tienen marcadores para diferenciarse y clasificarse. Se trata de información irregular y son datos que poseen otros datos que se describen entre ellos. Un ejemplo de este tipo de datos son los correos electrónicos, la parte estructuras contiene el destinatario, los receptores y el tema; la parte no estructurada corresponde al texto del mensaje. Otro ejemplo se refiere a los lenguajes de programación de páginas Web o de bases de datos como HTML, XML o JSON. (3) Datos no estructurados. Datos en el formato original en el que fueron recopilados, no se pueden almacenar en tablas ya que no es posible su simplificación a tipos básicos de datos. Ejemplo de datos no estructurados se produce de persona a persona en la comunicación en las redes sociales; de persona a máquina se produce en los dispositivos médicos, el comercio electrónico, las computadoras y los dispositivos móviles; de maquina a máquina se produce en los sensores, dispositivos GPS, cámaras de seguridad. Otro grupo de datos no estructurados son los videos y documentos multimedia, los documentos PDF, contenidos de correos electrónicos, imágenes.