Big Data Bolivia: 2016

lunes, 14 de noviembre de 2016

Enfoques de minería de datos distribuida

En la tesis de grado de Mamani, publicada el año 2015 con el título “Aplicación de la minería de datos distribuida usando algoritmos de agrupamiento de k-medias para mejorar la calidad de servicios de las organizaciones modernas” se describen los siguientes algoritmos asociados al enfoque de minería de datos distribuida: (1) Algoritmo k-medias; (2) Modelo base; (3) Densidad en malla; (4) Jerárquicos; (5) Agrupamiento P2P; (6) Algoritmo k-medias P2P. Estos algoritmos se describen a continuación.

Para el algoritmo “k-medias” se consideran los siguientes pasos: (1) Se eligen de manera aleatoria k centroides. (2) Los centroides son enviados a todos los nodos participantes; luego se realiza el agrupamiento k-medias en cada nodo. (3) Cada nodo extrae información estadística de los elementos de sus grupos. (4) Las estadísticas son transferidas hacia un controlador central quien se encargara de consolidar los modelos provenientes de los nodos locales. El hecho de transferir solo información estadística hacia un nodo central y no el conjunto de datos completo permite mantener la confidencialidad y seguridad de la información. Una de las desventajas de este modelo se basa en el hecho de tener que enviar en forma continua la información estadística de los nodos locales hasta lograr convergencia en los resultados lo cual puede generar bastante tráfico en la red y ralentizar el proceso. El algoritmo de “modelo base” utiliza agrupamiento de maximización de expectativas a nivel local, que es similar al algoritmo “k-medias”, excepto que la decisión sobre el agrupamiento final se basa en el uso de funciones adicionales como la función gaussiana. Inicialmente, el sistema local procesa sus elementos individuales, mediante el algoritmo de agrupamiento de maximización de expectativas local, a continuación cada grupo es modelado como una suma de funciones gaussianas. Las funciones resultantes son transferidas a un coordinador central, quien se encarga de reunir las funciones para generar la función global sobre la densidad de la probabilidad de la imagen global. Esta información se envía a cada nodo local con la finalidad que cada uno de ellos pueda utilizarla y reevaluar sus resultados de ser necesario. El algoritmo emplea buenas medidas de confidencialidad y precisión. Sin embargo tiene un problema básico que consiste en que dos grandes grupos conectados mediante un componente con densidad mínima puede resultar constituyéndose en un mismo grupo sin que lo sea.

El algoritmo “densidad en malla” hace uso del algoritmo “clique” con ciertas mejoras enfocadas en el agrupamiento distribuido. El enfoque basado en densidad para el agrupamiento distribuido consiste en que de manera inicial cada atributo definido en la consulta del usuario es explorado y en lugar de definir ciertos valores globales para el tamaño de una malla estos son determinados dinámicamente basándose en información estadística. Los grupos son representados como mallas rellenadas y debido al proceso dinámico de cuadricular el área se tiene que en zonas de intensa densidad la granularidad es bastante fina y en zonas de baja población la densidad es gruesa. El algoritmo genera grupos sólidos, sin embargo estos asumen que los datos están centralizados en un repositorio desde el cual se distribuye a todos los nodos. El algoritmo “jerárquico” es bastante similar al enfoque basado en “densidad en malla”. La idea principal que persigue este algoritmo es empezar con un conjunto de puntos distintos, cada uno formando su propio grupo. A continuación se empieza recursivamente a unir dos grupos cercanos hasta asegurar que todos los puntos lleguen a pertenecer a un mismo grupo. De este modo en los algoritmos jerárquicos paralelos se utilizan dendogramas para crear grupos y sus distancias mínimas y máximas entre ellos. La unión de grupos se basa en distancias mínimas las cuales son transmitidas junto a un objeto identificador. La propiedad reducción es utilizada para crear el modelo global.

Sunny y Thampi, en el artículo publicado el año 2010 con el título “Estudio sobre minería de datos distribuida en redes P2P”, hacen referencia a investigaciones de “algoritmos de agrupamiento P2P”, considerando las siguientes propuestas: (1) Algoritmo exacto para monitoreo de agrupamiento de k-means. Este algoritmo consiste en monitorear la distribución de los centroides de los nodos locales dispersos y realizar el proceso de k-medias cuando se actualizan los grupos. El algoritmo considera dos fases, la primera fase consiste en monitorear la distribución de los datos mediante un algoritmo exacto; la segunda fase consiste en calcular los centroides mediante un enfoque centralizado. (2) Algoritmo k-medias basado en probar y hacer. Esta propuesta consiste en transmitir los centroides a todos los nodos en la red utilizando el mecanismo probar y hacer. Se requiere una sincronización de todos los nodos en cada iteración lo cual genera congestión en la red. De manera adicional se describen otros 3 algoritmos basados en k-medias P2P. En el artículo de Datta y sus colegas, publicado el año 2006 con el título “Minería de datos distribuida en redes punto a punto”, se propone un algoritmo iterativo basado en el intercambio de mensajes entre nodos conectados directamente para resolver el problema de agrupamiento de k-medias en redes P2P. Se eligen aleatoriamente un conjunto de centroides y se distribuyen sobre todos los nodos. Para cada iteración, cada nodo ejecuta un proceso basado en dos pasos: (1) Idéntico a la primera iteración del algoritmo k-medias estándar; en el cual cada nodo asigna cada uno de sus puntos a su centroide más cercano. (2) Un nodo envía un mensaje a los nodos vecinos conteniendo su identificador y el número de la iteración actual en la cual se encuentra. Se repite el paso (1) y paso (2) hasta que los centroides de las iteración actual y la siguiente no presenten cambios significativos con lo cual el algoritmo habrá concluido.

jueves, 10 de noviembre de 2016

Para reforzar investigaciones: Especializan a periodistas bolivianos en datos

Periodismo de Datos es una técnica de investigación que se está desarrollando con mayor énfasis en el mundo debido a que tiene una gran importancia para el periodista que informa a la población sobre la gestión pública y privada, es por ello que la Fundación para el Periodismo ya inició con el primer nivel de Periodismo de Datos con 60 participantes, para la siguiente gestión se proyecta la continuación del nivel 2, indicó el director ejecutivo de la Fundación para el Periodismo, Renán Estenssoro.
Estenssoro, señaló que el objetivo primordial de esta especialidad es lograr estimular la apertura de datos en Bolivia para que las instituciones públicas y privadas comiencen a ofrecer los datos de manera espontánea y por iniciativa propia a través de páginas web de libre acceso para la ciudadanía.
“Esto creo que es un ejercicio democrático y de transparencia en la gestión pública”, dijo.
El taller arrancó en la ciudad de Santa Cruz con la participación de periodistas de Tarija, Beni y Santa Cruz; Olaya Argüeso jefa del equipo de datos del periódico global El País de España junto a Pablo Rivero especialista boliviano en open data fueron los expositores, quienes compartieron sus técnicas y destacaron la importancia de los datos en las investigaciones periodísticas.
Los talleres ahora continúan realizándose en Cochabamba, posteriormente se realizarán en la ciudad de La Paz los días 11y 12 del presente. Como incentivo para los asistentes, la fundación escogió los 10 mejores proyectos de investigación, mismos que serán impresos en un libro que se publicará a mediados de diciembre de 2016.

Difícil acceso a datos en Bolivia

En Bolivia no existe una norma que permita o exija a los funcionarios públicos entregar información de manera libre, ordenando y sistematizada para hacerla de uso público. “Si bien hay recursos jurídicos en decretos supremos no hay una aplicación específica a partir de una norma o un reglamento”, comenta el expositor Rivero.
Al no contar con el marco jurídico se torna difícil avanzar; otro factor importante es que aún existen brechas tecnológicas y brechas de recursos tecnológicos para la difusión y la utilización de datos.
Rivero dijo que la finalidad de los talleres es poder lograr que más periodistas sean capaces de apropiarse de la información para modificarla, entenderla y así construir la información, las historias a partir de datos

lunes, 7 de noviembre de 2016

Primera parte Enfoques de minería de datos distribuida

Fayyad y sus colegas, en el artículo publicado el año 1996 titulado “El proceso de descubrimiento de conocimiento en bases de datos, para la extracción de conocimiento útil de volúmenes grandes de datos”, menciona que la minería de datos es un término genérico que engloba resultados de investigación, técnicas y herramientas usadas para extraer información útil de grandes conjuntos de datos. Los algoritmos de minería de datos se enmarcan en el proceso completo de extracción de información conocido “descubrimiento de conocimiento en bases de datos”, que se encarga de preparar los datos y de interpretar los resultados obtenidos. El análisis de la información recopilada en algunas ocasiones puede llevarse a cabo de forma manual, utilizando para ello algunas técnicas estadísticas. Sin embargo, cuando la cantidad de datos de los que se dispone aumenta, esta forma de estudio se puede complicar. Allí es donde entra en juego el conjunto de técnicas de análisis automático a las que hace referencia la minería de datos o el descubrimiento de conocimiento en bases de datos.

Según López, en la tesis de maestría publicada el año 2012 con el título “Análisis de las posibilidades de uso de Big data en las organizaciones”, las características principales de la minería de datos son: (1) Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años. (2) El entorno de la minería de datos suele tener una arquitectura cliente-servidor. (3) Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos, archivados. (4) El usuario de la minería de datos es muchas veces un usuario final con poca o ninguna habilidad de programación. (5) Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. (6) Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente. (7) La minería de datos produce cinco tipos de información: Asociaciones, secuencias, clasificaciones, agrupamientos y pronósticos.

Caridad, en el artículo publicado el año 2001 con el título “La minería de datos: Análisis de bases de datos en la empresa”, menciona que los sistemas informáticos centralizados se difundieron en las décadas de los sesenta y setenta del siglo veinte; luego con la aparición de las mini-computadoras comenzaron a incorporarse procesos automatizados en diferentes campos de aplicación. Finalmente, la difusión masiva de las computadoras personales en la década de los ochenta y de las redes de comunicación generalizaron el uso de los procesos informáticos, obligando así a cambiar las estructuras centralizadas de los centros de procesamiento de datos. Esta idea es complementada por Mitra y Acharya, en el libro publicado el año 2003 con el título “Minería de datos: Multimedia, computación blanda y bioinformática”, quienes señalan que la mayoría de los datos comienzan a ser archivados en varias unidades de almacenamiento, es decir los datos se pueden almacenar en diferentes localidades lógicas, bien sea en un mismo espacio físico o geográficamente distinto. Estas bases de datos relacionadas lógicamente son interconectadas por una red de comunicaciones, dando lugar a las llamadas bases de datos distribuidas.

Han y Kamber, en el libro publicado el año 2006 con el título “Minería de datos: Conceptos y técnicas”, indican que en las bases de datos distribuidas las múltiples computadoras son llamadas nodos o sitios, y pueden tener diferentes esquemas de diseño, como por ejemplo el esquema centralizado, donde la base de datos distribuida está localizada en una sola unidad de almacenamiento y los usuarios están distribuidos. El esquema de réplica, el cual consiste en que cada nodo debe tener su propia copia completa de la base de datos. Esquema fragmentado o particionado, donde solo hay una copia de cada elemento; en este caso la información está distribuida a través de los diferentes nodos y en cada nodo se almacena una o más partes disjuntas de la base de datos. También se puede nombrar el esquema híbrido, el cual no es más que la combinación del esquema de partición y de réplica.

En la tesis de grado de Mamani, publicada el año 2015 con el título “Aplicación de la minería de datos distribuida usando algoritmos de clustering k-means para mejorar la calidad de servicios de las organizaciones modernas”, se menciona que las bases de datos distribuidas se pueden clasificar en homogéneas o heterogéneas. Las bases de datos distribuidas homogéneas son aquellas en las que el mismo esquema de diseño está repetido en cada servidor y los registros se encuentran repartidos en los diferentes nodos. Mientras que, las bases de datos distribuidas heterogéneas son aquellas en las que cada nodo almacena un subconjunto de datos. Mitra y Acharya, en el libro citado anteriormente, señalan que a su vez, el crecimiento de las bases de datos distribuidas dio origen a la necesidad de tratar con grandes cantidades de bases de datos heterogéneas, es decir datos almacenados en múltiples archivos, diferentes unidades de almacenamiento, y diferentes localidades geográficas, por lo que algoritmos más sofisticados en el uso de técnicas de minería de datos deben ser considerados para la integración de las bases de datos distribuidas y la extracción de información de interés de las mismas. Sunny y Thampi, en el artículo publicado el año 2010 con el título “Ensayos sobre minería de datos distribuida en redes P2P”, presentan una taxonomía de los enfoques de minería de datos distribuida, clasifican dicha taxonomía en dos grupos. El primer grupo es conocido como coordinador centralizado y reúne tres subgrupos conocidos como: Agrupamiento distribuido, regla asociativa distribuida y clasificador de aprendizaje distribuido; el segundo grupo es conocido como minería de datos punto a punto y reúne dos subgrupos que se conocen como: Minería de datos compleja y operaciones primitivas.

martes, 1 de noviembre de 2016

Segunda parte Nanotecnología y big data

En el informe de Stokes, publicado el año 2014 con el título “Nanotecnología y Big data: ¿La siguiente revolución industrial?”, se menciona que un grupo de expertos dirigido por el profesor Sir Mark Welland, Director del Centro de Nanociencia de la Universidad de Cambridge, fue organizado y financiado por la Fundación Lloyd en el mes de octubre del año 2013. Se consideraron las implicaciones potenciales de la nanotecnología en la seguridad y el rendimiento de los activos de ingeniería y la infraestructura en la que se basa la sociedad moderna. El panel incluyó a académicos de alto nivel de las instituciones líderes en el mundo: Universidad de Cambridge, Universidad Heriot-Watt y Southampton y el Laboratorio de Seguridad y Salud en el Reino Unido; Universidad Yale en los Estados Unidos; Universidad Nacional de Singapur y Universidad Münster de Alemania.

Entre otras cosas, los expertos analizaron las posibles implicaciones de la nanotecnología en la seguridad y el rendimiento de los activos de ingeniería, así como en la infraestructura en la que se basa la sociedad moderna. El informe, presentado el año 2014 indica que la nanotecnología tendrá un gran impacto en casi todos los sectores, incluyendo la energía, el transporte, la fabricación, la medicina, la informática y las telecomunicaciones. En este sentido, el mencionado informe identifica cinco áreas fundamentales de impacto: (1) Nanopartículas. El informe pone de relieve la necesidad de investigar el desarrollo de nuevos métodos que permitan evaluar la seguridad y garantizar la calidad y la trazabilidad de las nanopartículas en la cadena de suministro. (2) Materiales artificiales inteligentes. El informe prevé el desarrollo de nuevos materiales artificiales y novedosas técnicas de fabricación. El uso de materiales más ligeros y resistentes con propiedades diseñadas específicamente podría dar lugar, por ejemplo, a embarcaciones pegadas entre sí con compuestos ligeros. Paralelamente, los avances en el campo de la impresión en tres dimensiones permitirán la impresión de metales. (3) Almacenamiento de energía. El desarrollo de pequeñas baterías compactas con capacidad de almacenamiento masivo junto con la capacidad de captar energía del entorno podría dar lugar a nuevos sistemas de transporte o electrodomésticos que dispongan de energía para toda su vida útil en el momento de la compra. (4) Miniaturización de sensores. La incorporación de nanosensores en materiales estructurales como el hormigón proporcionará información continua en tiempo real sobre factores de desempeño estructural, como la corrosión o las tensiones. Esta tecnología mejorará también la robótica y los vehículos no tripulados en el sector del transporte. (5) Grandes repositorios de datos o Big data. Se producirá un aumento masivo de los datos recopilados como consecuencia de la colocación de sensores en todas partes. Esto tendrá importantes implicaciones a la hora de garantizar la calidad, seguridad y trazabilidad.

En la tesis de maestría de Manso, publicada el año 2015 con el título “Análisis de Modelos de Negocios Basados en Big Data para Operadores Móviles”, se menciona que el término general que se utiliza para describir la tendencia creciente de datos donde el volumen, variedad, velocidad y veracidad excede a la capacidad de los métodos tradicionales es conocido como Big data. Este fenómeno se caracteriza por cuatro uves: (1) Volumen. Más información de lo que es económicamente factible almacenar, terabytes a petabytes de datos. (2) Variedad. Datos en múltiples formatos tales cómo estructurado, semi-estructurado, no estructurado y de tipo texto, imágenes, videos, audio, interactividad, etc. (3) Velocidad. Análisis en tiempo casi real de flujo de datos para permitir la toma de decisiones en fracciones de segundos. (4) Veracidad. Gestión de la fiabilidad y la previsibilidad de la incertidumbre intrínseca de los datos. Big data es uno de los temas más candentes en la actualidad y su crecimiento se prevé que sea exponencial. ¿Cómo afectará esto a la sociedad? Y, lo más importante ¿puede ayudar los datos a mejorar la vida de las personas? Este boom puede traducirse en mejoras en la gestión de diferentes aspectos de la sociedad, desde las catástrofes del planeta, la salud, la agricultura, la productividad, el medio ambiente, la educación o el gobierno abierto, entre otros. La clave está en encontrar la vía, mediante un uso responsable, para hacer uso de estas grandes cantidades de datos para el beneficio de la sociedad.

Según el informe de Stokes, en los últimos años se le ha dado mucha importancia a la nanotecnología en los medios de comunicación y, más recientemente, han salido a la palestra conceptos como el Internet de las cosas o el ya mencionado Big data. Sin embargo, hace más de treinta años que se investiga en nanotecnología, se han invertido, y se siguen invirtiendo todavía, miles de millones de dólares en investigación en este campo y la gran revolución prometida sigue sin llegar a hacerse realidad. No hay duda de que la nanotecnología seguirá avanzando y conducirá al desarrollo de nuevos productos sorprendentes; y probablemente dará lugar a la tan anunciada revolución en un futuro próximo. Por el momento, hay dos factores fundamentales que lo impiden: (1) Las dificultades para llevar los avances del laboratorio al mercado: Este es uno de los grandes problemas de la nanotecnología actualmente, la dificultad a la hora de escalar la producción lograda en el laboratorio para lograr una producción a escala comercial. Un buen ejemplo es el del grafeno, el nanomaterial del que tanto se ha hablado y que se dice que podría revolucionar la electrónica reemplazando al silicio. Sin embargo, por el momento, la producción de grafeno de alta calidad no es posible, incluso en pequeñas cantidades, por lo que todavía no es viable comercialmente. (2) Las preocupaciones relacionadas con la salud y la seguridad: Es necesario abordar estos temas desde el punto de vista ambiental, médico y legislativo y encontrar una solución que garantice realmente que la nanotecnología no entraña ningún perjuicio para los seres vivos y el medioambiente antes de permitir la salida masiva de nanomateriales al mundo. La nanotecnología está todavía en una etapa conceptual. No obstante, hay que tener en cuenta también que la industria todavía no ha invertido de forma masiva en este campo.

miércoles, 26 de octubre de 2016

Nanotecnología y big data

En la monografía de Briones y sus colegas, publicada el año 2009 con el título “Nanociencia y nanotecnología: Entre la ciencia ficción del presente y la tecnología del futuro”, se menciona que muchas definiciones circulan por la Web para nanociencia y nanotecnología y, como todo lo que aparece en Internet, deben de ser interpretadas con cautela. Hay quien dice que nanociencia es la ciencia de lo infinitamente pequeño. Esto no es estrictamente cierto, ya que esta definición responde mejor, por ejemplo, al tipo de estudios de los que se ocupa la física de altas energías, que trabaja con protones, neutrones o incluso los constituyentes de éstos: Los quarks. Otras personas piensan que la nanotecnología trata de reducir el tamaño de los objetos hasta límites insospechados. Esto tampoco es completamente acertado, ya que la nanotecnología necesita técnicas de fabricación diferentes, basadas en otros conceptos. Por otra parte, a veces se asocia la palabra nanotecnología con la construcción de dispositivos y robots como los que se tiene en el mundo pero de dimensiones bastante pequeñas. Esto, también es un error. Los problemas que presenta la definición de estos términos están relacionados con el hecho de que ni la nanociencia ni la nanotecnología nacieron como disciplinas cerradas, sino que ambas son campos del conocimiento que se han ido construyendo paralelamente a la aparición de nuevos descubrimientos y que, de hecho, no se sabe aun hacia donde evolucionarán.

De manera general, se podría definir nanotecnología como la fabricación de materiales, estructuras, dispositivos y sistemas funcionales a través del control y ensamblado de la materia a la escala del nanómetro, de cero coma uno a cien nanómetros, del átomo hasta por debajo de la célula, así como la aplicación de nuevos conceptos y propiedades, de diferentes ramas de la ciencia, que surgen como consecuencia de esa escala tan reducida. La nanotecnología, de manera obvia, se encarga de manejar grandes volúmenes de datos en equipos computacionales en escala manométrica. Pero como se podrían encarar tareas tan importantes, al interior de la nanotecnología, como son el manejo de las nanopartículas, los nanomateriales artificiales inteligentes, el almacenamiento de energía o la miniaturización de sensores para tareas tan importantes como son las asociadas al manejo del control difuso o el control domótico de la infraestructura de inteligencia ambiental, que permita a las personas “vivir bien”, mas allá de la simple retorica.

En el artículo de Puyol, publicado el año 2014 con el título “Una aproximación a Big data”, cada día en el mundo se generan más de dos punto cinco exabytes de datos, esto equivale a un millón de de terabytes. La generación de datos no solo crece, explota. El crecimiento exponencial es tan grande, que el noventa por ciento de los datos guardados en la actualidad, han sido creados en los dos últimos años. Cada segundo sensores, tabletas, teléfonos y sistemas inteligentes generan cantidades de datos que crecen exponencialmente. Actualmente, la mayoría de los datos almacenados por las nuevas tecnologías no tienen más de dos años. Muchos de estos datos no se procesan porque los sistemas tradicionales de computación no son capaces de procesarlos y muchas empresas no tienen una solución unificada para recogerlos y analizarlos.

Según datos hechos públicos por el Instituto Global McKinsey, en el documento publicado el año 2011 con el título “El despertar de la India urbana: La construcción de ciudades inclusivas”, el noventa por ciento de los datos que existen en el planeta se ha generado en los últimos dos años y durante el año 2011 se rozaron los dos zetabytes, equivalente a más de dos mil millones de terabytes de información en todo el mundo. Este ritmo de generación de datos ha desbordado a los programas informáticos utilizados habitualmente para capturar, gestionar y procesar información. Se requiere de nuevos programas de software y herramientas de hardware para su procesamiento.

En el artículo de Barranco, publicado el año 2012 con el título “¿Qué es Big data?”, se indica que en términos generales el Big data puede ser considerado como a la tendencia en el avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos: Estructurados, no estructurados y semi estructurados, que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos relacional para su análisis. De tal manera que, el concepto de Big data aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big data no se refiere a alguna cantidad en específico, ya que es usualmente utilizado cuando se habla en términos de petabytes y exabytes de datos. Entonces cabe preguntarse ¿Cuánto es demasiada información de manera que sea elegible para ser procesada y analizada utilizando Big Data?, esto debe ser analizado en términos de bytes: Un gigabyte es equivalente a mil millones de bytes; un terabyte equivale a un millón de bytes; un petabyte equivale a un millón de gigabytes; un exabyte es equivalente a mil millones de gigabytes. Además del gran volumen de información, existe en una gran variedad de datos que pueden ser representados de diversas maneras en todo el mundo, por ejemplo de dispositivos móviles, audio, video, sistemas de posicionamiento global, incontables sensores digitales en equipos industriales, automóviles, medidores eléctricos, veletas, anemómetros, etc., los cuales pueden medir y comunicar el posicionamiento, movimiento, vibración, temperatura, humedad y hasta los cambios químicos que sufre el aire, de tal forma que las aplicaciones que analizan estos datos requieren que la velocidad de respuesta sea lo demasiado rápida para lograr obtener la información correcta en el momento preciso. Estas son las características principales de una oportunidad para Big data.

lunes, 26 de septiembre de 2016

Algoritmos genéticos en optimización multiobjetivo

En la tesis de maestría de Gutiérrez Méndez, publicada el año 2011 con el título “Optimización multiobjetivo usando algoritmos genéticos culturales”, se menciona que la optimización multiobjetivo tiene amplias aplicaciones en distintas aéreas de la ingeniería y las ciencias computacionales. Muchos de estos problemas tienen espacios de búsqueda bastante grandes por lo que, en algunos casos, no pueden ser resueltos mediante técnicas exactas en un tiempo razonable. Para resolver este tipo de problemas suelen utilizarse meta heurísticas. Dentro de las meta heurísticas destacan los algoritmos basados en computación evolutiva, los cuales simulan el proceso de selección del más apto en una computadora, a fin de resolver problemas, por ejemplo de optimización y clasificación. En los algoritmos evolutivos, las soluciones de un problema son modeladas como individuos de una población, a las cuales se les aplican operadores inspirados en la evolución biológica. Este tipo de algoritmos han sido capaces de obtener muy buenos resultados en diversos problemas del mundo real, de alta complejidad.
Nocedal y Wright, en el libro publicado el año 2006 con el título “Optimización numérica”, mencionan que existen problemas para los cuales las variables de decisión solo son validas si sus valores son enteros. A los problemas de este tipo se les denomina problemas de programación entera. Estos son un caso particular de los llamados problemas de optimización discreta. En dichos problemas los valores de las variables de decisión son tomados de un conjunto finito de elementos. En contraste, para los problemas de optimización continua, las variables de decisión toman valores de un conjunto infinito de elementos, en teoría, debido a que los reales se representan de forma finita en una computadora. Los problemas de optimización continua suelen ser más sencillos de resolver pues la información sobre la función objetivo y las restricciones en un punto particular ayudan a deducir información sobre todos los puntos cercanos. En el caso de los problemas discretos el comportamiento de la función objetivo y las restricciones pueden variar considerablemente entre dos puntos considerados cercanos. Esta idea es complementada por Dantzig y Thapa, en el libro publicado el año 1997 con el título “Introducción a la programación lineal”, quienes señalan que un caso particular de los problemas de optimización ocurre cuando la función objetivo y las restricciones son funciones lineales. En este caso se dice que se trata de un problema de programación lineal. Existen varios métodos para resolver problemas de este tipo que garantizan encontrar la solución exacta, como por ejemplo el llamado método simplex.
Jensen, en el artículo publicado el año 2003 con el título “Reducción de la complejidad del tiempo de corrida de algoritmos evolutivos multiobjetivo”, señala que cuando por lo menos una de las restricciones o la función objetivo son funciones no lineales, se dice que el problema es de programación no lineal. Para este tipo de problemas no existe un método general que garantice encontrar la mejor solución posible en tiempo polinomial. La mayoría de los algoritmos para problemas de optimización no lineal encuentran únicamente óptimos locales, es decir, puntos óptimos respecto a una región cercana, en contraste con los óptimos globales, los cuales son los mejores respecto a todos los demás puntos factibles. Según Kirkpatrick y sus colegas, en el artículo publicado el año 1983 con el título “Optimización mediante el recocido simulado”, existen métodos para resolver problemas de optimización no lineal pero generalmente requieren de la primera derivada de la función objetivo. Esta información no siempre se encuentra disponible o es costosa de calcular. En la práctica, suelen utilizarse heurísticas para resolver problemas de programación no lineal. Un ejemplo de heurística es el recocido simulado. Una familia de heurísticas bastante popular es la computación evolutiva, la cual ha mostrado resultados competitivos en una amplia variedad de problemas, según lo indica Lamont y sus colegas en el libro publicado el año 2002 con el título “Algoritmos evolutivos para resolver problemas multiobjetivo”.
Los algoritmos de optimización son métodos iterativos. Comienzan con una aproximación, posiblemente aleatoria, y generan una secuencia de estimaciones hasta alcanzar una cierta condición de paro. La estrategia que decide cómo pasar de una estimación a otra es lo que distingue a un algoritmo de otro. Nocedal y Wright, en el libro mencionado en párrafos anteriores, mencionan que un buen algoritmo de optimización debe tener las siguientes características: (1) Robustez. Debe desempeñarse bien en una amplia variedad de problemas. (2) Eficiencia. No debe requerir de recursos de cómputo excesivos. (3) Exactitud. Debe identificar la solución con precisión. Un buen algoritmo debe ofrecer un compromiso adecuado entre estas características. En el artículo de Lagunas y sus colegas, publicado el año 2013 con el título “Optimización multiobjetivo mediante algoritmos genéticos: Aplicación a controladores PID robustos”, se menciona que el problema de optimización multiobjetivo tiene sentido cuando los índices de desempeño involucrados están en conflicto, de lo contrario el problema de optimización multiobjetivo puede ser considerado como monobjetivo, ya que los mismos valores, podrían minimizar o maximizar todos los objetivos de manera simultánea. Los algoritmos genéticos han sido utilizados exitosamente en optimización multiobjetivo. Una de las primeras aplicaciones fue realizada por Fonseca y Fleming en el año 1988, en el artículo titulado “Optimización multiobjetivo y manejo de restricciones múltiples con algoritmos evolutivos”, donde se utiliza un algoritmo genético multiobjetivo para el control de una turbina de gas. En el año 2000, Herreros propuso en su tesis doctoral, titulada “Diseño de controladores robustos multiobjetivo por medio de algoritmos genéticos”, un algoritmo llamado diseño de control robusto multiobjetivo, para el diseño de controladores robustos. Para la sintonización de los controladores robustos, el problema de control, se presenta como un problema de optimización multiobjetivo, de un conjunto de funciones, donde se incluyen los parámetros del controlador.

lunes, 19 de septiembre de 2016

Algoritmo Levenberg-Marquardt

En la tesis doctoral de Fernández Slezak, publicada el año 2010 con el título “Estimación de parámetros en modelos biológicos complejos: Aplicación a modelos de crecimiento tumoral”, se indica que el objetivo de la optimización es encontrar los parámetros que minimicen la distancia entre los valores experimentales y los de la simulación. Esta distancia, a la que se denomina función de costo, puede ser definida de muchas maneras. Una de las técnicas más utilizadas es la llamada minimización de cuadrados mínimos, cuya función de costo es la suma de las diferencias cuadráticas entre el modelo y los datos. Existe una enorme cantidad de algoritmos aproximados de búsqueda de mínimos locales, que pueden separarse en categorías muy diferentes, por ejemplo métodos de descenso, algoritmos genéticos, etc. Las técnicas para la optimización no lineal de la función de cuadrados mínimos, se agrupan en algoritmos de tres categorías: Métodos de descenso, métodos de búsqueda directa y métodos inspirados en fenómenos físicos. Todos los métodos de minimización no lineal son iterativos, es decir que parten de un punto inicial y el método genera una secuencia de parámetros que, en caso de converger, se acerca a un mínimo local. Entre los métodos más conocidos se encuentra el método de Gauss-Newton, descrito en el artículo de Björck, publicado el año 1996 con el título “Métodos numéricos para problemas de mínimos cuadrados”. El método de minimización Levenberg-Marquardt también pertenece a la familia de problemas llamados métodos de descenso, este algoritmo fue presentado por Levenberg en el artículo publicado el año 1944 con el título “Método para la solución de ciertos problemas no lineales en mínimos cuadrados”, el cual fue complementado con el articulo de Marquardt publicado el año 1963 con el título “Un algoritmo para estimación de mínimos cuadrados de parámetros no lineales”. Este algoritmo propone un esquema de Gauss-Newton amortiguado. Al igual que Gauss-Newton, toma la aproximación lineal del modelo y una determinada dirección de descenso.

El método de Levenberg-Marquardt es conocido hace muchos años, y es altamente utilizado en el ambiente de la optimización, en especial en la minimización de cuadrados mínimos. Por tal motivo, para el uso de este algoritmo, en muchos círculos académicos, se opta por una implementación preexistente de la vasta cantidad de opciones disponibles. Una de las bibliotecas numéricas más conocidas es Linpack, descrita por Bunch y sus colegas en la guía de usuario “Linpack” del año 1979, orientada principalmente a la implementación de rutinas relacionadas con el “algebra lineal para el cálculo de vectores y matrices”. Pensada para el cálculo en supercomputadoras, fue desarrollada a fines de la década de los años 1970 y ha estado en constante evolución desde entonces. Ha sido superada por la biblioteca Lapack, la cual es descrita por Anderson y sus colegas en la guía de usuario de “Lapack” publicada el año 1999. En conjunto con Linpack/Lapack, se desarrolló MinPack, una serie de rutinas dedicadas a la resolución de ecuaciones no lineales y problemas de minimización de cuadrados mínimos, la cual es descrita por Moré y sus colegas en el proyecto “Minpack”, publicado el año 1984.

El algoritmo Levenberg-Marquardt calcula el Jacobiano del modelo con respecto a los parámetros, y utilizando éste busca un mínimo local. El Jacobiano es necesario en cada iteración para calcular la dirección hacia el mínimo local. Debido a que no es bastante difícil el cálculo analítico el Jacobiano es estimado a través de un algoritmo. Para estimar el Jacobiano es necesario realizar numerosas corridas del modelo; por ejemplo, para aproximarlo numéricamente utilizando el método de diferencias finitas centradas es necesario duplicar la cantidad de parámetros variables, que forman parte de las evaluaciones del modelo. El modelo a ser minimizado es muy intensivo en poder de cómputo, por lo que el cálculo del Jacobiano también demanda mucho. Por este motivo se realiza una implementación en paralelo para el cálculo efectivo del Jacobiano. Cada corrida necesaria para la estimación es independiente de la otra, por lo que es trivialmente paralelizable. La implementación de este algoritmo es muy sencilla utilizando un modelo Cliente-Servidor. Al necesitar la estimación del Jacobiano, se reservan nodos para procesamiento. La función para calcular el Jacobiano corre en un nodo principal que distribuye las tareas entre los nodos esclavos disponibles, que sólo espera los parámetros con los cuales deben correr y la señal de inicio. Al recibir esta información, el nodo esclavo ejecuta el modelo con los parámetros recibidos. Luego el amo espera a que cada nodo esclavo haya terminado y junta los resultados de todas las ejecuciones. Por último, realiza el cálculo devolviendo la estimación del Jacobiano.

El algoritmo de retropropagación ha demostrado converger de forma lenta hacia el error mínimo, en especial cuando se tiene una gran cantidad de patrones de entrada. A la fecha existen variados algoritmos que convergen a una velocidad mayor que el algoritmo de retropropagación, como el algoritmo de Levenberg-Marquardt, descrito de manera formal por Bishop, en el libro publicado el año 1995 con el título “Redes neuronales para reconocimiento de patrones”. Hudson y sus colegas, en la guía de usuario publicada el año 2013 con el título “Matlab: Caja de herramientas para redes neuronales”, menciona que este algoritmo se aplica a redes neuronales con un número de patrones de pequeño o mediano tamaño, ya que ocupa demasiada memoria en el cálculo, por lo que su complejidad en cálculos es mayor. Esta mayor complejidad se debe a que se tiene que combinar el gradiente y la aproximación de Gauss-Newton de la matriz Hessiana de la función del error en la regla de actualización de los pesos. El cálculo de la matriz Hessiana es muy costoso computacionalmente hablando, por ello la complejidad del algoritmo crece.

lunes, 5 de septiembre de 2016

Sistemas de bases de datos difusas

En la tesis de grado de Sanchis, publicado el año 2015 con el título “Bases de datos relacionales difusas”, se señala que las bases de datos tradicionales son bastante limitadas, no permiten almacenar ni tratar con datos imprecisos, sin embargo las personas manejan datos imprecisos muy a menudo y de manera muy eficiente. A la definición del formato interno de una base de datos difusa, y su esquema global de implementación, se le denomina “Interface difusa para sistemas relacionales”. En la tesis doctoral de Martínez, publicada el año 2008 con el título “Sistema de gestión de bases de datos relacionales difusas multipropósito: Una ontología para la representación del conocimiento difuso”, se menciona que los elementos que forman parte del tratamiento impreciso pueden ser representados de diversas maneras. De ese modo, una distribución de posibilidad normalizada puede representarse mediante parábolas, hipérbolas, etc. Sin embargo, la implementación de la “Interface difusa para sistemas relacionales”, propuesta en la tesis doctoral de Galindo del año 1999 titulada “Tratamiento de la imprecisión en bases de datos relacionales: Extensión del modelo y adaptación de los sistemas de gestión de bases de datos actuales”, y su servidor de consultas imprecisas, construidos sobre el “Modelo generalizado para bases de datos relacionales difusas”, propuesto en la tesis doctoral de Medina del año 1994 titulada “Bases de datos relacionales difusas: Modelo teórico y aspectos de su implementación”, asume la representación trapezoidal descrita por cuatro puntos. Esta simplificación se explica en función de la contradicción que supone representar datos intrínsecamente imprecisos mediante distribuciones de posibilidad definidas de forma altamente precisa, que además añaden el factor del incremento asociado al costo computacional. Los valores que pueden formar parte de un dominio generalizado difuso pueden dividirse en dos grupos: (1) Datos precisos. También llamados crisp o clásicos. Dado que lo que se almacena son datos clásicos, el almacenamiento dependerá directamente de la capacidad de representación del sistema de gestión de la base de datos relacional difusa, sobre el que se aplique la implementación. (2) Datos imprecisos. También llamados difusos, se corresponden con datos de dos subtipos, datos imprecisos sobre un referencial ordenado, que engloban a todos aquellos datos descritos mediante una distribución de posibilidad construida sobre un conjunto referencial discreto o continúo ordenado, con una relación de orden definida.

Sanchis, en la tesis doctoral citada, menciona que para la representación y el tratamiento de información imprecisa en el ámbito de las bases de datos relacionales, se han presentado varios modelos a lo largo de los años. Entre ellos, destacan: (1) Aproximaciones que no emplean la lógica difusa, y que se basan en el modelo original de Codd, descrito en el artículo publicado el año 1979 con el título “Extendiendo el modelo de base de datos relacional para capturar mayor significado”. (2) Aproximaciones que usan distribuciones de posibilidad para representar la información difusa a nivel de tuplas, como la de Raju y Majumdar, descritas en el artículo del año 1988 titulado “Dependencias funcionales difusas y descomposición sin pérdidas de sistemas de bases de datos relacionales difusas”. Este modelo también se ha denominado “Modelo básico de bases de datos”. (3) Aproximaciones que utilizan las relaciones de similitud para representar la información difusa, son aquellos desarrollados por Buckles y Petri, en el artículo publicado el año 1982 con el título “Una representación difusa de los datos para bases de datos relacionales”, Shenoi y Melton, en el artículo del año 1989 titulado “Relaciones de proximidad en bases de datos relacionales difusas” y Rundensteiner y sus colegas, en el artículo publicado el año 1989 con el título “Sobre las medidas de proximidad en los modelos de datos relacionales difusos”. (4) Aproximaciones que usan distribuciones de posibilidad para representar la información difusa a nivel de atributo. Algunas de estas son las de Prade y Testemale, descritas en el artículo publicado el año 1987 con el título “Base de datos relacional difusa: cuestiones de representación y reducción utilizando medidas de similaridad”, Umano y sus colegas, en el artículo de 1980 titulado “Proceso de recuperación de bases de datos difusas”, además de Zemankova y Kaendel, en el artículo del año 1985 titulado “Implementación de imprecisión en los sistemas de información”. (5) Aproximaciones mixtas que combinan diferentes técnicas para representar la información imprecisa y conseguir representar el máximo de información posible. Estas aproximaciones se basan en la propuesta de un modelo difuso que combina distribuciones de posibilidad y relaciones de similitud a la vez, como la base de datos difusa extendida basada en posibilidad propuesta en el artículo de Ma y sus colegas, publicado el año 2000 con el título “Medida semántica de datos difusos en bases de datos relacionales difusas extendidas basadas en posibilidad”, Rundensteiner y sus colegas en el artículo del año 1989 titulado “Sobre las medidas de proximidad en los modelos de datos relacionales difusos”, además de Chen y sus colegas, en el artículo de 1992 titulado “Tratamiento general de redundancia de datos en un modelo de datos relacional difuso”, o la extensión hecha por Medina y sus colegas denominada “Modelo generalizado para bases de datos relacionales difusas”, descrita en la tesis doctoral citada anteriormente.

El modelo generalizado para bases de datos relacionales difusas surge como una integración de algunas tendencias para resolver el problema de la representación y consulta de información imprecisa en el seno del modelo relacional. Dicho modelo define formalmente una base de datos relacional difusa a través de las definiciones de los siguientes conceptos: (1) Dominio difuso generalizado. Se trata de una extensión del concepto de dominio relacional que amplía el rango de valores que un atributo puede tomar. Entre algunos de estos valores se encuentran: El valor nulo, el valor no aplicable, el valor desconocido, un conjunto de asignaciones escalares o numéricas posibles, distribuciones de posibilidad construidas sobre dominios escalares o numéricos, etc. (2) Relación difusa generalizada. Define una relación incluyendo el concepto de dominio difuso generalizado. (3) Comparadores difusos generalizados. Extienden el concepto de comparador para incluir las comparaciones entre valores que existen en el dominio difuso generalizado. (4) Operaciones de bases de datos. Proyección y selección difusa.

jueves, 18 de agosto de 2016

Neuronas artificiales podrían revolucionar el procesamiento de grandes volúmenes de datos

El cerebro artificial está cada vez más cerca. Científicos de los laboratorios de IBM Research, en Zurich, desarrollaron con éxito las primeras neuronas artificiales de escala nanométrica que fue construida a partir de los cristales que se usan en los discos regrabables.

Concretamente, la compañía creó 500 unidades capaces de procesar distintas señales, gracias a una tecnología de cambio de fase, que imita el funcionamiento del cerebro humano.

Un paso más allá para los proyectos de Inteligencia Artificial, que ya están en marcha y que prometen revolucionar y modificar el mundo tal y como lo conocemos en la actualidad.

Imitando al cerebro humano

Estas neuronas tienen el mismo comportamiento que las neuronas del cerebro humano.

Funcionan mediante la tecnología de cambio de fase. Una tecnología que se caracteriza por almacenar datos de forma no volátil (los datos no desaparecen al apagar el dispositivo) y que actúa de una forma muy parecida a como lo hace nuestro cerebro orgánico.

Sin embargo, el reto del invento consistía en combinar nanoestructuras muy complejas con un consumo energético asequible, materiales estándar y un comportamiento estocástico (es decir, en los cerebros reales, cada neurona es única y va desarrollándose progresivamente. Por eso es importante que el sistema sea aleatorio). De ahí, la importancia de lo que ha conseguido IBM.

Así, estas neuronas artificiales usan cristales de cambio de fase, los mismos que se usan en los discos ópticos regrabables para almacenar y modificar los datos que están guardados; en estos discos se usa un láser para cambiar su estado (de amorfo a cristalino y viceversa) usando calor; en las neuronas se usa electricidad para lograr el mismo efecto. Estos cristales funcionan como una suerte de transistor y son los que emulan el funcionamiento de la membrana plasmática de la neurona: enviar y recibir impulsos eléctricos.

Como sus contrapartes orgánicas, la neuronas artificiales tienen entradas de datos (dendritas), salidas (axones) y un núcleo, para comunicarse con otras; IBM creó 500 y las vinculó unas a otras.

¿Para qué sirven?

Como las neuronas convencionales, la reacción de las neuronas artificiales funciona dependiendo de una acumulación de energía; en la computación neuromórfica, las neuronas (las artificiales y las orgánicas) se comportan como un acumulador, explica Manuel Le Gallo, uno de los investigadores del laboratorio suizo de IBM: "si le envías impulsos eléctricos a la neurona, los va integrando. Dependiendo de la cantidad de impulsos y su fuerza, la membrana terminará alcanzando un umbral, y la neurona hará un 'disparo'. Se puede usar esa acumulación para tareas computacionales sorprendentemente complejas".

Además —explica Le Gallo— a diferencia de lo que sucede en una computadora convencional, en una red neuronal el procesamiento de la información y su almacenamiento son la misma cosa. "No tienes que establecer una comunicación entre la parte de lógica y la memoria, sólo tienes que hacer las conexiones apropiadas entre las diferentes neuronas. Esa es la razón principal por la que creemos que nuestro acercamiento será más eficiente, sobre todo para procesar grandes cantidades de datos".

lunes, 13 de junio de 2016

Gobierno electronico y Big Data

Costales y Amoroso, en el artículo publicado el año 2016 con el título “Big data y el gobierno electrónico en Cuba”, mencionan que uno de los principales elementos que ha traído como consecuencia el surgimiento y la aplicación del big data, es la transformación de los gobiernos, los cuales han estado condicionados a cambiar la manera de presentarse ante el imparable desarrollo mundial. Los organismos gubernamentales han sido capaces y oportunos al identificar un cúmulo de oportunidades en los datos espaciales como herramienta, y en su condicionada integración con la estrategia de datos abiertos. Newman, en la conferencia presentada el año 2012 con el título “Negocios abiertos: Aprender a sacar provecho de los datos”, menciona que, “si bien el big data hace que las organizaciones sean más inteligentes, los datos abiertos son aquellos que conseguirán que realmente se obtengan más beneficios en el entorno altamente competitivo en el que se encuentran las personas”, si dicha teoría es aplicada en el desarrollo de las funciones de los gobiernos, se puede afirmar que la estrategia de datos abiertos será la clave de éxito de los Estados para identificar las principales demandas del ciudadano en un mundo cada vez más interconectado.

Según Laney, en el artículo publicado el año 2001 con el título “Gestión de datos 3D: Control del volumen de datos, la velocidad y la variedad”, es necesario que el hombre como ser social se sienta parte de las transformaciones de la sociedad; cuanto mayor es el grado de apertura de los datos, mayor es el tamaño y la diversidad de la comunidad que accede a ello, aunque para lograr una participación de verdadero valor del ciudadano dentro de este proceso de cambio social es necesario lograr la trasparencia de la información ofrecida por parte del gobierno. La apertura de los datos al público es el principal elemento para que el ciudadano se formule interrogantes y criterios de carácter innovador y trasformador; con la liberación de los datos por parte del gobierno, el ciudadano no solo es un sujeto trasformado por las leyes, sino que pasa a ser a su vez sujeto transformador.

Costales y Amoroso, en el artículo citado en párrafos precedentes, continúan mencionando que la notoriedad e impacto del proceso de toma decisiones a través del big data depende en gran medida del factor liberación de los datos, por tanto es preciso que los gobiernos desarrollen una eficiente política de apertura de los mismos teniendo como cimiento ante todo la trasparencia de la información, como segundo aspecto deben propiciar la colaboración entre los organismos y con el propio ciudadano, sin dejar de mencionar el eje central que es la incorporación de la tecnología como canal de comunicación; el Estado debe centrarse en promover la participación de los ciudadanos en los procesos de toma de decisiones y diseño de políticas públicas; puesto que de ello florecerán cambios futuros entorno al bienestar social, y por ende para el mejoramiento de los servicios ofrecidos por los organismos que regentan la administración pública. La principal fuente de retroalimentación, para sentar las bases de una aplicación del análisis de la gran cantidad de datos generados por el entorno, se encuentra en establecer una fuerte colaboración entre los organismos de administración pública y los ciudadanos, con el principal objetivo de ayudar a definir una guía política siempre orientada a lograr la eficiencia y la agilidad de los procesos burocráticos; es fundamental ubicar el factor tecnológico como punto medio entre ambas partes con la finalidad de agilizar la gestión de la documentación, la información y los datos generados por cualquiera de las partes, así como viabilizar los flujos de información, el acceso y el intercambio continuo.

En el libro titulado “Gobierno o electrónico o fuera del gobierno”, publicado el año 2014 por los autores Barrenechea y Jenkins, se menciona que los datos en poder de los organismos gubernamentales constituyen un activo bastante importante. Cuando el big data se desbloquea, tiene el potencial para mejorar el desempeño del sector público en la administración, la salud, la ciencia y la investigación, el transporte, la infraestructura, la educación, la seguridad, y las ciencias sociales. Beneficios que ya se están realizando mediante la aplicación de modelos de predicción a los ensayos clínicos, análisis avanzados para probar la eficacia de los tratamientos del paciente, y el análisis de la vigilancia de la salud pública para detectar el brote de las enfermedades, como se ilustra en la siguiente historia sobre la “Red Global de Inteligencia de Salud Pública”. Con las soluciones de gobierno electrónico, organizaciones como la red global de inteligencia de salud pública, tienen una ganancia en capacidades de vanguardia, incluyendo la búsqueda progresiva, análisis semántico y navegación, además de la categorización, todos ellos diseñados para ser sujetos a procesos de minería, de donde se extrae y se presenta el verdadero valor del big data. El gobierno electrónico ayuda a las agencias a encontrar el conocimiento oculto encerrado al interior de los grandes volúmenes de datos. Las soluciones de administración electrónica se pueden utilizar para capturar, combinar y transformar los datos a través de silos de información en formatos que pueden ser analizados para una penetración más profunda del negocio. El primer paso para extraer valor de los datos es la gestión de los datos. Las soluciones de administración electrónica integran datos sobre una plataforma común donde se puede fijar, acceder, intercambiar y archivar las mismas.

Amoroso, en el artículo publicado el año 2015 con el título “Infoética, Ciberespacio y Derecho”, menciona que el éxito de todos estos factores depende además de dos elementos muy importantes: El acceso y publicación de la información como punto número uno, y de la presentación de los datos a los usuarios finales, es decir, a los ciudadanos. En este sentido el diseño de los sistemas informáticos es fundamental porque es la piedra angular para asegurar desde el código una realización real de la apertura de datos y consiguientemente el big data.

lunes, 6 de junio de 2016

Gobierno electrónico y Big Data ¿Cómo se instalan programas que

PRIMERA PARTE

Debido al gran avance tecnológico que se ha experimentado a lo largo de los últimos años, concretamente en el mundo de las tecnologías de la información y la comunicación, gran parte de las empresas públicas y privadas vienen desarrollando importantes esfuerzos en adaptarse a diferentes desafíos. Merino y Cejudo, en el libro publicado el año 2010 con el título “Problemas, decisiones y soluciones: Enfoques de política pública”, mencionan que los gobiernos se encuentran implementando iniciativas de gobierno electrónico, de gobierno abierto y acceso a la información pública basándose no sólo en los datos y la tecnología, sino también en principios de transparencia, participación, colaboración y empoderamiento ciudadano. Un desafío que por cuenta propia, ha cobrado gran importancia a lo largo de los últimos años, consiste en cómo manejar, administrar, almacenar, buscar y analizar grandes volúmenes de datos, relacionados con el que hacer de la administración pública. Con el término “big data” se hace referencia al gran desafío que tienen los gobiernos, que consiste en el tratamiento y análisis de grandes repositorios de datos.

Concha y Naser, en el documento publicado por Naciones Unidas el año 2011 con el título “El gobierno electrónico en la gestión pública”, mencionan que el gobierno electrónico es la transformación de todo el gobierno como un cambio de paradigma en la gestión gubernamental, es un concepto de gestión que fusiona la utilización intensiva de las tecnologías de la información y comunicación, con modalidades de gestión, planificación y administración, como una nueva forma de gobierno. Bajo este punto de vista, el gobierno electrónico basa y fundamenta su aplicación en la administración pública, teniendo como objetivo contribuir al uso de las tecnologías de la información y comunicación para mejorar los servicios e información ofrecida a los ciudadanos y organizaciones, mejorar y simplificar los procesos de soporte institucional y facilitar la creación de canales que permitan aumentar la transparencia y la participación ciudadana. El presente documento intenta dar una aproximación a los elementos que componen el gobierno electrónico, elevar la importancia y el rol que cumple el adecuado manejo de la información dentro de la administración pública, suponiendo que un gobierno electrónico enmarcado en la planificación estratégica de cada institución y de la mano con las estrategias digitales y la modernización de cada Estado, puede llegar a ser la herramienta más eficiente y eficaz para entregar servicios rápidos y transparentes a los ciudadanos. En el informe de la Unión Internacional de Telecomunicaciones, que es el organismo especializado en telecomunicaciones de la Organización de las Naciones Unidas, publicado en Ginebra el 30 de noviembre de 2015 con el título “Medición de la Sociedad de la Información”, se indica que tres mil doscientas millones de personas están en línea, lo que representa el cuarenta y tres por ciento de la población mundial, en tanto que el número de suscripciones al servicio móvil celular asciende a casi siete mil cien millones en todo el mundo, y más del noventa y cinco por ciento de la población mundial puede recibir una señal móvil celular. En el Informe se señala también que los ciento sesenta y siete países contemplados en el índice de desarrollo de las tecnologías de la información y comunicación, mejoraron sus valores entre los años 2010 y 2015, lo que significa que los niveles de acceso a las tecnologías de la información y la comunicación, la utilización de esas tecnologías y los conocimientos en la materia siguen mejorando en todo el mundo.

Baturone y Amago, en el Diccionario LID de Innovación publicado el año 2010, definen big data como: “Anglicismo que hace referencia al conjunto de datos cuyo tamaño excede la capacidad de los programas informáticos utilizados habitualmente para capturar, gestionar y procesar información”. La diferencia es que los datos que ahora intentan explotar no son ya solamente numéricos. En la misma entrada del diccionario, se explica que “el tratamiento y gestión de enormes cantidades de datos en texto, procedentes de múltiples fuentes, como las redes sociales, tales como Facebook o Twitter, y las tecnologías de las comunicaciones, son de vital importancia en el contexto de la inteligencia competitiva, lo que ha fomentado el auge de tecnologías y servicios de big data. Además, los servicios de inteligencia y seguridad centran su interés en el proceso de estos datos y en el desarrollo de tecnologías que permitan su transformación en conocimiento”.

En esta misma línea se manifiesta Mario Tascón, en el artículo publicado el año 2013 con el título “Big Data: Pasado, presente y futuro”, quien señala “Big data es, sin la menor duda, uno de los campos más importantes de trabajo para los profesionales de las tecnologías de la información y comunicación. No hay área ni sector que no esté afectado por las implicaciones que este concepto está incorporando; cambian algunas herramientas, se modifican estrategias de análisis y patrones de medida. Tradicionalmente, los principales conceptos agrupados que han definido este nombre han sido las denominadas 3V: Volumen, variabilidad y velocidad. Big data es todo aquello que tiene que ver con grandes volúmenes de información que se mueven o analizan a una alta velocidad y que pueden presentar una compleja variabilidad en cuanto a la estructura de su composición. Debería añadirse una cuarta uve, la visualización, ya que no solo forma también parte de ello, sino que muchas de las imágenes que traen a la memoria el trabajo con tiene big data que ver con estas nuevas formas de visualizar estos datos.

lunes, 30 de mayo de 2016

Segunda parte Datos abiertos

En el documento de políticas públicas de la Republica Argentina, las investigadoras Elena y Pichon mencionan, en el resumen ejecutivo publicado el año 2014 con el título “Recomendaciones para implementar una política de datos abiertos en el Poder Judicial”, que el acceso a la información pública es un derecho humano fundamental, reconocido en numerosos tratados internacionales: Su objetivo es garantizar la disponibilidad, conocimiento y transmisión de la información que genera el Estado; su ejercicio potencia el desarrollo de los derechos civiles, la transparencia y la rendición de cuentas de los funcionarios, y fomenta el debate público e informado para evitar la corrupción y los abusos por parte de los poderes estatales. Por eso, una gestión pública eficaz debe basar sus decisiones en datos objetivos y de calidad. Una nueva faceta del acceso a la información es la tendencia a publicar datos en formatos abiertos, para que la sociedad pueda acceder a la información y sea capaz de reutilizarla para diferentes fines, como cruzar bases de datos para generar nueva información o potenciar su utilidad al hacerla más compresible y dinámica.

Álvarez Espinar, en el artículo publicado el año 2014 con el título “Apertura y reutilización de datos públicos”, menciona que “datos abiertos” es un término que se refiere a la exposición pública de información de una forma adecuada para su acceso y libre reutilización por la ciudadanía, empresas u otros organismos. Datos abiertos del sector público es la publicación de la información custodiada o producida por las administraciones públicas a través de canales electrónicos basados en las tecnologías de la información y la comunicación. Habitualmente, se trata a los conceptos de datos abiertos y datos abiertos gubernamentales o del sector público, como términos equivalentes, aunque datos abiertos también abarcaría aquellos datos que el sector privado expone públicamente, muchas veces motivado por los mismos principios de transparencia, eficiencia, no obstante en este caso también incluirían la responsabilidad social corporativa. El concepto de datos abiertos gubernamentales es relativamente novedoso, ya que no fue hasta el año 2007 cuando se definió claramente. Aunque existen numerosas interpretaciones, todas se basan en los principios de esta primera definición, siempre enfocados en el objetivo final, que es la reutilización de dicha información de forma efectiva y eficiente, sin trabas. Entre los precursores de la apertura de datos para motivar la potencial reutilización se encuentra el Gobierno de los Estados Unidos de América, quien ya hace más de dos décadas puso a disposición de sus ciudadanos y a los de todo el mundo, su “Sistema de Posicionamiento Global” y las señales con información sobre localización geográfica, un proyecto que ha demostrado cómo los recursos compartidos, abiertos y gratuitos, en este caso particular subvencionado por los contribuyentes norteamericanos, permiten un desarrollo del negocio muchas veces inesperado.

En el artículo titulado “Open data o datos abiertos en Costa Rica”, escrito por el investigador Durán el año 2013, se menciona que en la era actual de la información, el concepto de datos abiertos emerge en forma congruente con la tendencia de movimientos y comunidades que promueven los sistemas y aplicaciones informáticas de código abierto con acceso libre. La filosofía de datos abiertos puede ser definida como la información expuesta en la Web en formato tabular de números, estadísticas, métricas, datos micro y macro económicos, con georeferencia o no, de todo tipo de temas, sin restricciones de propiedad intelectual o mecanismos de control en cuanto acceso a los mismos se refiere. La información publicada como datos abiertos tiene tres características fundamentales: Accesibles, preferiblemente vía Internet, en formato digital, interoperables capaces de ser leídos por computadoras para ser usados y reutilizados, es decir, reutilizable por diversas aplicaciones o sistemas, además de tener un licenciamiento de libre restricción en el uso y distribución. No son datos personales o individuales de las organizaciones, sino más bien de los productos ofrecidos y logros traducidos en beneficios para los usuarios de esos servicios. Pueden estar almacenados en hojas electrónicas y preferiblemente en formato de “Estructura de descripción de recursos”, que transformados son expuestos o publicados en Internet en un formato que por lo general corresponde a cuadros tabulares agrupados en paneles de control para facilitar su comprensión. Una vez publicados los cuadros puede “bajarse” o guardar esos datos en diferentes formatos por los usuarios finales de la información.

Curto Rodríguez, en el artículo publicado el año 2015 con el título “Los portales de datos abiertos autonómicos y la rendición de cuentas”, menciona que los objetivos de las iniciativas de datos abiertos son: (1) Generar valor agregado. Facilitando la creación de nuevos servicios por parte de los ciudadanos con los datos proporcionados por la administración pública. (2) Aumentar la transparencia a la administración pública. Publicando datos de tipo económico y legislativo, para favorecer el análisis y la evaluación de la gestión pública. (3) Incrementar la interoperabilidad. Permitirá interconectar de forma más eficiente todas las administraciones locales y permitirá que todas utilicen una fuente de datos común y por lo tanto más consistente. (4) Incrementar la participación ciudadana. Permitirá al ciudadano disponer de más información de tipo económico, administrativo, estadístico, etc. (5) Incrementar gobernanza abierta y de servicio. Voluntad de avanzar hacia la gobernanza abierta, basada en los valores de transparencia, participación, servicio y eficiencia.

lunes, 23 de mayo de 2016

Datos abiertos

En la serie de estudios de gestión pública patrocinados por el Instituto Latinoamericano y del Caribe de Planificación Económica y Social, se destaca el estudio realizado el año 2012 por los investigadores Concha y Naser titulado “Datos abiertos: Un nuevo desafío para los gobiernos de la región”, en el que se menciona que en los últimos años ha comenzado una verdadera revolución en materia de acceso a la información pública por parte de los ciudadanos. A esta revolución se la ha denominado “Open Data” o “Datos Abiertos”, la cual consiste en poner a disposición de la sociedad los datos de interés común de la ciudadanía para que, de cualquier forma, estos puedan desarrollar una nueva idea o aplicación que entregue nuevos datos, conocimientos u otros servicios que el gobierno no es capaz de entregar. Esta revolución ha generado un nuevo paradigma a través del cual el Estado ya no se encarga de generar todas las aplicaciones necesarias para los ciudadanos, sino que por el contrario, es la sociedad misma quien genera sus propias aplicaciones para sacar provecho a los datos que el Estado deja a su disposición. ¿En qué hospital público hay menos infecciones intrahospitalarias?, ¿Cuál de todos los colegios públicos tiene el mejor rendimiento escolar?, ¿En qué municipio existe el menor grado de delincuencia?, ¿Cuál de los municipios tiene la mejor calidad del aire?, ¿Cuál es la demanda de artículos de escritorio en los ministerios del Estado?. Como se aprecia, las consultas pueden ser muy simple y también de una gran complejidad, donde se requiere, necesariamente, cruzar datos para obtener cifras estadísticas, económicas, científicas, presupuestarias, entre otras. La información para contestar estas preguntas se encuentra escondida en algún rincón de una base de datos del Estado o en una carpeta en papel en una oficina pública. Entonces la pregunta es ¿cómo acceder a esta información?, pues bien, la respuesta se encuentra específicamente en lo que se conoce como “datos abiertos del gobierno”, que consiste en una iniciativa mundial de acceso a la información del Estado por parte de los ciudadanos.

El investigador Bron, en la obra publicada el año 2015 con el título “Open Data: Miradas y Perspectivas de los Datos Abiertos”, señala que hablar de datos abiertos es mucho más que un concepto o una creencia, es toda una filosofía y una gran práctica cuya finalidad es que determinados tipos de datos estén accesibles y sin restricciones para acceder a ellos. Son considerados como tales, todos aquellos datos accesibles y reutilizables que no requieren permisos y no presentan exigencias para llegar a ellos. Lo que sucede con los datos abiertos es algo similar a lo que sucede con el software libre, el código abierto, o el acceso libre. Lo que hoy se conoce como datos abiertos se refiere en general a fuentes de datos que históricamente han sido cerradas y que han estado bajo control de organizaciones, tanto públicas como privadas, y cuyo acceso ha estado restringido mediante diferentes tipos de limitaciones, licencias, derechos de autor o patentes. La referencia a datos abiertos está relacionada con diferentes tipos de material no documental que en tiempos pasados se encontraba a disposición de sólo unos pocos. Algunos ejemplos son los compuestos químicos, el genoma, y hasta la propia información geográfica, pasando por las fórmulas matemáticas y científicas.

Es necesario evolucionar, como indica García, en el artículo publicado el año 2014 con el título “Gobierno abierto: Transparencia, participación y colaboración en las administraciones públicas”, de un gobierno electrónico trivial, que simplemente traslada el modelo existente en la prestación de servicios públicos al modo electrónico, con las únicas ventajas para el ciudadano de la oportunidad horaria y ahorro de desplazamientos, al gobierno abierto, que aboga por un modelo abierto y participativo, en el que se solicita la colaboración de la ciudadanía, y se toma decisiones basadas en sus preferencias y necesidades. Para ello, los ciudadanos deben contar previamente con información pública que permita, al ciudadano, formar su opinión y emitir sus valoraciones, algo que puede posibilitarse gracias a los datos abiertos.

De Ferrari, en el artículo publicado el año 2012 titulado “Sociedad civil y gobierno abierto: La necesidad de un trabajo colaborativo”, menciona que los datos abiertos, hacen referencia a cualquier dato e información producida o comisionada por organismos públicos, y que cualquier persona puede usar para cualquier propósito. Para calificar la información de abierta, debe ser posible, tanto para el gobierno como para cualquier ciudadano, copiarla libremente, compartirla, combinarla con otro material, o re-publicarla como parte de aplicaciones Web, de manera que permita a los usuarios analizarla, representarla visualmente y comentarla, así como reutilizarla y presentarla en otros formatos. El propósito de las políticas de datos abiertos, como política pública, es que la información pública sea detectable y reutilizable, mejorando la accesibilidad y optimizando los recursos que se invierten en su sistematización y archivo. El uso de las tecnologías de la información debería permitir a las agencias gubernamentales la publicación rápida de los datos que generan así como su almacenamiento. En un sentido más amplio, una política de datos abiertos facilita, entre otras cosas, profundizar la comprensión pública de las actividades del gobierno, y que la ciudadanía pueda, a través de la reutilización de estos datos, elaborar herramientas que mejoren la calidad de vida en diversos ámbitos, como transporte, salud, seguridad, etcétera.

lunes, 16 de mayo de 2016

Segunda parte Big Data

Según la consultora McKinsey Global Institute, el noventa por ciento de los datos del planeta se ha generado en los últimos dos años, 2013 y 2014, su proliferación va en aumento en una progresión difícil de calcular. Están en todas partes, provienen de redes sociales, sistemas de telemedición, fotografías, vídeos, correo electrónico, son de múltiple naturaleza y se almacenan en distintos lugares y formatos. El conjunto de toda esta explosión de información recibe el nombre de Big Data y, por extensión, así también se denomina al conjunto de herramientas, técnicas y sistemas destinados a extraer todo su valor. Big Data también está emparentado con lo que se conoce como minería de datos, un campo de las ciencias de la computación que intenta descubrir patrones en grandes volúmenes de datos. La minería de datos, al igual que el Big Data, utiliza los métodos de la inteligencia artificial y la estadística para analizar los patrones en las bases de datos con las que trabaja.

La empresa consultora Gartner, en el glosario de tecnologías de la información publicado el año 2012, define Big Data como “aquellos recursos de información caracterizados por su alto volumen, velocidad o variedad, que requieren formas de procesamiento innovadoras y eficientes para la mejora del conocimiento y la toma de decisiones”. Laney, en el artículo publicado el año 2011 con el título “Gestión de datos en tres dimensiones: Controlando volumen de datos, velocidad y variedad”, menciona que de acuerdo con esta definición, las características que definen el Big Data pueden resumirse en lo que se conoce como las tres Vs: Volumen, Velocidad y Variedad. En palabras de Normandeau, en el artículo publicado el año 2013 con el título “Mas allá del volumen, variedad y velocidad es el resultado de la veracidad del Big Data”, a estas tres Vs que forman parte de la definición intrínseca del Big Data, los expertos añaden una cuarta V que tiene que ver con la Veracidad, ya que es fundamental que los datos en los que se basan los análisis sean correctos y no contengan sesgos o ruido que puedan distorsionar las conclusiones que se extraigan de ellos. La definición de Big Data propuesta por Gartner contiene una segunda parte, también importante, que tiene que ver con la capacidad para analizar los datos y extraer de ellos información relevante. En el artículo de Brustein, publicado el año 2014 con el título “Entrevista con Andreas Weigend sobre refinerías de Big Data”, se menciona que Andreas Weigend, antiguo científico de Amazon y profesor en varias universidades americanas, afirma que los datos son el nuevo petróleo, no sólo en el sentido económico, sino también porque, al igual que el petróleo, es necesario refinarlos y depurarlos para que aporten valor. Aceptando la definición propuesta por Gartner, se utilizara el término Big Data para hacer referencia de manera indisoluble a los grandes conjuntos de datos y a los resultados que puedan derivarse del análisis de los mismos.

Demchenko, en el artículo publicado el año 2013 con el título “Definición de un marco de trabajo para la arquitectura de datos”, menciona que la gestión y procesamiento de Big Data es un problema abierto y vigente que puede ser manejado con el diseño de una arquitectura de cinco niveles, la cual está basada en el análisis de la información y en el proceso que realizan los datos para el desarrollo normal de las transacciones. A continuación se pueden ver los niveles que contienen un ambiente Big Data y la forma en que se relacionan e interactúan entre ellos: (1) Fuente de Datos. Entre las cuales se encuentran las redes sociales, transacciones de bancos, Google. (2) Ingreso de datos. Relacionado con la integración de los datos y el formato de los mismos. (3) Gestión de datos. La que tiene que ver con la transformación, manipulación y correlación de los datos. (4) Análisis de datos. Relacionado con los modelos de datos y las métricas de cálculo. (5) Tiempo Real de procesamiento. Que tiene relación con las alertas y los triggers.

A continuación se citan los beneficios e inconvenientes más relevantes que han sido extraídos del artículo publicado por Vauzza el año 2013 con el título “Todo lo que necesitas saber sobre Big Data”: (1) Gestión del cambio. Comprende la búsqueda de nuevas oportunidades de negocio a través de segmentación mejorada y venta cruzada de productos. Mediante la aplicación de análisis y modelado predictivo a los datos de cuentas de clientes e historial de transacción. Mediante el análisis de consumo de los servicios y productos de los clientes. Se puede predecir con mayor exactitud qué productos son los más apropiados para cada cliente. Ofrecer la combinación adecuada de servicios y productos mejora la eficacia y la eficiencia de la fuerza de ventas de la compañía. (2) Mejoras Operativas. Comprende la mayor capacidad de visibilidad del negocio a través de informes más detallados. Análisis de navegación web y hábitos de consumo online. Análisis de Redes Sociales. Se genera una visión completa de los clientes, identificando el papel que desempeñan en sus círculos y su grado de influencia. Marketing viral, que detecta clientes más influyentes, roles sociales, etc., para maximizar la difusión de los productos y servicios. Análisis de datos de navegación, que analiza la navegación Web y los hábitos de consumo en línea. Se identifica al usuario, se monitorizan sitios y búsquedas por palabra, vínculos visitados, tiempo de navegación, etc. Cuadro de mando en tiempo real, la información siempre está disponible sin esperas de actualización de los datos. (3) Anticipación a los problemas. Un sistema predictivo de análisis y cruce de datos permite anticipar posibles problemas que puede surgir en el futuro. (4) Mejoras de procesos. Permite la simplificación de procesos actuales y control del negocio. Análisis de seguridad, con la analítica proactiva que permite la reducción de riesgos y pérdidas frente a fraudes. Permite detectar patrones complejos de fraude en tiempo real analizando los datos históricos, el patrón de uso de información de geolocalización, análisis de transacciones y operaciones sospechosas. (5) Soporte a la toma de decisiones a través de algoritmos automáticos. Una analítica sofisticada que analice todos los informes y datos, ayuda a la toma de decisiones, reduciendo los riesgos y descubriendo información que antes podría estar oculta, pero a la vez importante.

lunes, 9 de mayo de 2016

Primera parte Big Data

En la tesis de maestría de Ramos, publicada el año 2015 con el título “Big Data en sectores asegurador y financiero”, se menciona que el progreso de las tecnologías de la información provoca la generación de una gran cantidad de datos a nivel global, de hecho el volumen de los datos generados diariamente es tan grande que las bases de datos actuales se están quedando obsoletas, debido a que, los datos crecen más rápido que la capacidad de las bases de datos para almacenar dicha información. Si las empresas, tanto públicas como privadas, no aprenden a tratar y administrar este tipo de flujo de información dejarán de ser competitivas en los próximos años. Con el tratamiento de estos datos, las empresas podrían tener una visión global del cliente, utilizando datos de fuentes internas. Datos que ya poseen y no están analizados y de fuentes externas, como redes sociales, aplicaciones móviles y datos de geolocalización entre otros. El objetivo principal de este tratamiento y cruce de datos es reducir riesgos. Esto se logra prediciendo el comportamiento y las necesidades del cliente. Gracias a esta ventaja, las empresas podrían desde aplicar microsegmentación con alta precisión a detectar posibilidades de propensión a la fuga del cliente, adelantarse a sus necesidades, conociendo que necesita el cliente antes de que este lo sepa; hasta detectar, identificar y evitar el fraude. En el mercado, se observa hechos y fenómenos que afectan a otros sectores donde se empieza a aprovechar este flujo de datos. Por ejemplo, utilizando Big Data para analizar y cruzar los datos generados por sus usuarios empresas como Amazon que, cruzando datos de compras de sus clientes, han logrado algoritmos de recomendación con los que proveen de ofertas a clientes que han comprado un artículo y se anticipan a sus necesidades posteriores.

La primera vez que se empleó el término Big Data fue el año 1997 en un artículo de dos investigadores de la NASA David Ellsworth y Michael Cox, titulado “Aplicación controlada por la demanda de paginación para la visualización fuera del núcleo”, los cuales indicaban que el ritmo de crecimiento de los datos empezaba a ser un problema para los sistemas informáticos de los que se disponía. Posteriormente, en el año 2001, Douglas Laney publicó un artículo titulado “Gestión de datos 3D: Control del volumen de datos, la velocidad y la variedad”. Este artículo definía lo que actualmente se conoce como las tres V que definen Big Data: Volumen, velocidad y variedad. Asimismo, Big Data no deja de ser un anglicismo que indica datos masivos y que se refiere a la utilización de sistemas informáticos para la acumulación y tratamiento de grandes cantidades de datos y de cómo se revisan y manipulan para identificar distintos tipos de patrones.

Ramos, en la tesis citada, menciona que no obstante y si se pretende entender que significa Big Data, primero es necesario conocer cómo y cuantos datos se generan. Ya que actualmente todo el mundo realiza cualquier cosa desde cualquier lugar, algo que es posible gracias a la tecnología. Esta gran conectividad es una fuente de cantidades ingentes de datos. Cuando se habla de Big Data se está hablando de grandes cantidades de datos. Estos serían: (1) Byte (B) equivale a ocho bits. (2) Kilobyte (KB) corresponde a mil bytes. (3) Megabyte (MB) equivale a mil kilobytes. (4) Gigabyte (GB) corresponde a mil megabytes. (5) Terabyte (TB) equivale a mil gigabytes. (6) Petabyte (PB) corresponde a mil terabytes. (7) Exabyte (EB) equivale a mil petabytes. (8) Zettabyte (ZB) corresponde a mil exabytes. Según la Empresa Domo, en un estudio sobre la cantidad de datos que se generaban en el año 2014 en un minuto en la red por usuarios de social media, se pueden resaltar las siguientes empresas y cantidades asociadas al Big Data: (1) YouTube, los usuarios suben setenta y dos horas de videos nuevos. (2) Email, los usuarios envían doscientos cuatro millones de mensajes. (3) Google, los usuarios envían cuatro millones de consultas de búsqueda. (4) Facebook, los usuarios comparten dos millones cuatrocientos sesenta mil piezas de contenido. (5) Whatsapp, los usuarios comparten trescientos cuarenta y siete mil doscientos veintidós fotos. (6) Twitter, los usuarios envían doscientos setenta y siete mil tuits. (7) Instagram, los usuarios publican doscientas dieciséis mil fotos. (8) Amazon, genera ochenta y tres mil dólares de ventas en línea. (9) Pandora, los usuarios escuchan sesenta y un mil ciento cuarenta y un horas de música. (10) Skype, los usuarios se conectan por veintitrés mil trescientas horas.

Maté, en el artículo publicado el año 2015 titulado “Big data: Un nuevo paradigma de análisis de datos”, complementa mencionando que existen tres grandes bloques o tipos de datos en Big Data, donde es posible realizar la clasificación: (1) Datos estructurados. Corresponde a datos con longitud y formato definidos, como fechas, números o cadenas de caracteres. Se almacena este tipo de datos en tablas. Como ejemplo se tiene una ficha de clientes con: Fecha de nacimiento, nombre, dirección, transacciones en un mes, puntos de compra. (2) Datos semiestructurados. Son datos combinados que no se limitan a campos determinados, pero tienen marcadores para diferenciarse y clasificarse. Se trata de información irregular y son datos que poseen otros datos que se describen entre ellos. Un ejemplo de este tipo de datos son los correos electrónicos, la parte estructuras contiene el destinatario, los receptores y el tema; la parte no estructurada corresponde al texto del mensaje. Otro ejemplo se refiere a los lenguajes de programación de páginas Web o de bases de datos como HTML, XML o JSON. (3) Datos no estructurados. Datos en el formato original en el que fueron recopilados, no se pueden almacenar en tablas ya que no es posible su simplificación a tipos básicos de datos. Ejemplo de datos no estructurados se produce de persona a persona en la comunicación en las redes sociales; de persona a máquina se produce en los dispositivos médicos, el comercio electrónico, las computadoras y los dispositivos móviles; de maquina a máquina se produce en los sensores, dispositivos GPS, cámaras de seguridad. Otro grupo de datos no estructurados son los videos y documentos multimedia, los documentos PDF, contenidos de correos electrónicos, imágenes.

lunes, 4 de abril de 2016

Gobierno electrónico

En la tesis doctoral de Sánchez, publicada el año 2009 con el título “La administración pública en la sociedad de la información: Antecedentes de la adopción de las iniciativas de gobierno electrónico por los ciudadanos”, se menciona que el gobierno electrónico constituye una nueva manera de organizar la gestión pública para aumentar la eficiencia, transparencia, accesibilidad y capacidad de respuesta a los ciudadanos. Esto se consigue mediante un uso intensivo y estratégico de las tecnologías de la información y la comunicación en la gestión interna del sector público, así como en sus relaciones diarias con ciudadanos y usuarios de los servicios públicos. La incorporación intensiva de las tecnologías de la información y la comunicación constituye una manera particular de estructurar la gestión en las entidades públicas, distinguiendo además su importancia, tanto para mejorar la atención a los ciudadanos como para el desenvolvimiento de la operación interna de las organizaciones indicadas. En clave más de gestión interna, el Gobierno electrónico conjuga las tecnologías de la información y la comunicación, reingenierías de procesos y cambios de culturas organizacionales. Como una componente adicional a su enfoque convencional, está su potencialidad para reforzar los elementos de participación.

Las Naciones Unidas, en su informe del sector público mundial del año 2003 titulado “Gobierno en la encrucijada”, recalcan este aspecto al incluir en su encuesta el concepto de e-participación pues incorpora en la definición de gobierno electrónico la habilidad de las personas de involucrarse en un diálogo con sus gobiernos como consumidores de los servicios públicos y por participar en los procesos políticos como ciudadanos. Al mismo tiempo, también conviene reflexionar sobre su contribución respecto al desarrollo de nuevas formas asociativas ligadas a la dimensión de red social de Internet. Kaufman, en el artículo publicado el año 2003 con el título “Panorama latinoamericano de gobiernos electrónicos modelos existentes”, sostiene que la administración pública mediante sus modelos de gobierno electrónico puede jugar un papel de punto de coordinación importante de estos movimientos.

Conceptos para el desarrollo de este articulo son el de gobierno electrónico, qué relación tiene con las tecnologías de la información y la comunicación y su incidencia en la administración pública. De esta manera, algunas instituciones y académicos han definido y retomado el concepto de gobierno electrónico, Esteves, en el libro publicado el año 2005 con el titulo “Análisis del desarrollo de Gobierno Electrónico en España”, lo define como: “La aplicación de tecnologías basadas en Internet para actividades comerciales y no comerciales en el seno de las administraciones públicas”. Otras definiciones eliminan las limitaciones a ese concepto, manifestando que las relaciones pueden extenderse desde la conexión en línea, pasando por los asistentes digitales personales, hasta llegar a la interacción y los mensajes instantáneos con sistemas como la retransmisión de charlas por Internet. Por su parte, el Banco Mundial en su guía de gobierno electrónico publicada el año 2013, se refiere al gobierno electrónico como: “El uso de las tecnologías de la información y la comunicación para mejorar la eficiencia, eficacia, la transparencia y la rendición de cuentas de los gobiernos, donde este puede ser visto simplemente como mover servicios al ciudadano en línea, pero en su más amplio sentido que se refiere a la transformación tecnológica con capacidad gobierno.

Criado, Ramilo y Serna Araujo, en la monografía publicada el año 2002 con el título “La necesidad de teorías sobre gobierno electrónico: Una propuesta integradora”, plantean una sistematización del concepto de gobierno electrónico que aborda su complejidad a partir de tres ejes maestros: (1) Prestadores de servicios públicos, e-Administración, que incluye las dimensiones de gestión, información, tramitación de servicios, formulación de quejas y sugerencias. (2) Promotores de la democracia, e-Democracia, que incluye la consulta en los procesos de toma de decisiones. (3) Dinamizadores y elaboradores de políticas públicas, gobernanza electrónica, que incluye la participación activa en la elaboración de las políticas, gestión y evaluación de los resultados. En la tesis doctoral de Cardona, publicada el año 2002 con el título “Las tecnologías de la información y las comunicaciones en la relación administración pública ciudadano”, se establecen las siguientes etapas del gobierno electrónico: (1) Presencia. Es aquella donde las agencias de la administración pública utilizan las tecnologías de la información y comunicación para entregar información básica al público. (2) Interacción. Hace referencia a la posibilidad que puede tener un ciudadano a acceder a información crítica, así como a formatos que puede descargar y además, puede contactar la institución vía correo electrónico. (3) Transacción. Es la etapa más avanzada del gobierno electrónico. Las agencias adicionan aplicaciones de auto servicio para que el ciudadano pueda realizar trámites completos en línea. (4) Transformación. Ésta etapa se logra cuando hay un salto cultural, donde las administraciones públicas tienen una redefinición de los servicios y de la operación en su gestión. (5) Participación democrática. Permite al ciudadano intervenir activamente en la definición de las políticas públicas a través del ejercicio del voto y de la revisión del quehacer político de los dirigentes elegidos.

lunes, 28 de marzo de 2016

Gobierno electrónico

En el artículo publicado el año 2009 por los investigadores Criado y Ramilo, titulado “De la administración pública electrónica a la administración pública relacional: Aportaciones para una propuesta analítica integradora”, se retoma el planteamiento del investigador Heeks, descrito en el libro escrito el año 2001 titulado “Reinventando el gobierno en la era de la información”, quien menciona que las tecnologías de la información y la comunicación son un conjunto de herramientas e infraestructuras utilizadas para la recogida, almacenamiento, tratamiento, difusión y transmisión de la información. Las tecnologías de la información y la comunicación pueden distinguirse en tres tipos: Terminales, redes y servidores. En los servidores se encuentran los contenidos o la información, y para acceder a ellos se necesita una terminal, es decir una computadora, un teléfono móvil o la televisión digital entre otras. Para alcanzar los contenidos desde las terminales, son necesarias las redes de comunicación como las redes troncales, entre las cuales se cuentan con la fibra óptica y los radioenlaces; las redes fijas de acceso, entre las que se mencionan el cobre original o mejorado, o los sistemas de cableado eléctrico, los que se comercializan a través de los servicios de comunicaciones. En el Informe anual sobre el desarrollo de la Sociedad de la Información en España, publicado por la Fundación Retevisión el año 2001, se menciona que desde una perspectiva más general, la literatura propone dos aspectos clave en la definición de las tecnologías de la información y la comunicación. En primer lugar, una visión amplia, compartida por organismos e instituciones como la Organización para la Cooperación y el Desarrollo Económico, el Departamento de Comercio de los Estados Unidos, o la Asociación Nacional de Industrias Electrónicas. Otra visión más restringida está asociada al Observatorio Europeo de Información Tecnológica y la Asociación Española de Empresas de Tecnologías de la Información.

En la tesis doctoral de Rodríguez, publicada el año 2010 con el título “Marco de medición de calidad para gobierno electrónico aplicable a sitios Web de gobiernos locales”, se menciona que para comprender que representan las tecnologías de la información y la comunicación en estos tiempos, bastará con intentar vivir un día sin ellas. En este momento en que los celulares, computadoras, televisores, forman parte de la vida diaria de las personas, es realmente difícil concebir no utilizar los mismos en tareas que resultan cotidianas para diferentes sectores de la población. Consultar el saldo bancario por Internet, publicar y ofertar productos, abonar el importe de un impuesto, son algunas de las múltiples gestiones que se realizan mediante la Web. Sin embargo en contrapartida al avance tecnológico que disfrutan muchas comunidades, hay otras que se encuentran excluidas tecnológicamente. Según Serrano y Martínez, en el libro publicado el año 2003 con el título “La brecha digital: Mitos y realidades”, se menciona que los grupos sociales que han aprovechado estas ventajas en beneficio de sus integrantes, adquirieron un nivel de desarrollo material e intelectual que los separa de otros grupos sociales menos privilegiados. Por ello es posible afirmar que existe una brecha tecnológica entre las comunidades que utilizan las tecnologías de la información y la comunicación como parte de su vida cotidiana, casi sin notar la presencia de las mismas, y aquellas que no poseen ningún tipo de conocimiento al respecto. En palabras de Sánchez y Capdevielle, en el artículo publicado el año 2005 con el título “Innovación en la Sociedad del Conocimiento”, una definición posible para la brecha tecnológica es “la distancia tecnológica entre individuos, familias, empresas, grupos de interés, países y áreas geográficas en sus oportunidades de acceso a la información, a las tecnologías de la comunicación y en el uso de Internet para un amplio rango de actividades”.

Como complemento a lo señalado Manuel Castells, en la lección inaugural del programa de doctorado sobre la sociedad de la información y del conocimiento del año 2000, menciona que en todo el planeta los núcleos consolidados de dirección económica, política y cultural estarán también integrados en Internet, Criado y Fernández, en el artículo publicado el año 2002 titulado “Internet y Unix: 30 Años de Vidas Paralelas”, complementan mencionando que, desde un plano meramente conceptual, Internet no es más que una red de redes de computadoras capaces de comunicarse entre ellas a través de un lenguaje común, llamado TCP/IP. Según Abbate, en el libro publicado el año 2000 con el título “Inventando Internet”, desde un plano técnico, Internet opera dividiendo la información en pequeñas partes autónomas e independientes, llamadas paquetes, y transmitiendo esos paquetes desde el origen al destino a través de diferentes caminos disponibles. WWW es un servicio más de los ofrecidos a través de Internet. Nació en la Organización Europea para la Investigación Nuclear el año 1991 de la mano del físico Tim Berners-Lee. Desde un plano técnico, las aplicaciones Web componen un entorno gráfico basado en el concepto de hipertexto que opera al interior de Internet, apoyando presentaciones multimedia para transmitir sonido, texto, vídeo, datos, entre diferentes computadoras con una interfaz amigable. Según Sánchez, en la tesis doctoral publicada el año 2009 con el título “La administración pública en la sociedad de la información”, la introducción de las nuevas tecnologías de la información y la comunicación en las administraciones públicas se ha convertido una tendencia global. La oferta de servicios en línea por parte del sector privado y la demanda de los mismos por los ciudadanos, están presionando a las administraciones públicas de todos los países para que innoven en la forma en que se relacionan con los ciudadanos.

martes, 8 de marzo de 2016

“El 50 por ciento de la información del Estado no la tiene el Estado, la tienen los gringos”

No tiene problemas en confesar su apego al liderazgo del Presidente. “Yo he venido por el proceso de cambio. Evo Morales tiene una fama increíble en Europa, en el ámbito de la izquierda, y aparece desde ahí como una esperanza que ya no hay en Europa”, confiesa a CAPITALES.

Sylvain Lesage, director ejecutivo de la Agencia para el Desarrollo de la Sociedad de la Información en Bolivia (ADSIB), dependiente de la Vicepresidencia del Estado Plurinacional, llegó a Bolivia en 2009 después de haber obtenido una licenciatura en Telecomunicaciones en su natal Francia. Tiene un doctorado de la Universidad de Rennes, donde estudió Procesamiento de Señales.

CAPITALES (C). ¿En qué punto nos encontramos en esa visión del Gobierno nacional de ser tecnológicamente soberanos?
Sylvain Lesage (SL). La ley de 2011 ha sido muy clara con el tema de priorizar el software libre, que es un tipo de software que uno puede copiar libremente, puede modificar, no tiene que pedir a un editor de software, como de Microsoft, “por favor póngame esta funcionalidad”. Yo la puedo analizar, la puedo aumentar, la puedo distribuir. Es exactamente el equivalente de la investigación científica, que así funciona: se transfieren los conocimientos y uno va ayudando al otro, y al otro, y al otro, y así crece y obtenemos resultados de mejor calidad.

El Estado está iniciando a partir de este año su migración hacia el software libre; es decir, en siete años, hasta 2022-2023, ya no comprará ninguna licencia de Microsoft y de otras empresas. En algún caso puede haber una excepción, que está prevista por el decreto de 2013, pero en el 99% de los casos estaremos liberados tecnológicamente, por lo menos en el tema de software. Sin embargo, como bien sabe, ahora cuando maneja Google Docs, maneja Drop Box, maneja Gmail, todos estos servicios en realidad no son software libre, al final son servicios web, entonces tampoco ha cambiado la figura. Antes era muy claro: Microsoft tiene un monopolio que oprime a los gobiernos y del cual nos tenemos que liberar. La figura ha cambiado un poco con la incorporación de internet, ahora el tema es dónde están alojados los datos.

C. ¿Y en este tema cómo estamos?
SL. Hay muchos compañeros en el Estado (Plurinacional, en realidad en el Gobierno), que no manejan cuentas institucionales de correo sino Gmail, porque es más fácil; no manejan sus archivos dentro de los servidores de la institución sino que los ponen en Dropbox, porque es más fácil compartir, etc. Eso significa que el 50% de la información del Estado no la tiene el propio Estado, pero los gringos la tienen.
Entonces, tenemos ahí un problema de soberanía tecnológica que es en lo que estamos trabajando también; tenemos que reforzar esta soberanía con infraestructura de servidores y de red propia, de Estado, de forma que tengamos el control y la confidencialidad sobre nuestros datos.

C. ¿Cómo están trabajando desde su oficina gubernamental para reducir la brecha digital?
SL. Una de nuestras misiones es reducir la brecha digital, ayudar con proyectos que ayuden a hacer que la población se empodere, sepa manejar las tecnologías en bien de la ciudadanía en general.
Hemos hecho un proyecto durante dos meses de cursos a jóvenes de 14 y 15 años, de La Paz y El Alto, donde les hemos enseñado programación de sitios web. Muchos nunca habían ni tocado una computadora y después de dos meses podían hacer una página web. Nada extraordinario, sabemos que los jóvenes aprenden rápidamente, tienen muchas capacidades.
Lo único es que queremos que el colegio les brinde este conocimiento, porque ya se van a desenvolver en un mundo digital, los medios en línea, las redes sociales, en su trabajo tendrán que manejar la herramienta informática y, si no tienen el control, van a estar perdidos, no van a ser ciudadanos informados. Entonces, queremos empoderar a los jóvenes.
Hemos hecho un pequeño esfuerzo con 100 alumnos, pero queremos sobre todo difundir la experiencia para que surjan otros proyectos, (que) surja la demanda hacia el Ministerio de Educación de que se amplíe, se incorpore más la tecnología.

C. ¿Cuál es la visión que tiene el Estado boliviano respecto a este tema?
SL. Para acortar la brecha digital una de las visiones es la cobertura, lo que significa infraestructura, Entel y el Viceministerio con la ATT. Es inversión, mucha plata que hay que invertir. A la vez, acceder a todos los lugares con el satélite.
Y lo otro es acceso internacional de mejor calidad: actualmente solo tenemos un acceso mediante Chile, muy caro. Estamos buscando otras vías, por Perú, Uruguay, quizás por Argentina, mediante el anillo de fibra óptica que está trabajando Unasur, para de esta forma poder incorporarnos dentro de la internet mundial, para bajar los costos.
La otra forma es por la capacitación, la educación. Queremos que los estudiantes no solamente sean consumidores de tecnologías, utilicen servicios gringos, sino que aprendan a programar, a crear contenidos locales en sus idiomas —que pueden ser diferentes al castellano—.
Que internet, que ha sido una revolución, permita a cada uno ser productor de su propio contenido, tener su propia voz; no solamente como la TV, ser consumidor de un contenido producido por otros.

C. ¿Nos habla de la educación enfocada, por ejemplo, al uso de las redes sociales?
SL. Ahí tenemos una relación muy cercana de los ciudadanos con cualquier otra persona, como un gobernante, un investigador, un periodista, lo que sea; mediante las redes sociales, que son una maravilla, podemos acceder, expresarnos como ciudadanos. Pero hay que entender que implica también una educación: lo que se publica una vez está para siempre, hay que tener cuidado.
A veces uno piensa que está en su entorno pero, en realidad, puede tener una repercusión pública encadenada. Con nuevas herramientas vienen también nuevas formas de educación.

C. En este momento hay una polémica por la propuesta de regulación de las redes sociales. ¿Es posible hacerlo y cuál es su recomendación antes de dar este paso?
SL. Nuestra posición siempre ha sido considerar internet y las redes sociales como un medio que es como el teléfono, es decir, hablamos de las estafas, de la trata y tráfico de personas mediante internet, entonces, ¿por qué no tipificamos también (esos delitos) por teléfono?
Puede haber algunos delitos adicionales de tipo penal que puedan surgir a raíz de las TIC (tecnologías de la información y la comunicación), pero pensamos que casi el 99 por ciento de los casos ya existe la tipificación: discriminación racial, discriminación de género, insultos, calumnias. Todo eso ya existe, que sea mediante un periódico impreso, un periódico en línea, una red social, etc., si hay una prueba fehaciente se puede proceder. Se ha visto que en los juicios vale como prueba hasta una captura de pantalla de Whattsap.
Entonces, mi punto de vista es más considerar a las redes como un medio y no aumentar quizás otras tipificaciones que van, más que todo, a restringir las libertades sin tener un efecto práctico. En algunos casos se tiene que castigar, porque hay violaciones claras de agresiones que se tienen que sancionar, pero pensamos que el aparato legal es suficiente actualmente.
Los temas de tipificación penal o civil, lo que es de ataque deliberado a la infraestructura, a buscar tumbar un sitio web, robar o borrar información, eso, específicamente tiene que ver con las redes informáticas, con las TIC, algo quizás se puede incorporar. Pero, aparte de eso, todos los otros casos deberían llevarse de la misma forma que si ha sido por teléfono, por carta o cualquier otra forma física.

C. ¿Usted maneja información actualizada respecto a la cobertura de internet y cantidad de usuarios en Bolivia?
SL. Por datos del Viceministerio de Telecomunicaciones sobre la cobertura, tenemos muy poco acceso por ADSL, por conexiones fijas, pero desde hace algunos años hay un boom de las conexiones por celular. Del total de usuarios de internet, el 96 por ciento accede a través de los celulares.
Al contrario de otros países, donde todo llegó por internet en la casa, en Bolivia se produjo por el celular. Con la expansión de la cobertura de Entel, en muy poco tiempo, hasta 2020, vamos a llegar a este acceso universal, es decir que cualquier ciudadano va a poder acceder a internet a un menor costo.

“Hay muchos compañeros en el Estado (Plurinacional, en realidad en el Gobierno), que no manejan cuentas institucionales de correo sino Gmail, porque es más fácil; no manejan sus archivos dentro de los servidores de la institución sino que los ponen en Drop Box, porque es más fácil compartir”