Hogar Negocio Minería de datos grandes

Minería de datos grandes

Anonim

¿Buscando una ventaja comercial? Siga el ejemplo de Moneyball, que dramatizó cómo los equipos deportivos podrían ganar si jugaran con los números en lugar del instinto. Independientemente del tamaño de su negocio, es hora de tomar el control del flujo incesante e inestimable de información generada por casi todos los sectores de la sociedad. Cualquier software que esté usando para procesar datos hoy en día es casi seguro inadecuado para enfrentar el desafío de un mundo que está comenzando a pensar en zettabytes (eso es mil millones de terabytes, con cada terabyte siendo 1 billón de bytes ). El desafío no es solo almacenar toda esa información, sino comprender las oportunidades que ofrece y analizarla efectivamente antes de la competencia.

Big Data, como se le conoce, se refiere a grandes conjuntos de datos que provienen de casi todas partes, incluidos registros de ventas en línea, información de envío, información climática, fotos satelitales y video de vigilancia remota, operaciones bursátiles generadas por computadora, registros de arrestos, publicaciones en sitios de redes sociales, información de vuelos, señales GPS de teléfonos celulares … y mucho más.

Los departamentos de policía revisan habitualmente grandes volúmenes de dicha información para predecir y planificar las tendencias delictivas. Pueden observar, por ejemplo, el clima, los patrones de tráfico, los horarios de eventos deportivos, los días festivos y las fechas de los días de pago para identificar los puntos críticos del crimen donde los objetivos de oportunidad (como las personas distraídas con dinero en efectivo) se cruzan con los posibles malos.

Los minoristas expertos pueden evaluar el rendimiento de ventas de productos, tendencias de precios y datos demográficos para comprender mejor las necesidades cambiantes de sus clientes.

Los abogados podrían estudiar las decisiones de los jueces individuales para obtener información sobre las estrategias para usar en sus salas de audiencias, en mucho menos tiempo del que les tomaría en la biblioteca de leyes analógicas.

Las aerolíneas pueden saber antes de que un avión aterrice que el equipaje de un pasajero no realizó el vuelo, luego alertar al pasajero sobre el paradero de la bolsa y cuándo lo conseguirá, antes de que la sangre del pasajero comience a hervir mientras espera junto a un carrusel vacío.

Y los gerentes de equipos atléticos pueden analizar datos y estadísticas para identificar jugadores infravalorados, como en el ejemplo de Moneyball basado en el equipo de béisbol de los Oakland A, como se describe en el libro de 2003 de Michael Lewis y la película del año pasado protagonizada por Brad Pitt.

Si nunca has oído hablar de Big Data o su importancia, no es de extrañar. Tenga en cuenta que el 90 por ciento de los datos del mundo se creó en los últimos dos años, nos dice IBM, con más de 2.5 quintillones de bytes de datos que se crean diariamente.

Hace apenas un año, apenas existían trabajos que implicaran la destrucción de Big Data, pero ahora Estados Unidos enfrenta una escasez de hasta 190, 000 trabajadores con experiencia analítica, así como 1, 5 millones de gerentes y analistas para comprender y tomar decisiones basadas en ese análisis, según al McKinsey Global Institute, el brazo de investigación del consultor de gestión internacional McKinsey & Co.

El mercado de tecnología y servicios de Big Data crecerá de $ 3.2 mil millones en 2010 a $ 16.9 mil millones en 2015, según un informe de 2012 de la compañía de pronósticos International Data Corp. El crecimiento es aún mayor en ciertos sectores como el almacenamiento, estimado por IDC para ser 61.4 por ciento en los próximos cinco años. Y los manejadores de datos especializados serán pioneros en nuevos mercados; Las compañías que brindan información médica clínica, por ejemplo, podrían ver un mercado de más de $ 10 mil millones para 2020, dice McKinsey.

La mejor manera de aprovechar esta verdadera mina de oro es una pregunta que abordan las empresas tecnológicas, los empresarios, los académicos e incluso la administración de Obama. Muchas empresas ya lo están haciendo. ¿Has oído hablar de Apache Hadoop? Es un conjunto gratuito de programas de software de código abierto que permite el procesamiento personalizado de grandes conjuntos de datos. ( Fue nombrado por el elefante de juguete del hijo del creador, llamado Hadoop ).

El conjunto de habilidades necesarias para usar Hadoop de manera efectiva debe estar en la timonera de las grandes corporaciones (que pueden desear desarrollar equipos internos), así como en las pequeñas empresas (que tienen más probabilidades de agilizarlo a los consultores). Facebook procesa miles de millones de comunicaciones a través de Hadoop todos los días. Yahoo también es un gran usuario, llamándolo "la tecnología de código abierto en el epicentro de Big Data y la computación en la nube". El año pasado, Yahoo escindió una compañía llamada Hortonworks para desarrollar aún más Hadoop, y su CEO, Eric Baldeschwieler, predice que para 2016, la mitad de los datos del mundo podrían confiarse a la atención de Hortonworks. La lista de clientes es larga, incluyendo Apple, LinkedIn, Microsoft, Netflix y StumbleUpon.

Ventas basadas en datos

Mollie Lombardi, directora de investigación de gestión de capital humano en el Grupo Aberdeen, ve grandes oportunidades para Big Data en el campo de las ventas, y utiliza un ejemplo personal extremadamente básico. “Me registré en un hotel Westin / Starwood”, dice ella, “y el empleado me dijo: 'Bienvenido de nuevo; Veo que estabas con nosotros antes, ¿te gustaría quedarte en la misma habitación? "

Al tener esta información a su alcance, el empleado pudo establecer una conexión personal. "Tenían la tecnología para mostrar ese aviso a la persona en el escritorio", dice Lombardi. "Del mismo modo, la recopilación de datos puede decirle a una empresa de marketing que no voy a hacer una compra con un descuento del 15 por ciento, pero tengo un récord de responder a las ofertas del 30 por ciento".

Las fuerzas de ventas deben ser usuarios avanzados de Big Data. Suponga que un gerente de negocios está hablando por teléfono con un cliente habitual que dice que, por $ 1 de descuento por pieza, ordenará otras 500 unidades. Con un front-end de Big Data, el gerente puede tomar cinco o seis segundos para acceder al historial del cliente durante 20 ciclos comerciales. ¿Realmente el cliente cumplió sus promesas de volumen? De lo contrario, el gerente está en una buena posición para negar el descuento u ofrecerlo condicionalmente en la compra de 1, 000, no 500 unidades.

Existe la oportunidad de poner una gran cantidad de datos de los clientes frente a los vendedores, y puede ir mucho más allá de una lista de cumpleaños de los niños clientes para incluir un análisis detallado de los patrones de compra elaborados por muchas fuentes en tiempo real.

Dentro de las empresas, el análisis de Big Data permitirá a las empresas estudiar a sus vendedores de mayor rendimiento y obtener información sobre lo que los hace buenos. "Podríamos mirar a los graduados de la universidad X, Y y Z y ver cómo se han desempeñado", dice Lombardi, "o estudiar los resultados con personas contratadas del competidor A versus el competidor B. Con la información obtenida de fuentes como esa, puede cree un perfil de competencia y úselo para replicar las mejores contrataciones de ventas ".

Cosas emocionantes, ¿verdad? No tan rapido. Uno de los problemas con Big Data es que gran parte es inútil; De acuerdo con el Blog de B2B Sales Intelligence, solo el 0, 01 por ciento de las cantidades masivas de datos que brotan de las redes sociales, blogs y reseñas de productos es útil para descubrir la intención del comprador. Una vez más, la clave es procesar e interpretar los datos y obtener información de ellos.

Soluciones para el cuidado de la salud

La medicina es otro generador de big data, y Big Data ayuda a analizarlo de manera efectiva, con resultados en algunos casos que pueden salvar vidas. El equipo de ciencia de datos de la compañía de software empresarial con sede en California Cloudera usó Apache Hadoop para analizar eventos adversos de medicamentos que pueden ocurrir cuando se combinan dos o más recetas. El cuatro por ciento de los estadounidenses mayores de 55 años están en riesgo de interacciones farmacológicas. Cloudera descubrió rápidamente que el problema de analizar los 1 millón de informes recibidos anualmente por la Administración de Alimentos y Medicamentos es una explosión computacional: existen más de 3 billones de combinaciones potenciales de interacciones triples de medicamentos.

Pero obtener respuestas de conjuntos de datos tan grandes ya no está más allá de nuestro alcance técnico. La profunda inmersión de Cloudera en los datos médicos reveló decenas de miles de reacciones adversas en pacientes que tomaban combinaciones de tres medicamentos, todos merecen una mayor investigación. Por ejemplo, se descubrió que un medicamento anticonvulsivo utilizado junto con cierto analgésico se correlaciona con el deterioro de la memoria.

Las interacciones farmacológicas son solo una aplicación médica entre muchas. Salient Management Co. utiliza Big Data para ayudar al estado de Nueva York a controlar el gasto de Medicaid. Durante cinco años, el sistema de pago computarizado del estado procesó casi 2 mil millones de transacciones médicas que involucraron a más de 200, 000 proveedores y 9 millones de destinatarios.

Eliminar el fraude es difícil y se hace más difícil porque los esquemas ilegales involucran una gran cantidad de registros. El sistema Medicaid genera 2 terabytes de datos anualmente, dice el CEO de Salient, Guy Amisano. Pero la tecnología de Salient puede clasificar todos esos datos rápidamente, buscando patrones extraños y tendencias que puedan ser señales de fraude, como aumentos repentinos en la facturación desde una ubicación en particular o casos concentrados del mismo procedimiento.

El factor humano

Big Data también ofrece una gran oportunidad para los profesionales de recursos humanos. Brenda Kowske, Ph.D., analista senior de Bersin & Associates, dice que el uso de análisis basados ​​en datos para RRHH aún está en pañales. "Utilizamos datos en marketing para determinar qué comprarán los consumidores y en finanzas para la gestión de riesgos", dice ella. "En recursos humanos, podemos usarlo para predecir cómo se desempeñarán los empleados en el trabajo y cómo involucrarlos y motivarlos".

Las leyes de confidencialidad presentan un gran obstáculo para acceder al Big Data de recursos humanos. Las empresas enfrentan límites sobre cuánto tiempo pueden almacenar datos pertenecientes a individuos, y compartir datos de recursos humanos entre diferentes empresas es difícil.

Pero dentro de los límites legales, hay mucho que se puede hacer. Específicamente, los gerentes de recursos humanos pueden estudiar datos de empleados anteriores, incluidos patrones en su comportamiento en el trabajo, lo que conducirá a identificar los atributos de personalidad que son útiles si las personas deben desempeñarse en el nivel necesario para el puesto. "Requiere que los gerentes piensen como investigadores en lugar de personas de recursos humanos", dice Kowske. “Las empresas no solo necesitan recopilar datos, sino también almacenarlos en formularios que puedan extraerse. De hecho, sería útil contar con herramientas inteligentes que pudieran rastrear a través de diferentes sistemas de recursos humanos, porque es probable que los datos no estén todos en el mismo lugar ".

Está creciendo una industria artesanal para ayudar a los departamentos de RR. Una de esas compañías es Spring International, cuyo CEO, Robert Berrier, tiene experiencia en encuestas presidenciales. Los políticos dividen a los votantes en segmentos que luego pueden ser específicamente dirigidos con publicidad de campaña, dice Matt Fumento, vicepresidente de estrategia y desarrollo en Spring. En RR.HH., dice, las empresas están tratando de comprender mejor sus propias fuerzas de trabajo (y posibles contrataciones) y maximizar sus niveles de compromiso en el trabajo. Spring evalúa el compromiso de los empleados al encuestar a los empleados y estudiar esos datos, junto con información como el absentismo de los empleados y el tiempo de enfermedad. Spring también analiza factores como la satisfacción del cliente, la generación de ingresos y la rentabilidad.

Los profesionales comprometidos definitivamente contribuyen al resultado final. Para un cliente de una aerolínea, Spring correlacionó los niveles de compromiso de los pilotos con la cantidad de tiempo que pasaban en la pista antes de despegar y descubrió que los retrasos en el vuelo le estaban costando a la compañía $ 100 millones. Para clientes minoristas como Lowe's, ayuda a identificar el impacto de la participación en los ingresos generados por pie cuadrado de espacio de la tienda. Lowe's pudo confirmar el vínculo entre los empleados comprometidos, la satisfacción del cliente y la generación de ingresos.

En su nivel más simple, un cliente de Lowe's que busca un galón de pintura obtendría eso y nada más de un empleado desconectado. Pero si el empleado está escuchando, él o ella se interesarán en el proyecto, y el cliente podría terminar con pasta adhesiva, papel de lija, pinceles y rodillos además de la pintura. Lowe's descubrió que la diferencia entre sus tiendas de mayor y menor participación era de más de $ 1 millón en ventas anuales.

Buscar resultados de ingresos reales es importante, porque de acuerdo con el libro Mapas de estrategia: Convertir activos intangibles en resultados tangibles, del 70 al 90 por ciento de las empresas fracasan en sus estrategias comerciales. Y una razón para eso es que RR.HH., con información potencialmente muy valiosa sobre cómo aumentar el rendimiento de los empleados, carece de un asiento en la mesa cuando se toman decisiones estratégicas importantes. En una encuesta de 2011, Prácticas de madurez de compromiso, solo cuatro de 200 empresas estudiadas tenían la capacidad de equiparar el compromiso de los empleados con los resultados comerciales.

Fumento dice que el acceso a Big Data, y a la información generada en tiempo real a lo largo de la vida laboral de un empleado, no solo en revisiones anuales o trimestrales, dejará en claro que RR.HH. proporciona un retorno de la inversión a la empresa. "El modelo de inteligencia de la fuerza laboral tiene el potencial de revolucionar la función de recursos humanos", dice.

En la nube

Los datos no solo están creciendo, también están migrando en línea, lo que plantea desafíos adicionales y oportunidades. Si bien la computación en la nube constituye menos del 2 por ciento del gasto en TI en la actualidad, según un Estudio del Universo Digital, para 2015, casi el 20 por ciento de la información será procesada por la nube y el 10 por ciento se almacenará allí. En 2010, se compraron más servidores virtuales utilizados para la computación en la nube que servidores físicos, dice IDC.

La gestión de Big Data es un desafío a medida que la nube se hace cargo porque la información almacenada fuera de la oficina en servidores remotos debe integrarse con los bytes almacenados en los discos duros de la compañía. Los funcionarios de la compañía querrán asegurarse de que sus datos en la nube estén seguros y fuera del alcance de terceros, y que se respalden regularmente y se archiven adecuadamente. Pero alojar Big Data en la nube tiene muchas ventajas. Phil Wainewright escribe para ZDNet y utiliza el asistente de voz digital del iPhone 4, Siri, para ilustrar ese punto. Las generaciones anteriores de reconocimiento de voz tuvieron que formarse en la voz del usuario a lo largo del tiempo; Siri prescinde de eso: hace coincidir al usuario con el patrón de voz más cercano en una biblioteca en constante expansión de decenas de miles hecha posible por su hogar en la nube. Para la mayoría de las empresas, pequeñas y grandes, el almacenamiento en la nube tendrá sentido porque no hay un límite de espacio que importe, y porque los datos son tan accesibles desde ubicaciones remotas como cuando se almacenan internamente.

No es solo la capacidad de analizar grandes grupos de datos. "Lo que realmente importa", dice Wainewright, "es la amplia base de esos datos, reunidos de una gran mezcla de usuarios dentro de los cuales se pueden analizar los patrones de comportamiento y luego aplicarlos en otros lugares. Piense en ello como datos de enjambre: una gran cantidad de comportamiento individual y autónomo que se suman colectivamente a patrones reutilizables ".

Otra ventaja de almacenar Big Data en la nube es el ahorro que ofrece en costos de energía, según el 62 por ciento de los gerentes de TI encuestados en el Informe de Energía Eficiente de 2012 por CDW, un proveedor de tecnología y servicios. El uso de energía no es un asunto trivial: considere el caso de Google, que se dice que ejecuta hasta 900, 000 servidores que requieren 220 megavatios de generación de energía, que es casi el 1 por ciento del uso de energía del centro de datos global y .01 por ciento de la demanda total de energía del mundo. Según la encuesta de CDW, la solución virtual redujo la demanda de energía en un promedio de 28 por ciento entre los encuestados.

Idealmente, las soluciones en la nube de una empresa combinarían un enorme almacenamiento de datos con la capacidad de analizar toda esa información, una ventanilla única. Global Computer Enterprises anunció en abril tal solución como SMART Cloud para Big Data y Analytics. Fue desarrollado con herramientas de código abierto como el mencionado Apache Hadoop. Las agencias gubernamentales son los principales usuarios objetivo.

La administración de Obama, no por casualidad, está tomando nota de las posibilidades de Big Data. En marzo, anunció la Iniciativa de Investigación y Desarrollo de Big Data, un paquete de compromisos de $ 200 millones en seis agencias, incluidos los departamentos de Energía, Defensa y Seguridad Nacional, diseñado para "mejorar en gran medida las herramientas y técnicas necesarias para acceder, organizar y recoger descubrimientos de grandes volúmenes de datos digitales ", dice Tom Kalil, subdirector de políticas de la Oficina de Política Científica y Tecnológica.

Así como un sistema de gobierno llamado ARPANET fue un precursor de la Internet de hoy, existen oportunidades similares ahora con Big Data, dice John Holdren, asesor científico de Obama. "De la misma manera que las inversiones federales anteriores en tecnología de la información condujeron a avances espectaculares en la supercomputación y la creación de Internet, la iniciativa que estamos lanzando hoy promete transformar nuestra capacidad de usar Big Data", dice.

Parte del plan federal es proporcionar $ 10 millones en fondos de investigación en la Universidad de California en Berkeley, a través de la National Science Foundation, para computación en la nube, crowdsourcing (utilizando tecnología moderna para recopilar información e imágenes del público) y técnicas para ayudar a las computadoras "aprender de la experiencia. Ese es exactamente el tipo de proyecto de vanguardia que necesitamos a medida que Big Data madura, especialmente si EE. UU. Debe mantener un liderazgo tecnológico. Estamos en una encrucijada emocionante, y tanto Big Data como su estudio están en pañales. Definitivamente veremos la acumulación de datos crecer exponencialmente en el futuro cercano. La pregunta es qué tan sabiamente tendremos acceso a ella.

Big Data en el mundo real

Los usos prácticos de Big Data no son meramente teóricos: están aquí y ahora. Aquí hay cinco formas en que las personas y las empresas innovadoras están haciendo que grandes flujos de información trabajen para ellos:

Guerreros de escritorio. Agrupando una gran cantidad de información de Wikileaks disponible públicamente sobre la guerra en Afganistán, Ph.D. de la Universidad de Nueva York. El estudiante Drew Conway pudo sacar algunas conclusiones sobre los períodos pico y los lugares de conflicto, según un informe de Gigaom. Conway, que dirige el blog Agentes de Inteligencia Cero, organizó el volcado de Big Data por geografía y por la naturaleza de los encuentros (hostiles o amistosos) entre las tropas estadounidenses y los afganos. Las conclusiones dieron crédito a la idea de que el conflicto con los talibanes tiende a alcanzar su punto máximo durante ciertas estaciones y se concentra alrededor de la carretera de circunvalación que rodea la capital de Kabul.

Objetivos de ventas. La cadena de supermercados británica Tesco ha experimentado un aumento del 12 por ciento en las ventas durante las primeras pruebas utilizando el análisis de datos para determinar qué artículos de mayor venta descontar y cuándo. La subsidiaria recientemente adquirida por Tesco, Dunnhumby, una compañía de información de compras, rastreó los datos de ventas de 16 millones de familias, que realizan aproximadamente 6 millones de transacciones al día usando Tesco Clubcards para acumular puntos de recompensa. La compañía también se beneficia de la venta de sus datos de preferencia de compra a otras empresas. Sin embargo, el programa no está exento de controversia, porque algunos críticos dicen que a los compradores no se les dice que su información se está utilizando para el beneficio de Tesco. La compañía dice que solo identifica tendencias, no ofrece un vistazo a la vida de sus clientes.

¿Quién conduce a nuestros hijos? No todos los usos de Big Data son muy complejos o técnicos. En Iowa, el gobernador Terry Branstad promulgó un nuevo mandato para que los conductores de autobuses escolares estén sujetos a verificación de antecedentes. Para aprobar la reunión, el solicitante debe sobrevivir a una búsqueda de registros públicos, incluido el registro de delincuentes sexuales, el registro central de abuso infantil, los archivos de abuso de adultos dependientes y las infracciones de manejo, si corresponde. Estos registros no están secuestrados para uso oficial, como lo fueron antes, sino que están disponibles en línea a través de la Búsqueda en línea de los tribunales de Iowa. El procedimiento debe seguirse cada cinco años, cuando el conductor renueva su licencia. El registro muestra que las verificaciones cruzadas de datos pueden ser valiosas para mantener a los niños fuera de peligro. Un conductor de autobús escolar de Oregón fue arrestado en 2010 después de que una investigación forense de computadoras encontró ocho videos de pornografía infantil en un sitio de redes sociales que se había cargado con su dirección de correo electrónico y contraseña. Recibió una sentencia de siete años y, ni que decir tiene, ya no conducirá a más niños a la escuela.

Cargado por el Volt. General Motors fue el primer fabricante de automóviles en ofrecer una gama completa de servicios, desde encontrar su automóvil perdido en un estacionamiento hasta respuestas de emergencia y direcciones de manejo, a través de la conectividad inalámbrica de su servicio OnStar. A través de OnStar, GM ahora hace malabarismos con tres asombrosos petabytes de datos anualmente (un petabyte equivale a 1 billón de bytes). El Director de Información de OnStar, Jeffrey Liedel, admite que GM no ha descubierto completamente cómo hacer que su flujo de datos funcione para sus clientes y para los resultados de la compañía. Pero sabe que OnStar será de gran beneficio para sus futuros compradores de automóviles eléctricos, y está probando una aplicación que permitirá a los conductores verificar de forma remota la carga de la batería y comenzar o detener una sesión de carga desde la comodidad de la silla de la sala de estar.

Prediciendo las crisis mundiales. La iniciativa Global Pulse de las Naciones Unidas utiliza datos digitales como charlas en redes sociales, llamadas de teléfonos móviles y transacciones en línea para predecir y comprender mejor las crisis económicas, las epidemias de salud y los desastres naturales. Los investigadores de Pulse y el especialista en software de análisis SAS analizaron más de 500, 000 blogs, foros en línea y sitios de noticias en Irlanda y los EE. UU. Para determinar qué charla en las redes sociales (particularmente sobre "reducir", "usar el transporte público" y "degradar el automóvil" ) podría predecir picos en el desempleo que ocurrieron tres o cinco meses después. Los investigadores de Global Pulse también han utilizado datos digitales, como el uso de teléfonos móviles, para monitorear el movimiento de personas después del terremoto de Haití en 2010, así como la propagación de un brote de cólera posterior allí.

Big Data es como un iceberg, con solo una pequeña parte de sus usos prácticos visibles para nosotros. Lo emocionante es lo que podremos hacer cuando el resto del iceberg se vuelva visible. Y, por supuesto, con los problemas de privacidad más en juego que nunca, uno debe preguntarse: ¿El descubrimiento de este iceberg salvará la economía global, hundirá nuestra humanidad o ambos?

Mapas estratégicos: conversión de activos intangibles en resultados tangibles