Este art"culo es la tercera parte de nuestra serie sobre IA. En las primeras dos partes hablamos de los casos de uso de la IA y las tecnolog"as que est·n detr·s de ella, as" como de los servicios de IA ofrecidos por Amazon. Hoy vamos a centrarnos en los servicios de IA de Google.
Como mencionamos en nuestro ˙ltimo art"culo, cada plataforma de IA cuenta con fortalezas basadas en su herencia. Por ejemplo, el servicio Comprehend de AWS se basa en la que quiz· sea la mayor fuente de reseÒas y opiniones del mundo: los comentarios de los productos a la venta en Amazon. Si pensamos en la herencia de Google y en sus inversiones m·s recientes, podemos adivinar algunas de sus fortalezas evidentes: la b˙squeda, el reconocimiento de im·genes y la traducciÛn de idiomas. Pero hay mucho m·s. En este art"culo hablaremos de cada uno de los servicios de IA de Google.
Una advertencia para las personas sensibles: voy a ponerme un poco friki en la secciÛn sobre las TPU de Google, as" que no digan que no les avisÈ.
°Vamos all·!
AutoML est· actualmente en fase alfa, as" que todav"a no contamos con una oferta de producto completa. °Pero no deje que eso le detenga! Si est· buscando una tecnolog"a de reconocimiento de im·genes, merece la pena echar un vistazo a AutoML.
La visiÛn de Google es ofrecer una suite de productos y servicios de aprendizaje autom·tico (ML) que proporcione a los desarrolladores la capacidad de crear modelos de alta calidad. El primer programa de esta suite es AutoML Vision, especializado en el reconocimiento de im·genes. Este servicio se basa en la tecnolog"a propietaria de reconocimiento de im·genes de Google, probablemente una de las m·s probadas del mundo.
Pero AutoML Vision no se limita a usar IA, sino que incorpora un elemento humano para aportar a˙n m·s valor. Si no ha hecho el trabajo preliminar de facilitar etiquetas e im·genes para entrenar a AutoML Vision, puede recurrir a las aportaciones colaborativas de humanos para generar etiquetas para sus im·genes.
TPU son las siglas en inglÈs de ´Unidad de Procesamiento de Tensorª. Son las unidades de procesamiento que alimentan las capacidades de IA internas de Google. Y ahora, Google est· poniendo la potencia de sus TPU a disposiciÛn de las masas.
Perm"tame que profundice por un momento. Si es ingeniero elÈctrico o inform·tico, ser· capaz de seguirme con bastante facilidad. Y si no lo es, tratarÈ de explicar la belleza de las TPU en tÈrminos no tÈcnicos.
Si solo quiere saber quÈ aporta esta tecnolog"a y no le interesa el trasfondo, debe saber que se estima que las Cloud TPU dan resultados entre 15 y 30 veces mejores con un uso mucho menor de energ"a (un rendimiento por vatio entre 30 y 80 veces superior) que las m·quinas virtuales alimentadas por CPU tradicionales. Y como usuario del servicio de IA de Google, esto significa que obtendr· m·s resultados por el dinero invertido que con otros servicios.
øQuiere saber por quÈ? S"game al lado oscuro :)
Hay 4 aspectos de las TPU a tener en cuenta.
Vamos a empezar con los modelos de aprendizaje autom·tico en el contexto de una red neuronal. Imag"nese que la red neuronal es simplemente un grupo de nodos que forman una red para tomar una decisiÛn.
En cada nodo, multiplicamos los datos por los pesos y aÒadimos los resultados. DespuÈs, bas·ndonos en el resultado, tenemos que decidir si esa ´neuronaª est· encendida o apagada. La manera m·s simple de hacerlo es usar una funciÛn escalonada para comparar el resultado con un valor preestablecido. Si el resultado es mayor que ese n˙mero, la neurona est· encendida. Si no, est· apagada.
Por varias razones, esta simple funciÛn escalonada no es suficiente para saber los resultados combinados de las neuronas de la red. As" que usamos unas funciones m·s complejas, las funciones de activaciÛn.
En cada neurona, multiplicamos los datos por el peso, sumamos los resultados y aplicamos la funciÛn de activaciÛn.
Lo interesante de este enfoque es que el nivel de detalle que necesitamos en cada neurona no es tan alto. Como dicen en el blog de Google, para saber si est· lloviendo fuera no necesitas averiguar cu·ntas gotas est·n cayendo por segundo, solo si caen o no. Lo que significa que el nivel de precisiÛn (en tÈrminos matem·ticos, el n˙mero de decimales) en cada neurona no necesita ser tan alto. øMe sigue?
Las CPU y GPU t"picas tienen 32 o 64 bits. Pero para hacer c·lculos b·sicos que no necesitan ir hasta el trigÈsimo punto decimal, no necesita 32 ni 64 bits: es suficiente con los 8 bits de antaÒo. Y as" es como Google ha diseÒado sus TPU.
Hay diferentes arquitecturas para construir CPU. El estilo RISC, usado con mucha frecuencia, se centra en las instrucciones simples que usan la mayor"a de las aplicaciones. En su lugar, Google usa el estilo CISC, que se centra en tareas m·s complejas. Esto hace que el chip no sea tan ˙til para diferentes aplicaciones, pero s" lo es para las tareas para las que ha sido diseÒado, como la inteligencia artificial.
Las TPU hacen lo que Google llama procesamiento matricial. Las CPU est·n diseÒadas para el procesamiento escalar, o una operaciÛn por cada instrucciÛn. Las GPU se conocen como procesadores vectoriales. Pueden ejecutar varias operaciones simult·neamente, lo que da lugar a entre cientos y miles de operaciones por ciclo de reloj. Las TPU est·n diseÒadas para el procesamiento matricial, que ofrece cientos de miles de operaciones por ciclo de reloj (esto es, muchas m·s operaciones por ciclo que las GPU).
Las TPU est·n diseÒadas para usar lo que se conoce como un array sistÛlico, donde los datos fluyen a travÈs del array en forma de ola, igual que la sangre fluye a travÈs del corazÛn. De ah" la referencia al ´procesador rom·nticoª :). Este enfoque requiere mucha menos memoria y potencia. (Para una explicaciÛn m·s detallada, puede consultar el blog de Google aqu").
Al combinar todas estas piezas, conseguimos un procesador de alto rendimiento y energÈticamente eficiente, perfeccionado para la inteligencia artificial.
Gracias a YouTube, Google tambiÈn cuenta con v"deos. Google Video Intelligence le permite buscar v"deos con tÈrminos espec"ficos. Por ejemplo, si est· buscando v"deos con gatos, solo tiene que buscar ´gatosª y se le mostrar·n v"deos donde se destaca el momento en que aparecen.
Google Video Intelligence se basa en m·s de 20.000 etiquetas, as" que es probable que admita cualquier clasificaciÛn que necesite. Google Video Intelligence tambiÈn ofrece recomendaciones de contenido e identifica los contenidos para adultos.
Aparte de la detecciÛn de la ubicaciÛn de un objeto espec"fico dentro de un v"deo, la funcionalidad m·s atractiva de este servicio es la capacidad de mostrar anuncios en el momento adecuado, esto es, activarlos a partir de etiquetas que aparecen en el v"deo. Adem·s, el servicio incluye una funcionalidad para transcribir v"deos.
La API de Google Vision es el servicio hermano de Video Intelligence y aporta una gran cantidad de inteligencia a las im·genes:
Sara Robinson, defensora del desarrollador en Google, muestra muchas de estas funciones en esta breve demostraciÛn:
https://www.youtube.com/watch?v=mDAoLO4G4CQ
Al principio de este art"culo mencionÈ algunas de las fortalezas intr"nsecas de Google, incluyendo sus funcionalidades de traducciÛn. Google lleva aÒos ofreciendo servicios de traducciÛn a travÈs de Google Translate (yo lo usÈ durante un viaje a Europa en 2015).
A lo largo del tiempo han ido perfeccionando sus capacidades, y ahora Google ha puesto esta tecnolog"a a disposiciÛn de humildes desarrolladores como usted y como yo. Este es un resumen r·pido de las principales funcionalidades de la API de Google Cloud Translation:
Si le interesa la diferencia entre traducciÛn autom·tica basada en frases y neuronal, puede ver un art"culo excelente sobre el tema de Systran (especialistas en traducciÛn de idiomas mediante aprendizaje autom·tico) aqu".
Este servicio extrae los datos clave de un bloque de texto. Puede realizar an·lisis de opiniÛn y facilitar informaciÛn sobre los principales temas del texto (personas, lugares, eventos, etc.). Se podr"a argumentar f·cilmente que esta es otra de las fortalezas de Google, teniendo en cuenta que cuentan con el motor de b˙squeda m·s usado del planeta.
La API de Cloud Speech es un servicio de audio a texto. Dir"a que esta es otra fortaleza natural de Google gracias a la frase ´Ok Googleª. De manera similar a la API de Google Cloud Translation, este servicio admite m·s de 110 idiomas y variantes. Sus funcionalidades clave incluyen:
A continuaciÛn encontrar· una buena demo de Sara Robinson de la API de Google Cloud Speech. Pero °ojo! Es una informaciÛn llena de l"neas de comando y cÛdigo, pensada para desarrolladores, as" que es solo para valientes :).
https://www.youtube.com/watch?v=z8g3XM16eRM
Dialogflow es la plataforma de chatbots de Google. Inicialmente fue desarrollada por una start-up, API.ai, que fue adquirida por Google en 2016. Dialogflow permite interacciones de voz y texto en varias plataformas de mensajer"a (incluyendo Facebook Messenger, Kik, Slack, Telegram, Viber y Skype).
En mi opiniÛn, una de las mejores cosas del enfoque de Dialogflow es que ofrecen agentes prediseÒados especializados en ·reas concretas. Puede usar los agentes prediseÒados como plantilla para diseÒar su agente personalizado.
Por ejemplo, interactuar con el sistema electrÛnico de un coche, convertir monedas, calcular datos, buscar vacaciones, etc. La idea es ayudar a los desarrolladores a poner en marcha sus chatbots a˙n m·s r·pido y sin necesidad de programar.
Si ha le"do mi art"culo anterior sobre los servicios de IA de AWS, quiz· recuerde el premio que le di a uno de sus servicios: ´tecnolog"a m·s parecida a una serie de televisiÛnª. Google tambiÈn tiene el dudoso honor de recibir uno de mis premios: ´servicio de IA m·s especializadoª. Es una interesante aplicaciÛn de su tecnolog"a de aprendizaje autom·tico y tiene sus ra"ces en una iniciativa llamada ´Google for Jobsª.
En sus propias palabras, se trata de ´un compromiso de todo Google para ayudar a las personas a encontrar trabajo con m·s facilidadª, que usa aprendizaje autom·tico para entender mejor cu·les son los trabajos disponibles y hacerlos coincidir con los que los usuarios est·n buscando. Por ejemplo, si una oferta de trabajo pone ´des. negocioª en lugar de ´desarrollo de negocioª, la API de Cloud Job Discovery de Google es lo bastante inteligente como para saber que en realidad el usuario quer"a decir ´desarrollo de negocioª.
Esto significa que los demandantes de empleo y los seleccionadores ya no tienen que romperse la cabeza para dar con los tÈrminos perfectos. La API de Cloud Job Discovery de Google ayuda a las plataformas de contrataciÛn a eliminar los errores humanos en la b˙squeda de empleo.
Si le interesa, puede probarlo usted mismo sin necesidad de programar. Solo tiene que abrir una b˙squeda de Google y escribir una b˙squeda de empleo. Ver· inmediatamente resultados localizados en funciÛn de su ubicaciÛn.
Hasta aqu" ha llegado el resumen de los servicios de IA de Google.
Siento haberme explayado tanto con las TPU de Google Cloud, pero tiene que admitir que son bastante chulas. Si a˙n no lo ha hecho, le recomiendo encarecidamente que lea el primer art"culo de esta serie, donde se resume quÈ son la inteligencia artificial y el aprendizaje autom·tico.La prÛxima semana hablaremos del ˙ltimo gigante de la IA como servicio: Microsoft Azure. °No se lo pierda!
Appian es una empresa de software que automatiza los procesos comerciales. La plataforma Appian incluye todo lo que necesitas para diseñar, automatizar y optimizar incluso los procesos más complejos, desde el principio hasta el final. Las organizaciones más innovadoras del mundo confían en Appian para mejorar sus flujos de trabajo, unificar los datos y optimizar las operaciones, lo que resulta en un mejor crecimiento y experiencias superiores para los clientes.