Skip to main content

Kampf der KI-Titanen Teil 2: Die KI-Dienste von Google

Chris Dunn, Regional Vice President - APAC
March 27, 2018

Dies ist die dritte Ausgabe unserer Blog-Serie zu k¸nstlicher Intelligenz (KI). Nachdem wir bereits Anwendungsf‰lle von KI und Technologie, die KI unterst¸tzt, sowie die KI-Dienste von Amazon unter die Lupe genommen haben, werden wir uns heute den KI-Diensten von Google widmen.

Die KI-Dienste von Google

Wir haben bereits im letzten Blogbeitrag erl‰utert, dass jeder Anbieter von KI-Plattformen andere St‰rken hat, je nachdem, aus welchem Bereich er kommt. Ein Beispiel hierf¸r ist der AWS-Dienst Comprehend, der auf der vielleicht ergiebigsten Quelle f¸r Bewertungen und Feedback beruht: auf den Kommentaren zu Produkten auf Amazon. Wenn man sich vor Augen h‰lt, aus welchem Bereich Google kommt und welche Investitionen das Unternehmen k¸rzlich get‰tigt hat, lassen sich ebenfalls einige eindeutige St‰rken ableiten: Suche, Bilderkennung und ‹bersetzung. Aber da gibt es noch viel mehr. In diesem Beitrag werden wir einen Blick auf das gesamte KI-Angebot von Google werfen.

Achso und vorab: Achtung an alle, die einen empfindlichen Magen haben. Ich werde mich etwas nerdig ¸ber die TPUs von Google auslassen. Also seien Sie darauf gefasst.

Los geht's!

Cloud AutoML - Alpha

AutoML befindet sich derzeit noch in der Alpha-Phase. Es ist also noch kein ausgereiftes Produkt. Aber das sollte Sie nicht aufhalten! Wenn Sie auf der Suche nach einer Bilderkennungstechnologie sind, lohnt es sich, AutoML etwas genauer zu betrachten.

Googles Ziel ist es, eine Reihe von Produkten und Dienstleistungen zu bieten, die auf maschinellem Lernen (ML) beruhen und Entwicklern die Mˆglichkeit bieten, qualitativ hochwertige ML-Modelle zu entwickeln. Das erste Produkt in der Reihe ist AutoML Vision ñ Bilderkennung. Dieser Dienst baut auf Googles eigener Bilderkennungstechnologie auf, die wohl weltweit am ausgiebigsten getestet wurde.

Bei AutoML Vision geht es nicht nur um KI. Es gibt auch eine menschliche Komponente, die f¸r einen noch grˆfleren Mehrwert sorgt. Wenn Sie die Grundlagen noch nicht gelegt haben und keine beschrifteten Bilder zur Verf¸gung stehen, um AutoML Vision zu trainieren, kˆnnen Sie das Beschriften Ihrer Bilder durch Crowdsourcing von anderen Menschen erledigen lassen.

Cloud TPU

TPU steht f¸r Tensor Processing Unit (Tensor-Prozessoreinheit). Diese Prozessoreinheit ist die Triebkraft f¸r die KI-Funktionen von Google. Google bietet nun der breiten Masse Zugang zu den Mˆglichkeiten, die TPUs bieten.

Lassen Sie mich kurz in die Nerd-Welt abtauchen. Wenn Sie Elektro- oder Computeringenieur sind, werden Sie auch ganz leicht folgen kˆnnen. F¸r alle anderen versuche ich die Vorz¸ge von TPUs mˆglichst verst‰ndlich darzustellen, ohne all zu technisch zu werden.

Falls Sie einfach nur wissen wollen, was Sie das alles angeht, ohne mehr ¸ber den Hintergrund zu erfahren, kann ich Ihnen sagen, dass Cloud TPU 15 bis 30 Mal leistungsst‰rker sein soll als virtuelle Maschinen mit traditionellen CPUs und das bei einem viel geringeren Energieverbrauch (30 bis 80 Mal hˆhere Leistung/Watt). Als Nutzer der KI-Dienste von Google erhalten Sie also mehr Leistung f¸r Ihr Geld als mit anderen Diensten.

Sie wollen wissen, wie das geht? Dann folgen Sie mir in eine andere Welt :)!

Vier Dinge sollte man in Bezug auf TPUs bedenken.

Bits

Beginnen wir mit Modellen des maschinellen Lernens im Rahmen eines neuronalen Netzes. Stellen Sie sich ein neuronales Netz einfach als eine Gruppe von Knoten vor, die ein Netzwerk mit dem Ziel der Entscheidungsfindung bilden.

Neuronales Netzwerk mit Gehirnstruktur

An jedem Knoten multiplizieren wir Daten nach deren Gewicht und addieren die entsprechenden Ergebnisse auf. Basierend auf dem Ergebnis m¸ssen wir dann entscheiden, ob dieses ÑNeuron" auf ÑOn" oder ÑOff" gesetzt ist. Der einfachste Weg, um dies zu erreichen, ist die Verwendung einer Schrittfunktion, ¸ber die das Ergebnis mit einem festgelegten Wert verglichen wird. Wenn das Ergebnis grˆfler als diese Zahl ist, dann ist das Neuron ÑOn". Ist dies nicht der Fall, es ist ÑOff".Aus einer Vielzahl von Gr¸nden reicht diese simple Schrittfunktion nicht aus, um uns die kombinierten Ergebnisse aller Neuronen im Netzwerk zu liefern. Von daher verwenden wir komplexere Funktionen ñ Aktivierungsfunktionen.

An jedem Neuron multiplizieren wir die Daten nach Gewicht, addieren die Ergebnisse auf und wenden dann die entsprechende Aktivierungsfunktion an.

Interessant an diesem Ansatz ist, das der f¸r jedes Neuron benˆtigte Detaillierungsgrad nicht besonders hoch ist. Wie der Blog von Google herausstreicht, muss man beim Versuch herauszufinden, ob es drauflen regnet, nicht wissen, wie viele Tropfen pro Sekunde fallen. Vielmehr muss man lediglich wissen, ob sie fallen oder nicht. Das bedeutet, dass das Niveau der Genauigkeit (in mathematischen Begriffen, z.B. Anzahl der Dezimalstellen) an jedem Neuron nicht unbedingt hoch sein muss. Kˆnnen Sie mir folgen?

Typische CPUs (Computerprozessoren) und GPUs (Grafikprozessoren) arbeiten auf 32 oder 64 Bit. F¸hrt man jedoch einfache Berechnungen durch, die nicht unbedingt bis auf die 30. Dezimalstelle genau sein m¸ssen, braucht man keine 32 oder 64 Bit. Hier kommt man auch mit den guten alten 8 Bit aus. Genau so hat Google auch seine TPUs konzipiert.

Architektur

CPUs kˆnnen unterschiedlich aufgebaut sein. Das RISC-Design ist weit verbreitet und ist auf einfache Anweisungen begrenzt, die in den meisten Anwendungen genutzt werden. Google nutzt hingegen das CISC-Design, das f¸r komplexere Aufgaben geeignet ist. Dadurch ist der Chip weniger gut geeignet, um ihn ¸ber verschiedene Anwendungen hinweg zu nutzen, aber daf¸r umso besser f¸r die Aufgaben, f¸r die er erschaffen wurde ñ wie k¸nstliche Intelligenz.

CPU, GPU, TPU ñ meine G¸te!

TPUs (Tensorprozessoren) leisten, was Google als Matrix-Verarbeitung bezeichnet. CPUs sind f¸r die skalare Verarbeitung konzipiert ñ also eine Operation pro Anweisung. GPUs sind auch als als Vektor-Prozessoren bekannt. Sie kˆnnen Operationen gleichzeitig ausf¸hren, woraus sich Hunderte oder sogar Tausende von Operationen in einem einzigen Taktzyklus ergeben. TPUs sind f¸r die Matrix Verarbeitung konzipiert, was Hunderttausende von Operationen pro Taktzyklus ermˆglicht (d.h. weitaus mehr Operationen pro Taktzyklus als GPUs).

Grafische Darstellung einer Matrix

Der romantische Prozessor

TPUs sind f¸r die Verwendung eines sogenannten systolischen Arrays konzipiert. Hierbei flieflen Daten in einer Welle durch das Array, so wie auch Blut durch das Herz flieflt. Daher wird auch gern der Begriff des Ñromantischen Prozessors" verwendet :). Dieser Ansatz erfordert erheblich weniger Speicher und Leistung. (Eine detaillierte Erkl‰rung finden Sie hier im Blog von Google).

Wenn Sie all diese Puzzlest¸cke zusammensetzen, erhalten Sie einen hochleistungsf‰higen, energieeffizienten Prozessor, der wie maflgeschneidert f¸r die k¸nstliche Intelligenz ist.

Google Video Intelligence

Auch das Thema Video wird dank YouTube bei Google grofl geschrieben. Die Google Video Intelligence ermˆglicht Ihnen, mit bestimmten Begriffen nach Videos zu suchen. Wenn Sie beispielsweise nach Videos mit Katzen suchen, suchen Sie ganz einfach nach Katzen. Daraufhin werden Ihnen Videos angezeigt, in deren Highlights Katzen vorkommen.

Die Google Video Intelligence wird von mehr als 20.000 Tags unterst¸tzt. So wird Google wahrscheinlich in der Lage sein, jegliche von Ihnen benˆtigte Klassifizierung zu bedienen. Google Video Intelligence bietet zudem empfohlene Inhalte und identifiziert nur f¸r Erwachsene bestimmte Inhalte.

Screenshot von Google Video Intelligence, auf dem zu sehen ist, wie Label automatisch durch den KI-Dienst von Google erkannt werden.

Neben der Erkennung, wo bestimmte Objekte in einem Video erscheinen, ist die coolste Funktion dieses Service seine F‰higkeit, Anzeigen zum richtigen Zeitpunkt auszuspielen, z.B. ausgelˆst durch in einem Video erscheinende Tags. Dar¸ber hinaus bietet der Service auch die Mˆglichkeit, Videos zu transkribieren.

Google Vision API

Google Vision API ist die Erg‰nzung zu Video Intelligence. Der Dienst macht Ihre Fotoanalyse intelligent ñ sogar hochintelligent:

    • Labelerkennung ñ identifiziert, was auf dem Foto zu sehen ist.

    • Gesichtserkennung ñ ermittelt anhand des Gesichtsausdrucks, ob eine Person traurig, w¸tend oder ¸berrascht ist.

    • Optische Zeichenerkennung (OCR) ñ erkennt nicht nur den Kontext eines Texts oder eines Bilds sondern auch die Sprache und den Ort, und das selbst bei handgeschriebenen Notizen.

    • Eindeutige Inhalte ñ selbsterkl‰rend.

    • Wahrzeichenerkennung ñ kennzeichnet nicht nur bekannte Natur- und Baudenkm‰ler in Fotos sondern gibt auch an, auf welchem L‰ngen- und Breitengrad sie sich befinden.

    • Logoerkennung ñ selbsterkl‰rend.

    • Zuschneideempfehlung ñ macht einen Vorschlag zum Zuschneiden des Bilds.

    • Webkommentare ñ durchsucht das Netz f¸r weiterf¸hrende Informationen zu Ihrem Bild. Die API gibt Kommentare aus dem gesamten Internet aus, um umfassendere Informationen zu dem Bild zu liefern. Im Hinblick auf urheberrechtliche Fragen hilft diese Funktion auch dabei herauszufinden, wo ein Bild ¸berall online verwendet wird.

    • Dokumenttextkommentare ñ wurde speziell f¸r Bilddateien mit Textinhalten entwickelt und kann genauere Kommentare liefern.

Sara Robinson, eine Sprecherin der Entwickler bei Google, erl‰utert einiges davon in diesem kurzen Video:

https://www.youtube.com/watch?v=mDAoLO4G4CQ

Cloud Translation API

Zu Beginn dieses Blog-Beitrags habe ich auf einige von Googles ganz eigene St‰rken verwiesen, darunter dessen ‹bersetzungsf‰higkeiten. Google bietet bereits seit Jahren ‹bersetzungsdienstleistungen ¸ber Google Translate an (Ich habe den Service w‰hrend einer Reise nach Europa im Jahr 2015 selbst selbst ausgiebig genutzt).

Im Laufe der Zeit wurden diese F‰higkeiten verfeinert. Google macht diese Technologie jetzt f¸r bescheidene Entwickler wie Sie und mich verf¸gbar. Nachfolgend ein kurzer ‹berblick ¸ber einige der bemerkenswerten Funktionen, die von der Google Cloud Translation API unterst¸tzt werden:

    • Dynamische ‹bersetzung ñ geben Sie einen Textabschnitt in einer der Sprachen ein, die unterst¸tzt wird, und Google ‹bersetzer liefert nahezu in Echtzeit eine ‹bersetzung.

    • Willkommen Welt: Mehr als 100 Sprachen werden unterst¸tzt! Google ‹bersetzer unterst¸tzt mehr als 100 verschiedene Sprachen. Eine satzweise ‹bersetzung ist bei allen Sprachen mˆglich. F¸r gewisse Sprachenpaare wird zudem neuronales maschinelles ‹bersetzen angeboten.

    • Spracherkennung ñ selbsterkl‰rend.

Wenn Sie mehr ¸ber den Unterschied zwischen phrasenbasierter und neuronaler maschineller ‹bersetzung erfahren mˆchten, sollten Sie sich den hervorragenden Blog-Beitrag von Systran (einem Spezialisten in der Sprach¸bersetzung per maschinellem Lernen) zum Thema anschauen, den Sie hier finden.

Cloud Natural Language

Mit diesem Dienst kˆnnen Sie zentrale Informationen aus einen Text extrahieren. Zudem kann es zur Stimmungserkennung genutzt werden sowie zum Filtern von Kernelementen eines Texts, so z.B. Menschen, Orte, Veranstaltungen etc. Dies ist nat¸rlich eine weitere St‰rke von Google, wenn man bedenkt, dass das Unternehmen die meistgenutzte Suchmaschine weltweit betreibt.

Cloud Speech API

Cloud Speech API ist ein Dienst, mit dem Sie Audiodatein in Texte umwandeln kˆnnen. Dies kann wohl dank des bekannten Kommandos ÑOK Google" als eine weitere nat¸rliche St‰rke von Google gesehen werden. ƒhnlich wie bei der Google Cloud Translation API werden bei diesem Dienst ¸ber 110 Sprachen und Sprachvarianten unterst¸tzt. Zu den wichtigsten Funktionen gehˆren:

    • Sprache in Bewegung und im Ruhezustand ñ die Google Cloud Speech API kann Teilergebnisse w‰hrend der Transkription ausgeben, sodass der Text angezeigt wird, w‰hrend Sie sprechen. Wenn Sie mehrere Transkriptionen b¸ndeln wollen, kˆnnen Sie ¸ber die Google Cloud Speech API auch Audiodateien hochladen und sie transkribieren lassen.

    • Laute Umgebung ñ die API unterst¸tzt die Spracheingabe selbst in verschiedensten lauten Umgebungen.

    • Kontextbasiert ñ die API erkennt ÑWorthinweise" bei jedem API-Aufruf, wodurch Entwickler Metadaten dar¸ber erhalten, woher der Aufruf kommt (z.B. von welcher App).

Unter folgendem Link finden Sie auch ein Video von Sara Robinson zur Google Cloud Speech API. Aber Achtung: Da geht es nur um Kommandozeilen, Codes und spezielle Entwickler-Infos. Also nichts f¸r schwache Nerven ;).

https://www.youtube.com/watch?v=z8g3XM16eRM

Dialogflow - Beta

Dialogflow ist Googles Chatbot-Plattform. Sie wurde urspr¸nglich von API.ai entwickelt, einem Start-up das Google 2016 ¸bernommen hat. Dialogflow unterst¸tzt sowohl Stimm- als auch Texteingabe auf verschiedenen Messaging-Plattformen (u.a. Facebook Messenger, Kik, Slack, Telegram, Viber und Skype).

Einer der grˆflten Vorteile bei Dialogflow ist meiner Meinung nach, dass vordefinierte Agenten zur Verf¸gung gestellt werden, die auf bestimmte Bereiche spezialisiert sind. Diese vordefinierten Agenten kˆnnen Sie als Vorlage f¸r Ihre individuellen Agenten nutzen, beispielsweise um die Elektronik in einem Auto zu steuern, W‰hrungen umzurechnen, Daten zu berechnen, nach Reisen zu suchen usw. So kˆnnen Entwickler noch schneller Chatbots einrichten ñ ganz ohne Programmierungsaufwand.

Cloud Job Discovery

Wenn Sie meinem letzten Artikel ¸ber die KI-Services von AWS gelesen haben, erinnern Sie sich vielleicht an die Auszeichnung, die ich einem der damit verbundenen Dienste verliehen habe: ÑAm n‰chsten an einer TV-Serie". Auch Google erh‰lt die zweifelhafte Ehre, eine meiner Auszeichnungen zu erhalten: den Preis f¸r den Ñspezifischsten KI-Service". Er ist eine interessante Anwendung ihrer Machine-Learning-Technologie und hat seine Wurzeln in einer Initiative mit dem Namen ÑGoogle for Jobs".

Die Initiative Google for Jobs ist, wie Google sagt: Ñein Google-weites Bekenntnis, Menschen die Suche nach einem Job einfacher zu machen." Es verwendet maschinelles Lernen, um besser zu verstehen, welche Arbeitspl‰tze verf¸gbar sind, und diese Arbeitspl‰tze dann den suchenden Benutzern zuzuordnen. So ist eine Stellenanzeige zum Beispiel unter dem Begriff ÑBus. Development" statt ÑBusiness Development" gelistet. Die Cloud Job Discovery API von Google ist intelligent genug, um zu wissen, dass der Benutzer tats‰chlich ÑBusiness Development" meinte.

Was dies bedeutet ist, dass sich Arbeitsuchende und Arbeitgeber nicht mehr den Kopf ¸ber die Verwendung der perfekt passenden Begriffe zerbrechen m¸ssen. Die Cloud Job Discovery API von Google hilft Recruiting-Plattformen, menschliche Fehler bei der Jobsuche zu kompensieren.

Wenn Sie interessiert sind, kˆnnen Sie es selbst ausprobieren ñ keine Programmierung erforderlich! ÷ffnen Sie daf¸r einfach eine Google-Suchmaschine und geben Sie Jobsuche (Job Search) ein. Die Ergebnisse werden umgehend vervollst‰ndigt und f¸r Ihre Region angepasst.

Fazit

Dies soll es vorerst zu den KI-Diensten von Google gewesen sein.Entschuldigen Sie meine Euphorie hinsichtlich der Google Cloud TPUs, aber Sie m¸ssen zugeben, dass sie schon ziemlich cool sind. Wenn Sie es noch nicht getan haben, empfehle ich Ihnen dringend, den ersten Blog-Beitrag dieser Serie ¸ber KI und ML zu lesen.In der kommenden Woche besch‰ftigen wir uns mit dem letzten Giganten im Bereich AI-as-a-Service ñ Microsoft Azure. Bleiben Sie gespannt.