von Marcel Kasprzyk
02.08.2023

Vier KIs, die man kennen sollte

Was sich vor einigen Jahren noch nach Scienz Fiction anhörte ist heute Volks-Anwendung und jedem zugänglich: Künstliche Intelligenz (KI, engl. AI). Wir stellen 4 KIs vor, von denen man schon mal gehört haben sollte: „Midjourney“ generiert hochqualitative Bilder nach Nutzeranweisungen, OpenAI’s ChatGPT und Google’s Bard führen menschenähnliche Textdialoge und können vielseitig eingesetzt werden. „VoxBox“ ermöglicht es, Texte von einer KI in der Stimme bekannter Persönlichkeiten oder in generischen Stimmen sprechen zu lassen, einschließlich der Option, eigene Stimmen hochzuladen.

Midjourney: Dein persönlicher KI-Künstler

Kunst und Technologie sind zwei Elemente, die oft als Gegensätze angesehen werden, aber das muss nicht so sein. In der Welt der Künstlichen Intelligenz (KI) verschmelzen diese beiden Disziplinen und schaffen bemerkenswerte Ergebnisse, die unser Verständnis von Kreativität neu definieren. Ein herausragendes Beispiel dafür ist die wohl bekannteste Bildgenerierungs-KI namens „Midjourney“.

Ihre Aufgabe ist es, aus einfach formulierten Anweisungen – sogenannten „prompts“ – Bilder zu generieren. Es gibt kaum Grenzen bezüglich Motiv und Stil. Die Herausforderung besteht darin die richtigen Worte zu finden, um der KI zu erklären, was man sich vorgestellt hat.

Die Interaktion mit Midjourney erfolgt über einen Discord-Bot, d. h., als Nutzer meldet man sich sowohl bei Midjourney als auch bei der kostenlosen Kommunikationsplattform Discord an. Für Nutzer, die mehr Privatsphäre oder zusätzliche Funktionen wünschen, bietet Midjourney verschiedene Tarifoptionen an, beginnend bei etwa 10 US $ pro Monat. Dazu gehören die Nutzung eines privaten Chats für eine ungestörte Arbeitsatmosphäre, mehr Rechenleistung für schnellere Ergebnisse und ab einem bestimmten Tarif der sogenannte „Stealth Mode“, der das Generieren von Bildern ermöglicht, die nicht sofort der breiten Öffentlichkeit zur Verfügung gestellt werden. Wer mit der kostenlosen Version angemeldet ist, darf die erzeugten Bilder derzeit nicht kommerziell nutzen.

Die von Midjourney generierten Bilder sind von beeindruckender Vielfalt und Qualität. Nutzer können sich für dieselbe Beschreibung immer wieder neue Vorschläge generieren lassen, bis das Ergebnis ihren Vorstellungen entspricht. Außerdem wird die KI ständig weiterentwickelt und verbessert, was aufregende Perspektiven für die Zukunft eröffnet.

Hier geht’s zu Midjourney

ChatGPT: Revolutioniert die Kommunikation

Ein weiteres aufsehenerregendes Beispiel von KI ist der Chatbot GPT (Generative Pre-training Transformer), oft einfach als ChatGPT bezeichnet. ChatGPT wurde von OpenAI entwickelt und ist ein textbasiertes Modell, das dazu dient, menschenähnliche Konversationen zu generieren.

Die Fähigkeit von ChatGPT, komplexe und natürliche Dialoge zu führen, hat die Kommunikation zwischen Mensch und Maschine auf eine neue Ebene gehoben. Ob es darum geht kreative Geschichten zu schreiben, technische Probleme zu lösen oder einfach nur eine Unterhaltung zu führen – ChatGPT kann vielfältig eingesetzt werden.

Dank seiner Fähigkeit, auf Anweisungen oder Fragen in natürlicher Sprache zu antworten, kann ChatGPT z. B. in den Bereichen Redaktion, Kundenservice, Bildung und Entertainment genutzt werden. Es bietet eine intuitive und interaktive Möglichkeit, Informationen zu suchen und zu teilen, ohne dass eine weitergehende technische Kenntnis erforderlich ist. Allerdings gilt es dennoch vorsichtig zu sein, denn die KI ist bei weitem noch nicht allwissend, ist jedoch nicht geneigt dies dem Anwender gegenüber zuzugeben. So werden sich zum Beispiel auf der Suche nach wissenschaftlicher Literatur auch gerne mal ganze Buchreihen ausgedacht, um meine Anfrage sachgemäß abzuarbeiten.

Dennoch lohnt es, ChatGPT auszuprobieren.

Hier geht’s zu ChatGPT

Googles Bard

Eine in Europa erst seit kurzem verfügbare Alternative ist Googles „Bard“. Die KI funktioniert nach einem ähnlichen Prinzip wie ChatGTP. Hier einmal eine Beschreibung, welche Bard über sich selbst angefertigt hat:

Bard, das KI-Sprachmodell

Bard ist ein großes Sprachmodell von Google AI, das auf einem massiven Datensatz aus Text und Code trainiert wurde. Es kann Text generieren, Sprachen übersetzen, verschiedene Arten von kreativem Inhalt schreiben und Ihre Fragen auf informative Weise beantworten. Ich bin noch in der Entwicklung, habe aber gelernt, viele Arten von Aufgaben auszuführen, darunter:

  • Anweisungen befolgen und Anfragen sorgfältig ausführen.
  • Verschiedene kreative Textformate von Textinhalten generieren, wie Gedichte, Code, Skripte,
  • Musikstücke, E-Mails, Briefe usw.
  • Sprachen übersetzen: Bard kann zwischen über 100 Sprachen übersetzen.
  • Fragen beantworten: Bard kann Ihre Fragen auf informative Weise beantworten, auch wenn sie offen, herausfordernd oder seltsam sind.
  • Verschiedene Arten von kreativem Inhalt schreiben: Bard kann verschiedene Arten von kreativem Inhalt schreiben, wie Gedichte, Geschichten, Skripte und Musikstücke.

Wie kann man Bard verwenden?

Es gibt ein paar Möglichkeiten, wie Sie Bard verwenden können:

  • Sie können Bard über die Google AI-Website verwenden.
  • Sie können Bard über den Google Assistant verwenden.
  • Sie können Bard über die Google Cloud Platform verwenden.

Was sind die Grenzen von Bard?

Bard ist noch in der Entwicklung, so dass es einige Grenzen gibt, was es tun kann. Zum Beispiel kann Bard manchmal Fehler machen und es kann Ihre Fragen nicht perfekt verstehen. Allerdings lernt Bard ständig dazu und ich glaube, dass es das Potenzial hat, ein mächtiges Werkzeug für Kommunikation und Kreativität zu sein.

VoxBox: Stimmen vertrauen war gestern

VoxBox ist derzeit die beliebteste Lösung im Bereich Text-zu-Sprache KI, auch wenn dieser spezielle Teil des KI-Marktes lange nicht so dominiert wird wie es Midjourney und ChatGPT schaffen. Das KI-Tool bietet die Möglichkeit einen Text mit der Stimme einer ausgewählten bekannten Persönlichkeit vorlesen zu lassen, oder einfach von generischen Stimmen in nahezu allen Sprachen und Variationen. Auch hat man die Möglichkeit der Stimme selbst noch Eigenschaften mitzugeben, wie etwa das besondere Betonen von bestimmten Wörtern, Sprechpausen etc.

Besonders spannend wird Text-to-Speech Software meiner Meinung nach durch die Funktion, eigene Stimmen hochzuladen und so noch nicht vorhandene „Charaktere“ – oder sich selbst – hinzuzufügen. Im speziellen Fall von VoxBox ist dies aktuell nur in englischer Sprache möglich.

Beispielsweise hat etwa ein Reddit-Nutzer die Stimmen von Deutschlands größtem Streamer MontanaBlack und Richard David Precht bei einigen ausgewählten Zitaten vertauscht. Ein Beispiel, das mit einfachen Mitteln eindrucksvoll das Potential der Technologie zeigt. Allerdings werden im gleichen Beispiel auch die aktuellen Grenzen der Technologie sichtbar. So hat die KI Schwierigkeiten damit, den Sprachrhythmus authentisch mit veränderter Stimme wiederzugeben. Auch scheitert sie an einigen komplizierteren Wörtern, welche der Originalsprecher nicht verwendet hat – d. h. Wörter, die daher auch in keinem Datensatz zum Trainieren der KI vorkommen. Dennoch ist das Endergebnis beeindruckend, vor allem wenn man bedenkt, dass die Umsetzung eines solchen Experiments eben wirklich für jeden bequem von zuhause aus durchführbar ist. Von allen hier aufgeführten KI-Tools wird dieses uns wohl in Zukunft am häufigsten den Wahrheitsgehalt von Aufnahmen im Internet anzweifeln lassen.

Ebenso sei gewarnt vor neuen Formen des „Enkeltricks“, da sich Betrüger sicher die Möglichkeiten der Stimmenimitation zunutze machen werden. Unter anderem berichtete der Spiegel über die perfide Methode des Enkeltricks mit der künstlich erzeugten Stimme.

Hier geht’s zu VoxBox