Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick (2024)

Zahlreiche Metriken und Benchmarks wollen dabei helfen, das "beste" LLM auszuwählen. Ganz so einfach ist es aber nicht.

Artikel verschenken

In Pocket speichern vorlesen Druckansicht

Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick (1)

Lesezeit: 18Min.

iX Magazin
Inhaltsverzeichnis

Zwar verfügen große Sprachmodelle (Large Language Models, LLMs) über nützliche Fähigkeiten, das Einbinden in die alltägliche Arbeit gestaltet sich jedoch schwierig: Oft fehlen verlässliche Informationen zur Qualität der Modelle und der für das Training verwendeten Daten, es gibt eine stetig wachsende Zahl von Benchmarks und Metriken zur Beurteilung der Modelle und schließlich entstehen weltweit umfangreiche gesetzliche Regelwerke für den Einsatz von KI, die verstanden und eingehalten werden müssen. Für Anwender wird es deshalb immer wichtiger, generative KI-Modelle sinnvoll zu bewerten.

Große Foundation-Modelle, zu denen die LLMs gehören, können zwar immer öfter auch mit multimodalen Daten wie Text, Bild oder Audio umgehen. Dieser Artikel konzentriert sich jedoch auf aktuelle Bewertungsmethoden für große generative Sprachmodelle, also Metriken und Benchmarks für die Verarbeitung von Sprachdaten (Natural Language Processing).

Mehr zum Thema Künstliche Intelligenz (KI)
  • Warum sich Datenschutzbehörden mit ChatGPT und Co. schwertun
  • Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick
  • Marktübersicht: KI-Server mit GPUs im Überblick
  • Künstliche Intelligenz: teuer, US-amerikanisch, Big-Tech-dominiert
  • PyTorch: Eigene Bildgenerierungs-KI mit Python bauen
  • Website per KI hacken: Browser-Skripte mit ChatGPT und Co. generieren
  • Trend-Beruf: Mit diesen Fähigkeiten wird man KI-Experte
  • Transkriptionsdienste: Whisper V3 im Vergleich mit Online-Diensten
  • Projekt noFake trainiert Datenmodelle für Faktenchecks
  • Lokale KI verschlagwortet Fotosammlung auf NAS
  • Multi-Agenten-Systeme: Automatisierte Leistungsanpassung für bessere KI
  • Fremdsprachen lernen: Wie man ChatGPT zum Sprechtrainer aufrüstet
Andreas Christian
Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick (2)

Andreas Christian ist Senior Information Architecture und Technical Sales Specialist bei IBM DACH.

Kush R. Varshney
Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick (3)

Kush R. Varshney ist IBM Fellow für AI Governance bei IBM Research.

Trotz des weitreichenden Einsatzes großer Sprachmodelle fehlt es derzeit an einem klaren Verständnis dafür, wie sie funktionieren, wozu sie grundsätzlich fähig sind und wann sie versagen könnten. Weiterhin decken die aktuell verfügbaren Bewertungsansätze für LLMs nicht alle Risikobereiche ab. Es gibt also viele gute Gründe, sich vor dem Einsatz von LLMs mit deren Risiken vertraut zu machen.

Das war die Leseprobe unseres heise-Plus-Artikels "Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Gefährdete Router: Verkehr mit dubiosen Internetdomains verhindernUnbekannte haben einen dubiosen Server unter dem Domainnamen fritz.box betrieben. Wir zeigen, wie man unerwünschten Verkehr mit zweifelhaften Servern vermeidet.
Bürotaugliche Tinten-Multifunktionsdrucker bis DIN A3 im TestDrucken, Kopieren, Scannen und Faxen im DIN-A3-Format ist kostenintensiv. Ein guter A3-MuFu kostet 500 Euro und mehr, bei günstigeren sind Abstriche nötig.
Insta360 X4 im Test: 360-Grad-Video in 8K-AuflösungDie Actionkamera Insta360 X4 filmt Rundumvideos in hoher Auflösung, fängt Erschütterungen ab und retuschiert Selfiestick oder Halterung. Wir haben sie getestet.
Bastel-Projekt: Volumio mit Drehgebern erweiternDie Musik-Distribution Volumio lässt sich leicht über diverse Schnittstellen bedienen. Wir zeigen, wie man dafür KY-040-Drehgeber in das System einbindet.
WLAN mit individuellen Schlüsseln sichernIn kleinen Netzen teilen sich alle dasselbe WLAN-Passwort, was Lauschangriffe erleichtert. Mit OpenWrt kann man jedem Gerät einen eigenen Schlüssel geben.
Volvo EX30 im Test: Elektroauto mit überreichlich PowerDer Volvo EX30 ist gelungen. Der Komfort ist hoch, und auch das Google-Infotainment arbeitet ausgezeichnet. Nachbessern muss Volvo die Software.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Gefährdete Router: Verkehr mit dubiosen Internetdomains verhindernUnbekannte haben einen dubiosen Server unter dem Domainnamen fritz.box betrieben. Wir zeigen, wie man unerwünschten Verkehr mit zweifelhaften Servern vermeidet.
Bürotaugliche Tinten-Multifunktionsdrucker bis DIN A3 im TestDrucken, Kopieren, Scannen und Faxen im DIN-A3-Format ist kostenintensiv. Ein guter A3-MuFu kostet 500 Euro und mehr, bei günstigeren sind Abstriche nötig.
Insta360 X4 im Test: 360-Grad-Video in 8K-AuflösungDie Actionkamera Insta360 X4 filmt Rundumvideos in hoher Auflösung, fängt Erschütterungen ab und retuschiert Selfiestick oder Halterung. Wir haben sie getestet.
Bastel-Projekt: Volumio mit Drehgebern erweiternDie Musik-Distribution Volumio lässt sich leicht über diverse Schnittstellen bedienen. Wir zeigen, wie man dafür KY-040-Drehgeber in das System einbindet.
WLAN mit individuellen Schlüsseln sichernIn kleinen Netzen teilen sich alle dasselbe WLAN-Passwort, was Lauschangriffe erleichtert. Mit OpenWrt kann man jedem Gerät einen eigenen Schlüssel geben.
Volvo EX30 im Test: Elektroauto mit überreichlich PowerDer Volvo EX30 ist gelungen. Der Komfort ist hoch, und auch das Google-Infotainment arbeitet ausgezeichnet. Nachbessern muss Volvo die Software.
Künstliche Intelligenz: Benchmarks für generative Sprachmodelle im Überblick (2024)
Top Articles
Latest Posts
Article information

Author: Cheryll Lueilwitz

Last Updated:

Views: 5925

Rating: 4.3 / 5 (54 voted)

Reviews: 93% of readers found this page helpful

Author information

Name: Cheryll Lueilwitz

Birthday: 1997-12-23

Address: 4653 O'Kon Hill, Lake Juanstad, AR 65469

Phone: +494124489301

Job: Marketing Representative

Hobby: Reading, Ice skating, Foraging, BASE jumping, Hiking, Skateboarding, Kayaking

Introduction: My name is Cheryll Lueilwitz, I am a sparkling, clean, super, lucky, joyous, outstanding, lucky person who loves writing and wants to share my knowledge and understanding with you.