Grundlagen Generative Sprachmodelle und ihr Einsatz

Jonas Stettner | CorrelAid @ CDL

2025-04-15

Gliederung

Grundlagen KI und LLMs
Einsatz in Informationszugangssystemen

Grundlagen KI und LLMs: Gliederung

Was ist KI?
Neuronale Netzwerke
Neuronale Sprachmodelle
“Große” Sprachmodelle
LLM Sprachverständnis

KI Begriff: Intelligenz Ⅰ 🤖

“[I]ntelligent” according to what definition? The three-stratum definition? Howard Gardner’s theory of multiple intelligences? […] [A]n alternative name for AI proposed by a former member of the Italian Parliament: “Systematic Approaches to Learning Algorithms and Machine Inferences.” Then people would be out here asking, “Is this SALAMI intelligent? Can this SALAMI write a novel? Does this SALAMI deserve human rights? (Weil, 2023)

“Intelligent” als Wertung

KI Begriff: Intelligenz Ⅱ

Intelligence is the computational part of the ability to achieve goals in the world. […] Intelligence involves mechanisms, and AI research has discovered how to make computers carry out some of them and not others. Such programs should be considered “somewhat intelligent”. (McCarthy, 2012)

Intelligenz als auf ein Ziel gerichtete Fähigkeit, die unterschiedliche Komponenten umfasst (z.B. Logik, Kreativität, Erkennen von Objekten)

KI Begriff: Definiton

Systeme der Künstlichen Intelligenz sind in der Lage, Daten und Informationen auf eine Weise zu verarbeiten, die menschlichen Denkprozessen ähnelt oder diese nachzuahmen scheint. Dies beinhaltet Aspekte des Denkens und Lernens, der Wahrnehmung, Vorhersage, Planung oder Steuerung (Deutsche UNESCO-Kommission et al., 2023, S. 8)

Ähnlichkeit bei Zielen und Herstellung und Funktionsweise von Intelligenz

KI Tasks

KI-Methoden werden für Tasks entwickelt und mit für diese gemachten Daten und Metriken evaluiert und verglichen
Beispiele Tasks: Klassifikation, Textzusammenfassung, Nutzung von Tools

Einordnung

Neuronale Netzwerke Ⅰ

Modell biologischer Neuronen (basierend auf dem, was damals über Neuronen bekannt war)(McCulloch & Pitts, 1943)

Illustration eines neuronalen Netzwerks aus Hilary Masons Keynote, https://www.youtube.com/watch?v=SxxqaC5hf04&t=2394s

Neuronale Netzwerke Ⅱ

Neuronen sind Recheneinheiten, die in Schichten auf verschiedene Arten miteinander verbunden sind

Glosser.ca, CC BY-SA 3.0 https://creativecommons.org/licenses/by-sa/3.0, via Wikimedia Commons

Deep Learning: Mehr als ein Hidden Layer
Rechnungen innerhalb des Netzwerks lassen sich effizient auf Grafikkarten ausführen

Neuronale Netzwerke Ⅲ

Lernen beim Training durch Backpropagation:
- “Forward Pass” resultiert in Output, der mit “Ground Truth” verglichen wird
- “Backward Pass” mit Korrektur der Parameter (Weights und Biases) basierend auf dem Fehlerwert
Neuronale Netzwerke erzielen beste Performance bei vielen Tasks, bzw. erst Ermöglichung mancher Tasks

Sprachmodelle: Definition

Sprachmodell: Ein Modell, dass die Wahrscheinlichkeiten der möglichen nächsten Wörter ausgibt (Jurafsky & Martin, 2025)
ELIZA (1967) als Beispiel für einen Chatbot mit symbolischer KI (kein Sprachmodell)

Neuronale Sprachmodelle: Training

Quelle: Holistic AI, https://www.holisticai.com/blog/from-transformer-architecture-to-prompt-engineering

Vorhersage der Wahrscheinlichkeit eines Tokens in Abhängigkeit von seinem vorangehenden oder umgebenden Kontext
Transformer Netzwerkarchitektur: Tokens innerhalb des Inputs kontextualisieren (Multi-Head Attention)

“Große” Sprachmodelle (LLMs) Ⅰ

BERT -> Bidirectional encoder representations from transformers (340 Millionen Parameter)
- Finetuning: Anpassung des Modells und Parameter auf Task
GPT-4 -> Generative Pre-trained Transformer (geschätzt, nicht offiziell bestätigt 1.8 Billionen Parameter)
- In-Context Learning (ICL) und (Few Shot) Prompting -> Keine Veränderung der Parameter

“Große” Sprachmodelle (LLMs) Ⅱ

Offene (nicht Open Source) vs Proprietäre Modelle
Hugging Face 🤗 als zentraler Ort für offene Modelle

“Große” Sprachmodelle (LLMs) Ⅲ

LLama 4 “Behemoth” (2 Billionen Parameter) zeigt nicht erwartete Performance (Edwards, 2025)
AI-Scaling-Gesetze: Bessere Modelle profitieren von mehr Daten und Rechenleistung (GPU), jedoch mit abnehmendem Grenznutzen. (Owen, 2024)
Entstehender Konsens, dass Performance durch andere Methoden erhöht werden muss (z.B. “Reasoning”) (Zeff, 2024)

LLM Sprachverständnis Ⅰ

LLMs bestehen Turing Test (Assaad, 2025)
Chinese Room: Befolgung syntaktischer Regeln ohne semantisches Verständnis (Form vs. Bedeutung)

Quelle: Keno Leon, https://k3no.medium.com/the-chinese-room-experiment-2c0d63848f05

LLM Sprachverständnis Ⅱ

Bedeutung entsteht durch Syntax und einer Referenz zu etwas außerhalb der Sprache (Bender & Koller, 2020)
- LLMs “verstehen” Bedeutung nicht, Output an sich hat keine Bedeutung (Stochastic Parrots 🦜)
- Wir interpretieren Output von LLMs nur so, als ob sie Bedeutung vermitteln (Bender et al., 2021)

Models make words, but people make meaning. (Klein et al., 2025)

LLM Sprachverständnis Ⅲ

Wiedersprechende Theorie: Bedeutung ergibt sich aus der Art und Weise, wie sich Sprache aufeinander bezieht -> LLMs verstehen Bedeutung (Manning, 2022; Mitchell & Krakauer, 2023)
Wie passen multimodale Modelle in diese Debatte?
Alignment-Phase als soziales Lernen?

Fragen zu den KI-Grundlagen?

Einsatz von LLMs in Informationszugangssystemen

Definition Informationszuganssysteme
Informationszugangssystem mit RAG
Semantische Suche mit Embeddings
Quellenangabe in RAG
Tools

Informationszugangssysteme

[Information Access] refers to a focused interaction between a person and information where relevant information is sought, found, and used—with or without a system. (Shah & Bender, 2024)

Umfasst Informationsbeschaffung und Informationsfilterung
Beispiele: Bibliothek, Google, ChatGPT

Informationszugangssystem mit RAG

Turtlecrown, CC BY-SA 4.0 https://creativecommons.org/licenses/by-sa/4.0, via Wikimedia Commons

Semantische Suche mit Embeddings

Embedding = Repräsentation von Sprache z.B. Wörtern in Vektorraum
- Embedding-Modelle sind LLMs, die z.B. für Suche gefinetuned werden (Günther et al., 2023)
- Text-Embedding: Durchschnitt der Token Embeddings im vorherigen Layer resultiert in einem Vektor
Semantische Suche geschieht über Distanz zwischen Vektoren

RAG: Quellenangabe

Quellenangabe ist regulärer Teil des Outputs des LLMs
LLM bekommt neben des Ergebnissen des Suchschritts auch Meta-Informationen, wie z.B. Seitenzahlen
Ausgabe wird formatiert, sodass Quellenangaben z.B. als hochgestellte Zahl erscheinen

LLMs als Agenten

Sypherd & Belle (2024), Figure 2

Tools

Beispiel für das Abrufen von Tools:

{'name': 'add',
'args': {'a': 11, 'b': 49},
'id': 'call_VKw8t5tpAuzvbHgdAXe9mjUx'},
[{'name': 'websearch',
'args': {'query': 'bürgermeisterin von wesel', 'region': 'germany'},
'id': 'call_UL7E2232GfDHIQGOM4gJfEDD'},]

Statischer Code prüft LLM-Output auf solche Outputs und führt Tool-Code aus

“Agentic” Chatbots

Websuche als Tool für LLM-basierte Chatbots wie ChatGPT
Chatbots als modulare Systeme (Beispiel Migrationsberatung mit Lupai)
- Spezialisierte Modelle als Module
- Festgelegte Logik vs. Steuerung durch LLM
- Language Detection als fester erster Schritt vs. Entscheidung ob Rückfrage gestellt wird

Fragen zu dem Einsatz von KI in Informationszugangssystemen?

Literaturverzeichnis

Assaad, Z. (2025). ChatGPT just passed the Turing test. But that doesn’t mean AI is now as smart as humans. Conversation. https://theconversation.com/chatgpt-just-passed-the-turing-test-but-that-doesnt-mean-ai-is-now-as-smart-as-humans-253946

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜. Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–623. https://doi.org/10.1145/3442188.3445922

Bender, E. M., & Koller, A. (2020). Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. In D. Jurafsky, J. Chai, N. Schluter, & J. Tetreault (Eds.), Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 5185–5198). Association for Computational Linguistics. https://doi.org/10.18653/v1/2020.acl-main.463

Deutsche UNESCO-Kommission, Niederländische UNESCO-Nationalkommission, & Slowenische UNESCO-Nationalkommission. (2023). Zusammenfassung der UNESCO-Empfehlung zur Ethik der Künstlichen Intelligenz: Wegweiser für die Gestaltung unserer Zukunft (M. M. Anne Diessner Jeannine Hausmann, Ed.; A. Diessner, Trans.). Deutsche UNESCO-Kommission e. V. https://www.unesco.de/dokumente-und-hintergruende/publikationen/detail/die-unesco-empfehlung-zur-ethik-der-kuenstlichen-intelligenz/

Edwards, B. (2025). Meta’s surprise Llama 4 drop exposes the gap between AI ambition and reality. Ars Technica. https://arstechnica.com/ai/2025/04/metas-surprise-llama-4-drop-exposes-the-gap-between-ai-ambition-and-reality/

Günther, M., Ong, J., Mohr, I., Abdessalem, A., Abel, T., Akram, M. K., Guzman, S., Mastrapas, G., Sturua, S., Wang, B., Werk, M., Wang, N., & Xiao, H. (2023). Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents. arXiv. https://doi.org/10.48550/ARXIV.2310.19923

Jurafsky, D., & Martin, J. H. (2025). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models (3rd ed.). https://web.stanford.edu/~jurafsky/slp3/

Klein, L., Martin, M., Brock, A., Antoniak, M., Walsh, M., Johnson, J. M., Tilton, L., & Mimno, D. (2025). Provocations from the Humanities for Generative AI Research. https://arxiv.org/abs/2502.19190

Manning, C. D. (2022). Human Language Understanding & Reasoning. Dædalus, 151(2), 127–138. https://nlp.stanford.edu/~manning/papers/Daedalus_Sp22_09_Manning.pdf

McCarthy, J. (2012). What is AI? / Basic Questions. http://jmc.stanford.edu/artificial-intelligence/what-is-ai/index.html

McCulloch, W. S., & Pitts, W. (1943). A Logical Calculus of the Ideas Immanent in Nervous Activity. The Bulletin of Mathematical Biophysics, 5(4), 115–133. https://doi.org/10.1007/BF02478259

Mitchell, M., & Krakauer, D. C. (2023). The debate over understanding in AI’s large language models. Proc. Natl. Acad. Sci. U.S.A., 120(13), e2215907120. https://doi.org/10.1073/pnas.2215907120

Owen, D. (2024). How predictable is language model benchmark performance? https://arxiv.org/abs/2401.04757

Shah, C., & Bender, E. M. (2024). Envisioning Information Access Systems: What Makes for Good Tools and a Healthy Web? ACM Trans. Web, 18(3), 1–24. https://doi.org/10.1145/3649468

Sypherd, C., & Belle, V. (2024). Practical Considerations for Agentic LLM Systems. arXiv. https://doi.org/10.48550/arXiv.2412.04093

Weil, E. (2023). ChatGPT Is Nothing Like a Human, Says Linguist Emily Bender. New York Magazine: Intelligencer. https://nymag.com/intelligencer/article/ai-artificial-intelligence-chatbots-emily-m-bender.html

Zeff, M. (2024). Current AI scaling laws are showing diminishing returns, forcing AI labs to change course. TechCrunch. https://techcrunch.com/2024/11/20/ai-scaling-laws-are-showing-diminishing-returns-forcing-ai-labs-to-change-course