Grundlagen Generative Sprachmodelle und ihr Einsatz

Jonas Stettner | CorrelAid @ CDL

2025-04-15

Gliederung

  1. Grundlagen KI und LLMs
  2. Einsatz in Informationszugangssystemen

Grundlagen KI und LLMs: Gliederung

  1. Was ist KI?
  2. Neuronale Netzwerke
  3. Neuronale Sprachmodelle
  4. “Große” Sprachmodelle
  5. LLM Sprachverständnis

KI Begriff: Intelligenz Ⅰ 🤖

“[I]ntelligent” according to what definition? The three-stratum definition? Howard Gardner’s theory of multiple intelligences? […] [A]n alternative name for AI proposed by a former member of the Italian Parliament: “Systematic Approaches to Learning Algorithms and Machine Inferences.” Then people would be out here asking, “Is this SALAMI intelligent? Can this SALAMI write a novel? Does this SALAMI deserve human rights? (Weil, 2023)

  • “Intelligent” als Wertung

KI Begriff: Intelligenz Ⅱ

Intelligence is the computational part of the ability to achieve goals in the world. […] Intelligence involves mechanisms, and AI research has discovered how to make computers carry out some of them and not others. Such programs should be considered “somewhat intelligent”. (McCarthy, 2012)

  • Intelligenz als auf ein Ziel gerichtete Fähigkeit, die unterschiedliche Komponenten umfasst (z.B. Logik, Kreativität, Erkennen von Objekten)

KI Begriff: Definiton

Systeme der Künstlichen Intelligenz sind in der Lage, Daten und Informationen auf eine Weise zu verarbeiten, die menschlichen Denkprozessen ähnelt oder diese nachzuahmen scheint. Dies beinhaltet Aspekte des Denkens und Lernens, der Wahrnehmung, Vorhersage, Planung oder Steuerung (Deutsche UNESCO-Kommission et al., 2023, S. 8)

  • Ähnlichkeit bei Zielen und Herstellung und Funktionsweise von Intelligenz

KI Tasks

  • KI-Methoden werden für Tasks entwickelt und mit für diese gemachten Daten und Metriken evaluiert und verglichen
  • Beispiele Tasks: Klassifikation, Textzusammenfassung, Nutzung von Tools

Einordnung

Neuronale Netzwerke Ⅰ

Illustration eines neuronalen Netzwerks aus Hilary Masons Keynote, https://www.youtube.com/watch?v=SxxqaC5hf04&t=2394s

Neuronale Netzwerke Ⅱ

  • Neuronen sind Recheneinheiten, die in Schichten auf verschiedene Arten miteinander verbunden sind

Glosser.ca, CC BY-SA 3.0 https://creativecommons.org/licenses/by-sa/3.0, via Wikimedia Commons

  • Deep Learning: Mehr als ein Hidden Layer
  • Rechnungen innerhalb des Netzwerks lassen sich effizient auf Grafikkarten ausführen

Neuronale Netzwerke Ⅲ

  • Lernen beim Training durch Backpropagation:
    • “Forward Pass” resultiert in Output, der mit “Ground Truth” verglichen wird
    • “Backward Pass” mit Korrektur der Parameter (Weights und Biases) basierend auf dem Fehlerwert
  • Neuronale Netzwerke erzielen beste Performance bei vielen Tasks, bzw. erst Ermöglichung mancher Tasks

Sprachmodelle: Definition

  • Sprachmodell: Ein Modell, dass die Wahrscheinlichkeiten der möglichen nächsten Wörter ausgibt (Jurafsky & Martin, 2025)
  • ELIZA (1967) als Beispiel für einen Chatbot mit symbolischer KI (kein Sprachmodell)

Neuronale Sprachmodelle: Training

Quelle: Holistic AI, https://www.holisticai.com/blog/from-transformer-architecture-to-prompt-engineering

  • Vorhersage der Wahrscheinlichkeit eines Tokens in Abhängigkeit von seinem vorangehenden oder umgebenden Kontext
  • Transformer Netzwerkarchitektur: Tokens innerhalb des Inputs kontextualisieren (Multi-Head Attention)

“Große” Sprachmodelle (LLMs) Ⅰ

  • BERT -> Bidirectional encoder representations from transformers (340 Millionen Parameter)
    • Finetuning: Anpassung des Modells und Parameter auf Task
  • GPT-4 -> Generative Pre-trained Transformer (geschätzt, nicht offiziell bestätigt 1.8 Billionen Parameter)
    • In-Context Learning (ICL) und (Few Shot) Prompting -> Keine Veränderung der Parameter

“Große” Sprachmodelle (LLMs) Ⅱ

  • Offene (nicht Open Source) vs Proprietäre Modelle
  • Hugging Face 🤗 als zentraler Ort für offene Modelle

“Große” Sprachmodelle (LLMs) Ⅲ

  • LLama 4 “Behemoth” (2 Billionen Parameter) zeigt nicht erwartete Performance (Edwards, 2025)
  • AI-Scaling-Gesetze: Bessere Modelle profitieren von mehr Daten und Rechenleistung (GPU), jedoch mit abnehmendem Grenznutzen. (Owen, 2024)
  • Entstehender Konsens, dass Performance durch andere Methoden erhöht werden muss (z.B. “Reasoning”) (Zeff, 2024)

LLM Sprachverständnis Ⅰ

  • LLMs bestehen Turing Test (Assaad, 2025)
  • Chinese Room: Befolgung syntaktischer Regeln ohne semantisches Verständnis (Form vs. Bedeutung)

Quelle: Keno Leon, https://k3no.medium.com/the-chinese-room-experiment-2c0d63848f05

LLM Sprachverständnis Ⅱ

  • Bedeutung entsteht durch Syntax und einer Referenz zu etwas außerhalb der Sprache (Bender & Koller, 2020)
    • LLMs “verstehen” Bedeutung nicht, Output an sich hat keine Bedeutung (Stochastic Parrots 🦜)
    • Wir interpretieren Output von LLMs nur so, als ob sie Bedeutung vermitteln (Bender et al., 2021)

Models make words, but people make meaning. (Klein et al., 2025)

LLM Sprachverständnis Ⅲ

  • Wiedersprechende Theorie: Bedeutung ergibt sich aus der Art und Weise, wie sich Sprache aufeinander bezieht -> LLMs verstehen Bedeutung (Manning, 2022; Mitchell & Krakauer, 2023)
  • Wie passen multimodale Modelle in diese Debatte?
  • Alignment-Phase als soziales Lernen?

Fragen zu den KI-Grundlagen?

Einsatz von LLMs in Informationszugangssystemen

  1. Definition Informationszuganssysteme
  2. Informationszugangssystem mit RAG
  3. Semantische Suche mit Embeddings
  4. Quellenangabe in RAG
  5. Tools

Informationszugangssysteme

[Information Access] refers to a focused interaction between a person and information where relevant information is sought, found, and used—with or without a system. (Shah & Bender, 2024)

  • Umfasst Informationsbeschaffung und Informationsfilterung
  • Beispiele: Bibliothek, Google, ChatGPT

Informationszugangssystem mit RAG

Turtlecrown, CC BY-SA 4.0 https://creativecommons.org/licenses/by-sa/4.0, via Wikimedia Commons

Semantische Suche mit Embeddings

  • Embedding = Repräsentation von Sprache z.B. Wörtern in Vektorraum
    • Embedding-Modelle sind LLMs, die z.B. für Suche gefinetuned werden (Günther et al., 2023)
    • Text-Embedding: Durchschnitt der Token Embeddings im vorherigen Layer resultiert in einem Vektor
  • Semantische Suche geschieht über Distanz zwischen Vektoren

RAG: Quellenangabe

  • Quellenangabe ist regulärer Teil des Outputs des LLMs
  • LLM bekommt neben des Ergebnissen des Suchschritts auch Meta-Informationen, wie z.B. Seitenzahlen
  • Ausgabe wird formatiert, sodass Quellenangaben z.B. als hochgestellte Zahl erscheinen

LLMs als Agenten

Sypherd & Belle (2024), Figure 2

Tools

  • Beispiel für das Abrufen von Tools:

    {'name': 'add',
    'args': {'a': 11, 'b': 49},
    'id': 'call_VKw8t5tpAuzvbHgdAXe9mjUx'},
    [{'name': 'websearch',
    'args': {'query': 'bürgermeisterin von wesel', 'region': 'germany'},
    'id': 'call_UL7E2232GfDHIQGOM4gJfEDD'},]
  • Statischer Code prüft LLM-Output auf solche Outputs und führt Tool-Code aus

“Agentic” Chatbots

  • Websuche als Tool für LLM-basierte Chatbots wie ChatGPT
  • Chatbots als modulare Systeme (Beispiel Migrationsberatung mit Lupai)
    • Spezialisierte Modelle als Module
    • Festgelegte Logik vs. Steuerung durch LLM
    • Language Detection als fester erster Schritt vs. Entscheidung ob Rückfrage gestellt wird

Fragen zu dem Einsatz von KI in Informationszugangssystemen?

Literaturverzeichnis

Assaad, Z. (2025). ChatGPT just passed the Turing test. But that doesn’t mean AI is now as smart as humans. Conversation. https://theconversation.com/chatgpt-just-passed-the-turing-test-but-that-doesnt-mean-ai-is-now-as-smart-as-humans-253946
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜. Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–623. https://doi.org/10.1145/3442188.3445922
Bender, E. M., & Koller, A. (2020). Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. In D. Jurafsky, J. Chai, N. Schluter, & J. Tetreault (Eds.), Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 5185–5198). Association for Computational Linguistics. https://doi.org/10.18653/v1/2020.acl-main.463
Deutsche UNESCO-Kommission, Niederländische UNESCO-Nationalkommission, & Slowenische UNESCO-Nationalkommission. (2023). Zusammenfassung der UNESCO-Empfehlung zur Ethik der Künstlichen Intelligenz: Wegweiser für die Gestaltung unserer Zukunft (M. M. Anne Diessner Jeannine Hausmann, Ed.; A. Diessner, Trans.). Deutsche UNESCO-Kommission e. V. https://www.unesco.de/dokumente-und-hintergruende/publikationen/detail/die-unesco-empfehlung-zur-ethik-der-kuenstlichen-intelligenz/
Edwards, B. (2025). Meta’s surprise Llama 4 drop exposes the gap between AI ambition and reality. Ars Technica. https://arstechnica.com/ai/2025/04/metas-surprise-llama-4-drop-exposes-the-gap-between-ai-ambition-and-reality/
Günther, M., Ong, J., Mohr, I., Abdessalem, A., Abel, T., Akram, M. K., Guzman, S., Mastrapas, G., Sturua, S., Wang, B., Werk, M., Wang, N., & Xiao, H. (2023). Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents. arXiv. https://doi.org/10.48550/ARXIV.2310.19923
Jurafsky, D., & Martin, J. H. (2025). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models (3rd ed.). https://web.stanford.edu/~jurafsky/slp3/
Klein, L., Martin, M., Brock, A., Antoniak, M., Walsh, M., Johnson, J. M., Tilton, L., & Mimno, D. (2025). Provocations from the Humanities for Generative AI Research. https://arxiv.org/abs/2502.19190
Manning, C. D. (2022). Human Language Understanding & Reasoning. Dædalus, 151(2), 127–138. https://nlp.stanford.edu/~manning/papers/Daedalus_Sp22_09_Manning.pdf
McCarthy, J. (2012). What is AI? / Basic Questions. http://jmc.stanford.edu/artificial-intelligence/what-is-ai/index.html
McCulloch, W. S., & Pitts, W. (1943). A Logical Calculus of the Ideas Immanent in Nervous Activity. The Bulletin of Mathematical Biophysics, 5(4), 115–133. https://doi.org/10.1007/BF02478259
Mitchell, M., & Krakauer, D. C. (2023). The debate over understanding in AI’s large language models. Proc. Natl. Acad. Sci. U.S.A., 120(13), e2215907120. https://doi.org/10.1073/pnas.2215907120
Owen, D. (2024). How predictable is language model benchmark performance? https://arxiv.org/abs/2401.04757
Shah, C., & Bender, E. M. (2024). Envisioning Information Access Systems: What Makes for Good Tools and a Healthy Web? ACM Trans. Web, 18(3), 1–24. https://doi.org/10.1145/3649468
Sypherd, C., & Belle, V. (2024). Practical Considerations for Agentic LLM Systems. arXiv. https://doi.org/10.48550/arXiv.2412.04093
Weil, E. (2023). ChatGPT Is Nothing Like a Human, Says Linguist Emily Bender. New York Magazine: Intelligencer. https://nymag.com/intelligencer/article/ai-artificial-intelligence-chatbots-emily-m-bender.html
Zeff, M. (2024). Current AI scaling laws are showing diminishing returns, forcing AI labs to change course. TechCrunch. https://techcrunch.com/2024/11/20/ai-scaling-laws-are-showing-diminishing-returns-forcing-ai-labs-to-change-course