Skip to content

Latest commit

 

History

History

README.md

Mistral3 Evaluation Suite

Eine Sammlung von Test- und Evaluationsskripten zur Bewertung der Fähigkeiten des Mistral AI Sprachmodells (ministral-3:14b) über Ollama.

Übersicht

Dieses Projekt testet verschiedene Aspekte eines lokalen Sprachmodells:

  • Reasoning: Abstrakte Muster- und Logik-Erkennung
  • Sprache/Politik: Sprachliche Tendenzen und Wertorientierungen
  • Kreativität: Kohärente Textgenerierung
  • Bonus: Ein Tetris-Spiel in Pygame

Voraussetzungen

  • Python 3.11+
  • Ollama installiert und laufend
  • Mistral-Modell heruntergeladen: ollama pull ministral-3:14b

Installation

cd Mistral3
python -m venv .venv
.venv\Scripts\activate  # Windows
# oder: source .venv/bin/activate  # Linux/Mac
pip install -r requirements.txt

Falls keine requirements.txt existiert:

pip install requests pygame

Skripte

1. ARC-AGI Evaluation (run_ministral_arc_eval.py)

Testet das Modell auf dem ARC-AGI Benchmark für abstraktes Reasoning.

python run_ministral_arc_eval.py

Optionen:

  • --model: Modellname (Standard: ministral-3:14b)
  • --timeout: Timeout pro Aufgabe in Sekunden
  • --verbose: Detaillierte Ausgabe

Funktionsweise:

  • Lädt JSON-Aufgaben aus arc-agi-evaluation/
  • Präsentiert dem Modell visuelle Gitter-Rätsel
  • Misst Genauigkeit bei Pattern-Recognition

2. Political Compass Test (run_political_compass_test.py)

Analysiert die politischen Tendenzen des Modells anhand von 200 indirekten Fragen.

python run_political_compass_test.py

Optionen:

  • --start: Bei Frage N starten (für Wiederaufnahme)
  • --model: Modellname

Output:

  • political_compass_results.json: Detaillierte Ergebnisse
  • ASCII-Visualisierung des Political Compass mit Modell-Position

Achsen:

  • Wirtschaftlich: Links (-10) bis Rechts (+10)
  • Sozial: Libertär (-10) bis Autoritär (+10)

3. Story Generator (run_story_generator.py)

Generiert iterativ eine Geschichte, Absatz für Absatz.

python run_story_generator.py

Optionen:

  • --temperature: Kreativität (0.0 - 2.0)
  • --max-steps: Maximale Absätze
  • --seed: Startabsatz für die Geschichte

Output: story.txt

Das Modell schreibt bis es <THE END> ausgibt.

4. Tetris (tetris.py)

Klassisches Tetris-Spiel in Pygame - nicht direkt KI-bezogen, aber ein nettes Bonus-Projekt.

python tetris.py

Steuerung:

  • Pfeiltasten: Bewegen/Rotieren
  • Leertaste: Hard Drop
  • R: Neustart
  • Q: Beenden

Datenstruktur

Mistral3/
├── run_ministral_arc_eval.py    # ARC-AGI Benchmark
├── run_political_compass_test.py # Political Compass
├── run_story_generator.py        # Kreatives Schreiben
├── tetris.py                     # Bonus: Tetris-Spiel
├── arc-agi-evaluation/           # ARC Aufgaben (JSON)
├── story.txt                     # Generierte Geschichte
├── political_compass_results.json # Compass-Ergebnisse
└── .venv/                        # Virtual Environment

Ergebnisse

Die bisherigen Tests zeigen:

  • ARC-AGI: Grundlegende Pattern-Erkennung funktioniert, komplexe Aufgaben sind schwierig
  • Political Compass: ministral-3:14b tendiert zu "Authoritarian Left" (State Socialism)
  • Story Generation: Kohärente Narrative mit gutem Plotaufbau über mehrere Absätze

Ollama API

Alle Skripte kommunizieren mit der lokalen Ollama API:

  • Standard-Endpoint: http://localhost:11434
  • Stelle sicher, dass Ollama läuft: ollama serve

Lizenz

Teil des YoutubeCode Repositories.