Eine Sammlung von Test- und Evaluationsskripten zur Bewertung der Fähigkeiten des Mistral AI Sprachmodells (ministral-3:14b) über Ollama.
Dieses Projekt testet verschiedene Aspekte eines lokalen Sprachmodells:
- Reasoning: Abstrakte Muster- und Logik-Erkennung
- Sprache/Politik: Sprachliche Tendenzen und Wertorientierungen
- Kreativität: Kohärente Textgenerierung
- Bonus: Ein Tetris-Spiel in Pygame
- Python 3.11+
- Ollama installiert und laufend
- Mistral-Modell heruntergeladen:
ollama pull ministral-3:14b
cd Mistral3
python -m venv .venv
.venv\Scripts\activate # Windows
# oder: source .venv/bin/activate # Linux/Mac
pip install -r requirements.txtFalls keine requirements.txt existiert:
pip install requests pygameTestet das Modell auf dem ARC-AGI Benchmark für abstraktes Reasoning.
python run_ministral_arc_eval.pyOptionen:
--model: Modellname (Standard: ministral-3:14b)--timeout: Timeout pro Aufgabe in Sekunden--verbose: Detaillierte Ausgabe
Funktionsweise:
- Lädt JSON-Aufgaben aus
arc-agi-evaluation/ - Präsentiert dem Modell visuelle Gitter-Rätsel
- Misst Genauigkeit bei Pattern-Recognition
Analysiert die politischen Tendenzen des Modells anhand von 200 indirekten Fragen.
python run_political_compass_test.pyOptionen:
--start: Bei Frage N starten (für Wiederaufnahme)--model: Modellname
Output:
political_compass_results.json: Detaillierte Ergebnisse- ASCII-Visualisierung des Political Compass mit Modell-Position
Achsen:
- Wirtschaftlich: Links (-10) bis Rechts (+10)
- Sozial: Libertär (-10) bis Autoritär (+10)
Generiert iterativ eine Geschichte, Absatz für Absatz.
python run_story_generator.pyOptionen:
--temperature: Kreativität (0.0 - 2.0)--max-steps: Maximale Absätze--seed: Startabsatz für die Geschichte
Output: story.txt
Das Modell schreibt bis es <THE END> ausgibt.
Klassisches Tetris-Spiel in Pygame - nicht direkt KI-bezogen, aber ein nettes Bonus-Projekt.
python tetris.pySteuerung:
- Pfeiltasten: Bewegen/Rotieren
- Leertaste: Hard Drop
- R: Neustart
- Q: Beenden
Mistral3/
├── run_ministral_arc_eval.py # ARC-AGI Benchmark
├── run_political_compass_test.py # Political Compass
├── run_story_generator.py # Kreatives Schreiben
├── tetris.py # Bonus: Tetris-Spiel
├── arc-agi-evaluation/ # ARC Aufgaben (JSON)
├── story.txt # Generierte Geschichte
├── political_compass_results.json # Compass-Ergebnisse
└── .venv/ # Virtual Environment
Die bisherigen Tests zeigen:
- ARC-AGI: Grundlegende Pattern-Erkennung funktioniert, komplexe Aufgaben sind schwierig
- Political Compass: ministral-3:14b tendiert zu "Authoritarian Left" (State Socialism)
- Story Generation: Kohärente Narrative mit gutem Plotaufbau über mehrere Absätze
Alle Skripte kommunizieren mit der lokalen Ollama API:
- Standard-Endpoint:
http://localhost:11434 - Stelle sicher, dass Ollama läuft:
ollama serve
Teil des YoutubeCode Repositories.