Name	Name	Last commit message	Last commit date
parent directory ..
arc-agi-evaluation	arc-agi-evaluation
README.md	README.md
political_compass_results.json	political_compass_results.json
run_ministral_arc_eval.py	run_ministral_arc_eval.py
run_political_compass_test.py	run_political_compass_test.py
run_story_generator.py	run_story_generator.py
story.txt	story.txt
tetris.py	tetris.py

Mistral3 Evaluation Suite

Eine Sammlung von Test- und Evaluationsskripten zur Bewertung der Fähigkeiten des Mistral AI Sprachmodells (ministral-3:14b) über Ollama.

Übersicht

Dieses Projekt testet verschiedene Aspekte eines lokalen Sprachmodells:

Reasoning: Abstrakte Muster- und Logik-Erkennung
Sprache/Politik: Sprachliche Tendenzen und Wertorientierungen
Kreativität: Kohärente Textgenerierung
Bonus: Ein Tetris-Spiel in Pygame

Voraussetzungen

Python 3.11+
Ollama installiert und laufend
Mistral-Modell heruntergeladen: ollama pull ministral-3:14b

Installation

cd Mistral3
python -m venv .venv
.venv\Scripts\activate  # Windows
# oder: source .venv/bin/activate  # Linux/Mac
pip install -r requirements.txt

Falls keine requirements.txt existiert:

pip install requests pygame

Skripte

1. ARC-AGI Evaluation (`run_ministral_arc_eval.py`)

Testet das Modell auf dem ARC-AGI Benchmark für abstraktes Reasoning.

python run_ministral_arc_eval.py

Optionen:

--model: Modellname (Standard: ministral-3:14b)
--timeout: Timeout pro Aufgabe in Sekunden
--verbose: Detaillierte Ausgabe

Funktionsweise:

Lädt JSON-Aufgaben aus arc-agi-evaluation/
Präsentiert dem Modell visuelle Gitter-Rätsel
Misst Genauigkeit bei Pattern-Recognition

2. Political Compass Test (`run_political_compass_test.py`)

Analysiert die politischen Tendenzen des Modells anhand von 200 indirekten Fragen.

python run_political_compass_test.py

Optionen:

--start: Bei Frage N starten (für Wiederaufnahme)
--model: Modellname

Output:

political_compass_results.json: Detaillierte Ergebnisse
ASCII-Visualisierung des Political Compass mit Modell-Position

Achsen:

Wirtschaftlich: Links (-10) bis Rechts (+10)
Sozial: Libertär (-10) bis Autoritär (+10)

3. Story Generator (`run_story_generator.py`)

Generiert iterativ eine Geschichte, Absatz für Absatz.

python run_story_generator.py

Optionen:

--temperature: Kreativität (0.0 - 2.0)
--max-steps: Maximale Absätze
--seed: Startabsatz für die Geschichte

Output: story.txt

Das Modell schreibt bis es <THE END> ausgibt.

4. Tetris (`tetris.py`)

Klassisches Tetris-Spiel in Pygame - nicht direkt KI-bezogen, aber ein nettes Bonus-Projekt.

python tetris.py

Steuerung:

Pfeiltasten: Bewegen/Rotieren
Leertaste: Hard Drop
R: Neustart
Q: Beenden

Datenstruktur

Mistral3/
├── run_ministral_arc_eval.py    # ARC-AGI Benchmark
├── run_political_compass_test.py # Political Compass
├── run_story_generator.py        # Kreatives Schreiben
├── tetris.py                     # Bonus: Tetris-Spiel
├── arc-agi-evaluation/           # ARC Aufgaben (JSON)
├── story.txt                     # Generierte Geschichte
├── political_compass_results.json # Compass-Ergebnisse
└── .venv/                        # Virtual Environment

Ergebnisse

Die bisherigen Tests zeigen:

ARC-AGI: Grundlegende Pattern-Erkennung funktioniert, komplexe Aufgaben sind schwierig
Political Compass: ministral-3:14b tendiert zu "Authoritarian Left" (State Socialism)
Story Generation: Kohärente Narrative mit gutem Plotaufbau über mehrere Absätze

Ollama API

Alle Skripte kommunizieren mit der lokalen Ollama API:

Standard-Endpoint: http://localhost:11434
Stelle sicher, dass Ollama läuft: ollama serve

Lizenz

Teil des YoutubeCode Repositories.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

Mistral3 Evaluation Suite

Übersicht

Voraussetzungen

Installation

Skripte

1. ARC-AGI Evaluation (`run_ministral_arc_eval.py`)

2. Political Compass Test (`run_political_compass_test.py`)

3. Story Generator (`run_story_generator.py`)

4. Tetris (`tetris.py`)

Datenstruktur

Ergebnisse

Ollama API

Lizenz

FilesExpand file tree

Mistral3

Directory actions

More options

Directory actions

More options

Latest commit

History

Mistral3

Folders and files

parent directory

README.md

Mistral3 Evaluation Suite

Übersicht

Voraussetzungen

Installation

Skripte

1. ARC-AGI Evaluation (run_ministral_arc_eval.py)

2. Political Compass Test (run_political_compass_test.py)

3. Story Generator (run_story_generator.py)

4. Tetris (tetris.py)

Datenstruktur

Ergebnisse

Ollama API

Lizenz

1. ARC-AGI Evaluation (`run_ministral_arc_eval.py`)

2. Political Compass Test (`run_political_compass_test.py`)

3. Story Generator (`run_story_generator.py`)

4. Tetris (`tetris.py`)