pybaseball + DuckDB + Google Colabで、MLB Statcastデータを可視化・分析するプロジェクトです。
このプロジェクトで使用しているMLB Statcastデータや関連データをKaggleで公開しています。
Japan MLB Pitchers Batters Statcast (2015-2025)
- 投手25名、118,226投球(2015-2025)
- 打者10名、56,362打撃(2015-2025)
- 選手メタデータ(34選手)
このデータセットを使えば、下記のノートブックと同様の分析を自分でも再現できます。
| Dataset | Description | Kaggle |
|---|---|---|
| MLB Pitcher Arsenal Evolution (2020-2025) | 投手の球種構成と成績(4,253投手シーズン、111指標) | View |
| MLB Bat Tracking (2024-2025) | バット速度・スイング指標(452打者、19指標) | View |
📋 全データセットの詳細: kaggle-datasets
| # | 選手 | テーマ | Notebook | Colab | 記事 |
|---|---|---|---|---|---|
| 6 | 菊池雄星 | スライダー革命(2019-2025) | kikuchi_2019_2025.ipynb |
Zenn | |
| 5 | 千賀滉大 | お化けフォーク(2023-2025) | senga_2023_2025.ipynb |
Zenn | |
| 4 | 今永昇太 | 2年目の変化(2024-2025) | imanaga_2024_2025.ipynb |
Zenn | |
| 3 | ダルビッシュ有 | 投球スタイル進化(2021-2025) | darvish_evolution_2021_2025.ipynb |
Zenn |
| # | 選手 | テーマ | Notebook | Colab | 記事 |
|---|---|---|---|---|---|
| 2 | 大谷翔平 | ヒートマップ(matplotlib手動描画) | ohtani_2_matplotlib_manual.ipynb |
Zenn | |
| 1 | 大谷翔平 | スプレーチャート(spraychart) | ohtani_1_spraychart_pybaseball.ipynb |
Zenn |
各ノートブックで共通して使用している手法:
- pybaseball でStatcastデータ取得
- DuckDB でSQLベースのデータ集計(pandas操作より可読性重視)
- matplotlib / seaborn で可視化
- テキスト要約セル付き(Claude Codeとの共同分析用)
以下は mlb-data-analysis リポジトリの分析です。
| テーマ | 内容 | 手法 | Colab |
|---|---|---|---|
| WBC 2023 サンドバル スカウティング | 左打者にスライダー49.2%、被HR 0本 | pybaseball, seaborn | |
| バウアー セットポジション画像分析 | K-meansでグラブ位置の球種別の癖を検出 | PIL, scikit-learn |
上記の分析にはSQL版(DuckDB)も用意されています。詳細は mlb-data-analysis を参照してください。
!pip install pybaseball duckdb seaborn -qオープン戦のデータを除外するために、必ずgame_type = "R"でフィルタしてください。