Source suggestion: TAU Modern Hebrew Baseline Dataset (Figshare, CC BY 4.0)

## Source suggestion

The [TAU Modern Hebrew Baseline Dataset](https://doi.org/10.6084/m9.figshare.11423352.v1) (Figshare, Tel Aviv University) looks like an excellent fit for this repository.

**What it contains:**
- 3,960 individual Hebrew character crops
- 18 contemporary writers × 22 Hebrew letters × ~10 samples each
- Images are BMP files, organized as `Writer_N/Alphabet/NN_LetterName/*.bmp`
- Sizes range from 45×45 px to 438×438 px per crop

**License:** CC BY 4.0 — permissive, attribution required, confirmed via Figshare API.

**Why it didn't land in the sister repo:**  
[HeOCR/public-domain-hand-written-hebrew-scans](https://github.com/HeOCR/public-domain-hand-written-hebrew-scans) is a page-level HTR corpus; character-level crops are out of scope there. The source was evaluated and explicitly rejected with a pointer here.

**Direct download:** `https://ndownloader.figshare.com/files/20364123` (~6.4 MB zip)

**Attribution:** cite as the TAU Modern Hebrew Baseline Dataset, Figshare DOI `10.6084/m9.figshare.11423352.v1`.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Source suggestion: TAU Modern Hebrew Baseline Dataset (Figshare, CC BY 4.0) #14

Source suggestion

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Source suggestion: TAU Modern Hebrew Baseline Dataset (Figshare, CC BY 4.0) #14

Description

Source suggestion

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions