Skip metrics can lead to degenerate performance

I tested an eval config that skips almost everything and keeps only pearson_delta and discrimination_score_l1 for faster iteration through evaluator.compute(profile="full", metric_configs={}, skip_metrics=skip_metrics). Unexpectedly, those two metrics got much worse, even though model predictions were the same. This looks like a cell_eval pipeline bug: skipping many metrics changes internal intermediate state (likely hidden dependency/order effect), which makes pearson_delta/discrimination_score_l1 unreliable in that reduced setup.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Skip metrics can lead to degenerate performance #219

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Skip metrics can lead to degenerate performance #219

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions