#model-distillation

1 post tagged model-distillation.

Thoughts

Teaching smaller models to mimic larger ones isn't optimisation, it's just copying homework with extra steps.