Is expert parallelism steady? And will it be supported for DeepSeek-R1? #3241

dmakhervaks · 2025-01-31T19:34:02Z

dmakhervaks
Jan 31, 2025

Please see title.

Running on 2x8H100s. Batch inference is very slow, so trying to find a way to speed it up - any ideas?