¡Revolución en Inferencia dLLM! dInfer logra +1100 TPS (10X Fast-dLLM) al modularizar y optimizar la decodificación. Es el primer framework abierto que supera a modelos AR en eficiencia Batch Size 1. ¡Explora el código! youtu.be/Oe_YHPTpC14 #dInfer #dLLMs #IA #DeepLearning
1
0
0
0