The image contains a section of a research document discussing experiments related to the code maintenance capabilities of large language models (LLMs). It features a graph labeled "Figure 4," which illustrates the EvoScore variation of several state-of-the-art models released over
Die Experimente mit mehr als 10 Milliarden Tokens zeigen, dass aktuelle LLM-basierte Coding-Agenten zwar kurzfristig funktionierenden Code erzeugen können, aber deutlich Schwierigkeiten haben, Codequalität über viele Iterationen und Änderungen hinweg stabil zu […]
[Original post on det.social]