Artwork

Inhoud geleverd door Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. Alle podcastinhoud, inclusief afleveringen, afbeeldingen en podcastbeschrijvingen, wordt rechtstreeks geüpload en geleverd door Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon of hun podcastplatformpartner. Als u denkt dat iemand uw auteursrechtelijk beschermde werk zonder uw toestemming gebruikt, kunt u het hier beschreven proces https://nl.player.fm/legal volgen.
Player FM - Podcast-app
Ga offline met de app Player FM !

Episode 154 - Sind LLMs auf Benchmark Daten manipuliert?

36:40
 
Delen
 

Manage episode 416428792 series 2911119
Inhoud geleverd door Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. Alle podcastinhoud, inclusief afleveringen, afbeeldingen en podcastbeschrijvingen, wordt rechtstreeks geüpload en geleverd door Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon of hun podcastplatformpartner. Als u denkt dat iemand uw auteursrechtelijk beschermde werk zonder uw toestemming gebruikt, kunt u het hier beschreven proces https://nl.player.fm/legal volgen.

Send us a text

In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein.
Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824

Support the show

  continue reading

208 afleveringen

Artwork
iconDelen
 
Manage episode 416428792 series 2911119
Inhoud geleverd door Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. Alle podcastinhoud, inclusief afleveringen, afbeeldingen en podcastbeschrijvingen, wordt rechtstreeks geüpload en geleverd door Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon of hun podcastplatformpartner. Als u denkt dat iemand uw auteursrechtelijk beschermde werk zonder uw toestemming gebruikt, kunt u het hier beschreven proces https://nl.player.fm/legal volgen.

Send us a text

In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein.
Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824

Support the show

  continue reading

208 afleveringen

Kaikki jaksot

×
 
Loading …

Welkom op Player FM!

Player FM scant het web op podcasts van hoge kwaliteit waarvan u nu kunt genieten. Het is de beste podcast-app en werkt op Android, iPhone en internet. Aanmelden om abonnementen op verschillende apparaten te synchroniseren.

 

Korte handleiding

Luister naar deze show terwijl je op verkenning gaat
Spelen