DeepSeek und Co scheitern am „Last Exam“

Ein neuer Test namens „Humanity’s Last Exam“ zeigt, dass selbst die fortschrittlichsten KI-Modelle wie DeepSeek und OpenAI-o1 bei komplexen Aufgaben scheitern. Diese Modelle lösen weniger als zehn Prozent der 3.000 gestellten Fragen korrekt. Der Test umfasst Fragen aus über 100 Fachgebieten und verdeutlicht, dass menschliche Experten in der Wissenschaft weiterhin überlegen sind. Trotz der aktuellen Schwächen der KI-Modelle erwarten Forscher, dass sie bis Ende 2025 signifikante Fortschritte machen. Dann könnten sie mehr als 50 Prozent der Aufgaben erfolgreich lösen. Dies würde helfen, die Entwicklung der künstlichen Intelligenz und ihre potenziellen Risiken besser einzuschätzen. (Quelle)

Schreibe einen Kommentar Antworten abbrechen

8. Februar 2025

Der Mythos Concorde: Auf dem Weg zu neuen Überschallreisen

Ein neuer ziviler Jet, die Boom Overture, hat erfolgreich die Schallgeschwindigkeit überschritten und markiert damit einen bedeutenden Fortschritt in der...

Lesen Sie weiter

8. Februar 2025

Zunehmende Lungenkrebsfälle bei Nichtrauchern: Umweltfaktoren im Fokus

Immer mehr Menschen, die nie geraucht haben, erkranken an Lungenkrebs, was auf einen Anstieg der Erkrankungen durch Umweltfaktoren wie Luftverschmutzung...

Lesen Sie weiter

8. Februar 2025

Das perfekte Ei? Dauert 32 Minuten, sagt die Wissenschaft

Forschende aus Neapel haben eine Methode entwickelt, um das ideale wachsweiche Frühstücksei zu kochen, die sie "periodisches Kochen" nennen und...

Lesen Sie weiter

7. Februar 2025

Fortschritte in der Krebstherapie geben Hoffnung

Anlässlich des Weltkrebstags 2025 hat die Deutsche Krebsgesellschaft bedeutende Therapieinnovationen vorgestellt, die Millionen von Patienten neue Hoffnung bieten. Neue Ansätze...

Lesen Sie weiter

7. Februar 2025