에포크AI라는
AI관련 벤처기업에서
발표한 FrontierMath
AI들의 진정한 수학실력을
테스트하기 위해서
여러명의 필즈상 수상자 포함
세계 최고급 수학자들이
출제한 수학문제집
수학자들이
AI 벤치마크를 돌리기 위해
문제은행식으로 수백개의
문제를 작성해뒀고
현재의 AI들에게
풀어보게 했더니
100점 만점에 2점
샘플 문제 3개를
공개해둠
https://epoch.ai/frontiermath/the-benchmark
아마도(?) 테렌스 타오가 낸 듯한 문제
첫번째 문제만 가져와서
ChatGPT와 Claude에게 풀라고 시켜봤음.
자신있게 블라블라 하더니
파이썬 코드 하나 작성해주고
이거 돌려서 값을 얻을 수 있다고 함
돌려봄
에러남
수정해 줌.
다시 돌려봄
답 나옴.
3,333,333
위에 원문 보면 알 수 있지만 틀렸음
답은 3677073
아 그래?
테렌스 타오라면 어쩌구 하면서
열심히 변명중
패배자의 변명은 컷트
-----------
이제 Claude 3.5 Sonnet에게 물어봄
자기도 코드 짜서 풀어보겠다고 해서
기회를 줘봄.
작동 안함.
ChatGPT가 짠 코드 보여주면
그거 보고 개선하겠다고 주장함
(뭐야 이자식)
계산해봤지만 틀렸음
힌트를 줬지만 또 틀림.
역시 테렌스 타오를 찬양하면서
주절주절 변명중
역시 아직은 AI가 한계가 있네!
인간들에게 저 문제 풀라고 시키면
100점 만점에 0점 나오겠지만
댓글(16)
초창기 그림 AI는 라면먹는 마도카 짤이나 만들며 유머글에 상단에 올라갔다
지금 AI는 산업계 전방위적으로 사용되고 자세히 보지않으면 구분하기 쉽지않지 (물론 긴빠이에 의한 빠른 발전이지만)
미래가 무섭다..