AI 뉴스

인공지능의 성적표 - MMLU에 대해 알아봅시다

아이곰 2023. 12. 14. 00:49

최근에 논란이 되었던 구글 Gemini는 Gemini Ultra의 MMLU 스코어가 GPT-4와 사람 전문가의 점수를 뛰어 넘었다고 홍보했는데요,
과연 이 MMLU 가 무엇인지 이번 포스트를 통해 알아봅시다.
 
 

MMLU란 무엇인가

MMLU(Massive Multitask Language Understanding)는 인공지능의 다양한 지식과 문제 해결 능력을 평가하는 도구입니다. 이 벤치마크는 과학, 기술, 공학, 수학(STEM), 인문학, 사회과학 등 약 57개의 다양한 과목에 걸친 질문들로 구성되어 있습니다. 이 질문들은 초등학생 수준부터 전문가 수준까지 다양한 난이도를 가지고 있습니다.
 
 

제로샷 퓨샷

MMLU가 특별한 이유는 '제로샷(zero-shot)'과 '퓨샷(few-shot)' 성능을 측정하기 때문입니다. 이 두 용어를 이해하기 위해선, 인공지능이 어떻게 학습하는지 알아볼 필요가 있습니다. 전통적으로 인공지능 모델은 많은 데이터와 예시를 통해 특정 작업을 수행하는 방법을 배웁니다. 예를 들어, 사진에서 고양이를 인식하도록 하려면, 고양이 사진 수천 장을 모델에게 보여주며 '이것이 고양이다'라고 가르치는 것입니다. 사람에 비유를 하자면 암기라고 할수 있습니다.
그러나 제로샷 학습은 다릅니다. 여기서 인공지능은 특정 작업에 대한 직접적인 데이터 없이도 그 작업을 수행할 수 있습니다. 즉, 고양이를 인식하기 위해 고양이 사진을 본 적이 없어도, 다른 지식과 연관성을 이용해 고양이를 인식할 수 있는 것입니다. 퓨샷 학습은 제로샷과 유사하지만, 약간의 샘플(즉, 적은 양의 데이터)를 사용합니다. 인공지능은 이 몇 가지 예시를 통해 빠르게 학습하고 새로운 작업을 수행할 수 있습니다.
MMLU 벤치마크는 이러한 학습 방식을 테스트하기 위해 설계되었습니다. 인공지능이 다양한 주제에 대한 일반적인 지식과 문제 해결 능력을 얼마나 잘 갖추고 있는지 평가하기 위해, 인공지능에게 사전에 특정 주제에 대해 학습할 기회를 주지 않고 질문을 합니다. 이를 통해 인공지능이 얼마나 빠르고 효과적으로 새로운 정보를 처리하고 이해할 수 있는지를 측정할 수 있습니다.
 
 

MMLU의 질문 예시

질문들은 주로 선택형 문제 형태로 제시되며, 인공지능이 제공된 선택지 중 올바른 답을 찾아내는 능력을 평가합니다.
각 질문은 4개의 선택지가 주어지고, 이 중 하나만이 정답입니다.
다음은 MMLU 벤치마크에 포함된 몇 가지 질문의 예시입니다.
 
과학 분야
글루코스는 근육 세포로 어떻게 운반되는가?
    A. GLUT4라고 불리는 단백질 운반체를 통해.
    B. 인슐린의 존재 하에만.
    C. 헥소키나아제를 통해.
    D. 단일 탄수화물 산 운반체를 통해.
 
정답: A
 
사회과학 분야
2008년 금융 위기는 미국의 국제적 명성에 어떤 영향을 미쳤는가?
    A. 미국의 정치 경제 모델과 자본주의에 대한 지지를 훼손시켰다.
    B. 위기를 과장한 미국에 대한 분노를 촉발시켰다.
    C. 오바마 대통령 하의 미국 글로벌 리더십에 대한 지지를 증가시켰다.
    D. 미국 달러의 전 세계 사용을 감소시켰다.

정답: A
 
생각보다 질문 수준이 많이 높지 않나요?
MMLU 벤치마크는 인공지능이 단순히 언어 생성 능력을 넘어서, 다양한 주제에 대한 이해와 지식을 어떻게 활용하는지를 평가하는 데 중요한 역할을 합니다. 이를 통해 인공지능 연구자들은 특정 주제에 대한 모델의 약점을 파악하고, 이를 개선하기 위한 연구 방향을 설정할 수 있습니다.
 
 

 

마치며

언어모델이 단순히 텍스트만 다루는 언어모델이 아닌 멀티모달을 자유룝게 다루는 모델이 되었고,
인간 전문가들을 뛰어 넘는 모델들이 나오는 시대가 되었습니다.
그리고 당분간 이 인공지능의 발전속도는 더욱 가속화 될것으로 예측됩니다.
이런 시대에서 인공지능을 잘 활용하고 변화에 대비하기 위해 같이 더 열심히 공부하고 연습해 봅시다!