본문 바로가기
🟣 AI & ML

Microsoft, 2.7B의 경량 규모 언어 모델 출시: Phi-2

by 제리강 2024. 1. 10.

 

 

TL;DR

Microsoft에서 Phi-1.5의 후속 모델을 출시했다. 이미 Orca라는 비교적 작은 사이즈의(7B, 13B) 언어 모델을 출시했었지만 이번엔 그보다 더욱 작은 2.7B 사이즈의 모델이다. 이는 개인이나 작은 사업체에서도 충분히 운용 가능한 사이즈로 볼 수 있다.
AI 모델 운용 인프라 보유 능력이 비대칭적으로 변해가면서 경량화 LLM 모델의 수요가 높아지고 있는 가운데, Phi-2 모델이 경량화 LLM에서 주도적인 입지를 가질 수 있을 지 기대된다.

 

Phi-2: The surprising power of small language models

Phi-2: 작은 언어 모델의 놀라운 힘

 

By Mojan Javaheripi , Senior Researcher  Sébastien Bubeck , Partner Research Manager

출처: Microsoft Research Blog(원문 링크)

 

 

** 의역이나 이해를 돕기 위한 추가 설명이 일부 포함되어 있습니다.

 

Over the past few months, our Machine Learning Foundations team at Microsoft Research has released a suite of small language models (SLMs) called “Phi” that achieve remarkable performance on a variety of benchmarks. Our first model, the 1.3 billion parameter Phi-1, achieved state-of-the-art performance on Python coding among existing SLMs (specifically on the HumanEval and MBPP benchmarks). We then extended our focus to common sense reasoning and language understanding and created a new 1.3 billion parameter model named Phi-1.5, with performance comparable to models 5x larger.

 

  • 지난 몇 달 동안 Microsoft Research의 Machine Learning Foundations 팀은 여러 벤치마크에서 놀라운 성능을 발휘하는 "Phi"라는 소규모 언어 모델(SLM) 제품군을 출시.
  • 첫 번째 모델인 13억 개의 매개 변수가 있는 Phi-1은 현존하는 SLM(Small Language Models) 중 Python 코딩에서 최고 수준의 성능을 달성.
  • 그 후, 상식 추론과 언어 이해에 더 초점을 두어 13억 개의 파라미터를 가진 새로운 Phi-1.5 모델을 출시.
  • Phi-1.5 모델은 5배 더 큰 모델과 비슷한 성능을 갖춤.

 

We are now releasing Phi-2, a 2.7 billion parameter language model that demonstrates outstanding reasoning and language understanding capabilities, showcasing state-of-the-art performance among base language models with less than 13 billion parameters. On complex benchmarks Phi-2 matches or outperforms models up to 25x larger, thanks to new innovations in model scaling and training data curation.

 

  • 이제, 뛰어난 추론 및 언어 이해 능력을 보여주는 27억 개 매개변수 언어 모델인 Phi-2를 출시.
  • Phi-2는 130억 개 미만의 매개변수를 가진 기본 언어 모델 중에서 가장 높은 수준의 성능을 보임.
  • 모델 확장 및 학습 데이터 큐레이션의 혁신 덕분에, Phi-2는 복잡한 수준의 여러 벤치마크에서 최대 25배 더 큰 모델과 일치하거나 더 뛰어난 성능을 발휘.


With its compact size, Phi-2 is an ideal playground for researchers, including for exploration around mechanistic interpretability, safety improvements, or fine-tuning experimentation on a variety of tasks. We have made Phi-2 available in the Azure AI Studio model catalog to foster research and development on language models.

 

  • Phi-2는 크기가 작기 때문에 기계적인 해석 가능성, 안전성 개선, 다양한 작업에 대한 미세 조정 실험 등 연구자에게 이상적인 플레이그라운드로 사용될 수 있음.
  • 언어 모델에 대한 연구 개발 촉진을 위해, Phi-2를 Azure AI Studio에서 사용할 수 있게 함.

 

Key Insights Behind Phi-2

Phi-2의 핵심 인사이트


The massive increase in the size of language models to hundreds of billions of parameters has unlocked a host of emerging capabilities that have redefined the landscape of natural language processing. A question remains whether such emergent abilities can be achieved at a smaller scale using strategic choices for training, e.g., data selection.

 

  • 언어 모델의 크기가 수천억 개의 매개변수로 크게 증가하면서 자연어 처리의 환경을 재정의하는 새로운 기능이 대거 등장.
  • 이러한 거대 언어 모델의 창발적 능력(emergent abilities)을 다양한 전략을 통해 더 작은 규모로 구현할 수 있을 지에 대한 의문이 있었음.


Our line of work with the Phi models aims to answer this question by training SLMs that achieve performance on par with models of much higher scale (yet still far from the frontier models). Our key insights for breaking the conventional language model scaling laws with Phi-2 are twofold:

 

  • Phi 모델과 같이, 더 큰 규모의 모델과 동등한 성능을 달성한(그러나 아직 ChatGPT같은 프론티어 모델의 성능과는 거리가 멀지만) SLMs를 구축하는 시도는 이러한 의문을 해소하기 위한 것.
  • Phi-2를 통해 기존의 언어 모델 확장 법칙(scaling laws: 언어 모델 성능은 모델의 형태나 데이터셋 크기보다는 모델의 크기에 더 의존한다는 법칙)을 깨는 핵심 인사이트는 다음의 두 가지임.


Firstly, training data quality plays a critical role in model performance. This has been known for decades, but we take this insight to its extreme by focusing on “textbook-quality” data, following upon our prior work “Textbooks Are All You Need.” Our training data mixture contains synthetic datasets specifically created to teach the model common sense reasoning and general knowledge, including science, daily activities, and theory of mind, among others. We further augment our training corpus with carefully selected web data that is filtered based on educational value and content quality.

Secondly, we use innovative techniques to scale up, starting from our 1.3 billion parameter model, Phi-1.5, and embedding its knowledge within the 2.7 billion parameter Phi-2. This scaled knowledge transfer not only accelerates training convergence but shows clear boost in Phi-2 benchmark scores.

 

  • 첫째, 학습 데이터 품질은 모델 성능에 중요한 역할을 함.
    • 이전 연구인 "교과서만 있으면 충분하다(Textbooks Are All You Need)"에 이어 "교과서 수준의(textbook-quality)" 데이터에 집중함으로써 이러한 인사이트를 극한으로 끌어올림.
    • 혼합된 학습 데이터에는 과학, 일상 활동, 정신 이론 등 상식적인 추론과 일반 지식을 모델에 가르치기 위해 특별히 제작된 합성 데이터 세트를 포함.
    • 또한, 교육적 가치와 콘텐츠 품질에 따라 필터링된 엄선된 웹 데이터로 훈련 코퍼스(corpus)를 보강합니다.
  • 둘째, 13억 개의 매개변수 모델인 Phi-1.5에서 시작하여 27억 개의 매개변수인 Phi-2에 지식을 포함시키는 등의 혁신적 기술을 사용하여 모델 확장.
    • 이렇게 확장된 지식 전달(scaled knowledge transfer)은 모델 훈련의 수렴 속도를 가속화할 뿐만 아니라 Phi-2 벤치마크 점수의 뚜렷한 향상을 보여줌.

 

Training Details

모델 훈련 상세 사항


Phi-2 is a Transformer-based model with a next-word prediction objective, trained on 1.4T tokens from multiple passes on a mixture of Synthetic and Web datasets for NLP and coding. The training for Phi-2 took 14 days on 96 A100 GPUs. Phi-2 is a base model that has not undergone alignment through reinforcement learning from human feedback (RLHF), nor has it been instruct fine-tuned. Despite this, we observed better behavior with respect to toxicity and bias compared to existing open-source models that went through alignment(see Figure 3). This is in line with what we saw in Phi-1.5 due to our tailored data curation technique, see our previous tech report for more details on this. For more information about the Phi-2 model, please visit Azure AI Machine Learning Studio.

 

  • Phi-2는 다음 단어 예측을 목표로 하는 트랜스포머 기반 모델로, NLP와 코딩을 위해 합성 및 웹 데이터 세트를 혼합하여 여러 차례에 걸쳐 1.4T 토큰으로 학습.
  • Phi-2의 훈련은 96개의 A100 GPU에서 14일이 소요.
  • Phi-2는 인간의 피드백을 통한 강화 학습(RLHF)을 통한 정렬(alignment)을 거치지 않은 기본 모델이며, 미세 조정을 거치지 않음.
  • 그럼에도 불구하고 정렬 프로세스를 거친 기존 오픈 소스 모델에 비해 독성 및 편향성(toxicity and bias)과 관련하여 더 나은 동작을 보임(Figure 3 참조).
  • 이는 맞춤형 데이터 큐레이션 기법으로 인해 Phi-1.5에서 관찰된 것과 일치하는 결과.

 

 

 

Phi-2 Evaluation

Phi-2 평가

 

Below, we summarize Phi-2 performance on academic benchmarks compared to popular language models. Our benchmarks span several categories, namely, Big Bench Hard (BBH) (3 shot with CoT), commonsense reasoning (PIQA, WinoGrande, ARC easy and challenge, SIQA), language understanding (HellaSwag, OpenBookQA, MMLU (5-shot), SQuADv2 (2-shot), BoolQ), math (GSM8k (8 shot)), and coding (HumanEval, MBPP (3-shot)).

 

  • Phi-2에 대한 벤치마크 테스트는 Big Bench Hard(BBH)(CoT - Chain of thought 방법으로 3-shot),
  • 상식 추론(PIQA, WinoGrande, ARC easy and challenge, SIQA),
  • 언어 이해(HellaSwag, OpenBookQA, MMLU(5-shot), SQuADv2(2-shot), BoolQ),
  • 수학(GSM8k(8-shot), 코딩(HumanEval, MBPP(3-shot)) 등 여러 카테고리에 걸쳐 수행.


With only 2.7 billion parameters, Phi-2 surpasses the performance of Mistral and Llama-2 models at 7B and 13B parameters on various aggregated benchmarks. Notably, it achieves better performance compared to 25x larger Llama-2-70B model on muti-step reasoning tasks, i.e., coding and math. Furthermore, Phi-2 matches or outperforms the recently-announced Google Gemini Nano 2, despite being smaller in size.

 

  • Phi-2는 27억 개의 매개변수만으로 다양한 종합 벤치마크에서 7억 개와 13억 개의 매개변수를 가진 Mistral과 LLaMA-2 모델의 성능을 뛰어넘음.
  • 특히 코딩과 수학 등 다단계 추론 작업에서 25배 더 큰 LLaMA-2-70B 모델에 비해 더 나은 성능을 발휘.
  • 또한 Phi-2는 크기가 더 작음에도 불구하고 최근 발표된 구글의 Gemini Nano 2와 비슷하거나 더 뛰어난 성능을 발휘.

 

 

 

In addition to these benchmarks, we also performed extensive testing on commonly used prompts from the research community. We observed a behavior in accordance with the expectation we had given the benchmark results. For example, we tested a prompt used to probe a model’s ability to solve physics problems, most recently used to evaluate the capabilities of the Gemini Ultra model, and achieved the following result:

 

  • 벤치마크 외에도 연구 커뮤니티에서 일반적으로 사용되는 프롬프트에 대한 광범위한 테스트도 수행.
  • 벤치마크 결과에서 제시한 예상과 일치하는 동작을 관찰.
  • 최근 Gemini Ultra 모델의 기능을 평가하는 데 사용된 모델의 물리 문제 해결 능력을 조사하는 프롬프트를 테스트했을 때 다음과 같은 결과를 보임

 

 

참고 링크

  • Azure AI Studio Phi-2 모델 카탈로그(Link)
  • Phi-2 허깅페이스 저장소(Link

댓글