본문 바로가기
🟣 AI & ML

아이폰의 애플 인텔리전스는 어떻게 학습되었을까? Apple Foundation Model(AFM) 논문 살펴보기 - 03

by 제리강 2025. 1. 6.

 

Image generated by Midjourney

 

 

이전 포스트:

2024.12.29 - [🟣 AI & ML] - 아이폰의 애플 인텔리전스는 어떻게 학습되었을까? Apple Foundation Model(AFM) 논문 살펴보기 - 02

2024.11.17 - [🟣 AI & ML] - 아이폰의 애플 인텔리전스는 어떻게 학습되었을까? Apple Foundation Model(AFM) 논문 살펴보기 - 01

 

AFM paper link: https://arxiv.org/abs/2407.21075

 

 

 

5. Powering Apple Intelligence Features

AFM 모델은 iPhone, iPad, Mac의 Apple Intelligence 시스템을 지원하기 위해 설계되었습니다. 기본 모델이 우수한 성능을 가졌더라도, 중요한 것은 이러한 각 운영 체제에서 특정 작업을 얼마나 빠르고 효율적으로 수행하는지에 있습니다.

  • 이를 위해 개발한 runtime-swappable adapters(런타임 단계에서 교체 가능한 어댑터) 기반의 아키텍처를 사용합니다(그림 참고).
  • 어댑터는 하나의 기본 모델이 여러 작업을 처리할 수 있도록 설계되어, 작업별로 모델을 전환하지 않고도 동적으로 특화(specialize)할 수 있습니다.
  • 작은 모델이라도, 작업별로 특화된 미세 조정을 통해 최고 수준의 성능을 달성할 수 있습니다.

 

언어용 어댑터를 갖춘 애플 인텔리전스의 아키텍처. On-device 및 Server 모델과 이미지 모델.

 

 

5.1 Adapter Architecture

AFM 모델은 사용자의 일상적인 작업에 맞게 LoRA(Low-Rank Adaptation; Hu et al., 2021) 어댑터를 활용해 미세 조정되며, 작업 종류에 따라 실시간으로 동적으로 특화될 수 있습니다.

 

 

LoRA 어댑터

  • LoRA 어댑터는 모델의 다양한 레이어에 연결 가능한 작은 신경망 모듈입니다.
  • 어댑터 부분만 미세 조정이 이루어지고, 기본 모델의 매개변수는 변경하지 않습니다.
  • 이를 통해 모델의 일반적인 지식은 유지하면서 작업별로 어댑터를 최적화합니다.
  • 어댑터의 매개변수는 16비트로 표현되며, 약 3B의 파라미터로 구성된 온디바이스 모델의 경우 랭크 16(어댑터의 차원을 나타내는 단위입니다) 어댑터는 보통 10MB 수준의 메모리만을 필요로 합니다.
  • 어댑터는 메모리에 동적으로 로드되거나 임시로 캐시되며, 필요 시 교체 가능합니다.
  • 이는 효율적인 메모리 관리와 운영 체제의 반응성을 보장하면서 실시간으로 작업에 특화될 수 있도록 합니다.

 

어댑터 학습 

  • 어댑터를 빠르게 추가, 재학습, 테스트, 배포할 수 있는 효율적인 인프라를 구축했습니다.
  • 기본 모델이나 학습 데이터 업데이트, 새로운 기능 요구 시 어댑터를 신속히 업데이트할 수 있습니다.

 

5.2 Optimizations

AFM 모델은 사용자 일상 활동을 지원하기 위해 추론 지연 시간, 전력 효율성, 메모리 사용량을 최적화하도록 설계되었습니다. 특히 모델 양자화와 LoRA 어댑터를 활용해 온디바이스(on-device) 및 Private Cloud Compute 환경에서 효율적인 운영이 가능하도록 했습니다.

 

 

모델 양자화

  • 양자화는 메모리 요구를 줄이고 추론 비용을 낮추는 동시에, 다양한 도메인 작업에서 모델의 성능을 유지합니다.
  • 모델 파라미터를 평균적으로 4비트 미만으로 양자화합니다. 4비트 양자화는 기존 32/16비트 부동소수점 모델 대비 품질 손실이 미미합니다.
  • 일부 레이어에서는 2비트 양자화를 적용해 평균 3.5~3.7비트까지 압축해도 모델 품질 손실이 크지 않음을 확인했습니다.
  • 양자화 후 발생하는 품질 손실을 보완하기 위해 정확도 회복 어댑터(Accuracy-Recovery Adapters)를 사용합니다.

 

  •  

정확도 회복(Accuracy-Recovery) 어댑터

  • 양자화 후 발생하는 품질 손실을 극복하기 위해, LoRA 기반의 ‘정확도 회복 어댑터’를 미리 학습합니다.
  • 이 어댑터는 양자화된 모델 위에 소량의(랭크 16) 추가 매개변수를 두어, 전체 모델의 성능을 원래 수준에 가깝게 복원합니다.
  • 어댑터 학습에 약 100억 토큰(기존 모델 학습의 0.15% 수준)만 사용해도 충분한 성능 회복이 가능합니다.
  • 정확도 회복 어댑터의 적용으로, 더 공격적인(더 큰 블록을 사용하는) 양자화 기법을 적용해도 성능이 크게 떨어지지 않습니다.
  • QLoRA 등 다른 양자화 및 LoRA 기법과도 결합이 가능하며, 실제 서비스 상황에서 메모리·전력 사용량을 크게 줄일 수 있습니다.

 

기타 양자화 기법

  • Apple Neural Engine(ANE) 환경에서 팔레티제이션(palettization)* 방식을 사용해, projection 레이어의 16개 행과 열 단위로 K-means 기반 4비트 양자화를 수행합니다.
  • 입력과 출력이 공유되는 임베딩 레이어는 8비트 채널별 양자화(per-channel quantization)를 적용해 효율성을 극대화합니다.
  • Talaria라는 상호작용 가능한 분석 툴을 이용해, 레이어별 비트 수를 조절하며 메모리 및 성능을 세밀하게 관리합니다.
  • 정확도 회복 어댑터와 LoRA를 결합한 접근은, 각 기능별로 맞춤화된 어댑터만 교체 또는 추가하면 다양한 제품의 요구 사항을 충족할 수 있도록 합니다.

 

*팔레티제이션(Palettization)

  • 옛날 GIF 이미지가 256색 팔레트를 써서 이미지를 표현하듯, 모델 가중치도 16(4비트) 또는 256(8비트) 등 소수의 대표값(팔레트)만 써서 표현합니다.
  • 블록 안에 있는(AFM 어댑터의 경우 16개 컬럼을 하나의 블록으로 설정) 수천~수만 개의 가중치를, K=16개의 중심값으로 군집화합니다.
  • 모델이 어떤 레이어 및 블록에 있는 특정 가중치를 필요로 하면, 해당 가중치가 팔레트의 몇 번째 인덱스를 가리키는지 확인하고, 그 인덱스에 해당하는 클러스터 중심값을 읽어 실제 가중치로 복원합니다.
  • 각 가중치는 군집 번호(0~15)만 저장하면 되므로, 4비트만으로 데이터를 표한할 수 있습니다.
  • 단순히 최솟값 - 최댓값 범위에서 일정 간격으로 나누는 균등 양자화보다, 데이터가 자주 등장하는 구간(군집) 중심에 팔레트를 배치하므로 더 적은 비트로도 오차를 작게 유지할 수 있습니다.

 

5.3 Case Study: Summarization

AFM-on-device 모델은 이메일, 메시지, 알림 요약 기능을 지원하도록 설계되었습니다. 이를 위해 설계 팀과 협력해 요약 작업에 대한 사양을 정의했으며, AFM-on-device 모델의 요약 능력을 기반으로 세부적으로 작업을 최적화했습니다.

 

 

요약 작업 성능 문제 

  • AFM-on-device 모델은 일반적인 요약에는 우수한 성능을 보이지만, 제품 사양에 엄격히 부합하는 요약을 생성하기 어려운 양상을 보였습니다.
  • 이를 위해 LoRA 어댑터에 이메일, 메시지, 알림 데이터를 포함하는 입력을 학습시킵니다.
  • 데이터는 공개 데이터셋, 벤더(vendor) 데이터, 내부 생성 데이터로 구성되며, 모든 데이터는 제품 사용을 위해 익명화 및 사용 승인 절차를 거칩니다.

 

요약 작업 합성 데이터 생성

  • AFM-server를 사용해 제품 요구사항에 맞는 요약 작업 데이터셋을 생성합니다.
  • 규칙 기반 필터와 모델 기반 필터를 통해 데이터 품질을 보장.
    • 규칙 기반 필터: 길이, 형식, 관점, 문체 등의 조건을 적용.
    • 모델 기반 필터: 포함 관계(entailment)와 같은 복잡한 문제를 처리.
  •  이 데이터 파이프라인을 통해 대량의 데이터를 효율적으로 생성하고, 품질 높은 데이터만을 남겨 미세 조정에 사용합니다.

 

프롬프트 주입 문제 해결

  • AFM-on-device는 입력 내용에 포함된 질문이나 지시에 과도하게 반응하여 요약 대신 이를 수행하려는 경향이 있습니다.
  • 이러한 사례를 대규모로 식별해 AFM-server를 사용하여 적절한 요약 답변을 생성하도록 했습니다.
  • 생성된 합성 데이터를 미세 조정 데이터에 추가해 문제를 완화했습니다.

 

 

마치며

애플 인텔리전스의 기반 모델, AFM의 기술 보고서를 학습 과정 위주로 살펴보았습니다. 아직 애플의 자체 생성형 AI 모델은 다른 빅테크 기업의 모델들에 비해 인지도가 높지는 않습니다. 하지만, 기술 보고서를 통해 살펴본 AFM의 학습 과정은 애플 인텔리전스의 사용 맥락에 대한 깊은 고민과 다양한 시도, 철저한 검증 과정이 포함되어 있어 상당히 인상깊었습니다. 수 년 안에는, 애플의 풍부한 사용자 경험 데이터와 소프트웨어 및 하드웨어 기술을 바탕으로 ChatGPT와는 또 다른 형태의 AI 혁신을 기대해보아도 좋을 것 같습니다.

 

댓글