2 분 소요

메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.

우리가 흔히 오픈소스라고 하는 말은, 누구나 자유롭게 활용, 수정, 재배포할 수 있는 라이선스”라는 의미로 쓰인다. 실제로는 OSI(Open Source Initiative)가 공인한 라이선스인지, 아니면 사용 제한 조항(예: 비영리 사용만 가능 등)이 있는 “준(準)오픈소스” 형태인지를 구분해야 한다.

현재 LLM 중에서 OSI가 승인한 오픈소스 라이선스는 다음과 같다.

1. EleutherAI 계열

  • 종류: GPT-Neo 시리즈, GPT-J-6B, **GPT-NeoX-20B, **Pythia 등
  • 라이선스: 보통 Apache-2.0 또는 MIT (둘 다 OSI 승인)
  • 특징
    • 학습 코드와 모델 가중치를 공개
    • 상업적 이용, 2차 재배포, 파생 모델 작성 모두 가능

2. MosaicML MPT-7B (Base)

  • 라이선스: 보통 Apache-2.0 또는 MIT (둘 다 OSI 승인)
  • 특징
    • “Base” 체크포인트는 완전한 오픈소스
    • 단, “Instruct”나 “Storywriter” 버전은 상업적 이용/2차 저작 제한이 있는 별도 라이선스(MPL)를 적용하므로 주의

3. Dolly 2.0 (Databricks)

  • 라이선스: CC-BY-SA-3.0 (또는 CC-BY-SA-4.0) 계열 + 모델 가중치에 대한 Databricks 에서 자체 공지
  • CC-BY 계열은 창작물에 대한 자유로운 사용을 허용하지만, 엄밀히 말하면 “소프트웨어 라이선스”라기보다는 저작권 라이선스이므로 OSI 인증 라이선스는 아님
  • 다만, Databricks 측에서 “상업적 활용 가능”을 포함해 공개했기 때문에, 사실상 오픈소스에 준하는 수준으로 많이 간주됨.

4. OpenLLaMa

  • 라이선스: Apache-2.0 (OSI 승인)
  • 특징
    • Meta의 LLaMA 아키텍처를 참조해 독자적으로 학습한 모델
    • 원본 LLaMA는 비상용(non-commercial) 라이선스지만, OpenLLaMA는 전 과정을 공개해 제약 없이 활용 가능

그렇다면, 오픈 레일(RAIL), 즉, 오픈 라이센스 라고 부르는 가중치만 공개하는 준 오픈소스 모델은 다음과 같다.

1. BLOOM (BigScience)

  • 라이선스: RAIL(Responsible AI License) 변형
  • 특징
    • 학계 및 연구 커뮤니티에 자유롭게 제공
    • 특정 사용 사례(악의적 목적) 제한 등 추가 조항 존재
    • OSI 표준 오픈소스 라이선스는 아님

2. StarCoder/SantaCoder (BigCode)

  • 라이선스: StarCoder License(오픈 RAIL 기반)
  • 특징
    • 모델 활용은 가능하나, 일부 사용 제한을 두는 준오픈소스
    • 연구 목적, 비영리 등에는 자유롭지만, 상업적 활용 시 주의

3. Falcon (Technology Innovation Institute)

  • 라이선스: TII Falcon License (Custom)
  • 특징
    • 비영리 사용은 자유롭지만, 상업적 사용 시 별도 조항
    • 오픈소스(OSI 인증)로 인정되지는 않음

4. LLaMA 계열 (Meta)

  • 라이선스: 연구용 비공개 라이선스
  • 특징
    • LLaMA 자체는 “비상업적 연구 목적으로만” 접근 가능
    • Alpaca, Vicuna, WizardLM 등 파생 모델 역시 원저작권 이슈로 인해 공개 배포 시 일반적으로 “상업적 사용 불가” 조항이 붙음

결론

  • OSI 표준 오픈소스 라이선스(예: Apache 2.0, MIT) 로 완전히 공개된 LLM 예시는 아래와 같음
    • EleutherAI: GPT-Neo(125M~2.7B 등), GPT-J(6B), GPT-NeoX(20B), Pythia 시리즈
    • MPT-7B Base (MosaicML)
    • OpenLLaMA (나비야AI, OpenLLaMA 프로젝트 등)
    • (약간의 변칙이 있지만) Dolly 2.0(Databricks)도 상업적 활용 포함 넓게 공개되어 “오픈소스에 준한다”고 종종 언급됨
  • RAIL, TII License 등으로 배포되는 모델들은 일부 사용 제한이 있기 때문에, “오픈소스”라고 부르기엔 다소 애매”한 부분이 있음
    • 예: BLOOM, StarCoder, Falcon 등
  • Meta LLaMA 계열은 공식적으로 완전한 오픈소스 라이선스를 적용하지 않았음.
    • LLaMA 계열(Alpaca, Vicuna 등)은 “연구 목적 비공개 라이선스”(비상업용)로 배포로 “오픈소스”로 분류할 수 없음. 오픈 가중치(Weight)만 공개함.
    • 공개 레포지토리에 올려두더라도, 저작권 이슈 상 “CC-BY-NC 4.0” 등 제약적 라이선스 표기를 많이 사용

댓글남기기