오픈 소스와 오픈 모델의 차이점
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
우리가 흔히 오픈소스라고 하는 말은, 누구나 자유롭게 활용, 수정, 재배포할 수 있는 라이선스”라는 의미로 쓰인다. 실제로는 OSI(Open Source Initiative)가 공인한 라이선스인지, 아니면 사용 제한 조항(예: 비영리 사용만 가능 등)이 있는 “준(準)오픈소스” 형태인지를 구분해야 한다.
현재 LLM 중에서 OSI가 승인한 오픈소스 라이선스는 다음과 같다.
1. EleutherAI 계열
- 종류: GPT-Neo 시리즈, GPT-J-6B, **GPT-NeoX-20B, **Pythia 등
- 라이선스: 보통 Apache-2.0 또는 MIT (둘 다 OSI 승인)
- 특징
- 학습 코드와 모델 가중치를 공개
- 상업적 이용, 2차 재배포, 파생 모델 작성 모두 가능
2. MosaicML MPT-7B (Base)
- 라이선스: 보통 Apache-2.0 또는 MIT (둘 다 OSI 승인)
- 특징
- “Base” 체크포인트는 완전한 오픈소스
- 단, “Instruct”나 “Storywriter” 버전은 상업적 이용/2차 저작 제한이 있는 별도 라이선스(MPL)를 적용하므로 주의
3. Dolly 2.0 (Databricks)
- 라이선스: CC-BY-SA-3.0 (또는 CC-BY-SA-4.0) 계열 + 모델 가중치에 대한 Databricks 에서 자체 공지
- CC-BY 계열은 창작물에 대한 자유로운 사용을 허용하지만, 엄밀히 말하면 “소프트웨어 라이선스”라기보다는 저작권 라이선스이므로 OSI 인증 라이선스는 아님
- 다만, Databricks 측에서 “상업적 활용 가능”을 포함해 공개했기 때문에, 사실상 오픈소스에 준하는 수준으로 많이 간주됨.
4. OpenLLaMa
- 라이선스: Apache-2.0 (OSI 승인)
- 특징
- Meta의 LLaMA 아키텍처를 참조해 독자적으로 학습한 모델
- 원본 LLaMA는 비상용(non-commercial) 라이선스지만, OpenLLaMA는 전 과정을 공개해 제약 없이 활용 가능
그렇다면, 오픈 레일(RAIL), 즉, 오픈 라이센스 라고 부르는 가중치만 공개하는 준 오픈소스 모델은 다음과 같다.
1. BLOOM (BigScience)
- 라이선스: RAIL(Responsible AI License) 변형
- 특징
- 학계 및 연구 커뮤니티에 자유롭게 제공
- 특정 사용 사례(악의적 목적) 제한 등 추가 조항 존재
- OSI 표준 오픈소스 라이선스는 아님
2. StarCoder/SantaCoder (BigCode)
- 라이선스: StarCoder License(오픈 RAIL 기반)
- 특징
- 모델 활용은 가능하나, 일부 사용 제한을 두는 준오픈소스
- 연구 목적, 비영리 등에는 자유롭지만, 상업적 활용 시 주의
3. Falcon (Technology Innovation Institute)
- 라이선스: TII Falcon License (Custom)
- 특징
- 비영리 사용은 자유롭지만, 상업적 사용 시 별도 조항
- 오픈소스(OSI 인증)로 인정되지는 않음
4. LLaMA 계열 (Meta)
- 라이선스: 연구용 비공개 라이선스
- 특징
- LLaMA 자체는 “비상업적 연구 목적으로만” 접근 가능
- Alpaca, Vicuna, WizardLM 등 파생 모델 역시 원저작권 이슈로 인해 공개 배포 시 일반적으로 “상업적 사용 불가” 조항이 붙음
결론
- OSI 표준 오픈소스 라이선스(예: Apache 2.0, MIT) 로 완전히 공개된 LLM 예시는 아래와 같음
- EleutherAI: GPT-Neo(125M~2.7B 등), GPT-J(6B), GPT-NeoX(20B), Pythia 시리즈
- MPT-7B Base (MosaicML)
- OpenLLaMA (나비야AI, OpenLLaMA 프로젝트 등)
- (약간의 변칙이 있지만) Dolly 2.0(Databricks)도 상업적 활용 포함 넓게 공개되어 “오픈소스에 준한다”고 종종 언급됨
- RAIL, TII License 등으로 배포되는 모델들은 일부 사용 제한이 있기 때문에, “오픈소스”라고 부르기엔 다소 애매”한 부분이 있음
- 예: BLOOM, StarCoder, Falcon 등
- Meta LLaMA 계열은 공식적으로 완전한 오픈소스 라이선스를 적용하지 않았음.
- LLaMA 계열(Alpaca, Vicuna 등)은 “연구 목적 비공개 라이선스”(비상업용)로 배포로 “오픈소스”로 분류할 수 없음. 오픈 가중치(Weight)만 공개함.
- 공개 레포지토리에 올려두더라도, 저작권 이슈 상 “CC-BY-NC 4.0” 등 제약적 라이선스 표기를 많이 사용
댓글남기기