DEVOCEAN 10월 Tech 세미나 - 2023년의 딥러닝과 LLM 생태계
대외활동 게시글 목록
- DEVOCEAN YOUNG 2기 합격 및 발대식 후기
- DEVOCEAN 3월 Tech 세미나 - Datadog의 Front-End에서 Back-End까지의 여정
- DEVOCEAN YOUNG 2기 3월 활동 후기
- DEVOCEAN 4월 Tech 세미나 - ChatGPT로 인한 새로운 패러다임
- DEVOCEAN YOUNG 2기 4월 활동 후기
- DEVOCEAN 5월 Tech 세미나 - 클라우드 비용 최적화
- DEVOCEAN YOUNG 2기 5월 활동 후기
- SKT AI Campus 본사 방문 투어 후기
- DEVOCEAN 6월 Tech 세미나 - 웹 프론트엔드 성능 최적화 방법 및 적용 사례
- DEVOCEAN YOUNG 7월 전용 밋업 대학생 세미나 후기
- DEVOCEAN 7월 Tech 세미나 - 다가오는 Automated AI 시대, 그 기반 기술과 적용사례
- SKT AI 서비스 기획 CAMP
- DEVOCEAN YOUNG 8월 전용 밋업 대학생 세미나 후기
- 다시듣는 Tech 세미나 AI Agent 기반 문제 정의 방법과 해결 방안 모색
- 다시듣는 Tech 세미나 지식그래프 알아보기
- DEVOCEAN 8월 Tech 세미나 - 업무 생산성 향상을 위한 생성형 AI 사용
- DEVOCEAN 9월 Tech 세미나 - In-Memory Data Grid 기반 Smart Factory 아키텍처링 연구 사례
- SK 그룹에서 개발자 컨퍼런스 SK TECH SUMMIT을 개최합니다.
- DEVOCEAN 10월 Tech 세미나 - 2023년의 딥러닝과 LLM 생태계
2023년의 딥러닝과 LLM 생태계
이번 세미나는 제가 가장 관심있어하는 LLM과 딥러닝에 관한 이야기를 해주셨습니다.
거대 언어 모델에 대한 이해, 개발 요소, 민주화, 변화들, 상용화와 도전 과제에 관한 이야기를 해주셨습니다.
https://devocean.sk.com/vlog/view.do?id=429&vcode=A03
순서는
- 2023년 거대 언어 모델의 대두
- 거대 언어 모델 기반의 응용 사례
- 거대 언어 모델 기반 서비스의 난제
- 2023년 초, 중순의 변화의 시사점과 향후 방향
2023년 거대 언어 모델의 대두
생성 언어 모델은 최근 세분화된 모델에서 벗어나 결과물을 생성할 수 있는 모델들이 각광받고 있습니다.
2018년 Transformer, BERT 같은 모델들이 나오게 됐고 2020년 GPT-3 모델이 등장하게 되었습니다.
2021~2022년엔 모델을 키우고, 10B 이상의 모델들이 나오고 (RLHF의 이득을 가장 많이 보는) 100B (거대 언어모델의 동작을 가르는 지점)이라고 합니다.
이를 통해 OPT, GLM 같은 모델들이 등장하게 되었습니다. 이 단계에서는 Zero-shot 번역, Galactica, Chat GPT 등 서비스가 등장하게 됩니다. (Instruct GPT)
LLM은 챗봇이 아니다.
챗봇은 실제 대화하는 것이 아니라 여러 대화 모델들을 인풋으로 뒤에 생성된 내용들이 명확해진다고 합니다.
이 과정에서 프롬프트가 사용되며, RAG(Retrieval-Augumented Generation) 같은 형태로 활용되고 있습니다.
사전 훈련 모델과 기반 모델인 Foundation Model이라고 하는 데 이를 다양한 용도에 맞춰 파인 튜닝과 In-context Learning을 진행합니다.
가장 많이 발표되고 있는 부분이 사전 훈련 언어모델로 PaLM2, Claude, Falcon LLM, LLama2와 같은 모델들이 있습니다.
거대 언어 모델 기반 서비스의 난제
GPU, NPU와 같은 하드웨어에서 문제가 발생하고 있습니다. 이는 거대 언어 모델 스케일과도 연관되어있는데, PaLM을 훈련할때는 A100 GPU 112장이, Chat GPT 인퍼런스에는 A100 GPU 10장이, GPT-3 인퍼런스에는 A100 GPU 4장이 필요하다고 합니다.
거대 언어모델 용어
말뭉치, 지식 베이스, In context Learning 같은 방법들이 이를 극복하기 위한 수단으로 활용되고 있습니다.
네트워크 또한 NVLink, NVSwitch와 같은 기술들의 발전, 분산 파일 시스템 같은 데이터 확장성 등이 연구되고 있습니다.
최근 파인 튜닝으로는 LoRA와 같은 방법을 통해 Adaptor을 바꾸거나 MegatronLM 같은 미리 만들어진 모델들을 자동으로 할 수 있다고 합니다.
2023년 초, 중순의 변화의 시사점과 향후 방향
Chat GPT의 사업성은 비용이 굉장히 많이 드는 사업이라고 합니다.
또한 공개가능한 모델들이 등장하고 있습니다.