/ ACTIVITY

DEVOCEAN 10월 Tech 세미나 - 2023년의 딥러닝과 LLM 생태계

대외활동 게시글 목록

2023년의 딥러닝과 LLM 생태계

이번 세미나는 제가 가장 관심있어하는 LLM과 딥러닝에 관한 이야기를 해주셨습니다.
거대 언어 모델에 대한 이해, 개발 요소, 민주화, 변화들, 상용화와 도전 과제에 관한 이야기를 해주셨습니다.

https://devocean.sk.com/vlog/view.do?id=429&vcode=A03

순서는

  1. 2023년 거대 언어 모델의 대두
  2. 거대 언어 모델 기반의 응용 사례
  3. 거대 언어 모델 기반 서비스의 난제
  4. 2023년 초, 중순의 변화의 시사점과 향후 방향

2023년 거대 언어 모델의 대두

생성 언어 모델은 최근 세분화된 모델에서 벗어나 결과물을 생성할 수 있는 모델들이 각광받고 있습니다.
2018년 Transformer, BERT 같은 모델들이 나오게 됐고 2020년 GPT-3 모델이 등장하게 되었습니다.

2021~2022년엔 모델을 키우고, 10B 이상의 모델들이 나오고 (RLHF의 이득을 가장 많이 보는) 100B (거대 언어모델의 동작을 가르는 지점)이라고 합니다.
이를 통해 OPT, GLM 같은 모델들이 등장하게 되었습니다. 이 단계에서는 Zero-shot 번역, Galactica, Chat GPT 등 서비스가 등장하게 됩니다. (Instruct GPT)

LLM은 챗봇이 아니다.

챗봇은 실제 대화하는 것이 아니라 여러 대화 모델들을 인풋으로 뒤에 생성된 내용들이 명확해진다고 합니다.
이 과정에서 프롬프트가 사용되며, RAG(Retrieval-Augumented Generation) 같은 형태로 활용되고 있습니다.

사전 훈련 모델과 기반 모델인 Foundation Model이라고 하는 데 이를 다양한 용도에 맞춰 파인 튜닝과 In-context Learning을 진행합니다.
가장 많이 발표되고 있는 부분이 사전 훈련 언어모델로 PaLM2, Claude, Falcon LLM, LLama2와 같은 모델들이 있습니다.

거대 언어 모델 기반 서비스의 난제

GPU, NPU와 같은 하드웨어에서 문제가 발생하고 있습니다. 이는 거대 언어 모델 스케일과도 연관되어있는데, PaLM을 훈련할때는 A100 GPU 112장이, Chat GPT 인퍼런스에는 A100 GPU 10장이, GPT-3 인퍼런스에는 A100 GPU 4장이 필요하다고 합니다.

거대 언어모델 용어

말뭉치, 지식 베이스, In context Learning 같은 방법들이 이를 극복하기 위한 수단으로 활용되고 있습니다.
네트워크 또한 NVLink, NVSwitch와 같은 기술들의 발전, 분산 파일 시스템 같은 데이터 확장성 등이 연구되고 있습니다.

최근 파인 튜닝으로는 LoRA와 같은 방법을 통해 Adaptor을 바꾸거나 MegatronLM 같은 미리 만들어진 모델들을 자동으로 할 수 있다고 합니다.

2023년 초, 중순의 변화의 시사점과 향후 방향

Chat GPT의 사업성은 비용이 굉장히 많이 드는 사업이라고 합니다.
또한 공개가능한 모델들이 등장하고 있습니다.