티스토리 뷰
https://jiho-ml.com/weekly-nlp-45/
이 글을 읽다가 든 생각이다. 안녕 세종대왕님.
GPT-3의 스케일이 공개되었을 때는 이에 대한 많은 논란이 있었습니다. "이렇게 큰 모델이 필요한가..", "이제는 돈 없으면 AI를 못하는 시대인가..", "컴퓨팅 파워를 너무 낭비하는 환경 파괴의 주범이 아닌가.." 등등.
한국어라고 하더라도 모델의 스케일이 무척 커야 GPT-3 원 논문에서 보여준 성능을 보여줄 수 있기 때문에, 어느 개인이나 공공 연구소에서 하기는 쉽지 않은 프로젝트였습니다. 가장 먼저 비용이라는 한계가 있을 것이고, 그리고는 스케일을 다룰 수 있는 엔지니어링 능력이 필요합니다.
이렇게 큰 모델을 학습 시키려면 아직까지는 단 한 대의 컴퓨터로 가능하지 않습니다. 여러 대의 서버로 분산을 시켜 학습하고, 결과를 합산시켜야 모아야 하지요. 아무리 머신러닝 관련 분산 컴퓨팅에 대한 여러 연구나 오픈소스 솔루션이 나와있다고는 하지만 GPT-3 규모의 모델을 학습 시키려면 아주 높은 엔지니어링 인프라가 필요합니다.
가공 데이터 생성(Synthetic Data Augmentation)
하이퍼클로바의 또다른 용도는 바로 가공 데이터 생성입니다. 데이터 어그멘테이션(Data augmentation)이라고도 불리는 이 기술은 엄청나게 많은 데이터를 필요로 하는 딥러닝 모델들에게 무척 중요한 기술입니다. 데이터 수집하는데 드는 시간과 비용이 무척 비싼 것에 비해, 딥러닝 모델은 데이터가 적으면 잘 작동하지 않은 경우가 많은데요. 그래서 전에 배웠던 전이 학습(transfer learning) 같은 방식이 많이 쓰입니다.
특히 NLP 데이터 같은 경우에는 같은 의미를 가진 텍스트라도 여러 개의 형태, 방식으로 표현된 데이터가 많으면 많을수록 말을 잘 알아 듣습니다. 예를 들어, 한국어에서 간단하게 안부인사만 해도 얼마나 많은 방식이 있습니까.. (잘 지냈니? 잘 지내셨어요? 요즘 어떻게 보내고 계세요? 요즘 어때? 등등..)
그렇기 때문에 새로운 문제를 해결해야 할 때 데이터를 확보하는게 가장 어려운 일입니다. 머신러닝에서는 이를 Cold-start 문제라고도 하는데요. 최근에 GPT-3나 T5 같은 대형 언어 모델을 통해 학습 데이터를 생성하는 방식이 각광을 받고 있습니다.
https://arxiv.org/abs/2108.13487
Microsoft Research에서 나온 연구
https://arxiv.org/abs/2102.01335
Google Research에서 나온 연구
하이퍼클로바도 역시 비슷한 방식으로 사용할 수 있는데요. 실제로 대화시스템의 유저 인텐트(intent) 분류에서 이러한 방식으로 매우 적은 데이터로 시작해, 하이퍼클로바로 데이터를 뿔리는(?) 방식으로 AI 모델 개발을 더 효율적으로 할 수 있다는 비전을 보여주고 있습니다.
이런 이유에서 나는 이직을 준비한다.
현재 회사는 머신러닝이 모든 것의 답이며 툭 치면 툭 나오는 것으로 알고 있다.
하지만 모델을 학습시키기 위해서는 많은 데이터와 컴퓨팅 자원이 필요하다.
이러한 지원이 있는 곳으로 가고 싶다.
또한 많은 트래픽이 있는 곳에 가보고 싶다.
내 목표는 구글이니까.
Google Research에서 나온 연구
'신입일기(웹툰예정)' 카테고리의 다른 글
3/28 배운 점 (0) | 2022.03.28 |
---|---|
코딩을 진지하게 하지 말자. (0) | 2022.03.28 |
신한메타버스 - it이슈 브리핑 (0) | 2022.03.14 |
3/11 신입일기+뉴스 기웃 (0) | 2022.03.11 |
3/10 신입일기+IT뉴스 기웃 (0) | 2022.03.10 |
- Total
- Today
- Yesterday
- 신입개발자일기
- IT뉴스브리핑
- 2과목 소프트웨어 개발
- 자연어처리 #TIL
- 20대대통령
- 김정주이사
- 여성대표
- 크래프톤
- 대혐오시대
- CBDC
- 인공지능윤리성
- 식별자오류
- 빅데이터 #데이터분석
- 테크스펙
- 뱅샐
- 신은영대표
- 데이터분석실무 #포스코빅데이터아카데미
- 주가부양책
- 포스코 #데이터사이언스 #데이터분석
- IT주식
- 인공지능투명성
- 개발자일기
- 극단적선택
- 신은영
- 종만북
- 주가반영
- 신입일기
- 빅데이터분석 #데이터분석실무 #포스코빅데이터아카데미
- sap코리아
- 유엔여성기구성평등센터
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |