티스토리 뷰

728x90
SMALL

https://jiho-ml.com/weekly-nlp-45/

 

Week 45 - 한국어 최강 언어모델 등장! HYPERCLOVA 리뷰

GPT-3의 공개가 세상을 놀래킨지 1년 정도의 시간이 지났습니다. 엄청난 모델 스케일 뿐만 아니라, 이 모델을 이용한 다양한 응용 케이스들이 많은 관심을 끌고 있습니다. 그만큼 NLP라는 분야에

jiho-ml.com

이 글을 읽다가 든 생각이다. 안녕 세종대왕님.

GPT-3의 스케일이 공개되었을 때는 이에 대한 많은 논란이 있었습니다. "이렇게 큰 모델이 필요한가..", "이제는 돈 없으면 AI를 못하는 시대인가..", "컴퓨팅 파워를 너무 낭비하는 환경 파괴의 주범이 아닌가.." 등등.

한국어라고 하더라도 모델의 스케일이 무척 커야 GPT-3 원 논문에서 보여준 성능을 보여줄 수 있기 때문에, 어느 개인이나 공공 연구소에서 하기는 쉽지 않은 프로젝트였습니다. 가장 먼저 비용이라는 한계가 있을 것이고, 그리고는 스케일을 다룰 수 있는 엔지니어링 능력이 필요합니다.

이렇게 큰 모델을 학습 시키려면 아직까지는 단 한 대의 컴퓨터로 가능하지 않습니다. 여러 대의 서버로 분산을 시켜 학습하고, 결과를 합산시켜야 모아야 하지요. 아무리 머신러닝 관련 분산 컴퓨팅에 대한 여러 연구나 오픈소스 솔루션이 나와있다고는 하지만 GPT-3 규모의 모델을 학습 시키려면 아주 높은 엔지니어링 인프라가 필요합니다.

가공 데이터 생성(Synthetic Data Augmentation)

하이퍼클로바의 또다른 용도는 바로 가공 데이터 생성입니다. 데이터 어그멘테이션(Data augmentation)이라고도 불리는 이 기술은 엄청나게 많은 데이터를 필요로 하는 딥러닝 모델들에게 무척 중요한 기술입니다. 데이터 수집하는데 드는 시간과 비용이 무척 비싼 것에 비해, 딥러닝 모델은 데이터가 적으면 잘 작동하지 않은 경우가 많은데요. 그래서 전에 배웠던 전이 학습(transfer learning) 같은 방식이 많이 쓰입니다.

특히 NLP 데이터 같은 경우에는 같은 의미를 가진 텍스트라도 여러 개의 형태, 방식으로 표현된 데이터가 많으면 많을수록 말을 잘 알아 듣습니다. 예를 들어, 한국어에서 간단하게 안부인사만 해도 얼마나 많은 방식이 있습니까.. (잘 지냈니? 잘 지내셨어요? 요즘 어떻게 보내고 계세요? 요즘 어때? 등등..)

그렇기 때문에 새로운 문제를 해결해야 할 때 데이터를 확보하는게 가장 어려운 일입니다. 머신러닝에서는 이를 Cold-start 문제라고도 하는데요. 최근에 GPT-3나 T5 같은 대형 언어 모델을 통해 학습 데이터를 생성하는 방식이 각광을 받고 있습니다.

https://arxiv.org/abs/2108.13487

 

Want To Reduce Labeling Cost? GPT-3 Can Help

Data annotation is a time-consuming and labor-intensive process for many NLP tasks. Although there exist various methods to produce pseudo data labels, they are often task-specific and require a decent amount of labeled data to start with. Recently, the im

arxiv.org

Microsoft Research에서 나온 연구

https://arxiv.org/abs/2102.01335

 

Neural Data Augmentation via Example Extrapolation

In many applications of machine learning, certain categories of examples may be underrepresented in the training data, causing systems to underperform on such "few-shot" cases at test time. A common remedy is to perform data augmentation, such as by duplic

arxiv.org

Google Research에서 나온 연구

하이퍼클로바도 역시 비슷한 방식으로 사용할 수 있는데요. 실제로 대화시스템의 유저 인텐트(intent) 분류에서 이러한 방식으로 매우 적은 데이터로 시작해, 하이퍼클로바로 데이터를 뿔리는(?) 방식으로 AI 모델 개발을 더 효율적으로 할 수 있다는 비전을 보여주고 있습니다.

https://naver-ai-now.kr/

 

NAVER AI NOW

모두를 위한 AI의 시작을 함께하세요.

naver-ai-now.kr


이런 이유에서 나는 이직을 준비한다.

현재 회사는 머신러닝이 모든 것의 답이며 툭 치면 툭 나오는 것으로 알고 있다.

하지만 모델을 학습시키기 위해서는 많은 데이터와 컴퓨팅 자원이 필요하다.

이러한 지원이 있는 곳으로 가고 싶다.

 

또한 많은 트래픽이 있는 곳에 가보고 싶다.

내 목표는 구글이니까. 

Google Research에서 나온 연구

728x90
LIST

'신입일기(웹툰예정)' 카테고리의 다른 글

3/28 배운 점  (0) 2022.03.28
코딩을 진지하게 하지 말자.  (0) 2022.03.28
신한메타버스 - it이슈 브리핑  (0) 2022.03.14
3/11 신입일기+뉴스 기웃  (0) 2022.03.11
3/10 신입일기+IT뉴스 기웃  (0) 2022.03.10