티스토리 뷰
오늘은 간단한 네트워크단 지식에 대해서 설명을 듣고 내가 맡을 업무에 대한 간략적인 개요를 들었다.
내가 아는 것에 대해서 지식이 많이 짧았던 거 같고 화상 회의 플랫폼에 대해서 공부해볼 수 있는 좋은 기회인 거 같아서 즐겁다.
STT vs TTS에 대해 TTS만 많이 들어봤는데 찾아보니 그냥 반대 개념이다.
Speech to text vs Text to speech.
내가 맡을 업무는 순수 RD에 가까운 업무로 화상 회의 플랫폼 상의 대화를 자막으로 띄우고 이를 번역하는 작업이다.
생각해보니 자막으로 오디오를 변환해주는 기술은 어디선가 본 적이 있는 거 같다. 세미나를 들을 때 음성 대본으로 변환해서 보여줬는데 사람이 한 건지는 모르겠으나 관련 기술을 적용할 수 있을 것 같다.
+ 생각해보니 네이버 클로바 노트도 그러한 기술을 가지고 있다. 참고하면 좋을 거 같다.
>>찾아보니까 세미나 기술은 쉐어타이핑이라는 서비스로 속기사가 쓴 거 같다. 쉐어타이핑을 개발한 회사 에이유디와 SK㈜ C&C는 쉐어톡이라는 서비스를 개발하려고 2019년경부터 시작한 거 같지만 아직까지 별다른 기사가 없고 내가 작년에 들었던 세미나에서도 쉐어타이핑을 사용한 것을 보아 성공적으로 기술 개발이 진행된 거 같지 않다.
http://www.bikorea.net/news/articleView.html?idxno=23664
그런데 생각해보니까 그 세미나의 기술은 속기사가 한 거 같고 클로바 노트의 경우 녹음된 파일 한정이며 실시간이 아니다. 실시간으로 만약에 가능하다면 상당히 혁신적인 기술이 될 거 같다. 녹음된 파일 또한 텍스트 변환까지 조금의 시간이 걸린다.
>관련 논문 참고 요약
구글 클라우드 플랫폼의 Speech API를 활용하여 개발하였다. 실시간으로 스마트폰의 마이크를 통해 실시간으로 STT 기능을 제공
한국어 인식률을 높이려면 GCP의 API보다는 클로바가 나을 거 같기도 하다. 그와 관련하여 지금 조사 중에 있다.
일단 마소에서 나온 SDK가 있다.
카카오 SDK
ncp의 경우에도 이용 요금은 있다.
https://www.ncloud.com/product/aiService/csr
https://www.ncloud.com/product/aiService/csr
NLP 발전 속도
https://www.bloter.net/newsView/blt202105250016
알게 된 것
https://medium.com/@lunay0ung/android-jetpack%EC%9D%B4%EB%9E%80-bfb360ab05ec
오늘의 관심 기업
https://www.bloter.net/newsView/blt202110150081
https://www.kakaobrain.com/blog/109
실전
고려해야하는 사항 - 텍스트로 스피치를 변환하는데 걸리는 딜레이 줄이기 > 스피치를 자르거나 아니면 중간에 말을 쉬는 타이밍을 끊어야 할 것으로 보임.....
AI기반 콜센터 실시간 상담 도우미 시스템 개발 - N은행 콜센터 사례를 중심으로
논문 참고>
3.2.2.2 실시간 음성 인식 시스템(STT) 상담 도우미가 동작하기 위한 기본적인 전제조건은 음성인식이 실시간으로 이루어져야 한다. 특히 콜센터의 상담이라는 대화체의 연속 음성을 인식할 수 있어야 한 다. 본 사업에서는 ETRI(한국전자통신연구원)에서 개발 한 음성인식 엔진을 기술 이전받아 개발한 시스템으로 구축하였다. STT(Speech To Text) 시스템은 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 엔진으 로써, 실시간 단어별 지속시간 모델링을 이용한 발화 검 증을 위한 탐색 엔진과 자동 음성 인식을 위한 동적 특징 추출을 하는 전처리 모듈, 딥러닝(Deep Learning) 기반 의 고도화된 음향 모델, 음성인식 엔진에서 출력되는 형 태소 열에 대해 어절을 복원하고 문장 단위로 출력하여도 한국산학기술학회논문지 제20권 제2호, 2019 756 록 지원하는 인식 후처리 도구로 구성되어 한국어 인식 에 최적화되어있다[33]. STT는 도메인 언어에 최적화된 답을 낼 수 있도록 음 향 모델과 언어 모델을 학습시켜야 한다. 언어 모델의 경 우 도메인에서 사용되는 코퍼스만 확보하면 되지만, 음 향 모델을 학습하기 위해서는 전화 상담 음성과 발화 내 용에 대한 텍스트 세트가 필요하다. 그래서 실제 전화 음 성을 속기사가 수기로 전사하여 음향 모델을 학습하여 정확도를 향상한다. 그 결과는 아래 Table 4.와 같다.
https://itec.etri.re.kr/itec/sub02/sub02_01_1.do?t_id=1220-2018-01147
https://ai-creator.tistory.com/58
이걸 사용한 거 같기도 하다
https://ai-creator.tistory.com/59
https://www.youtube.com/watch?v=Ds-7D8d-FwA
https://www.mk.co.kr/news/world/view/2021/09/884452/
그리고 내가 하고 싶었던 것은 이미 개발되고 있었다. 한국어가 개발되었을 거 같지는 않지만, 어떻게 구현될지 너무 궁금하다..... 역시 사람 생각은 다 똑같아. 그래도 나는 개발해보고 싶다.
구글 미트에서도 한정적으로 제공되고 있다고 한다. 한국어로는 아니지만, 아무래도 영어와 한국어와의 그 기본 골자가 다르다보니 바로 번역되기는 조금 어려움이 있지 않을까 싶다. 인공지능 스피커처럼 네이버가 이 부분에서는 앞서 나가서 웨일화상회의에 적용시킬 가능성이 있다.
https://ebbnflow.tistory.com/188
이게 가장 괜찮아보인다.
https://developer.android.com/reference/android/speech/SpeechRecognizer
공식문서
https://berkbach.com/creating-an-android-google-stt-application-4cea24ee97af
재밌는 거
GPT-3 projects들
https://brunch.co.kr/@monglec/74
https://ai-creator.tistory.com/415?category=785490
'신입일기(웹툰예정)' 카테고리의 다른 글
1/10 업무일지 TIL+주간보고+STT 구현(Android) (0) | 2022.01.10 |
---|---|
1/7 업무 일지 (0) | 2022.01.07 |
1/6 업무일지 (0) | 2022.01.06 |
1/5 업무일지 TIL (0) | 2022.01.05 |
1/4 NLP 업무 2일차 TIL (0) | 2022.01.04 |
- Total
- Today
- Yesterday
- 식별자오류
- 신은영
- 인공지능윤리성
- 20대대통령
- 신은영대표
- 포스코 #데이터사이언스 #데이터분석
- 신입개발자일기
- IT주식
- 종만북
- 대혐오시대
- 빅데이터 #데이터분석
- 뱅샐
- 2과목 소프트웨어 개발
- 테크스펙
- 신입일기
- 유엔여성기구성평등센터
- CBDC
- 데이터분석실무 #포스코빅데이터아카데미
- 여성대표
- 김정주이사
- sap코리아
- 개발자일기
- 인공지능투명성
- 자연어처리 #TIL
- 크래프톤
- 극단적선택
- 주가부양책
- IT뉴스브리핑
- 주가반영
- 빅데이터분석 #데이터분석실무 #포스코빅데이터아카데미
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |