티스토리 뷰

728x90
SMALL

오늘은 간단한 네트워크단 지식에 대해서 설명을 듣고 내가 맡을 업무에 대한 간략적인 개요를 들었다.

 

내가 아는 것에 대해서 지식이 많이 짧았던 거 같고 화상 회의 플랫폼에 대해서 공부해볼 수 있는 좋은 기회인 거 같아서 즐겁다.

 

https://http2.tistory.com/16

 

STT 맛보기

STT는 Speech To Text의 약자로, ASR(Automatic Speech Recognition)라고도 부릅니다. 사람이 음성으로 말을하면 그것을 듣고 Text로 결과를 보여줍니다. 이 반대는 TTS로 Text to Speech의 약자로, Text를 컴퓨터..

http2.tistory.com

STT vs TTS에 대해  TTS만 많이 들어봤는데 찾아보니 그냥 반대 개념이다.

Speech to text vs Text to speech.

 

내가 맡을 업무는 순수 RD에 가까운 업무로 화상 회의 플랫폼 상의 대화를 자막으로 띄우고 이를 번역하는 작업이다.

생각해보니 자막으로 오디오를 변환해주는 기술은 어디선가 본 적이 있는 거 같다. 세미나를 들을 때 음성 대본으로 변환해서 보여줬는데 사람이 한 건지는 모르겠으나 관련 기술을 적용할 수 있을 것 같다. 

+ 생각해보니 네이버 클로바 노트도 그러한 기술을 가지고 있다. 참고하면 좋을 거 같다.

>>찾아보니까 세미나 기술은 쉐어타이핑이라는 서비스로 속기사가 쓴 거 같다. 쉐어타이핑을 개발한 회사 에이유디와 SK㈜ C&C는 쉐어톡이라는 서비스를 개발하려고 2019년경부터 시작한 거 같지만 아직까지 별다른 기사가 없고 내가 작년에 들었던 세미나에서도 쉐어타이핑을 사용한 것을 보아 성공적으로 기술 개발이 진행된 거 같지 않다.

http://www.bikorea.net/news/articleView.html?idxno=23664 

 

SK, AI 문자통역 서비스 ‘쉐어톡’ 출시 - BI KOREA

뉴스 SK, AI 문자통역 서비스 ‘쉐어톡’ 출시에이유디, 사회적협동조합 20개 단체 협력 SK㈜ C&C(사업대표 안정옥 www.sk.co.kr)와 에이유디(AUD) 사회적협동조합, 한국장애인고용공단, 한국잡월드 등 2

www.bikorea.net

 

그런데 생각해보니까 그 세미나의 기술은 속기사가 한 거 같고 클로바 노트의 경우 녹음된 파일 한정이며 실시간이 아니다. 실시간으로 만약에 가능하다면 상당히 혁신적인 기술이 될 거 같다. 녹음된 파일 또한 텍스트 변환까지 조금의 시간이 걸린다.

 

 

>관련 논문 참고 요약

구글 클라우드 플랫폼의 Speech API를 활용하여 개발하였다. 실시간으로 스마트폰의 마이크를 통해 실시간으로 STT 기능을 제공

 


 

한국어 인식률을 높이려면 GCP의 API보다는 클로바가 나을 거 같기도 하다. 그와 관련하여 지금 조사 중에 있다.

 

일단 마소에서 나온 SDK가 있다.

https://docs.microsoft.com/ko-kr/azure/cognitive-services/speech-service/speech-sdk?tabs=windows%2Cubuntu%2Cios-xcode%2Cmac-xcode%2Candroid-studio 

 

Speech SDK 정보 - Speech Service - Azure Cognitive Services

Speech SDK(소프트웨어 개발 키트)는 많은 Speech Service 기능을 제공하므로 음성 지원 애플리케이션을 보다 쉽게 개발할 수 있습니다.

docs.microsoft.com

 

카카오 SDK

https://speech-api.kakao.com/

 

 

ncp의 경우에도 이용 요금은 있다. 

 

https://www.ncloud.com/product/aiService/csr

 

NAVER CLOUD PLATFORM

cloud computing services for corporations, IaaS, PaaS, SaaS, with Global region and Security Technology Certification

www.ncloud.com

https://www.ncloud.com/product/aiService/csr

 

NAVER CLOUD PLATFORM

cloud computing services for corporations, IaaS, PaaS, SaaS, with Global region and Security Technology Certification

www.ncloud.com

 


NLP 발전 속도

https://www.bloter.net/newsView/blt202105250016

 

네이버 초거대 AI ‘하이퍼클로바’, 뭐가 다를까

△네이버 정석근 클로바 CIC 대표 “우리말을 가장 잘 이해하고 구사하는 최초의 초대형 한국어 인공지능입니다.” 네이버가 국내 기업

www.bloter.net

 

알게 된 것

https://medium.com/@lunay0ung/android-jetpack%EC%9D%B4%EB%9E%80-bfb360ab05ec

 

Android: Jetpack이란?

이번에는 안드로이드의 Jetpack에 대해 포스팅해보고자 한다. Jetpack이 출시된 지 2년이 다 되어가므로 조금 늦었나 싶긴 한데, 다른 사람이 이해하기 쉬운 자료를 만드는 것은 매우 효과적인 공부

medium.com

 

오늘의 관심 기업

https://www.bloter.net/newsView/blt202110150081

 

[테크체인저]"고객의 부를 증대해드립니다"...김병석 '삼쩜삼' 개발자의 '씽킹 방법'

김병석 자비스앤빌런즈 CTO. (사진=자비스앤빌런즈) “고객에게 전달하려는 핵심가치는 ‘고객의 부를 증대해드린다’는 것입니다.”15일

www.bloter.net

https://www.kakaobrain.com/blog/109

 

카카오브레인

Unthinkable question makes impactful answer.

www.kakaobrain.com

 


 실전

 

고려해야하는 사항 - 텍스트로 스피치를 변환하는데 걸리는 딜레이 줄이기 > 스피치를 자르거나 아니면 중간에 말을 쉬는 타이밍을 끊어야 할 것으로 보임.....

 

AI기반 콜센터 실시간 상담 도우미 시스템 개발 - N은행 콜센터 사례를 중심으로

논문 참고>

3.2.2.2 실시간 음성 인식 시스템(STT) 상담 도우미가 동작하기 위한 기본적인 전제조건은 음성인식이 실시간으로 이루어져야 한다. 특히 콜센터의 상담이라는 대화체의 연속 음성을 인식할 수 있어야 한 다. 본 사업에서는 ETRI(한국전자통신연구원)에서 개발 한 음성인식 엔진을 기술 이전받아 개발한 시스템으로 구축하였다. STT(Speech To Text) 시스템은 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 엔진으 로써, 실시간 단어별 지속시간 모델링을 이용한 발화 검 증을 위한 탐색 엔진과 자동 음성 인식을 위한 동적 특징 추출을 하는 전처리 모듈, 딥러닝(Deep Learning) 기반 의 고도화된 음향 모델, 음성인식 엔진에서 출력되는 형 태소 열에 대해 어절을 복원하고 문장 단위로 출력하여도 한국산학기술학회논문지 제20권 제2호, 2019 756 록 지원하는 인식 후처리 도구로 구성되어 한국어 인식 에 최적화되어있다[33]. STT는 도메인 언어에 최적화된 답을 낼 수 있도록 음 향 모델과 언어 모델을 학습시켜야 한다. 언어 모델의 경 우 도메인에서 사용되는 코퍼스만 확보하면 되지만, 음 향 모델을 학습하기 위해서는 전화 상담 음성과 발화 내 용에 대한 텍스트 세트가 필요하다. 그래서 실제 전화 음 성을 속기사가 수기로 전사하여 음향 모델을 학습하여 정확도를 향상한다. 그 결과는 아래 Table 4.와 같다.

https://itec.etri.re.kr/itec/sub02/sub02_01_1.do?t_id=1220-2018-01147 

 

ETRI 기술이전 사이트에 오신걸 환영합니다.

 

itec.etri.re.kr

https://ai-creator.tistory.com/58

 

음성인식(STT) 빨리 시작하기 - ETRI OpenAPI

ETRI 에서 음성인식(STT, Speech-To-Text)를 무료로 제공하고 있습니다. ㅁ 1일 무료 허용량 하루에 1000건씩 무료로 제공하니 목적에 맞춰 잘 사용한다면, 아주 좋을 것 같네요. 빨리 시작해 보시죠~ <<

ai-creator.tistory.com

이걸 사용한 거 같기도 하다

 

https://ai-creator.tistory.com/59

 

음성인식(STT/TTS) 빨리 시작하기 - SpeechRecognition 구글

ETRI와 비교하여 구글 STT에서는 유료로 서비스를 제공하고 있습니다. 구글 STT를 실제로 이용하기 위한 절차는 다음과 같습니다. 1. 서비스 계정 키 2. 결제 정보 등록 3. gcloud tool 설치 따라서 비교

ai-creator.tistory.com

https://www.youtube.com/watch?v=Ds-7D8d-FwA 


https://www.mk.co.kr/news/world/view/2021/09/884452/

 

`줌`에서 하는 말, 실시간 번역된다

강의 칠판기능도 업그레이드 예정 이벤트 `줌토피아 2021`에서 발표

www.mk.co.kr

그리고 내가 하고 싶었던 것은 이미 개발되고 있었다. 한국어가 개발되었을 거 같지는 않지만, 어떻게 구현될지 너무 궁금하다..... 역시 사람 생각은 다 똑같아. 그래도 나는 개발해보고 싶다.

 

구글 미트에서도 한정적으로 제공되고 있다고 한다. 한국어로는 아니지만, 아무래도 영어와 한국어와의 그 기본 골자가 다르다보니 바로 번역되기는 조금 어려움이 있지 않을까 싶다. 인공지능 스피커처럼 네이버가 이 부분에서는 앞서 나가서 웨일화상회의에 적용시킬 가능성이 있다.

 


https://ebbnflow.tistory.com/188

 

[Android] 구글STT, TTS 사용하기 (android.speech)

● Android Speech Recognizer 안드로이드에서는 구글 SpeechToText, TextToSpeech 기술인 stt, tts를 내장 API로 지원하고 있습니다. 별도의 설치 없이 gradle에 특별한 세팅이 필요하지 않고 manifest에 몇 가..

ebbnflow.tistory.com

이게 가장 괜찮아보인다.

 

https://developer.android.com/reference/android/speech/SpeechRecognizer

 

SpeechRecognizer  |  Android Developers

 

developer.android.com

공식문서

 

https://berkbach.com/creating-an-android-google-stt-application-4cea24ee97af

 

Creating an Android Google STT application

STT(Speech to Text)로 음성인식 어플을 만들기

berkbach.com

 

 

 


 

https://kwon8999.tistory.com/entry/%EC%95%88%EB%93%9C%EB%A1%9C%EC%9D%B4%EB%93%9C-%EA%B5%AC%EA%B8%80-%EC%9D%8C%EC%84%B1APISpeechRecognizer-tutorial

 

안드로이드 구글 음성API[SpeechRecognizer tutorial]

구글 음성 API 흔히 적혀있는 SPEECH TO TEXT에 대한 Tutorial 파일입니다. Gradle에 다른 특별한 셋팅은 없네요. 필요한 권한은 인터넷과 오디오 부분입니다. Intent 데이터중에 RecognizerIntent가 있는데 그

kwon8999.tistory.com


재밌는 거

GPT-3 projects들

http://gptcrush.com/

 

GPT Crush

@chinyasuhail demos a usecase to create, deploy, list, and delete any services…  Jul 26, 2020 3.8K 23

gptcrush.com

https://brunch.co.kr/@monglec/74

 

시와 글을 쓰고 디자인과 코딩을 하는 AI, GPT-3

오픈AI에서 생성적 사전학습의 3번째 버전을 공개하였다. | #14. 최근 인공지능 학계, 업계에서 모두 GPT-3로 인해 다양한 이야기들이 나오고 있다. GPT-2가 나왔을 때만 해도 자연스러운 글을 쓸 수

brunch.co.kr

https://openai.com/api/

 

OpenAI API

OpenAI is an AI research and deployment company. Our mission is to ensure that artificial general intelligence benefits all of humanity.

openai.com

https://ai-creator.tistory.com/415?category=785490 

 

[python 독학] 1. 파이썬 설치 없이 코딩하기 (feat. colab)

유치한 파이썬에 오신 것을 환영합니다. 오늘은 아래와 같은 순서로 배워보겠습니다. # 들어가며 # 해결책 # colab 사용하기 Step1) 구글 드라이브 접속 Step2) 새로만들기 > colaboratory Step3) 파이썬 

ai-creator.tistory.com

https://www.google.com/search?q=openai%EB%A1%9C+%EB%A7%8C%EB%93%A0+%EC%95%B1&oq=openai%EB%A1%9C+%EB%A7%8C%EB%93%A0+%EC%95%B1&aqs=chrome..69i57j33i160.11214j0j7&sourceid=chrome&ie=UTF-8 

 

openai로 만든 앱 - Google 검색

2020. 10. 15. · OpenAI사가 만든 GPT-n 시리즈의 3세대 언어 예측 모델이다. ... 자연어로 홈페이지나 앱을 설명하면, 그에 대한 코드가 나오고, 이를 돌려볼 수 ...

www.google.com

 

728x90
LIST

'신입일기(웹툰예정)' 카테고리의 다른 글

1/10 업무일지 TIL+주간보고+STT 구현(Android)  (0) 2022.01.10
1/7 업무 일지  (0) 2022.01.07
1/6 업무일지  (0) 2022.01.06
1/5 업무일지 TIL  (0) 2022.01.05
1/4 NLP 업무 2일차 TIL  (0) 2022.01.04