카카오 음성 API 예제 - kakao eumseong API yeje

카카오 STT는 7월 1일부로 서비스 종료하였습니다.

카카오 i Cloud에서 서비스하는것같은데 그때 업데이트 하도록 하겠습니다 ~

api key가 남아있는 분들은 아직 실행되는거같아서 글은 남겨둡니다. 

STT란 Speech To Text의 약자로 카카오에서 제공하는 음성 -> 텍스트 추출 기술이다.

카카오에서 제공하는 AI 관련해서 음성 API를 사용(REST API만 사용한다)

예상으로는 다른 기업들도 오픈소스나 그걸 인수한 데이터들을 베이스로 하기 때문에 비슷비슷할거라 생각. 

아래 관련 링크를 걸어둠. 

제휴, 라이센스, 지원범위등이 나열되어있음.

음성API 링크:

//developers.kakao.com/docs/latest/ko/voice/common

1. 가장 먼저 회원가입을 통한 API KEY를 받아와야한다.

//developers.kakao.com/ 

위 사이트로 들어가 회원가입/로그인을 한 뒤 "내애플리케이션"란에 들어가 애플리케이션을 추가하면 API KEY를 줄것이다. REST API 키를 복사한 뒤 메모장 같은 곳에 저장해두자. 

이후 음성 카테고리에 들어가 활성화 상태를 ON으로 변경한다.

2. STT(Speak to Text) 음성파일을 텍스트로 변환한다.

링크:

//developers.kakao.com/docs/latest/ko/voice/rest-api

아래 사진과 같이 Mono 채널, 16000hz 샘플링, RAW PCM 16 포맷으로 보내야한다.

아래 샘플 오디오 파일을 다운로드 한다. (Mono채널, 16000Hz등 조건에 맞춰져있는 샘플파일이다.)

샘플 오디오는 "헤이 카카오" 라고 녹음되어있다.

먼저 Postman으로 보내본다 ( 파이썬 외 사용할 사람들 참고 )

Postman 링크 : //www.postman.com/

Postman 사용법은 검색... 프로그램방식이있고 익스플로러에서도 사용가능하다. (회원가입 해야하는걸로 앎)

아래는 request 샘플이다. 

- 호스트

- 헤더 ( "KakaoAK [REST API KEY]" )

  KakaoAK 띄우고 아까 애플리케이션을 만들면서 받은 여러분들의 API KEY 값 입력

- 바디

 위에서 받은 샘플 wav 파일 "heykakao.wav"

-결과

Postman 결과 카카오의 개발문서와 비슷한 결과가 리턴됨 

다음은 파이썬 코드이다.

여러분들의 REST API KEY를 입력하고 해당경로에 "heykakao.wav"를 입력한 뒤 실행해본다.

import requests, json url = "//kakaoi-newtone-openapi.kakao.com/v1/recognize" key = '[REST API KEY]' headers = { "Content-Type": "application/octet-stream", "Transfer-Encoding":"chunked", "Authorization": "KakaoAK " + key, } with open('heykakao.wav', 'rb') as fp: audio = fp.read() res = requests.post(url, headers=headers, data=audio) print(res.text)

직접 스트리밍으로 녹음하고 싶을 땐 아래 링크 참조

2021.07.21 - [프로그래밍] - [Python] 마이크로 음성녹음하기

[Python] 마이크로 음성녹음하기

start() / stop()은 쓰레드를 돌리냐 마냐를 기준으로하는 함수이다. 버튼으로 제어하고 싶으면 이벤트로 start() / stop() 을 연결해주면 된다 . complicated_record() / complacted_stop()은 실제로 마이크에서..

park-duck.tistory.com

카카오 TTS(Text to Speak)

2021.07.21 - [프로그래밍] - [python] 카카오 음성API TTS (feat. Postman)

[python] 카카오 음성API TTS (feat. Postman)

카카오 TTS를 사용하려면 API KEY를 받아와야하는데 먼저 아래의 링크로 가서 1번 절차를 보고 설정을 완료한 뒤 온다. 2번 STT는 Speak to Text로 TTS와 반대기능이다. TTS와는 별개이다. TTS (Text to Speak)

park-duck.tistory.com

Toplist

최신 우편물

태그