STT (Speech-To-Text)

마인즈랩의 STT API는 다양한 환경의 음성을 텍스트로 변환시켜주는 API입니다.

준비사항

① Input: 음성파일 (.wav/.pcm/.mp3)

② 아래 Model 중 택 1

  • 한글 8K (baseline, kor, 8000)
  • 한글 16K (baseline, kor, 16000)
  • 영어 8K (baseline, eng, 8000)
  • 영어 16K (baseline, eng, 16000)
  • 주소인식 (address, kor, 8000)
  • 한국식 영어 발음 (kor_accent, eng, 8000)
  • 영어 강사용 (mindsedu_t, eng, 8000)
  • 영어 학생용 (mindsedu_s, eng, 8000)
실행 가이드

① Request

  • Method : POST
  • URL : https://api.maum.ai/api/stt/

② Request 파라미터 설명

설명 type
ID 사용자의 고유 ID. 마인즈랩 담당자에게 이메일로 발급요청 string
key 사용자의 고유 key. 마인즈랩 담당자에게 이메일로 발급요청 string
cmd 어떤 API 를 사용할지에 대한 간단한 키워드 (runFileStt) string
lang 사용할 모델의 언어 ( kor / eng ) string
sampling 사용할 모델의 sampling rate (8000 / 16000) string
level 사용할 모델의 level (baseline / address / kor_accent / mindsedu_t / mindsedu_s ) string
file type:file (wav, pcm, mp3) 음성파일 string

③ Request 예제

curl -X POST \
https://api.maum.ai/api/stt/ \
-H 'content-type: multipart/form-data; boundary=----WebKitFormBoundary7MA4YWxkTrZu0gW' \
-F ID= (*ID 요청 필요) \
-F key= (*key 요청 필요) \
-F lang=eng \
-F sampling=8000 \
-F level=baseline \
-F 'file=@eng_8k_1.wav' \
-F cmd=runFileStt

④ Response 파라미터 설명

Response
설명 타입
status API 동작여부 (Success / Fail) string
extra_data 음성파일에 대한 데이터 object
data 인식한 text 결과 string
extra_data: 음성파일에 대한 데이터
설명 타입
stt_length 입력된 글자 수 int
stt_data STT 변환 결과 string
stt_duration 음성파일 길이(초) number

⑤ Response 예제

{
"status": "Success",
"extra_data": {
"stt_data": "Let's play badminton.\n",
"stt_duration": "2.387"
},
"data": "Let's play badminton.\n"
}

Contact Us

마인즈랩과 마인즈랩의 API 서비스에 대한 문의가 있으시다면 여기에 남겨주세요.
페이스북과 링크드인을 팔로우하시면 새 소식을 더 빠르게 접하실 수 있습니다.

문의하기