주요메뉴 바로가기 본문 바로가기 지역메뉴 바로가기
주요메뉴 바로가기 본문 바로가기 지역메뉴 바로가기
 
안내 이미지

가격협의 상품 및 유료상품의 구매를 원하실 경우
맞춤형 데이터 신청란에 글을 남겨주시면
신속히 답변드리도록 하겠습니다.

데이터 마켓

과학기술
과학기술
대화/구어체 한영 말뭉치 코퍼스 데이터 15만 건 [데이터셋1호]
  • 별점 0
  • 추천 0
  • 조회 1,930
  • 다운로드 수 4
데이터상품 제공 정보
데이터 제공 포맷 데이터 제공 방식 데이터 파일 용량
csv 다운로드 8.15 MB
유료 이용 데이터

7,500,000

  • 상세정보
  • Open API
  • 샘플정보
  • 연락처 및 데이터 관련
  • 제약 및 취소환불 규정
데이터 메타 정보
상세정보 데이터
데이터셋명 대화/구어체 한영 말뭉치 코퍼스 데이터 15만 건 [데이터셋1호] 데이터 유형 csv
데이터 분야 과학기술 구축 데이터량 8.15 MB
구축기관 인사이트베슬 데이터 갱신 일자 -
데이터 개방 일자 2023-08-17 데이터 이용 기한 무기한
데이터 갱신 주기 - 버전 -
주요 키워드 대화, 챗봇, 글로벌, 한영, 영한, 번역, 번역AI, 대화체, 구어체
벨류체인 키워드 마케팅, 서비스
소개 실제 대화, 발화, 영상을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수 완료
데이터 설명
• 데이터는 한영 말뭉치 언어 데이터로써 대화번역챗봇콘텐츠 번역 등에서 활용할 수 있는 데이터임
• 데이터 발생 출처실제 영상 발화 및 콘텐츠 번역 과정에서 발생된 데이터
• 분야현대 영상물창작물오픈소스 동영상 등

• 데이터 형태:

• 데이터 명세:




• 다음과 같이한글 원본 문장과 영어 번역 문장이 짝 지어져 나열되어 있음 (순서출처 별로 분류 X)
• 200여개 가량 entry가 입력돼 있는 샘플 데이터 참고



• 대화/구어체 데이터는 챗봇이나 번역 시장에 있어서 가장 중요하게 작용하는 데이터임
  • -콘텐츠 분야 번역은 콘텐츠 시장의 급성장에 따라 지속적으로 동반 성정하고 있으며, 대량 텍스트 특성을 보이는 콘텐츠 특성에 따라 MTPE(Machine Translation Post Editing) 형식으로 AI협업하는 방식의 패러다임이 확산되고 있음
-챗봇 시장은 단일 언어 뿐 아니라 국제 언어인 영어를 중심으로, 번역되면서 소통되어야 하는 수요가 급성장하고 있음

-본 데이터 공급자는 데이터 공급 기업으로써, 지속적으로 10만 단위의 데이터 공급이 가능함
-한영 말뭉치 코퍼스는, 한영/영한 두 가지 모두 활용할 수 있는 양방향 특성이 존재함
-콘텐츠 분야에서 한영 데이터가 아니더라도, 중국어나 일본어 등 주요 언어가 아니면 보통 바로 한국어 <> 외국어로 번역할 수 있는 콘텐츠 분야가 많지 않기 때문에 현지인 번역가를 활용하기 위해서라도 영어<>외국어 구조를 활용하는 경우가 많음
-결과적으론 한국어>영어<>외국어 형태의 번역 파이프라인을 따르게 됨



• 데이터 대형 구매 계약 시 할인 적용 가능(협의 사항)
• 활용 가능 분야:





-데이터 번역 및 생산 절차:

 문학 데이터 번역에 있어서 자체 보유한 SaaS MTPE 솔루션 통하여 현대 영상물창작물오픈소스 영상 등 번역되고 전문가가 MTPE 상에서 전문 교정/검수한 내역만 별도로 말뭉치화 되어 저장됨
• 전문가의 교정/검수를 거쳐 실제 활용할 콘텐츠 품질로 번역하는 과정이기 때문에 더더욱 데이터 품질이 고도화됨





• 데이터는 특허등록 기술을 기반으로 인공지능 기반 자동 정제정렬을 거친 다음 인간의 추가 검토와 교정을 거침


 

Open API 가이드
1
API 호출 및 URL 주소 생성 방법   ❯
2
Swagger-UI 기반 OpenAPI 명세서 활용방법
가이드0
가이드1-1
가이드1-2
가이드1-3
가이드0
가이드2-1
가이드2-2
가이드2-3