2주 안에 챗GPT 플러스·엔터프라이즈 사용자에게 제공
모바일 앱으로 챗GPT와 음성으로 대화

[서울=뉴시스] 오동현 기자 = 생성형 인공지능(AI) ‘챗GPT’가 이제 보고 듣고 말하기 시작했다.

제조사 오픈AI는 26일 공지를 통해 챗GP에서 새로운 음성 및 이미지 기능을 출시했다고 밝혔다.

음성 대화 기능은 애플 iOS 및 구글 안드로이드로 제공되며 이미지 인식 기능은 모든 플랫폼에서 사용할 수 있다. 이 새로운 기능은 앞으로 2주 안에 챗GPT 플러스 및 엔터프라이즈 사용자에게 배포할 예정이다.

associate_pic3
챗GPT의 음성 대화 기능. (사진=오픈AI 블로그) *재판매 및 DB 금지

새로운 음성 기능은 텍스트와 몇 초의 샘플 음성만으로 인간과 유사한 오디오를 생성할 수 있는 새로운 텍스트 음성 변환 모델에 의해 구동된다.

사용자는 모바일 앱에서 챗GPT의 5가지 음성 중 원하는 음성을 선택해 대화할 수 있다.

하지만 외신에 따르면 일부 전문가는 이러한 음성 합성 기술이 딥페이크 등 사이버 범죄에 악용될 수 있다고 우려한다.

오픈AI는 “음성 합성 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 가능성과 같은 새로운 위험도 안고 있다”고 인정하면서도 “우리는 전문 성우와 협력해 각 목소리를 만들었다. 또한 오픈 소스 음성 인식 시스템인 위스퍼(Whisper)를 사용해 사용자가 말한 내용을 텍스트로 변환한다”고 설명했다.

또 오픈AI는 글로벌 음원 스트리밍 서비스 ‘스포티파이’와 협력해 자신의 목소리를 다른 언어로 번역해 말할 수 있는 방안도 검토하고 있다고 설명했다.

출고일자 2023. 09. 26
associate_pic3
챗GPT의 새로운 이미지 기능. (사진=오픈AI 블로그) *재판매 및 DB 금지

챗GPT 사용자는 사진을 찍거나 이미지를 올려 챗GPT와 텍스트로 대화를 나눌 수도 있다.

예를 들어 자전거 사진을 올린 뒤 “내 자전거 좌석을 내리는 것을 도와줘”라고 입력하면 챗GPT가 텍스트로 해결 방법을 제시한다. 업무에도 활용할 수 있다. 챗GPT가 복잡한 그래프 이미지 속에서 업무 관련 데이터를 분석해준다. 이미지의 특정 부분에 초점을 맞추려면 모바일 앱에서 그리기 도구를 사용할 수 있다.

이미지 이해는 멀티모달 GPT-3.5 및 GPT-4를 기반으로 한다. 이 모델은 사진, 스크린샷, 텍스트와 이미지가 모두 포함된 문서와 같은 광범위한 이미지에 언어 추론 기술을 적용했다.

오픈AI는 “우리의 목표는 안전하고 유익한 AGI(범용인공지능)를 구축하는 것”이라며 “새로운 도구를 점진적으로 제공하며 개선해 위험을 완화하고, 모든 사람이 미래엔 더 강력한 시스템을 사용할 수 있도록 해야 한다고 믿는다”고 설명했다.

◎공감언론 뉴시스 odong85@newsis.com

속보는 블록미디어 텔레그램으로(클릭)