본 발명은 트루뎁스 카메라와 모션캡쳐 인식을 활용한 실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템 및 방에 관한 것으로서, 보다 상세하게는 트루뎁스 카메라와 모션캡쳐 인식을 활용하여, 실시간 렌더링 환경에서 사용자의 표정 변화나 모션을 반영하여 디지털 휴먼을 극사실적으로 표현하고, 사용자가 원하는 형태의 커스터마이징을 실시간으로 반영이 가능한 것이다.The present invention relates to a system and room that provide a metaverse service utilizing a digital human capable of real-time synchronization and interaction using a TrueDepth camera and motion capture recognition. More specifically, by utilizing a TrueDepth camera and motion capture recognition, the digital human is expressed in an ultra-realistic manner by reflecting changes in a user's facial expression or motion in a real-time rendering environment, and customization desired by the user can be reflected in real time.
일반적으로 메타버스(Metaverse)는 가공, 추상을 의미하는 메타(Meta)와 현실 세계를 의미하는 유니버스(Universe)의 합성어이며, 3차원 가상세계를 의미한다. 메타버스는 아바타(avatar)를 통해 실제 현실과 같은 사회, 경제, 교육, 문화, 과학 기술 활동을 할 수 있는 3차원 공간 플랫폼이다.The metaverse is a portmanteau of "meta," meaning "fictional" or "abstract," and "universe," meaning the real world. It refers to a three-dimensional virtual world. The metaverse is a three-dimensional space platform where avatars enable users to engage in social, economic, educational, cultural, and scientific and technological activities similar to those in the real world.
이러한 메타버스에 대한 관심과 활용이 증가함에 따라 가상 세계의 아바타는 문자로만 이루어진 ID로부터 2차원 또는 3차원 사이버 캐릭터로 발전되고 있다. 더욱이 최근에는 캐릭터의 이미지 뿐만 아니라 움직임과 목소리까지 활용한 3차원 디지털 휴먼에 대한 관심이 높아지고 있다.As interest in and use of the metaverse grows, virtual world avatars are evolving from text-only IDs to two-dimensional or three-dimensional cyber characters. Furthermore, interest is growing in three-dimensional digital humans that utilize not only character images but also movements and voices.
본 발명의 목적은, 보다 사실적인 디지털 휴먼을 제작하여 실시간 인터랙션이 필요한 다양한 분야에 활용이 가능한 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템 및 방법을 제공하는 데 있다.The purpose of the present invention is to provide a system and method for producing more realistic digital humans and providing metaverse services utilizing digital humans that can be utilized in various fields requiring real-time interaction.
본 발명에 따른 실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법은, 사용자 단말기에서 상기 클라우드 서버가 제공한 어플리케이션을 실행되면, 상기 사용자 단말기에 구비된 트루뎁스 카메라가 사용자의 얼굴의 표정을 인식하고, 표정에 따른 뎁스 정보를 상기 클라우드 서버로 전송하는 단계와; 상기 클라우드 서버가 상기 뎁스 정보를 확인하고, 복수의 표정들에 따라 각각 다르게 미리 생성된 복수의 주름 맵(Wrinkle map), 복수의 노멀 맵(Normal map) 및 복수의 디스플레이스먼트 맵(Displacement map) 중 적어도 하나를 추출하고 상기 뎁스 정보에 따라 변경하여 디지털 휴먼의 얼굴에 실시간으로 랜더링하여, 상기 디지털 휴먼의 랜더링 영상을 생성하는 단계와; 상기 클라우드 서버가 상기 디지털 휴먼의 랜더링 영상을 상기 사용자 단말기로 실시간으로 전송하는 단계를 포함한다.A metaverse service method utilizing a digital human capable of real-time synchronization and interaction according to the present invention comprises the steps of: when an application provided by the cloud server is executed on a user terminal, a TrueDepth camera provided on the user terminal recognizes a facial expression of the user and transmits depth information according to the facial expression to the cloud server; a step in which the cloud server confirms the depth information, extracts at least one of a plurality of wrinkle maps, a plurality of normal maps, and a plurality of displacement maps, each of which is differently generated in advance according to a plurality of facial expressions, modifies the extracted maps according to the depth information, and renders the extracted maps on the face of the digital human in real time, thereby generating a rendered image of the digital human; and a step in which the cloud server transmits the rendered image of the digital human to the user terminal in real time.
모션 캡쳐 장비가 사용자의 모션을 실시간으로 캡쳐한 모션 데이터를 상기 클라우드 서버로 전송하는 단계를 더 포함한다.The method further includes a step of transmitting motion data captured by the motion capture device in real time from the user's motion to the cloud server.
상기 랜더링 영상을 생성하는 단계는, 상기 클라우드 서버가 상기 모션 데이터로부터 애니메이션 데이터를 추출하여, 상기 디지털 휴먼의 모션으로 실시간으로 동기화하는 과정을 더 포함한다.The step of generating the above-mentioned rendering image further includes a process in which the cloud server extracts animation data from the motion data and synchronizes it in real time with the motion of the digital human.
상기 사용자 단말기에 구비된 음성 인식기가 사용자의 음성을 인식한 음성 데이터를 상기 클라우드 서버로 실시간으로 전송하는 단계를 더 포함한다.The method further includes a step of transmitting voice data recognized by a voice recognizer provided in the user terminal to the cloud server in real time.
상기 랜더링 영상을 생성하는 단계는, 상기 클라우드 서버가 상기 음성 데이터를 딥러닝을 통해 학습하여, 사용자의 음성을 상기 디지털 휴먼의 음성으로 실시간으로 동기화하는 과정을 더 포함한다.The step of generating the above-mentioned rendering image further includes a process in which the cloud server learns the voice data through deep learning and synchronizes the user's voice with the voice of the digital human in real time.
상기 클라우드 서버는, 상기 사용자 단말기에 피부 질감, 피부 톤, 헤어 스타일, 눈동자 색, 배경 이미지, 의상, 액세서리, 모션, 음성 중 적어도 하나를 선택 가능하도록 사용자 인터페이스를 표시한다.The cloud server displays a user interface on the user terminal so that at least one of skin texture, skin tone, hairstyle, eye color, background image, clothing, accessory, motion, and voice can be selected.
상기 랜더링 영상을 생성하는 단계는, 상기 사용자 인터페이스를 통해 입력된 정보가 있으면, 입력된 정보에 따라 상기 디지털 휴먼에 실시간으로 랜더링하는 과정을 더 포함한다.The step of generating the above-mentioned rendering image further includes a process of rendering in real time to the digital human according to the input information, if any information is input through the user interface.
상기 클라우드 서버는, 상기 디지털 휴먼의 랜더링 영상을 웹 실시간 통신(WebRTC)을 통해 미리 설정된 단말기들에 실시간 스트리밍한다.The above cloud server streams the rendered image of the digital human in real time to preset terminals via Web Real-Time Communication (WebRTC).
본 발명의 다른 측면에 따른 실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법은, 사용자 단말기에서 상기 클라우드 서버가 제공한 어플리케이션을 실행되면, 상기 사용자 단말기에 구비된 트루뎁스 카메라가 사용자의 얼굴의 표정을 인식하고, 표정에 따른 뎁스 정보를 상기 클라우드 서버로 전송하는 단계와; 상기 클라우드 서버가 상기 뎁스 정보를 확인하고, 복수의 표정들에 따라 각각 다르게 미리 생성된 복수의 주름 맵(Wrinkle map), 복수의 노멀 맵(Normal map) 및 복수의 디스플레이스먼트 맵(Displacement map) 중 적어도 하나를 추출하고 상기 뎁스 정보에 따라 변경하여 디지털 휴먼의 얼굴에 실시간으로 랜더링하여, 상기 디지털 휴먼의 랜더링 영상을 생성하는 단계를 포함하고, 상기 클라우드 서버가 상기 디지털 휴먼의 랜더링 영상을 상기 사용자 단말기로 실시간으로 전송하는 단계와, 상기 사용자 단말기에 구비된 음성 인식기가 사용자의 음성을 인식한 음성 데이터를 상기 클라우드 서버로 실시간으로 전송하는 단계를 더 포함하고, 상기 랜더링 영상을 생성하는 단계는, 상기 클라우드 서버가 상기 모션 데이터로부터 애니메이션 데이터를 추출하여, 상기 디지털 휴먼의 모션으로 실시간으로 동기화하는 과정과, 상기 클라우드 서버가 상기 음성 데이터를 딥러닝을 통해 학습하여, 사용자의 음성을 상기 디지털 휴먼의 음성으로 실시간으로 동기화하는 과정을 더 포함한다.A metaverse service method utilizing a digital human capable of real-time synchronization and interaction according to another aspect of the present invention comprises the steps of: when an application provided by the cloud server is executed on a user terminal, a TrueDepth camera provided on the user terminal recognizes the facial expression of the user and transmits depth information according to the expression to the cloud server; The method further comprises a step of the cloud server checking the depth information, extracting at least one of a plurality of wrinkle maps, a plurality of normal maps, and a plurality of displacement maps, each of which is pre-generated differently according to a plurality of facial expressions, and changing the same according to the depth information to render the same in real time on the face of the digital human, thereby generating a rendered image of the digital human, and a step of the cloud server transmitting the rendered image of the digital human to the user terminal in real time, and a step of transmitting voice data in which a voice recognizer provided in the user terminal recognizes the user's voice to the cloud server in real time, and the step of generating the rendered image further comprises a step of the cloud server extracting animation data from the motion data and synchronizing it in real time with the motion of the digital human, and a step of the cloud server learning the voice data through deep learning and synchronizing the user's voice with the voice of the digital human in real time.
또한, 본 발명은, 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템을 포함한다.In addition, the present invention includes a system that provides a metaverse service utilizing digital humans.
본 발명은, 사용자 단말기에 구비된 트루뎁스 카메라를 이용하여 사용자의 표정을 실시간으로 인식하고, 사용자의 표정 변화를 디지털 휴먼의 얼굴에 실시간으로 반영할 수 있으므로, 디지털 휴먼의 자연스러운 표정이나 근육 움직임 등을 보다 사실적으로 표현이 가능하다.The present invention recognizes a user's facial expression in real time using a true depth camera equipped in a user terminal, and reflects changes in the user's facial expression in real time on the face of a digital human, thereby enabling more realistic expression of the digital human's natural facial expressions and muscle movements.
또한, 클라우드 서버에 다양한 표정에 따른 주름 맵, 노멀 맵, 디스플레이스 맵이 각각 다르게 미리 생성되어, 트루뎁스 카메라에서 인식한 뎁스 정보에 따라 적합한 맵을 추출하여 적용시킬 수 있으므로, 사용자의 표정 변화를 실시간으로 반영할 수 있다.In addition, wrinkle maps, normal maps, and displacement maps for various facial expressions are each pre-generated differently on the cloud server, so that an appropriate map can be extracted and applied based on the depth information recognized by the TrueDepth camera, thereby reflecting changes in the user's facial expression in real time.
또한, 사용자가 원하는 형태의 커스터마이징을 실시간으로 반영이 가능하여, 사용자와 실시간 인터랙션이 가능하고 사실감이 극대화된 디지털 휴먼을 음악 공연, 라이브 방송 서비스 등 보다 다양한 메타버스 서비스에 활용이 가능한 이점이 있다.Additionally, it has the advantage of being able to reflect the customization desired by the user in real time, enabling real-time interaction with the user and utilizing digital humans with maximized realism in a wider range of metaverse services such as music performances and live broadcasting services.
또한, 클라우드 서버에서 디지털 휴먼의 랜더링 영상이 생성됨으로써, 상기 사용자 단말기가 고 사양의 컴퓨터가 아니더라도 극사실적인 디지털 휴먼을 실시간으로 생성할 수 있으므로, 보다 많은 사용자들이 보다 쉽게 디지털 휴먼을 생성하여 다양한 플랫폼에 적용시킬 수 있다.In addition, since a rendered image of a digital human is generated on a cloud server, a hyper-realistic digital human can be generated in real time even if the user terminal is not a high-spec computer, so that more users can more easily generate digital humans and apply them to various platforms.
도 1은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템을 개략적으로 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법을 개략적으로 나타낸 순서도이다.
도 3은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 디지털 휴먼의 캐릭터 기초 외형을 제작하는 화면의 일 예를 나타낸다.
도 4는 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 스킨 셰이더 노드의 구조를 나타낸다.
도 5는 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 트루뎁스 카메라와 디지털 휴먼을 실시간으로 연동하는 예를 나타낸다.
도 6은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 모션을 캡쳐하여 애니매이션 데이터를 수집하는 예를 나타낸다.
도 7은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 고성능 AI 보컬 음성 합성 기술을 위한 SVS모델의 예를 나타낸다.
도 8은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 사용자가 선택한 의상을 디지털 휴먼에 실시간으로 반영하는 예를 나타낸다.
도 9는 본 발명의 실시예에 따른 영상 스트리밍 네트워크 연계 미들웨어의 구성도를 나타낸다.
도 10은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 디지털 휴먼을 실시간 인터랙션하는 예를 나타낸다.FIG. 1 is a schematic diagram illustrating a system that provides a metaverse service utilizing digital humans according to an embodiment of the present invention.
 Figure 2 is a flowchart schematically illustrating a metaverse service method utilizing digital humans according to an embodiment of the present invention.
 FIG. 3 shows an example of a screen for creating a basic appearance of a digital human character in a metaverse service method utilizing a digital human according to an embodiment of the present invention.
 FIG. 4 illustrates the structure of a skin shader node in a metaverse service method utilizing a digital human according to an embodiment of the present invention.
 FIG. 5 illustrates an example of real-time linkage between a true depth camera and a digital human in a metaverse service method utilizing a digital human according to an embodiment of the present invention.
 FIG. 6 illustrates an example of collecting animation data by capturing motion in a metaverse service method utilizing a digital human according to an embodiment of the present invention.
 FIG. 7 shows an example of an SVS model for high-performance AI vocal voice synthesis technology in a metaverse service method utilizing digital humans according to an embodiment of the present invention.
 FIG. 8 illustrates an example of a metaverse service method utilizing a digital human according to an embodiment of the present invention, in which clothing selected by a user is reflected in real time on a digital human.
 Figure 9 shows a configuration diagram of a video streaming network linkage middleware according to an embodiment of the present invention.
 Figure 10 illustrates an example of real-time interaction with a digital human in a metaverse service method utilizing a digital human according to an embodiment of the present invention.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대해 설명하면 다음과 같다.Hereinafter, embodiments of the present invention will be described with reference to the attached drawings.
본 발명은 트루뎁스 카메라와 모션캡쳐 인식을 활용한 실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템 및 방법에 대한 것이다.The present invention relates to a system and method for providing a metaverse service utilizing a digital human capable of real-time synchronization and interaction using a true depth camera and motion capture recognition.
도 1 내지 도 10을 참조하면, 본 발명은 언리얼 기반 실시간 렌더링 환경에서 디지털 휴먼의 극사실적인 표현과 사용자가 원하는 형태의 커스터마이징을 실시간으로 반영이 가능하도록 노드 구조/인터페이스 개발을 수행하고, 픽셀스트리밍을 활용하여 WebRTC 기반으로 클라우드 렌더링 방식을 통해 극사실적인 디지털 휴먼을 자유롭게 인터랙션/활용할 수 있도록 시스템 및 방법에 대한 것이다.Referring to FIGS. 1 to 10, the present invention relates to a system and method for developing a node structure/interface to enable real-time reflection of ultra-realistic expression of digital humans and customization in a form desired by a user in an Unreal-based real-time rendering environment, and for freely interacting with/utilizing ultra-realistic digital humans through a cloud rendering method based on WebRTC using pixel streaming.
도 1은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템을 개략적으로 도시한 도면이다.FIG. 1 is a schematic diagram illustrating a system that provides a metaverse service utilizing digital humans according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템은, 클라우드 서버와 사용자 단말기를 포함한다.Referring to FIG. 1, a system providing a metaverse service utilizing a digital human according to an embodiment of the present invention includes a cloud server and a user terminal.
상기 클라우드 서버는, 디지털 휴먼을 활용한 메타버스 서비스를 제공하고 수행하기 위한 서비스 서버이고, 어플리케이션을 제공한다.The above cloud server is a service server for providing and performing metaverse services utilizing digital humans, and provides applications.
상기 사용자 단말기는, 사용자가 소지하고 있는 개인 단말기이며, 예를 들어 유,무선 통신이 가능한 스마트 폰, 태블릿 PC, 컴퓨터 등을 포함한다.The above user terminal is a personal terminal possessed by the user, and includes, for example, a smart phone, tablet PC, computer, etc. capable of wired or wireless communication.
상기 사용자 단말기에는 상기 클라우드 서버가 제공하는 어플리케이션이 설치된다.An application provided by the cloud server is installed on the user terminal.
상기 사용자 단말기는, 트루뎁스(True depth) 카메라와 음성 인식기 등이 구비된다.The above user terminal is equipped with a True Depth camera and a voice recognition device.
상기 트루뎁스 카메라는, 사용자의 얼굴의 표정을 인식하여 표정에 따른 뎁스 정보를 생성한다.The above TrueDepth camera recognizes the user's facial expressions and generates depth information based on the expressions.
상기 음성 인식기는, 사용자의 음성을 인식하는 마이크인 것으로 예를 들어 설명한다.The above voice recognizer is explained as an example of a microphone that recognizes the user's voice.
상기 클라우드 서버와 상기 사용자 단말기 사이에는 미들웨어 및 인터페이스가 구비된다.Middleware and an interface are provided between the above cloud server and the user terminal.
상기 클라우드 서버와 상기 사용자 단말기는 웹 실시간 통신(WebRTC) 기반으로 통신한다.The above cloud server and the above user terminal communicate based on web real-time communication (WebRTC).
도 2는 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법을 개략적으로 나타낸 순서도이다.Figure 2 is a flowchart schematically illustrating a metaverse service method utilizing digital humans according to an embodiment of the present invention.
도 2를 참조하여, 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법을 설명하면 다음과 같다.Referring to FIG. 2, a metaverse service method utilizing digital humans according to an embodiment of the present invention is described as follows.
먼저, 사용자 단말기에서 상기 클라우드 서버가 제공한 어플리케이션을 실행한다.(S1)First, the application provided by the cloud server is executed on the user terminal (S1).
상기 어플리케이션을 실행하면, 상기 사용자 단말기에 구비된 상기 트루뎁스 카메라가 사용자의 얼굴의 표정을 인식하여, 표정 변화에 따른 뎁스 정보를 생성하여 상기 클라우드 서버로 전송한다.(S2)When the above application is executed, the TrueDepth camera equipped on the user terminal recognizes the user's facial expression, generates depth information according to the change in expression, and transmits it to the cloud server. (S2)
상기 뎁스 정보는, 상기 트루뎁스 카메라가 사용자의 얼굴을 인식하고 표정 변화에 따라 미리 설정된 다수의 트래킹 포인트에서 검출한 근육 변화값을 포함한다.The above depth information includes muscle change values detected at a plurality of preset tracking points according to changes in facial expression when the TrueDepth camera recognizes the user's face.
상기 클라우드 서버에는 복수의 표정들에 따라 주름 맵(Wrinkle map), 노멀 맵(Normal map), 디스플레이스먼트 맵(Displacement map)이 각각 다르게 생성되어 미리 저장된다. 즉, 상기 주름 맵은 복수의 표정들에 따라 다르게 복수개가 미리 생성된다. 상기 노멀 맵도 복수의 표정들에 따라 다르게 복수개가 미리 생성된다. 상기 디스플레이스먼트 맵도 복수의 표정들에 따라 다르게 복수개가 미리 생성된다.The above cloud server generates and stores in advance a wrinkle map, a normal map, and a displacement map, each differently based on a plurality of facial expressions. That is, multiple wrinkle maps are generated in advance, each differently based on a plurality of facial expressions. Multiple normal maps are also generated in advance, each differently based on a plurality of facial expressions. Multiple displacement maps are also generated in advance, each differently based on a plurality of facial expressions.
여기서, 상기 주름 맵은, 표정 변화에 따라 발생 또는 소멸되는 주름을 표현하기 위해 만들어지고, 다수의 동적 노드들을 포함한다. 예를 들어, 눈을 치켜뜰 때 이마에 발생하는 주름을 표현하기 위한 맵이다.Here, the wrinkle map is created to express wrinkles that appear or disappear according to changes in facial expression, and includes a number of dynamic nodes. For example, this map expresses wrinkles that appear on the forehead when raising one's eyes.
상기 노멀 맵은, 표정 변화시 발생되는 얼굴의 높낮이 변화 등을 표현하기 위해 만들어지고, 다수의 동적 노드들을 포함한다.The above normal map is created to express changes in the height of the face that occur when facial expressions change, and includes a number of dynamic nodes.
상기 디스플레이스먼트 맵은, 표정 변화시 발생되는 변형 등을 표현하기 위해 만들어지고, 다수의 동적 노드들을 포함한다.The above displacement map is created to express deformations that occur when facial expressions change, and includes a number of dynamic nodes.
상기 클라우드 서버는, 상기 복수의 주름 맵들, 복수의 노멀 맵들, 복수의 디스플레이스먼트 맵들 중 적어도 하나를 추출하여, 상기 사용자 단말기로부터 수신한 뎁스 정보에 따라 변경하여 디지털 휴먼의 얼굴에 실시간으로 랜더링한다.(S3)The cloud server extracts at least one of the plurality of wrinkle maps, the plurality of normal maps, and the plurality of displacement maps, modifies it according to the depth information received from the user terminal, and renders it in real time on the face of the digital human. (S3)
예를 들어, 상기 클라우드 서버는, 상기 뎁스 정보에 따라 상기 복수의 주름 맵들 중에서 가장 유사한 하나의 주름 맵을 추출하고 상기 주름 맵들의 각 포인트들에 상기 뎁스 정보를 동기화시킨다.For example, the cloud server extracts the most similar wrinkle map among the plurality of wrinkle maps based on the depth information and synchronizes the depth information to each point of the wrinkle maps.
또한, 상기 클라우드 서버는 미리 구축된 스킨 셰이더(Skin shader)를 이용하여, 상기 디지털 휴먼의 피부 텍스쳐 등을 표현할 수 있다.(S4)In addition, the cloud server can express the skin texture of the digital human, etc. using a pre-built skin shader. (S4)
상기 클라우드 서버는 상기 스킨 셰이더를 통해 상기에서 추출된 맵의 동적 노드와 연동하여 피부 텍스쳐를 랜더링한다.The above cloud server renders the skin texture by linking with the dynamic node of the map extracted above through the above skin shader.
도 3을 참조하면, 상기 클라우드 서버에는 디지털 휴먼의 기초 외형이 미리 저장되어 있으며, 상기 기초 외형에 상기 사용자의 얼굴을 실시간으로 랜더링함으로써, 사용자의 표정 변화가 실시간으로 반영되는 디지털 휴먼의 랜더링 영상을 생성할 수 있다.Referring to FIG. 3, the cloud server has a basic appearance of a digital human stored in advance, and by rendering the user's face on the basic appearance in real time, a rendered image of a digital human in which changes in the user's facial expression are reflected in real time can be created.
도 4를 참조하면, 상기 스킨 셰이더는 피부 표면 하 산란을 반영하여 피부층별 정반사, 다중산란, 단일산란 등 극사실적인 표현이 가능한 셰이더이다.Referring to FIG. 4, the skin shader is a shader that can express ultra-realistic reflection, multiple scattering, and single scattering by skin layer by reflecting scattering under the skin surface.
도 5는 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 트루뎁스 카메라와 디지털 휴먼을 실시간으로 연동하는 예를 나타낸다.FIG. 5 illustrates an example of real-time linkage between a true depth camera and a digital human in a metaverse service method utilizing a digital human according to an embodiment of the present invention.
따라서, 상기 트루뎁스 카메라에서 인식한 뎁스 정보를 기반으로 상기 스킨 셰이더와 상기 복수의 맵들을 적용시켜, 실시간 랜더링 환경에서 상기 디지털 휴먼의 자연스러운 표정이나 근육 움직임 등이 표현될 수 있다.Accordingly, by applying the skin shader and the plurality of maps based on the depth information recognized by the true depth camera, the natural facial expressions and muscle movements of the digital human can be expressed in a real-time rendering environment.
한편, 상기 사용자의 모션과 음성 중 적어도 하나를 인식하여, 상기 디지털 휴먼의 모션과 음성으로 실시간 동기화할 수 있다.(S5)Meanwhile, at least one of the user's motion and voice can be recognized and synchronized in real time with the digital human's motion and voice. (S5)
상기 사용자의 모션은 모션 캡쳐 장비를 이용하여 실시간으로 캡쳐하는 것으로 예를 들어 설명한다. 본 실시예에서는 상기 모션 캡쳐 장비가 사용자 단말기와 별도로 구비된 것으로 예를 들어 설명하나, 이에 한정되지 않고 사용자 단말기에 모션 캡쳐 기기가 구비되는 것도 물론 가능하다.The user's motions are captured in real time using motion capture equipment, for example. In this embodiment, the motion capture equipment is provided separately from the user terminal, but this is not limited to this, and it is of course possible for the user terminal to be equipped with a motion capture device.
상기 모션 캡쳐 장비가 인식한 모션 데이터는 상기 클라우드 서버로 전송된다.The motion data recognized by the above motion capture equipment is transmitted to the cloud server.
상기 클라우드 서버는 상기 모션 데이터로부터 애니메이션 데이터를 수집, 블랜딩, 변형 및 보정하여, 상기 디지털 휴먼의 모션으로 실시간으로 연동한다.The above cloud server collects, blends, transforms and corrects animation data from the above motion data, and links it in real time to the motion of the digital human.
다만, 이에 한정되지 않고, 상기 모션 캡쳐 장비로부터 별도의 모션 데이터가 전송되지 않으면, 상기 클라우드 서버는 상기 어플리케이션을 통해 미리 생성된 다수의 모션 샘플들을 표시하여 사용자가 선택하여 입력하도록 하는 것도 물론 가능하다.However, without limitation thereto, if separate motion data is not transmitted from the motion capture equipment, the cloud server can also display a number of motion samples generated in advance through the application and allow the user to select and input them.
도 6은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 모션을 캡쳐하여 애니매이션 데이터를 수집하는 예를 나타낸다.FIG. 6 illustrates an example of collecting animation data by capturing motion in a metaverse service method utilizing a digital human according to an embodiment of the present invention.
한편, 사용자의 음성은 상기 사용자 단말기에 구비된 음성 인식기가 인식하는 것으로 예를 들어 설명한다. 다만, 이에 한정되지 않고, 상기 음성 인식기는 상기 사용자 단말기와 별도로 구비된 것도 물론 가능하다.Meanwhile, the user's voice is described as being recognized by a voice recognizer equipped in the user terminal. However, this is not limited to this, and the voice recognizer can of course be equipped separately from the user terminal.
상기 음성 인식기가 인식한 음성 데이터는 상기 클라우드 서버로 전송된다.The voice data recognized by the above voice recognizer is transmitted to the cloud server.
상기 클라우드 서버가 상기 음성 데이터를 수신하면, 상기 음성 데이터를 딥러닝을 통해 학습하여, 사용자의 음성을 상기 디지털 휴먼의 음성으로 실시간으로 합성한다.When the cloud server receives the voice data, it learns the voice data through deep learning and synthesizes the user's voice into the digital human's voice in real time.
또한, 상기 클라우드 서버는 사용자의 음성 또는 다양한 음색의 노래 목소리를 합성하여, 가사, 음표, 지속시간에 따른 보컬 음성을 생성하여 상기 디지털 휴먼의 보컬 음성으로 반영할 수 있다.In addition, the cloud server can synthesize the user's voice or a singing voice of various tones, and generate a vocal voice according to lyrics, notes, and duration, and reflect it as the vocal voice of the digital human.
도 7은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 고성능 AI 보컬 음성 합성 기술을 위한 SVS(Singing Voice Synthesis) 모델의 예를 나타낸다.FIG. 7 shows an example of an SVS (Singing Voice Synthesis) model for high-performance AI vocal voice synthesis technology in a metaverse service method utilizing digital humans according to an embodiment of the present invention.
또한, 상기 클라우드 서버는, 상기 사용자 단말기에 피부 질감, 피부 톤, 헤어 스타일, 눈동자 색, 배경 이미지, 의상, 액세서리, 모션, 음성 중 적어도 하나를 사용자가 입력하거나 변경가능하도록 사용자 인터페이스를 제공한다.Additionally, the cloud server provides a user interface to enable the user to input or change at least one of skin texture, skin tone, hairstyle, eye color, background image, clothing, accessories, motion, and voice on the user terminal.
상기 사용자 인터페이스를 통해 입력된 커스터마이징 정보는 상기 클라우드 서버로 전송된다.Customizing information entered through the above user interface is transmitted to the cloud server.
상기 클라우드 서버는 상기 커스터마이징 정보에 따라 상기 디지털 휴먼에 실시간으로 반영할 수 있다.The above cloud server can reflect the above customized information in real time to the digital human.
따라서, 사용자의 실시간 인터랙션이 가능하다.Therefore, real-time interaction between users is possible.
도 8은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 패턴 기반 복식 제작 및 애니메이션 변화에 따른 시뮬레이션하는 예를 나타낸다.FIG. 8 shows an example of simulating pattern-based double production and animation changes in a metaverse service method utilizing digital humans according to an embodiment of the present invention.
상기와 같이, 상기 클라우드 서버는 사용자의 표정, 모션, 음성 등을 디지털 휴먼에 실시간으로 반영하여, 상기 디지털 휴먼을 보다 극사실적으로 표현하여 랜더링 영상을 생성할 수 있다.As described above, the cloud server can generate a rendered image by reflecting the user's facial expressions, motions, voice, etc., in real time to the digital human, thereby expressing the digital human more realistically.
상기 클라우드 서버는 상기 디지털 휴먼의 랜더링 영상을 상기 사용자의 단말기로 실시간으로 전송한다.(S6)The above cloud server transmits the rendered image of the digital human to the user's terminal in real time. (S6)
도 9는 본 발명의 실시예에 따른 영상 스트리밍 네트워크 연계 미들웨어의 구성도를 나타낸다.Figure 9 shows a configuration diagram of a video streaming network linkage middleware according to an embodiment of the present invention.
상기 클라우드 서버는 웹 실시간 통신(WebRTC) 프로토콜을 통해 HTML5 기반 실시간 영상 웹페이지 표출을 지원한다.The above cloud server supports displaying HTML5-based real-time video web pages via the Web Real-Time Communication (WebRTC) protocol.
따라서, 상기 클라우드 서버는, 상기 웹 실시간 통신 프로토콜을 통해 상기 사용자 단말기에 상기 랜더링 영상을 송출해줄 수 있다.Accordingly, the cloud server can transmit the rendered image to the user terminal through the web real-time communication protocol.
또한, 상기 클라우드 서버는, 미리 설정된 다수의 클라이언트 단말기들에 상기 웹 실시간 통신을 통해 상기 랜더링 영상을 실시간으로 스트리밍할 수 있다.Additionally, the cloud server can stream the rendered image in real time to a plurality of preset client terminals via the web real-time communication.
도 10은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 디지털 휴먼을 실시간 인터랙션하는 예를 나타낸다.Figure 10 illustrates an example of real-time interaction with a digital human in a metaverse service method utilizing a digital human according to an embodiment of the present invention.
상기와 같이 상기 클라우드 서버에서 상기 디지털 휴먼의 랜더링 영상이 생성됨으로써, 상기 사용자 단말기가 고 사양의 컴퓨터가 아니더라도 극사실적인 디지털 휴먼을 실시간으로 인터랙션할 수 있다.As described above, by generating a rendered image of the digital human on the cloud server, the user can interact with the ultra-realistic digital human in real time even if the user terminal is not a high-spec computer.
또한, 개개인이 디지털 휴먼을 생성하여 다양한 플랫폼에 이용하는 것이 보다 용이해질 수 있다.Additionally, it could become easier for individuals to create digital humans and use them across a variety of platforms.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.While the present invention has been described with reference to the embodiments illustrated in the drawings, these are merely exemplary, and those skilled in the art will understand that various modifications and equivalent alternative embodiments are possible. Therefore, the true scope of technical protection of the present invention should be determined by the technical spirit of the appended claims.
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| PCT/KR2023/018290WO2024117616A1 (en) | 2022-11-30 | 2023-11-14 | System and method for providing metaverse service using digital human capable of real-time synchronization and interaction using camera and motion capture recognition | 
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| KR20220163844 | 2022-11-30 | ||
| KR1020220163844 | 2022-11-30 | 
| Publication Number | Publication Date | 
|---|---|
| KR20240082144A KR20240082144A (en) | 2024-06-10 | 
| KR102849860B1true KR102849860B1 (en) | 2025-08-25 | 
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| KR1020230032382AActiveKR102849860B1 (en) | 2022-11-30 | 2023-03-13 | System and method for providing metaverse services using digital human capable of real-time synchronization and interaction using true depth camera and motion capture recognition | 
| Country | Link | 
|---|---|
| KR (1) | KR102849860B1 (en) | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| US20180095617A1 (en)* | 2016-10-04 | 2018-04-05 | Facebook, Inc. | Controls and Interfaces for User Interactions in Virtual Spaces | 
| KR102353556B1 (en)* | 2021-11-01 | 2022-01-20 | 강민호 | Apparatus for Generating Facial expressions and Poses Reappearance Avatar based in User Face | 
| KR102373608B1 (en)* | 2021-06-21 | 2022-03-14 | 주식회사 쓰리디팩토리 | Electronic apparatus and method for digital human image formation, and program stored in computer readable medium performing the same | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| KR101894955B1 (en) | 2017-01-05 | 2018-09-05 | 주식회사 미디어프론트 | Live social media system for using virtual human awareness and real-time synthesis technology, server for augmented synthesis | 
| US12273401B2 (en)* | 2020-08-28 | 2025-04-08 | Tmrw Foundation Ip S.Àr.L. | System and method to provision cloud computing-based virtual computing resources within a virtual environment | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| US20180095617A1 (en)* | 2016-10-04 | 2018-04-05 | Facebook, Inc. | Controls and Interfaces for User Interactions in Virtual Spaces | 
| KR102373608B1 (en)* | 2021-06-21 | 2022-03-14 | 주식회사 쓰리디팩토리 | Electronic apparatus and method for digital human image formation, and program stored in computer readable medium performing the same | 
| KR102353556B1 (en)* | 2021-11-01 | 2022-01-20 | 강민호 | Apparatus for Generating Facial expressions and Poses Reappearance Avatar based in User Face | 
| Publication number | Publication date | 
|---|---|
| KR20240082144A (en) | 2024-06-10 | 
| Publication | Publication Date | Title | 
|---|---|---|
| CN112215927B (en) | Method, device, equipment and medium for synthesizing face video | |
| EP3951604A1 (en) | Communication assistance system, communication assistance method, communication assistance program, and image control program | |
| KR102503413B1 (en) | Animation interaction method, device, equipment and storage medium | |
| US12347012B2 (en) | Sentiment-based interactive avatar system for sign language | |
| US11960792B2 (en) | Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program | |
| EP3889912B1 (en) | Method and apparatus for generating video | |
| CN1326400C (en) | Virtual television telephone device | |
| KR101306221B1 (en) | Method and apparatus for providing moving picture using 3d user avatar | |
| JP2022500795A (en) | Avatar animation | |
| KR20120113058A (en) | Apparatus and method for tutoring in the fusion space of real and virtual environment | |
| JP7496128B2 (en) | Virtual person dialogue system, image generation method, and image generation program | |
| Schiavoni et al. | From virtual reality to digital arts with mosaicode | |
| KR102849860B1 (en) | System and method for providing metaverse services using digital human capable of real-time synchronization and interaction using true depth camera and motion capture recognition | |
| JP6892478B2 (en) | Content control systems, content control methods, and content control programs | |
| CN117539349A (en) | Meta universe experience interaction system and method based on blockchain technology | |
| CN114425162B (en) | A video processing method and related device | |
| KR20210023361A (en) | Electric welfare mall system using artificial intelligence avatar | |
| WO2024117616A1 (en) | System and method for providing metaverse service using digital human capable of real-time synchronization and interaction using camera and motion capture recognition | |
| CN120336572B (en) | Real-time interactive synthesis processing method and system based on repeated digital person | |
| KR20200043660A (en) | Speech synthesis method and speech synthesis device | |
| KR101243832B1 (en) | Avata media service method and device using a recognition of sensitivity | |
| CN116506675A (en) | Interactive video processing method and device, computer equipment and storage medium | |
| Chiday | Developing a Kinect based Holoportation System | |
| CN116977030A (en) | Artificial intelligence-based virtual reality human body model generation and interaction method | |
| HK40074442A (en) | Video presentation method and apparatus, and readable storage medium | 
| Date | Code | Title | Description | 
|---|---|---|---|
| PA0109 | Patent application | St.27 status event code:A-0-1-A10-A12-nap-PA0109 | |
| PA0201 | Request for examination | St.27 status event code:A-1-2-D10-D11-exm-PA0201 | |
| D13-X000 | Search requested | St.27 status event code:A-1-2-D10-D13-srh-X000 | |
| PG1501 | Laying open of application | St.27 status event code:A-1-1-Q10-Q12-nap-PG1501 | |
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection | St.27 status event code:A-1-2-D10-D21-exm-PE0902 | |
| E13-X000 | Pre-grant limitation requested | St.27 status event code:A-2-3-E10-E13-lim-X000 | |
| P11-X000 | Amendment of application requested | St.27 status event code:A-2-2-P10-P11-nap-X000 | |
| P13-X000 | Application amended | St.27 status event code:A-2-2-P10-P13-nap-X000 | |
| PE0701 | Decision of registration | St.27 status event code:A-1-2-D10-D22-exm-PE0701 | |
| PR0701 | Registration of establishment | St.27 status event code:A-2-4-F10-F11-exm-PR0701 | |
| PR1002 | Payment of registration fee | St.27 status event code:A-2-2-U10-U11-oth-PR1002 Fee payment year number:1 | |
| PG1601 | Publication of registration | St.27 status event code:A-4-4-Q10-Q13-nap-PG1601 |