본 개시는 사용자의 미디엄 이용을 보조하기 위한 상호작용 시스템에 관한 것이다. 보다 구체적으로 사용자가 미디엄을 읽거나 미디엄을 통해 정해진 액티비티(activity)를 수행할 때, 미디엄의 내용과 관련된 사용자의 궁금증을 해소시키거나 미디엄에 대한 사용자의 이해를 돕거나 사용자가 액티비티를 원활하게 수행할 수 있도록 보조하는 방법 및 이를 수행하는 시스템에 관한 것이다.The present disclosure relates to an interactive system for assisting users in using a medium. More specifically, the present disclosure relates to a method and a system for performing the same, which resolves users' questions related to the content of a medium, enhances their understanding of the medium, or facilitates smooth execution of the activity when the user reads the medium or performs a designated activity through the medium.
최근, 나이가 어린(ex. 7세 이하의) 아이가 동화책이나 그림책을 스스로 읽는 과정에서 소리펜(sound pen)이 활발하게 사용되고 있다. 아이가 소리펜을 이용하여 책을 터치하면, 소리펜이 터치된 영역의 글을 음성으로 변환하여 출력해준다.Recently, sound pens have been actively used by young children (e.g., under 7 years old) to read storybooks or picture books on their own. When a child touches the book with the sound pen, the pen converts the text in the touched area into spoken words and outputs them.
이러한 소리펜의 경우 보호자 없이 아이들에게 책을 읽어줄 수 있는 장점이 있으나, 아이들이 일방적으로 소리펜에서 출력되는 음성을 듣는 것만 가능하고, 보호자가 책을 읽어줄 때와 같이 책의 내용에 대해서는 대화할 수 없는 문제가 있다.These sound pens have the advantage of allowing children to read books without a guardian, but there is a problem in that children can only listen to the sound output from the sound pen unilaterally and cannot discuss the contents of the book as they would when a guardian reads the book.
출원인은 아이가 책을 읽으면서 책의 내용에 대해 가지는 궁금증을 해결하거나 아이가 보다 책의 내용을 명확하게 이해하고 책 읽는 행위에 흥미를 가지게 하는 방법을 고민하여 본 개시의 발명을 개발하였다.The applicant developed the invention of the present disclosure by considering a method for resolving a child's curiosity about the content of a book while reading it, or for making the child understand the content of the book more clearly and become interested in the act of reading.
해결하고자 하는 일 과제는, 아이가 혼자서 책을 읽을 때, 아이가 하는 말에 대한 답변을 제공하는 것이다.The task we are trying to solve is to provide responses to what the child says when he or she is reading a book on his or her own.
해결하고자 하는 일 과제는, 아이가 혼자서 책을 읽을 때, 아이가 책에 대한 내용을 보다 심도 있게 이해하는 것을 유도하는 것이다.The task we are trying to solve is to encourage children to understand the content of books more deeply when they read books on their own.
해결하고자 하는 일 과제는, 카드를 통해 아이에게 정보 전달 및 학습을 유도하는 것이다.The task we are trying to solve is to convey information and encourage learning to children through cards.
해결하고자 하는 과제가 상술한 과제로 제한되는 것은 아니며, 언급되지 아니한 과제들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The problems to be solved are not limited to the problems described above, and problems not mentioned can be clearly understood by a person having ordinary skill in the art to which the present invention pertains from this specification and the attached drawings.
일 실시예에 따르면, 전자기기 및 인공지능 서버와 통신하는 서버로, 메모리; 통신부; 및 상기 메모리 및 상기 통신부를 제어하는 제어부;를 포함하며, 상기 제어부는, [1] 상기 전자기기에 의해 획득된 코드 데이터에 인코딩(encoding)된 참조 정보(reference information)를 획득하고 -이때, 상기 참조 정보는 상기 전자기기로부터 상기 통신부를 통해 수신되거나 상기 제어부가 상기 통신부를 통해 상기 전자기기로부터 상기 코드 데이터를 수신한 후 상기 코드 데이터를 디코딩(decoding)하여 획득되며, 상기 참조 정보는 사용자가 상기 전자기기를 이용하여 상호작용하는 미디엄(medium)에 관한 것이며, 상기 참조 정보는 상기 미디엄의 ID 정보, 상기 전자기기에 의해 지시된 페이지 정보, 및 상기 전자기기에 의해 지시된 페이지 내 위치 정보를 포함함-, [2] 상기 참조 정보에 기초하여, 상기 미디엄에 인쇄된 컨텐츠 및/또는 상기 미디엄에 인쇄된 컨텐츠 중 상기 사용자가 관심을 가지고 있는 일부(part)에 관한 관심 컨텐츠를 상기 메모리로부터 획득하여 미디엄 맥락 정보(medium context information)를 생성하고, [3] 상기 전자기기에 의해 획득된 상기 사용자의 음성에 대응되는 음성 텍스트를 획득하고 -이때, 상기 음성 텍스트는 상기 음성을 STT(Speech-To-Text) 변환하여 획득됨-, [4] 상기 획득된 미디엄 맥락 정보 및 상기 음성 텍스트에 기초하여, 프롬프트를 생성하고 -이때, 상기 프롬프트는 상기 미디엄 맥락 정보 및 상기 음성 텍스트를 포함함-, [5] 상기 프롬프트를 상기 통신부를 통해 상기 인공지능 서버에 전송하고, [6] 상기 통신부를 통해 상기 전송된 프롬프트에 대한 상기 인공지능 서버의 응답(response)을 수신하고, [7] 수신한 상기 응답에 대응되는 응답 음성을 획득하고, [8] 상기 응답 음성을 상기 통신부를 통해 상기 전자기기로 전송하는 전자기기 및 인공지능 서버와 통신하는 서버가 제공된다.According to one embodiment, a server for communicating with an electronic device and an artificial intelligence server, comprising: a memory; a communication unit; And a control unit that controls the memory and the communication unit; wherein the control unit [1] obtains reference information encoded in code data obtained by the electronic device, wherein the reference information is received from the electronic device through the communication unit or obtained by the control unit decoding the code data after receiving the code data from the electronic device through the communication unit, and the reference information relates to a medium with which a user interacts using the electronic device, and the reference information includes ID information of the medium, page information indicated by the electronic device, and location information within the page indicated by the electronic device, [2] based on the reference information, obtains content of interest about a part of the content printed on the medium and/or the content printed on the medium in which the user is interested from the memory to generate medium context information, and [3] obtains a voice text corresponding to the user's voice obtained by the electronic device, wherein the voice A text is obtained by converting the voice into STT (Speech-To-Text), [4] based on the obtained medium context information and the voice text, a prompt is generated, wherein the prompt includes the medium context information and the voice text, [5] the prompt is transmitted to the artificial intelligence server through the communication unit, [6] a response of the artificial intelligence server to the transmitted prompt is received through the communication unit, [7] a response voice corresponding to the received response is obtained, and [8] an electronic device and an artificial intelligence server that communicate with each other are provided that transmit the response voice to the electronic device through the communication unit.
과제의 해결 수단이 상술한 해결 수단들로 제한되는 것은 아니며, 언급되지 아니한 해결 수단들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The means of solving the problem are not limited to the above-described means of solving the problem, and means of solving the problem that are not mentioned can be clearly understood by a person having ordinary skill in the art to which the present invention pertains from this specification and the attached drawings.
일 실시예에 따르면, 아이가 혼자 책을 읽으면서 인공지능 모델(ex. chat GPT)과 책의 내용에 대해 대화할 수 있다.In one embodiment, a child can read a book alone and converse with an artificial intelligence model (e.g., chat GPT) about the book's content.
일 실시예에 따르면, 아이에게 제공되는 인공지능 모델의 응답이 책에 인쇄된 내용과 관련될 수 있다.In one embodiment, the responses of the artificial intelligence model provided to the child may be related to content printed in the book.
일 실시예에 따르면, 아이에게 제공되는 인공지능 모델의 응답이 책에 인쇄된 내용 중 아이가 관심있는 부분과 관련될 수 있다.In one embodiment, the responses of the artificial intelligence model provided to the child may be related to parts of the book printed that the child is interested in.
일 실시예에 따르면, 아이는 단순히 책을 읽는 것보다 책의 내용에 대한 이해도 또는 흥미가 증대될 수 있다.In one embodiment, a child may develop greater understanding or interest in the content of a book than simply reading it.
일 실시예에 따르면, 아이에게 카드들을 통해 다양한 액티비티 경험이 제공될 수 있다.In one embodiment, a child can be provided with various activity experiences through cards.
발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.The effects of the invention are not limited to the effects described above, and effects not mentioned can be clearly understood by a person having ordinary skill in the art to which the present invention pertains from this specification and the attached drawings.
도 1은 일 실시예에 따른 상호작용 시스템을 나타내는 도면이다.FIG. 1 is a diagram illustrating an interaction system according to one embodiment.
도 2는 일 실시예에 따른 전자기기의 구성을 나타내는 도면이다.Figure 2 is a drawing showing the configuration of an electronic device according to one embodiment.
도 3은 일 실시예에 따른 미디엄에 인쇄되는 코드를 도시한 도면이다.FIG. 3 is a drawing illustrating a code printed on a medium according to one embodiment.
도 4는 일 실시예에 따른 메인 서버의 구성을 나타내는 도면이다.Figure 4 is a diagram showing the configuration of a main server according to one embodiment.
도 5는 일 실시예에 따른 인공지능 서버의 구성을 나타내는 도면이다.Figure 5 is a diagram showing the configuration of an artificial intelligence server according to one embodiment.
도 6은 일 실시예에 따른 대화형 인공지능 서비스를 이용한 전자펜 서비스 시스템에 관한 블록 다이어그램을 나타내는 도면이다.FIG. 6 is a drawing showing a block diagram of an electronic pen service system using an interactive artificial intelligence service according to one embodiment.
도 7은 다른 실시예에 따른 대화형 인공지능 서비스를 이용한 전자펜 서비스 시스템에 관한 블록 다이어그램을 나타내는 도면이다.FIG. 7 is a drawing showing a block diagram of an electronic pen service system using an interactive artificial intelligence service according to another embodiment.
도 8은 일 실시예에 따른 데이터베이스에 저장된 정보들을 나타내는 도면이다.FIG. 8 is a diagram showing information stored in a database according to one embodiment.
도 9는 일 실시예에 따른, 미디엄에서 영역이 구분되는 양태를 나타낸 도면이다.FIG. 9 is a diagram illustrating an aspect in which areas are distinguished in a medium according to one embodiment.
도 10은 다른 실시예에 따른, 미디엄에서 영역이 구분되는 양태를 나타낸 도면이다.FIG. 10 is a drawing showing an aspect in which areas are distinguished in a medium according to another embodiment.
도 11은 제1 실시예에 따른 인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법에 관한 흐름도를 나타내는 도면이다.FIG. 11 is a flowchart illustrating a method for assisting a user's use of a medium using artificial context information according to the first embodiment.
도 12는 제2 실시예에 따른 인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법에 관한 흐름도를 나타내는 도면이다.FIG. 12 is a flowchart illustrating a method for assisting a user's use of a medium by using artificial context information according to a second embodiment.
도 13은 제3 실시예에 따른 인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법에 관한 흐름도를 나타내는 도면이다.FIG. 13 is a flowchart illustrating a method for assisting a user's use of a medium using artificial context information according to a third embodiment.
도 14는 제4 실시예에 따른 인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법에 관한 흐름도를 나타내는 도면이다.FIG. 14 is a flowchart illustrating a method for assisting a user's use of a medium by using artificial context information according to a fourth embodiment.
도 15는 제5 실시예에 따른, 인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법을 나타내는 순서도이다.Fig. 15 is a flowchart illustrating a method for assisting a user's use of a medium using artificial context information according to a fifth embodiment.
도 16은 제5 실시예에 따른, 인위적 맥락 정보가 획득되는 과정을 나타내는 도면이다.Fig. 16 is a diagram showing a process of obtaining artificial context information according to the fifth embodiment.
도 17은 제5 실시예에 따른, 인위적 맥락 정보를 이용하여 프롬프트가 생성되는 것을 나타내는 도면이다.Fig. 17 is a diagram showing a prompt being generated using artificial context information according to the fifth embodiment.
도 18은 제5 실시예에 따른, 후속 프롬프트를 생성하는 방법을 나타내는 순서도이다.Figure 18 is a flowchart illustrating a method for generating a follow-up prompt according to the fifth embodiment.
도 19는 제5 실시예에 따른, 인위적 맥락 정보를 이용하여 후속 프롬프트가 생성되는 것을 나타내는 도면이다.FIG. 19 is a diagram showing a subsequent prompt being generated using artificial context information according to the fifth embodiment.
도 20은 제6 실시예에 따른, 미리 저장된 프롬프트가 획득되는 과정을 나타내는 도면이다.Figure 20 is a diagram showing a process of obtaining a pre-stored prompt according to the sixth embodiment.
도 21은 제6 실시예에 따른, 미리 저장된 프롬프트를 나타내는 도면이다.Fig. 21 is a drawing showing a pre-stored prompt according to the sixth embodiment.
도 22는 제6 실시예에 따른, 인위적 맥락 정보를 이용하여 후속 프롬프트가 생성되는 것을 나타내는 도면이다.FIG. 22 is a diagram showing a subsequent prompt being generated using artificial context information according to the sixth embodiment.
도 23은 제7 실시예에 따른, 미디엄 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법을 나타내는 순서도이다.FIG. 23 is a flowchart illustrating a method for assisting a user's use of a medium by using medium context information according to the seventh embodiment.
도 24는 제7 실시예에 따른, 미디엄 맥락 정보가 획득되는 과정을 나타내는 도면이다.Figure 24 is a diagram showing a process for obtaining medium context information according to the seventh embodiment.
도 25는 제7 실시예에 따른, 미디엄 맥락 정보를 이용하여 프롬프트가 생성되는 것을 나타내는 도면이다.FIG. 25 is a diagram showing a prompt being generated using medium context information according to the seventh embodiment.
도 26은 제7 실시예에 따른, 후속 프롬프트를 생성하는 방법을 나타내는 순서도이다.Figure 26 is a flowchart illustrating a method for generating a follow-up prompt according to the seventh embodiment.
도 27은 제8 실시예에 따른, 인위적 맥락 정보 및 미디엄 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법을 나타내는 순서도이다.FIG. 27 is a flowchart illustrating a method for assisting a user's use of a medium by using artificial context information and medium context information according to the eighth embodiment.
도 28은 제8 실시예에 따른, 인위적 맥락 정보 및 미디엄 맥락 정보가 획득되는 과정을 나타내는 도면이다.Figure 28 is a diagram showing a process for obtaining artificial context information and medium context information according to the eighth embodiment.
도 29는 제8 실시예에 따른, 인위적 맥락 정보 및 미디엄 맥락 정보를 이용하여 프롬프트가 생성되는 것을 나타내는 도면이다.FIG. 29 is a diagram showing a prompt being generated using artificial context information and medium context information according to the eighth embodiment.
도 30은 제9 실시예에 따른 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법을 나타내는 순서도이다.Fig. 30 is a flowchart illustrating a method for assisting a user's use of a medium using contextual information according to the ninth embodiment.
일 실시예에 따르면, 전자기기 및 인공지능 서버와 통신하는 서버로, 메모리; 통신부; 및 상기 메모리 및 상기 통신부를 제어하는 제어부;를 포함하며, 상기 제어부는, [1] 상기 전자기기에 의해 획득된 코드 데이터에 인코딩(encoding)된 참조 정보(reference information)를 획득하고 -이때, 상기 참조 정보는 상기 전자기기로부터 상기 통신부를 통해 수신되거나 상기 제어부가 상기 통신부를 통해 상기 전자기기로부터 상기 코드 데이터를 수신한 후 상기 코드 데이터를 디코딩(decoding)하여 획득되며, 상기 참조 정보는 사용자가 상기 전자기기를 이용하여 상호작용하는 미디엄(medium)에 관한 것이며, 상기 참조 정보는 상기 미디엄의 ID 정보, 상기 전자기기에 의해 지시된 페이지 정보, 및 상기 전자기기에 의해 지시된 페이지 내 위치 정보를 포함함-, [2] 상기 참조 정보에 기초하여, 상기 미디엄에 인쇄된 컨텐츠 및/또는 상기 미디엄에 인쇄된 컨텐츠 중 상기 사용자가 관심을 가지고 있는 일부(part)에 관한 관심 컨텐츠를 상기 메모리로부터 획득하여 미디엄 맥락 정보(medium context information)를 생성하고, [3] 상기 전자기기에 의해 획득된 상기 사용자의 음성에 대응되는 음성 텍스트를 획득하고 -이때, 상기 음성 텍스트는 상기 음성을 STT(Speech-To-Text) 변환하여 획득됨-, [4] 상기 획득된 미디엄 맥락 정보 및 상기 음성 텍스트에 기초하여, 프롬프트를 생성하고 -이때, 상기 프롬프트는 상기 미디엄 맥락 정보 및 상기 음성 텍스트를 포함함-, [5] 상기 프롬프트를 상기 통신부를 통해 상기 인공지능 서버에 전송하고, [6] 상기 통신부를 통해 상기 전송된 프롬프트에 대한 상기 인공지능 서버의 응답(response)을 수신하고, [7] 수신한 상기 응답에 대응되는 응답 음성을 획득하고, [8] 상기 응답 음성을 상기 통신부를 통해 상기 전자기기로 전송하는 전자기기 및 인공지능 서버와 통신하는 서버가 제공된다.According to one embodiment, a server for communicating with an electronic device and an artificial intelligence server, comprising: a memory; a communication unit; And a control unit that controls the memory and the communication unit; wherein the control unit [1] obtains reference information encoded in code data obtained by the electronic device, wherein the reference information is received from the electronic device through the communication unit or obtained by the control unit decoding the code data after receiving the code data from the electronic device through the communication unit, and the reference information relates to a medium with which a user interacts using the electronic device, and the reference information includes ID information of the medium, page information indicated by the electronic device, and location information within the page indicated by the electronic device, [2] based on the reference information, obtains content of interest about a part of the content printed on the medium and/or the content printed on the medium in which the user is interested from the memory to generate medium context information, and [3] obtains a voice text corresponding to the user's voice obtained by the electronic device, wherein the voice A text is obtained by converting the voice into STT (Speech-To-Text), [4] based on the obtained medium context information and the voice text, a prompt is generated, wherein the prompt includes the medium context information and the voice text, [5] the prompt is transmitted to the artificial intelligence server through the communication unit, [6] a response of the artificial intelligence server to the transmitted prompt is received through the communication unit, [7] a response voice corresponding to the received response is obtained, and [8] an electronic device and an artificial intelligence server that communicate with each other are provided that transmit the response voice to the electronic device through the communication unit.
상기 메모리에는 복수의 미디엄 텍스트가 저장되고 -각 미디엄 텍스트는 특정 미디엄에 인쇄된 글의 적어도 일부에 대응됨-, 상기 제어부는, 상기 메모리로부터 상기 복수의 미디엄 텍스트 중 상기 참조 정보의 상기 미디엄 ID 정보에 대응하는 미디엄 텍스트를 로드(load)하여 상기 미디엄 맥락 정보로 획득한다.The above memory stores a plurality of medium texts, each medium text corresponding to at least a part of a text printed on a specific medium, and the control unit loads a medium text corresponding to the medium ID information of the reference information from among the plurality of medium texts from the memory to obtain the medium context information.
상기 메모리에는 복수의 페이지별 텍스트가 저장되고 -각 페이지별 텍스트는 특정 미디엄의 특정 페이지에 인쇄된 글 중 적어도 일부에 대응함-, 상기 제어부는, 상기 메모리로부터 상기 복수의 페이지별 텍스트 중 상기 참조 정보의 상기 미디엄 ID 정보 및 상기 페이지 정보에 대응하는 페이지별 텍스트를 로드하여 상기 미디엄 맥락 정보로 획득한다.The memory stores a plurality of page-specific texts, each page-specific text corresponding to at least a portion of text printed on a specific page of a specific medium, and the control unit loads page-specific text corresponding to the medium ID information and the page information of the reference information from the memory to obtain the medium context information.
상기 메모리에는 복수의 위치별 텍스트가 저장되고 -각 위치별 텍스트는 특정 미디엄의 특정 페이지 내 특정 위치에 인쇄된 글 중 적어도 일부에 대응함-, 상기 제어부는, 상기 메모리로부터 상기 복수의 위치별 텍스트 중 상기 참조 정보의 상기 미디엄 ID 정보, 상기 페이지 정보, 및 상기 위치 정보에 대응하는 위치별 텍스트를 로드하여 상기 미디엄 맥락 정보로 획득한다.The memory stores a plurality of position-specific texts, each position-specific text corresponding to at least a portion of text printed at a specific position within a specific page of a specific medium, and the control unit loads position-specific text corresponding to the medium ID information, the page information, and the position information of the reference information from the memory to obtain the medium context information.
상기 프롬프트는 상기 미디엄 맥락 정보에 상기 음성 텍스트를 이어서(concatenate) 생성된다.The above prompt is generated by concatenating the spoken text with the above medium context information.
상기 프롬프트는 상기 미디엄 맥락 정보에 대한 설명 텍스트를 더 포함한다.The above prompt further includes descriptive text about the medium context information.
상기 프롬프트는 미리 저장된 사용자 정보를 더 포함하고, 상기 사용자 정보는 상기 사용자에 대한 나이 및 성별 중 적어도 하나를 포함한다.The above prompt further includes pre-stored user information, wherein the user information includes at least one of age and gender for the user.
상기 프롬프트는 미리 저장된 가이드 텍스트를 더 포함하고, 상기 가이드 텍스트는 상기 인공지능 서버가 상기 응답을 생성 시 고려할 사항을 포함한다.The above prompt further includes pre-stored guide text, which includes matters for the artificial intelligence server to consider when generating the response.
상기 제어부는, 상기 메모리로부터 프롬프트 양식을 획득하고, 상기 미디엄 맥락 정보 및 상기 음성 텍스트를 이용하여 상기 프롬프트 양식을 수정하여 상기 프롬프트를 생성한다.The control unit obtains a prompt form from the memory, modifies the prompt form using the medium context information and the spoken text, and generates the prompt.
상기 프롬프트는 상기 전자기기로부터 상기 코드 데이터를 획득하기 이전에 상기 인공지능 서버에 전송한 과거 프롬프트의 적어도 일부를 포함한다.The above prompt comprises at least a portion of a past prompt transmitted to the artificial intelligence server prior to obtaining the code data from the electronic device.
상기 제어부는 상기 과거 프롬프트를 상기 통신부를 통해 상기 인공지능 서버에 전송하고 상기 인공지능 서버로부터 상기 과거 프롬프트에 대한 과거 응답을 수신하고, 상기 프롬프트는 상기 과거 응답의 적어도 일부를 포함한다.The control unit transmits the past prompt to the artificial intelligence server through the communication unit and receives a past response to the past prompt from the artificial intelligence server, wherein the prompt includes at least a part of the past response.
상기 참조 정보는 상기 사용자가 상기 전자기기를 이용하여 상호작용하고 있는 미디엄에 인쇄된 질문 사항 또는 지시 사항에 관한 영역 식별 정보를 더 포함하고 -상기 영역 식별 정보는 상기 미디엄 내 미리 설정된 영역을 식별(identify)함-, 상기 제어부는 상기 참조 정보에 기초하여, 상기 미리 설정된 영역에 인쇄된 질문 사항 또는 지시 사항에 대응되는 인위적 맥락 정보(artificial context information)를 상기 메모리로부터 획득하고, 상기 프롬프트는 상기 인위적 맥락 정보를 더 포함한다.The reference information further includes area identification information regarding a question or instruction printed on a medium with which the user is interacting using the electronic device, the area identification information identifying a preset area within the medium, and the control unit obtains artificial context information corresponding to the question or instruction printed on the preset area from the memory based on the reference information, and the prompt further includes the artificial context information.
상기 제어부는, 상기 전자기기에 의해 획득된 상기 사용자의 후속 음성에 대응되는 후속 음성 텍스트를 획득하고 -이때, 상기 후속 음성 텍스트는 상기 후속 음성을 STT 변환하여 획득됨-, 상기 후속 음성 텍스트에 기초하여, 후속 프롬프트를 생성하고 상기 후속 프롬프트를 상기 통신부를 통해 상기 인공지능 서버에 전송하고, 상기 통신부를 통해 상기 전송된 후속 프롬프트에 대한 상기 인공지능 서버의 후속 응답을 수신하고, 수신한 상기 후속 응답에 대응되는 후속 응답 음성을 획득하고, 상기 후속 응답 음성을 상기 통신부를 통해 상기 전자기기로 전송한다.The control unit obtains a follow-up voice text corresponding to the follow-up voice of the user obtained by the electronic device, wherein the follow-up voice text is obtained by converting the follow-up voice into STT, generates a follow-up prompt based on the follow-up voice text, transmits the follow-up prompt to the artificial intelligence server through the communication unit, receives a follow-up response of the artificial intelligence server to the transmitted follow-up prompt through the communication unit, obtains a follow-up response voice corresponding to the received follow-up response, and transmits the follow-up response voice to the electronic device through the communication unit.
상기 후속 프롬프트는 상기 미디엄 맥락 정보를 더 포함한다.The above follow-up prompt further includes the medium context information.
상기 인공지능 서버는 LLM(Large Language Model)을 포함한다.The above artificial intelligence server includes a Large Language Model (LLM).
상기 전자기기는, 이미지 센서를 포함하고, 상기 사용자의 조작에 의해 상기 미디엄의 일 영역을 촬영하고, 상기 촬영된 이미지로부터 상기 코드 데이터를 획득하도록 구성된다.The electronic device includes an image sensor and is configured to photograph an area of the medium by the user's operation and obtain the code data from the photographed image.
상기 전자기기는 일단 및 타단을 가지는 펜 형상(pen-shape)을 가지고, 상기 사용자가 상기 전자기기의 일단으로 상기 미디엄의 일 영역을 가리킬 때, 상기 전자기기는 상기 일단에 배치된 상기 이미지 센서를 이용하여 상기 미디엄을 촬영하도록 구성된다.The electronic device has a pen shape having one end and the other end, and when the user points one area of the medium with one end of the electronic device, the electronic device is configured to capture an image of the medium using the image sensor arranged at the one end.
다른 실시예에 따르면, 전자기기 및 인공지능 서버와 통신하는 서버로, 메모리; 통신부; 및 상기 메모리 및 상기 통신부를 제어하는 제어부;를 포함하며, 상기 제어부는, [1] 상기 전자기기에 의해 획득된 코드 데이터에 인코딩(encoding)된 참조 정보(reference information)를 획득하고 -이때, 상기 참조 정보는 상기 전자기기로부터 상기 통신부를 통해 수신되거나 상기 제어부가 상기 통신부를 통해 상기 전자기기로부터 상기 코드 데이터를 수신한 후 상기 코드 데이터를 디코딩(decoding)하여 획득되며, 상기 참조 정보는 사용자가 상기 전자기기를 이용하여 상호작용하는 미디엄(medium)에 관한 것이며, 상기 참조 정보는 상기 미디엄의 ID 정보, 상기 전자기기에 의해 지시된 페이지 정보, 및 상기 전자기기에 의해 지시된 페이지 내 위치 정보를 포함함-, [2] 상기 참조 정보에 기초하여, 상기 미디엄에 인쇄된 컨텐츠 및/또는 상기 미디엄에 인쇄된 컨텐츠 중 상기 사용자가 관심을 가지고 있는 일부(part)에 관한 관심 컨텐츠를 상기 메모리로부터 획득하여 미디엄 맥락 정보(medium context information)를 생성하고, [3] 상기 전자기기에 의해 획득된 상기 사용자의 음성에 대응되는 음성 데이터를 획득하고, [4] 상기 획득된 미디엄 맥락 정보 및 상기 음성 데이터를 이용하여 프롬프트를 생성하고 [5] 상기 프롬프트를 상기 통신부를 통해 상기 인공지능 서버에 전송하고, [6] 상기 통신부를 통해 상기 전송된 프롬프트에 대한 상기 인공지능 서버의 응답(response)을 수신하고, [7] 수신한 상기 응답 또는 상기 응답에 대응되는 응답 음성을 상기 통신부를 통해 상기 전자기기로 전송하는, 전자기기 및 인공지능 서버와 통신하는 서버가 제공된다.According to another embodiment, a server for communicating with an electronic device and an artificial intelligence server, comprising: a memory; a communication unit; And a control unit that controls the memory and the communication unit; wherein the control unit [1] obtains reference information encoded in code data obtained by the electronic device, wherein the reference information is received from the electronic device through the communication unit or obtained by the control unit decoding the code data after receiving the code data from the electronic device through the communication unit, and the reference information relates to a medium with which a user interacts using the electronic device, and the reference information includes ID information of the medium, page information indicated by the electronic device, and location information within the page indicated by the electronic device, [2] based on the reference information, obtains content of interest about a part of the content printed on the medium and/or the content printed on the medium that the user is interested in from the memory to generate medium context information, [3] obtains voice data corresponding to the voice of the user obtained by the electronic device, and [4] A server is provided that communicates with an electronic device and an artificial intelligence server, which generates a prompt using the acquired medium context information and the voice data, [5] transmits the prompt to the artificial intelligence server through the communication unit, [6] receives a response from the artificial intelligence server to the transmitted prompt through the communication unit, and [7] transmits the received response or a response voice corresponding to the response to the electronic device through the communication unit.
상기 미디엄 맥락 정보의 데이터 유형은 텍스트, 소리, 이미지 또는 영상 중 어느 하나이다.The data type of the above medium context information is any of text, sound, image, or video.
상기 미디엄 맥락 정보의 데이터 유형이 텍스트이고 상기 인공지능 서버에서 지원하는 데이터 유형이 소리인 경우, 상기 제어부는, 상기 프롬프트를 생성하기 전 상기 미디엄 맥락 정보의 데이터 유형이 소리가 되도록 상기 미디엄 맥락 정보를 변환한다.If the data type of the above medium context information is text and the data type supported by the above artificial intelligence server is sound, the control unit converts the medium context information so that the data type of the above medium context information becomes sound before generating the prompt.
다른 실시예에 따르면, 전자기기 및 인공지능 서버와 통신하는 서버로, 메모리; 통신부; 및 상기 메모리 및 상기 통신부를 제어하는 제어부;를 포함하며, 이때, 상기 제어부는 [1] 상기 전자기기에 의해 획득된 코드 데이터에 인코딩(encoding)된 참조 정보(reference information)를 획득하고 - 이때, 상기 참조 정보는 상기 전자기기로부터 상기 통신부를 통해 수신되거나 또는 상기 제어부가 상기 전자기기로부터 상기 통신부를 통해 상기 코드 데이터를 수신한 후 상기 코드 데이터를 디코딩(decoding)하여 획득되며, 상기 참조 정보는 상기 사용자가 상기 전자기기를 이용하여 상호작용하고 있는 미디엄 내 미리 설정된 영역을 식별(identify)하기 위한 영역 식별 정보를 포함하고, 상기 미리 설정된 영역에는 심볼(symbol), 질문 사항 및 지시 사항 중 적어도 하나가 인쇄됨 - , [2] 상기 참조 정보에 기초하여, 상기 미리 설정된 영역에 대응되어 미리 저장된 인위적 맥락 정보(artificial context information)를 상기 메모리로부터 획득하고, [3] 상기 전자기기에 의해 획득된 사용자의 음성에 대응되는 음성 텍스트를 획득하고 - 이때, 상기 음성 텍스트는 상기 사용자의 음성을 STT (Speech-To-Text) 변환하여 획득됨 - , [4] 상기 획득된 인위적 맥락 정보 및 상기 음성 텍스트에 기초하여, 프롬프트를 생성하고 - 이때, 상기 프롬프트는 상기 인위적 맥락 정보 및 상기 음성 텍스트를 포함함 - , [5] 상기 생성된 프롬프트를 상기 통신부를 통해 상기 인공지능 서버에 전송하고, [6] 상기 서버로부터 상기 전송된 프롬프트에 대한 상기 인공지능 서버의 응답(response)를 수신하고, [7] 상기 수신된 응답에 대응되는 응답 음성을 획득하고, [8] 상기 획득된 응답 음성을 상기 통신부를 통해 상기 전자기기로 전송하는 전자기기 및 인공지능 서버와 통신하는 서버가 제공된다.According to another embodiment, a server for communicating with an electronic device and an artificial intelligence server, comprising: a memory; a communication unit; And a control unit that controls the memory and the communication unit; wherein the control unit [1] obtains reference information encoded in code data obtained by the electronic device - wherein the reference information is received from the electronic device through the communication unit or obtained by the control unit decoding the code data after receiving the code data from the electronic device through the communication unit, and the reference information includes area identification information for identifying a preset area within a medium with which the user is interacting using the electronic device, and at least one of a symbol, a question, and an instruction is printed in the preset area - , [2] based on the reference information, obtains artificial context information corresponding to the preset area from the memory, [3] obtains voice text corresponding to the user's voice obtained by the electronic device - wherein the voice text is obtained by converting the user's voice into STT (Speech-To-Text) - , [4] obtains the obtained A server is provided that communicates with an electronic device and an artificial intelligence server, which generates a prompt based on artificial context information and the spoken text, wherein the prompt includes the artificial context information and the spoken text, [5] transmits the generated prompt to the artificial intelligence server through the communication unit, [6] receives a response of the artificial intelligence server to the transmitted prompt from the server, [7] obtains a response voice corresponding to the received response, and [8] transmits the obtained response voice to the electronic device through the communication unit.
상기 메모리에는 복수의 질문 사항이 저장되고 -각 질문 사항은 특정 미디엄에 인쇄된 질문에 대응됨-, 상기 인위적 맥락 정보는 상기 복수의 질문 사항 중 상기 참조 정보의 상기 영역 식별 정보에 대응하는 질문 사항이다.The above memory stores a plurality of questions - each question corresponding to a question printed on a specific medium - and the artificial context information is a question corresponding to the area identification information of the reference information among the plurality of questions.
상기 메모리에는 복수의 지시 사항이 저장되고 -각 지시 사항은 특정 미디엄에 인쇄된 지시(instruction)에 대응됨-, 상기 인위적 맥락 정보는 상기 복수의 지시 사항 중 상기 참조 정보의 상기 영역 식별 정보에 대응하는 지시 사항이다.The above memory stores a plurality of instructions - each instruction corresponding to an instruction printed on a specific medium - and the artificial context information is an instruction corresponding to the area identification information of the reference information among the plurality of instructions.
상기 참조 정보는 미디엄 ID를 더 포함하고, 상기 인위적 맥락 정보는 상기 메모리에 저장된 정보들 중 상기 미디엄 ID 및 상기 영역 식별 정보에 대응되는 정보이다.The above reference information further includes a medium ID, and the artificial context information is information corresponding to the medium ID and the area identification information among the information stored in the memory.
상기 참조 정보는 페이지 정보를 더 포함하고, 상기 인위적 맥락 정보는 상기 메모리에 저장된 정보들 중 상기 미디엄 ID, 상기 페이지 정보 및 상기 영역 식별 정보에 대응되는 정보이다.The above reference information further includes page information, and the artificial context information is information corresponding to the medium ID, the page information, and the area identification information among the information stored in the memory.
상기 프롬프트는 상기 인위적 맥락 정보에 상기 음성 텍스트를 이어서(concatenate) 생성된다.The above prompt is generated by concatenating the spoken text with the artificial context information.
상기 프롬프트는 상기 인위적 맥락 정보에 대한 설명 텍스트를 더 포함한다.The above prompt further includes descriptive text for the artificial context information.
상기 프롬프트는 미리 저장된 사용자 정보를 더 포함하고, 상기 사용자 정보는 상기 사용자에 대한 나이 및 성별 중 적어도 하나를 포함한다.The above prompt further includes pre-stored user information, wherein the user information includes at least one of age and gender for the user.
상기 프롬프트는 미리 저장된 가이드 텍스트를 더 포함하고, 상기 가이드 텍스트는 상기 인공지능 서버가 상기 응답을 생성 시 고려할 사항을 포함한다.The above prompt further includes pre-stored guide text, which includes matters for the artificial intelligence server to consider when generating the response.
상기 제어부는, 상기 메모리로부터 프롬프트 양식을 획득하고, 상기 인위적 맥락 정보 및 상기 음성 텍스트를 이용하여 상기 프롬프트 양식을 수정하여 상기 프롬프트를 생성한다.The control unit obtains a prompt form from the memory, modifies the prompt form using the artificial context information and the spoken text, and generates the prompt.
상기 프롬프트는 상기 전자기기로부터 상기 코드 데이터를 획득하기 이전에 상기 인공지능 서버에 전송한 과거 프롬프트의 적어도 일부를 포함한다.The above prompt comprises at least a portion of a past prompt transmitted to the artificial intelligence server prior to obtaining the code data from the electronic device.
상기 제어부는 상기 과거 프롬프트를 상기 통신부를 통해 상기 인공지능 서버에 전송하고 상기 인공지능 서버로부터 상기 과거 프롬프트에 대한 과거 응답을 수신하고, 상기 프롬프트는 상기 과거 응답의 적어도 일부를 포함한다.The control unit transmits the past prompt to the artificial intelligence server through the communication unit and receives a past response to the past prompt from the artificial intelligence server, wherein the prompt includes at least a part of the past response.
상기 참조 정보는 상기 미디엄의 ID 정보, 상기 전자기기에 의해 지시된 페이지 정보, 및 상기 전자기기에 의해 지시된 페이지 내 위치 정보 중 적어도 하나를 더 포함하고, 상기 제어부는 상기 참조 정보에 기초하여, 상기 미디엄에 인쇄된 컨텐츠 및/또는 상기 미디엄에 인쇄된 컨텐츠 중 상기 사용자가 관심을 가지고 있는 일부(part)에 관한 관심 컨텐츠를 상기 메모리로부터 획득하여 미디엄 맥락 정보(medium context information)를 생성하고, 상기 프롬프트는 상기 미디엄 맥락 정보를 더 포함한다.The reference information further includes at least one of ID information of the medium, page information indicated by the electronic device, and location information within the page indicated by the electronic device, and the control unit, based on the reference information, acquires content of interest about a part of the content printed on the medium and/or the content printed on the medium that the user is interested in from the memory to generate medium context information, and the prompt further includes the medium context information.
상기 제어부는, 상기 전자기기에 의해 획득된 상기 사용자의 후속 음성에 대응되는 후속 음성 텍스트를 획득하고 -이때, 상기 후속 음성 텍스트는 상기 후속 음성을 STT 변환하여 획득됨-, 상기 후속 음성 텍스트 및 상기 인위적 맥락 정보에 기초하여, 후속 프롬프트를 생성하고 상기 후속 프롬프트를 상기 통신부를 통해 상기 인공지능 서버에 전송하고, 상기 통신부를 통해 상기 전송된 후속 프롬프트에 대한 상기 인공지능 서버의 후속 응답을 수신하고, 수신한 상기 후속 응답에 대응되는 후속 응답 음성을 획득하고, 상기 후속 응답 음성을 상기 통신부를 통해 상기 전자기기로 전송한다.The control unit obtains a follow-up voice text corresponding to the user's follow-up voice obtained by the electronic device, wherein the follow-up voice text is obtained by converting the follow-up voice into STT, generates a follow-up prompt based on the follow-up voice text and the artificial context information, transmits the follow-up prompt to the artificial intelligence server through the communication unit, receives a follow-up response of the artificial intelligence server to the transmitted follow-up prompt through the communication unit, obtains a follow-up response voice corresponding to the received follow-up response, and transmits the follow-up response voice to the electronic device through the communication unit.
상기 후속 프롬프트는 상기 미디엄 맥락 정보를 더 포함한다.The above follow-up prompt further includes the medium context information.
상기 인공지능 서버는 LLM(Large Language Model)을 포함한다.The above artificial intelligence server includes a Large Language Model (LLM).
상기 전자기기는, 이미지 센서를 포함하고, 상기 사용자의 조작에 의해 상기 미디엄의 일 영역을 촬영하고, 상기 촬영된 이미지로부터 상기 코드 데이터를 획득하도록 구성된다.The electronic device includes an image sensor and is configured to photograph an area of the medium by the user's operation and obtain the code data from the photographed image.
상기 전자기기는 일단 및 타단을 가지는 펜 형상(pen-shape)을 가지고, 상기 사용자가 상기 전자기기의 일단으로 상기 미디엄의 일 영역을 가리킬 때, 상기 전자기기는 상기 일단에 배치된 상기 이미지 센서를 이용하여 상기 미디엄을 촬영하도록 구성된다.The electronic device has a pen shape having one end and the other end, and when the user points one area of the medium with one end of the electronic device, the electronic device is configured to capture an image of the medium using the image sensor arranged at the one end.
다른 실시예에 따르면, 전자기기 및 인공지능 서버와 통신하는 서버로, 메모리; 통신부; 및 상기 메모리 및 상기 통신부를 제어하는 제어부;를 포함하며, 이때, 상기 제어부는 [1] 상기 전자기기에 의해 획득된 코드 데이터에 인코딩(encoding)된 참조 정보(reference information)를 획득하고 - 이때, 상기 참조 정보는 상기 전자기기로부터 상기 통신부를 통해 수신되거나 또는 상기 제어부가 상기 전자기기로부터 상기 통신부를 통해 상기 코드 데이터를 수신한 후 상기 코드 데이터를 디코딩(decoding)하여 획득되며, 상기 참조 정보는 상기 사용자가 상기 전자기기를 이용하여 상호작용하고 있는 미디엄에 인쇄된 질문 사항 또는 지시 사항에 관한 것이며, 상기 참조 정보는 상기 미디엄 내 미리 설정된 영역을 식별(identify)하기 위한 영역 식별 정보를 포함함 - , [2] 상기 참조 정보에 기초하여, 상기 미리 설정된 영역에 대응되어 미리 저장된 인위적 맥락 정보(artificial context information)를 상기 메모리로부터 획득하고, [3] 상기 획득된 인위적 맥락 정보에 기초하여, 프롬프트를 생성하고 - 이때, 상기 프롬프트는 상기 인위적 맥락 정보를 포함함 - , [4] 상기 생성된 프롬프트를 상기 통신부를 통해 상기 인공지능 서버에 전송하고, [5] 상기 서버로부터 상기 전송된 프롬프트에 대한 상기 인공지능 서버의 응답(response)를 수신하고, [6] 상기 수신된 응답에 대응되는 응답 음성을 획득하고, [7] 상기 획득된 응답 음성을 상기 통신부를 통해 상기 전자기기로 전송하는 전자기기 및 인공지능 서버와 통신하는 서버가 제공된다.According to another embodiment, a server for communicating with an electronic device and an artificial intelligence server, comprising: a memory; a communication unit; And a control unit that controls the memory and the communication unit; wherein the control unit [1] obtains reference information encoded in code data obtained by the electronic device, wherein the reference information is received from the electronic device through the communication unit or obtained by the control unit decoding the code data after receiving the code data from the electronic device through the communication unit, and the reference information relates to a question or instruction printed on a medium with which the user is interacting using the electronic device, and the reference information includes area identification information for identifying a preset area within the medium, [2] based on the reference information, obtains artificial context information stored in advance corresponding to the preset area from the memory, [3] based on the obtained artificial context information, generates a prompt, wherein the prompt includes the artificial context information, [4] transmits the generated prompt to the artificial intelligence server through the communication unit, and [5] transmits the generated prompt from the server to the An electronic device and a server communicating with an artificial intelligence server are provided, which receive a response from the artificial intelligence server for a transmitted prompt, [6] obtain a response voice corresponding to the received response, and [7] transmit the obtained response voice to the electronic device through the communication unit.
상기 제어부는, 상기 전자기기에 의해 획득된 상기 사용자의 음성에 대응되는 음성 텍스트를 획득하고 -이때, 상기 사용자의 음성은 상기 응답 음성이 상기 전자기기로 전송되어 출력된 이후 획득되고, 상기 음성 텍스트는 상기 후속 음성을 STT 변환하여 획득됨-, 상기 음성 텍스트에 기초하여, 후속 프롬프트를 생성하고 상기 후속 프롬프트를 상기 통신부를 통해 상기 인공지능 서버에 전송하고, 상기 통신부를 통해 상기 전송된 후속 프롬프트에 대한 상기 인공지능 서버의 후속 응답을 수신하고, 수신한 상기 후속 응답에 대응되는 후속 응답 음성을 획득하고, 상기 후속 응답 음성을 상기 통신부를 통해 상기 전자기기로 전송한다.The control unit obtains a voice text corresponding to the user's voice obtained by the electronic device - wherein the user's voice is obtained after the response voice is transmitted to and output by the electronic device, and the voice text is obtained by converting the subsequent voice into STT -, generates a subsequent prompt based on the voice text, transmits the subsequent prompt to the artificial intelligence server through the communication unit, receives a subsequent response of the artificial intelligence server to the transmitted subsequent prompt through the communication unit, obtains a subsequent response voice corresponding to the received subsequent response, and transmits the subsequent response voice to the electronic device through the communication unit.
다른 실시예에 따르면, 전자기기 및 인공지능 서버와 통신하는 서버로, 메모리; 통신부; 및 상기 메모리 및 상기 통신부를 제어하는 제어부;를 포함하며, 이때, 상기 제어부는 [1] 상기 전자기기에 의해 획득된 코드 데이터에 인코딩(encoding)된 참조 정보(reference information)를 획득하고 - 이때, 상기 참조 정보는 상기 전자기기로부터 상기 통신부를 통해 수신되거나 또는 상기 제어부가 상기 전자기기로부터 상기 통신부를 통해 상기 코드 데이터를 수신한 후 상기 코드 데이터를 디코딩(decoding)하여 획득되며, 상기 참조 정보는 상기 사용자가 상기 전자기기를 이용하여 상호작용하고 있는 미디엄 내 미리 설정된 영역을 식별(identify)하기 위한 영역 식별 정보를 포함하고, 상기 미리 설정된 영역에는 심볼(symbol), 질문 사항 및 지시 사항 중 적어도 하나가 인쇄됨 - , [2] 상기 참조 정보에 기초하여, 상기 미리 설정된 영역에 대응되어 미리 저장된 인위적 맥락 정보(artificial context information)를 상기 메모리로부터 획득하고, [3] 상기 전자기기에 의해 획득된 상기 사용자의 음성에 대응되는 음성 데이터를 획득하고, [4] 상기 획득된 인위적 맥락 정보 및 상기 음성 데이터를 이용하여 프롬프트를 생성하고 [5] 상기 프롬프트를 상기 통신부를 통해 상기 인공지능 서버에 전송하고, [6] 상기 통신부를 통해 상기 전송된 프롬프트에 대한 상기 인공지능 서버의 응답(response)을 수신하고, [7] 수신한 상기 응답 또는 상기 응답에 대응되는 응답 음성을 상기 통신부를 통해 상기 전자기기로 전송하는, 전자기기 및 인공지능 서버와 통신하는 서버가 제공된다.According to another embodiment, a server for communicating with an electronic device and an artificial intelligence server, comprising: a memory; a communication unit; And a control unit that controls the memory and the communication unit; wherein the control unit [1] obtains reference information encoded in code data obtained by the electronic device - wherein the reference information is received from the electronic device through the communication unit or obtained by the control unit decoding the code data after receiving the code data from the electronic device through the communication unit, and the reference information includes area identification information for identifying a preset area within a medium with which the user is interacting using the electronic device, and at least one of a symbol, a question, and an instruction is printed in the preset area - , [2] based on the reference information, obtains artificial context information stored in advance corresponding to the preset area from the memory, [3] obtains voice data corresponding to the user's voice obtained by the electronic device, [4] generates a prompt using the obtained artificial context information and the voice data, and [5] transmits the prompt to the artificial intelligence server through the communication unit. A server is provided that communicates with an electronic device and an artificial intelligence server, which transmits, [6] receives a response from the artificial intelligence server to the transmitted prompt through the communication unit, and [7] transmits the received response or a response voice corresponding to the response to the electronic device through the communication unit.
상기 인위적 맥락 정보의 데이터 유형은 텍스트, 소리, 이미지 또는 영상 중 어느 하나이다.The data type of the above artificial context information is any of text, sound, image, or video.
상기 인위적 맥락 정보의 데이터 유형이 텍스트이고 상기 인공지능 서버에서 지원하는 데이터 유형이 소리인 경우, 상기 제어부는, 상기 프롬프트를 생성하기 전 상기 인위적 맥락 정보의 데이터 유형이 소리가 되도록 상기 인위적 맥락 정보를 변환한다.If the data type of the artificial context information is text and the data type supported by the artificial intelligence server is sound, the control unit converts the artificial context information so that the data type of the artificial context information becomes sound before generating the prompt.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련된 다음의 상세한 설명을 통해 보다 분명해질 것이다. 다만, 본 발명은 다양한 변경이 가해질 수 있고 여러 가지 실시예들이 있을 수 있는 바, 이하에서는 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.The above-described purposes, features, and advantages will become more apparent through the following detailed description taken in conjunction with the accompanying drawings. However, the present invention is susceptible to various modifications and various embodiments. Therefore, specific embodiments will be illustrated in the drawings and described in detail below.
도면들에 있어서, 층 및 영역들의 두께는 명확성을 기하기 위하여 과장된 것이며, 또한, 구성요소(element) 또는 층이 다른 구성요소 또는 층의 "위(on)" 또는 "상(on)"으로 지칭되는 것은 다른 구성요소 또는 층의 바로 위 뿐만 아니라 중간에 다른 층 또는 다른 구성요소를 개재한 경우를 모두 포함한다. 명세서 전체에 걸쳐서 동일한 참조번호들은 원칙적으로 동일한 구성요소들을 나타낸다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명하며, 이에 대한 중복되는 설명은 생략하기로 한다.In the drawings, the thicknesses of layers and regions are exaggerated for clarity, and when an element or layer is referred to as "on" or "on" another element or layer, this includes not only the case where the element or layer is directly above the other element or layer, but also the case where another layer or other element is interposed. In principle, the same reference numerals represent the same elements throughout the specification. In addition, elements that have the same function within the scope of the same idea shown in the drawings of each embodiment are described using the same reference numerals, and redundant descriptions thereof will be omitted.
본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.The numbers used in the description of this specification (e.g., first, second, etc.) are merely identifiers to distinguish one component from another.
또한, 이하의 실시예에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.In addition, the suffixes "module" and "part" for components used in the following examples are given or used interchangeably only for the convenience of writing the specification, and do not have distinct meanings or roles in themselves.
이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.In the examples below, singular expressions include plural expressions unless the context clearly indicates otherwise.
이하의 실시예에서, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.In the following examples, terms such as “include” or “have” mean that a feature or component described in the specification is present, and do not preclude the possibility that one or more other features or components may be added.
도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타낸 것으로, 본 발명이 반드시 도시된 바에 한정되지 않는다.For convenience of explanation, the sizes of components in the drawings may be exaggerated or reduced. For example, the sizes and thicknesses of each component shown in the drawings are arbitrarily shown for convenience of explanation, and the present invention is not necessarily limited to what is shown.
어떤 실시예가 달리 구현 가능한 경우에 특정한 공정 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 공정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 진행될 수 있다.In some embodiments, where implementations are otherwise feasible, specific process sequences may be performed in a different order than described. For example, two processes described in succession may be performed substantially simultaneously, or in a reverse order from the described order.
이하의 실시예에서, 막, 영역, 구성 요소 등이 연결되었다고 할 때, 막, 영역, 구성 요소들이 직접적으로 연결된 경우 뿐만 아니라 막, 영역, 구성요소들 중간에 다른 막, 영역, 구성 요소들이 개재되어 간접적으로 연결된 경우도 포함한다.In the following examples, when it is said that a film, region, component, etc. are connected, it includes not only cases where the films, regions, and components are directly connected, but also cases where other films, regions, and components are interposed between the films, regions, and components and are indirectly connected.
예컨대, 본 명세서에서 막, 영역, 구성 요소 등이 전기적으로 연결되었다고 할 때, 막, 영역, 구성 요소 등이 직접 전기적으로 연결된 경우 뿐만 아니라, 그 중간에 다른 막, 영역, 구성 요소 등이 개재되어 간접적으로 전기적 연결된 경우도 포함한다.For example, when it is said in this specification that a film, region, component, etc. are electrically connected, it includes not only cases where the film, region, component, etc. are directly electrically connected, but also cases where another film, region, component, etc. is interposed and indirectly electrically connected.
구체적으로 언급되거나 문맥상 명백하지 않는 한, 수치와 관련하여 "약"이라는 용어는 언급된 수치 및 그 수치의 +/-10%까지를 의미하는 것으로 이해될 수 있고, 수치범위와 관련하여 "약"이라는 용어는 수치범위의 하한 값보다 10% 낮은 수치부터 수치범위의 상한 값보다 10% 높은 수치까지의 범위를 의미하는 것으로 이해될 수 있다.Unless specifically stated or clear from context, the term "about" in relation to a numerical value shall be understood to mean the numerical value stated plus or minus 10% of that numerical value, and the term "about" in relation to a numerical range shall be understood to mean a range from 10% below the lower limit of the numerical range to 10% above the upper limit of the numerical range.
1. 개괄1. Overview
발명의 배경이 되는 기술에서 서술한 바와 같이, 책을 읽어주기만 할 뿐 아이와 대화하거나 아이의 질문에 답변해줄 수 없는 소리펜의 문제점을 해결하는 방안으로, 인공지능 서버를 이용하는 것을 고려해볼 수 있다. 즉, 아이의 음성을 녹음하고 녹음된 음성을(또는 음성이 변환된 텍스트를) Chat GPT(Generative Pre-trained Transformer)와 같은 거대 언어 모델(LLM, large language model)에 입력하여 응답을 생성하고 이를 아이에게 들려주는 시스템을 고려해볼 수 있다.As described in the background technology of the invention, to address the issue of sound pens that can only read books and not converse with or answer children's questions, one solution is to consider utilizing an AI server. Specifically, a system could be considered that records a child's voice, inputs the recorded voice (or the converted text) into a large language model (LLM) such as Chat GPT (Generative Pre-trained Transformer), generates a response, and then reads it back to the child.
이 때, 아이는 나이가 어려 언어 능력이 상대적으로 낮아 뜻이 명확한 문장을 구사하는 것이 어렵고, 부족한 언어 능력을 메우기 위해 아이는 책을 읽으면서 손가락과 함께 '이거' 또는 '저거' 등의 지시 대명사를 빈번하게 사용하는 특성이 고려되어야 한다.At this time, the child is young and has relatively low language skills, making it difficult for him or her to use sentences with clear meanings. To compensate for this lack of language skills, the child frequently uses demonstrative pronouns such as 'this' or 'that' with his or her fingers while reading a book. This characteristic must be taken into account.
즉, 거대 언어 모델은 아이의 음성(또는 음성이 변환된 텍스트)만을 입력 받을 수 있고, 아이가 손가락으로 가리키는 행위 등의 정보는 입력 받기 어려워, 아이가 하고자 하는 말이 정확히 무엇인지, 또는 궁금해하는 것은 무엇인지 알 수 없는 문제가 발생한다.In other words, the large language model can only receive the child's voice (or text converted from the voice) as input, and it is difficult to receive information such as the child's pointing behavior, which causes the problem of not being able to know exactly what the child is trying to say or what he or she is curious about.
예를 들어, 아이가 백설공주 동화책을 읽으면서, “여기가 공주가 사는 곳이야?”, 또는 “얘는 왜 공주를 괴롭혀?” 등의 질문을 하는 경우, 해당 질문이 아무런 맥락 없이(또는, 백설공주 이야기에 대한 맥락 없이) 거대 언어 모델에 전달된다면, 거대 언어 모델은 아이의 의도를 파악하는 데에 어려움을 가질 것이고, 그에 따라 백설공주 동화책과 관련성이 낮은 응답을 출력하는 문제가 발생한다.For example, if a child is reading a Snow White storybook and asks questions such as “Is this where the princess lives?” or “Why is he bothering the princess?”, and if these questions are passed to a large language model without any context (or without the context of the Snow White story), the large language model will have difficulty understanding the child’s intention, and as a result, it will output a response that has little relevance to the Snow White storybook.
이와 같은 문제를 해결하기 위하여, 본 개시는 사용자의 음성(예를 들어, 사용자의 질문 등)이 입력될 때, 사용자의 음성에 관련되어 있는 컨텐츠의 내용을 추출하여 활용하는 방법을 제안한다.To solve such a problem, the present disclosure proposes a method of extracting and utilizing the content related to a user's voice when the user's voice (e.g., a user's question, etc.) is input.
이때, 사용자의 음성에 관련되어 있는 컨텐츠를 특정하기 위하여, 카메라 등으로 식별이 가능한 코드를 상기 미디엄에 컨텐츠와 함께 인쇄하여 놓고, 사용자가 사용하는 전자기기를 통해 인식되는 코드를 이용한다.At this time, in order to specify the content related to the user's voice, a code that can be identified by a camera or the like is printed on the medium together with the content, and a code that is recognized by an electronic device used by the user is used.
이로써, 본 개시에 의해 제공되는 방법에 의하면, 사용자가 단순히 GPT 와 같은 생성형이자 대화형 인공지능 모델과 대화를 함에 있어서, 사용자의 음성 뿐만 아니라, 사용자가 관심을 가지고 있는 미디엄에 인쇄된 컨텐츠에 대한 정보를 더 활용 가능하게 될 수 있다. 인공지능 모델과 대화함에 있어서 사용자가 관심을 가지고 있는 미디엄에 인쇄된 컨텐츠를 활용하는 것은 인공지능 모델이 사용자와 대화하는 기본적인 '맥락'을 형성하는 데에 도움을 준다. 즉, 사용자와 인공지능 모델 사이의 대화에 있어서 '맥락'에 관한 정보를 추가적으로 생성하고, 이러한 맥락 정보를 대화에 활용하는 것이 본 개시에 의해 제공되는 방법이 종래의 문제를 해결하기 위한 핵심적인 컨셉이다.Accordingly, according to the method provided by the present disclosure, when a user simply converses with a generative and conversational AI model such as GPT, the user can utilize not only the user's voice, but also information about content printed in a medium of interest to the user. Utilizing content printed in a medium of interest to the user in a conversation with the AI model helps the AI model form a basic 'context' for conversing with the user. In other words, the core concept of the method provided by the present disclosure for solving the conventional problem is to additionally generate information about the 'context' in the conversation between the user and the AI model and utilize this contextual information in the conversation.
이하에서, 본 개시에 의해 제공되는 방법을 구현하기 위한 구체적인 시스템에 대해서 설명하고, 나아가 본 개시에 의해 제공되는 방법의 다양한 실시예에 대해서 설명하도록 한다. 특히, 맥락 정보를 어떻게 생성하고, 또 이 맥락 정보를 어떻게 인공지능 모델에 전달하게 되는지에 대한 구체적인 방법들도 이하의 설명에 의해 명확하게 이해될 것이다.Below, a specific system for implementing the method provided by the present disclosure is described, and various embodiments of the method provided by the present disclosure are further described. In particular, specific methods for generating contextual information and transmitting this contextual information to an artificial intelligence model will be clearly understood through the following description.
2. 상호작용 시스템2. Interaction System
이하에서는, 도 1을 참고하여 상호작용 시스템의 구성 및 동작 방식에 대해 서술한다.Below, the configuration and operation method of the interaction system are described with reference to Fig. 1.
도 1은 일 실시예에 따른, 상호작용 시스템(10)을 나타내는 도면이다.FIG. 1 is a diagram illustrating an interaction system (10) according to one embodiment.
도 1을 참고하면, 상호작용 시스템(100)은 전자기기(1000), 메인 서버(2000), 및 인공지능 서버(3000)를 포함할 수 있다.Referring to FIG. 1, the interaction system (100) may include an electronic device (1000), a main server (2000), and an artificial intelligence server (3000).
사용자는 미디엄(medium)을 이용함에 있어서, 상호작용 시스템(100)을 이용하여 미디엄과 상호작용할 수 있다.When using a medium, a user can interact with the medium using an interaction system (100).
여기서, 미디엄은 정보나 컨텐츠(contents)가 기록되어 있는 물리적 매체를 의미한다. 예시적으로, 미디엄에 기록된 정보나 컨텐츠는 이야기, 설명, 정보, 질문, 액티비티, 또는 지시사항 등일 수 있다. 또한, 물리적 매체는 책이나 종이, 또는 필름(film) 뿐만 아니라, 물건의 표면 중 일부 영역, 조형물의 표면 중 일부 영역, 가구의 표면 중 일부 영역, 전자제품의 표면 중 일부 영역, 건축물의 표면 중 일부 영역 등일 수 있다. 이때, 미디엄에 정보가 기록되는 방식은 '전자적'인 방식을 의미하지 않으며, 사용자가 시각을 통해 미디어에 기록된 정보를 인지할 수 있는 것을 의미한다. 예를 들어, 미디엄에는 이미지 혹은 텍스트 등의 정보나 컨텐츠가 인쇄될 수 있다. 한편, 미디엄은 LCD, OLED, 또는 LED 등의 패널(panel) 또는 패널을 포함하는 디스플레이일 수 있고, 미디엄에는 이미지 혹은 텍스트 등의 정보나 컨텐츠가 전자적으로 출력될 수도 있다.Here, a medium refers to a physical medium on which information or content is recorded. For example, the information or content recorded on a medium may be a story, description, information, questions, activities, or instructions. Furthermore, a physical medium may not only be a book, paper, or film, but also a portion of the surface of an object, a portion of the surface of a sculpture, a portion of the surface of a piece of furniture, a portion of the surface of an electronic device, a portion of the surface of a building, etc. In this case, the method by which information is recorded on a medium does not refer to an "electronic" method; rather, it refers to a method by which a user can visually perceive the information recorded on the medium. For example, information or content such as images or text may be printed on a medium. Meanwhile, a medium may be a panel, such as an LCD, OLED, or LED, or a display including a panel, and information or content such as images or text may be electronically output on a medium.
사용자가 미디엄을 이용하는 것은 예시적으로, 사용자가 미디엄에 기록된 이야기나 정보를 읽는 것, 또는 사용자가 미디엄에 기록된 액티비티나 지시사항을 수행하는 것 등이다.Examples of a user's use of Medium include the user reading a story or information recorded on Medium, or the user performing an activity or instruction recorded on Medium.
사용자는 상호작용 시스템(100)을 이용하여 미디엄과 상호작용할 수 있다.A user can interact with the medium using the interaction system (100).
대표적으로, 상호작용은 상호작용 시스템(100)과 미디엄에 대해 대화하는 것을 의미한다. 구체적으로, 사용자는 미디엄을 이용하면서 전자기기(1000)를 통해 질문하고 답변을 들을 수 있다. 예를 들어, 사용자가 책을 읽으면서 육성으로 질문하거나 의견을 표현하고, 전자기기(1000)에서 해당 질문에 대한 답변이나 의견에 대한 반응이 음성으로 출력되는 형태로 상호작용이 이루어질 수 있다. 다른 예를 들어, 전자기기(1000)는 카드에 인쇄된 액티비티나 지시사항을 음성으로 출력하고, 사용자는 액티비티를 수행하거나 지시사항에 대해 응답하는 형태로 상호작용이 이루어질 수 있다.Typically, interaction refers to a conversation between the interaction system (100) and the medium. Specifically, a user can ask questions and receive answers through the electronic device (1000) while using the medium. For example, the interaction may occur when a user asks a question or expresses an opinion using their voice while reading a book, and the electronic device (1000) outputs a response to the question or opinion in voice. In another example, the electronic device (1000) may output activities or instructions printed on a card in voice, and the user may interact by performing the activity or responding to the instructions.
사용자가 전자기기(1000)를 이용하여 미디엄과 상호작용하는 과정은 아래와 같이 이루어질 수 있다.The process by which a user interacts with a medium using an electronic device (1000) can be performed as follows.
먼저, 전자기기(1000)는 미디엄에 대해 이미지 데이터를 획득할 수 있다. 이미지 데이터는 사용자의 조작에 의해 전자기기(1000)가 미디엄의 일부를 촬영하여 얻어진 이미지를 의미한다. 예를 들어, 사용자가 전자기기(1000)를 미디엄의 일부에 접촉시키거나 근접하게 위치시킨 상태에서 전자기기(1000)는 미디엄의 일부를 촬영하여 이미지 데이터가 획득될 수 있다. 이미지 데이터에는 미디엄에 관한 정보가 인코딩(encoding)되어 있을 수 있다. 전자기기(1000)는 이미지 데이터를 메인 서버(2000)에 전송할 수 있다.First, the electronic device (1000) can acquire image data regarding the medium. The image data refers to an image obtained by the electronic device (1000) by photographing a portion of the medium through a user's operation. For example, the electronic device (1000) can acquire image data by photographing a portion of the medium while the user places the electronic device (1000) in contact with or in close proximity to a portion of the medium. Information regarding the medium may be encoded in the image data. The electronic device (1000) can transmit the image data to the main server (2000).
전자기기(1000)는 사용자의 음성 데이터를 획득할 수 있다. 전자기기(1000)는 사용자의 음성을 녹음하여 사용자 음성 데이터를 획득할 수 있다. 전자기기(1000)는 사용자 음성 데이터를 메인 서버(2000)에 전송할 수 있다.The electronic device (1000) can obtain the user's voice data. The electronic device (1000) can record the user's voice to obtain the user's voice data. The electronic device (1000) can transmit the user's voice data to the main server (2000).
전자기기(1000)는 전자기기 ID를 메인 서버(2000)에 전송할 수 있다. 전자기기 ID는 전자기기(1000)를 식별하기 위한 정보로, 후술하는 세션 정보를 생성하는 데에 이용될 수 있다.An electronic device (1000) can transmit an electronic device ID to a main server (2000). The electronic device ID is information for identifying the electronic device (1000) and can be used to generate session information described below.
메인 서버(2000)는 이미지 데이터와 음성 데이터를 이용하여 프롬프트(prompt)를 생성할 수 있다. 구체적으로, 메인 서버(2000)는 이미지 데이터를 분석하여 맥락 정보(context information)를 획득하고, 맥락 정보 및 음성 데이터를 이용하여 프롬프트를 생성할 수 있다.The main server (2000) can generate a prompt using image data and voice data. Specifically, the main server (2000) can analyze image data to obtain context information and generate a prompt using the context information and voice data.
메인 서버(2000)는 프롬프트를 인공지능 서버(3000)에 전송할 수 있다. 인공지능 서버(3000)는 거대 언어 모델(LLM, large language model)을 포함하고, 프롬프트를 입력 받아 응답을 출력할 수 있다. 인공지능 서버(3000)는 응답을 메인 서버(2000)에 전송하고, 메인 서버는 응답에 대한 응답 음성 데이터를 생성하여 전자기기(1000)에 전송할 수 있다. 전자기기(1000)는 수신한 응답 음성 데이터를 출력할 수 있다.The main server (2000) can transmit a prompt to the artificial intelligence server (3000). The artificial intelligence server (3000) includes a large language model (LLM) and can receive a prompt and output a response. The artificial intelligence server (3000) transmits the response to the main server (2000), and the main server can generate response voice data for the response and transmit it to the electronic device (1000). The electronic device (1000) can output the received response voice data.
사용자가 상호작용 시스템(100)을 이용하여 미디엄과 상호작용함에 있어서, 전술한 맥락 정보는 상호작용의 맥락을 특정하는 데에 이용될 수 있다. 예시적으로, 사용자가 책의 일부를 읽으면서(또는 가리키면서) 질문이나 의견을 표현한 경우, 책의 내용 또는 책의 일부에 대한 내용이 상호작용의 맥락이 될 수 있다. 이 때, 사용자가 질문이나 의견을 표현하면서 읽은 부분(또는 가리킨 부분)에 대한 정보가 맥락 정보로 획득되고, 획득된 맥락 정보가 프롬프트 생성에 이용될 수 있다. 이 경우, 인공지능 서버(3000)에서 생성되는 응답 역시 맥락 정보가 고려될 수 있고, 전자기기(1000)를 통해 출력되는 응답 음성 데이터는 사용자의 질문이나 표현한 의견의 의도에 대응되는 내용을 포함하게 된다.When a user interacts with a medium using the interaction system (100), the aforementioned contextual information can be used to specify the context of the interaction. For example, if a user expresses a question or opinion while reading (or pointing to) a portion of a book, the content of the book or information about that portion of the book can serve as the context for the interaction. In this case, information about the portion the user read (or pointed to) while expressing the question or opinion is acquired as contextual information, and the acquired contextual information can be used to generate a prompt. In this case, the response generated by the artificial intelligence server (3000) can also take contextual information into account, and the response voice data output through the electronic device (1000) includes content corresponding to the intent of the user's question or expressed opinion.
맥락 정보는 미디엄 맥락 정보(medium context information) 및 인위적 맥락 정보(artificial context information) 중 적어도 하나를 포함할 수 있다.The context information may include at least one of medium context information and artificial context information.
미디엄 맥락 정보는 미디엄에 관한 정보 중 미디엄이 가지는 맥락을 구성하는 정보를 의미한다. 예를 들어, 미디엄이 특정 이야기가 인쇄된 책인 경우, 미디엄의 맥락은 특정 이야기를 의미하고, 미디엄 맥락 정보는 특정 이야기 중 일부에 관한 정보로 특정 이야기를 구성하는 단어, 문장, 문단, 또는 이미지 등을 의미할 수 있다. 미디엄 맥락 정보는 미디엄에 관한 정보 중 사용자가 상호작용하는 부분에 관한 정보일 수 있다. 예를 들어, 미디엄 맥락 정보는 미디엄의 맥락 중 사용자가 전자기기(1000)를 이용하여 가리키거나 접촉한 부분의 단어, 문장, 문단, 또는 이미지에 관한 정보일 수 있다. 미디엄 맥락 정보가 획득되는 방법에 대해서는 후술하도록 한다.Medium context information refers to information about a medium that constitutes the context of the medium. For example, if the medium is a book containing a specific story, the context of the medium refers to the specific story, and the medium context information may refer to information about a portion of the specific story, such as words, sentences, paragraphs, or images that constitute the specific story. The medium context information may refer to information about a portion of the medium with which a user interacts. For example, the medium context information may refer to information about a word, sentence, paragraph, or image that a user points to or touches using an electronic device (1000) within the context of the medium. The method by which the medium context information is acquired will be described later.
인위적 맥락 정보는 미디엄에 관한 정보 중 미디엄이 가지는 맥락을 구성하지 않는 정보를 의미한다. 예를 들어, 인위적 맥락 정보는 미디엄에 관한 정보 중 지시 사항, 질의 사항, 또는 액티비티 등의 정보를 포함할 수 있다. 보다 구체적으로, 미디엄이 특정 이야기가 인쇄된 책인 경우, 미디엄의 맥락은 특정 이야기를 의미하고, 미디엄 맥락 정보는 특정 이야기에 대한 질의 사항, 지시 사항, 또는 특정 행동을 유도하는 문장을 의미할 수 있다.Artificial contextual information refers to information about a medium that does not constitute the context of the medium. For example, artificial contextual information may include instructions, questions, or activities related to the medium. More specifically, if the medium is a book containing a specific story, the context of the medium may refer to the specific story, and the contextual information of the medium may refer to questions, instructions, or sentences that encourage specific actions related to the story.
이하에서는, 도 2 내지 도 5를 참고하여 상호작용 시스템(100)의 각 구성에 대해 구체적으로 서술한다.Below, each component of the interaction system (100) is described in detail with reference to FIGS. 2 to 5.
도 2는 일 실시예에 따른 전자기기(1000)의 구성을 나타내는 도면이다.FIG. 2 is a drawing showing the configuration of an electronic device (1000) according to one embodiment.
도 4는 일 실시예에 따른 메인 서버(2000)의 구성을 나타내는 도면이다.FIG. 4 is a diagram showing the configuration of a main server (2000) according to one embodiment.
도 5는 일 실시예에 따른 인공지능 서버(3000)의 구성을 나타내는 도면이다.FIG. 5 is a diagram showing the configuration of an artificial intelligence server (3000) according to one embodiment.
도 2를 참고하면, 전자기기(1000)는 센싱부(1100), 전자기기 메모리(1200), 전자기기 입력부(1300), 전자기기 출력부(1400), 전자기기 통신부(1500), 및 전자기기 제어부(1600)를 포함할 수 있다.Referring to FIG. 2, the electronic device (1000) may include a sensing unit (1100), an electronic device memory (1200), an electronic device input unit (1300), an electronic device output unit (1400), an electronic device communication unit (1500), and an electronic device control unit (1600).
전자기기(1000)는 센싱부(1100)를 통해 미디엄에 인쇄된 내용을 촬영할 수 있다. 예를 들어, 센싱부(1100)는 카메라 등의 이미지 센서를 포함하고, 사용자의 조작에 따라 전자기기(1000)는 미디엄의 적어도 일부 영역을 촬영하여 이미지를 획득할 수 있다.The electronic device (1000) can capture content printed on a medium through a sensing unit (1100). For example, the sensing unit (1100) includes an image sensor such as a camera, and according to a user's operation, the electronic device (1000) can capture at least a portion of the medium to obtain an image.
센싱부(1100)를 통해 획득되는 이미지에는 코드가 포함될 수 있다. 구체적으로, 코드는 미리 설정된 규칙에 따라 미디엄에 인쇄되고, 미디엄을 촬영하여 획득된 이미지에는 코드가 포함될 수 있다. 이 때, 미디엄에 코드를 인쇄할 때 사용되는 잉크와 미디엄에 컨텐츠를 인쇄할 때 사용되는 잉크가 다를 수 있다. 예시적으로 코드는 적외선을 흡수하는 잉크를 사용하여 미디엄에 인쇄되고, 전자기기(1000)의 센싱부(1100)는 적외선 이미지 센서를 포함하여, 센싱부(1100)에 의해 촬영된 이미지에는 미디엄에 인쇄된 컨텐츠가 아닌 코드가 포함될 수 있다(또는 컨텐츠와 코드가 모두 포함될 수도 있다).An image acquired through the sensing unit (1100) may include a code. Specifically, the code may be printed on a medium according to preset rules, and an image acquired by photographing the medium may include the code. In this case, the ink used to print the code on the medium may be different from the ink used to print content on the medium. For example, the code may be printed on the medium using ink that absorbs infrared rays, and the sensing unit (1100) of the electronic device (1000) may include an infrared image sensor, so that the image captured by the sensing unit (1100) may include a code rather than content printed on the medium (or may include both content and a code).
후술하는 바와 같이, 전자기기(1000)는 코드가 인쇄된 미디엄을 촬영하여 코드 이미지를 획득하고, 전자기기(1000) 또는 메인 서버(2000)는 획득된 코드 이미지를 분석하여 미디엄에 관한 정보를 지시하는 참조 정보 또는 미디엄에 관한 정보를 획득할 수 있다.As described below, the electronic device (1000) can capture a code image by photographing a medium on which a code is printed, and the electronic device (1000) or the main server (2000) can analyze the acquired code image to obtain reference information indicating information about the medium or information about the medium.
이하에서는, 도 3을 참고하여 미디엄에 인쇄되는 코드에 대해 구체적으로 서술한다.Below, the code printed on the medium is described in detail with reference to Fig. 3.
도 3은 일 실시예에 따른 미디엄에 인쇄되는 코드를 도시한 도면이다. 도 3의 (a)는 코드를 구성하는 유닛 셀을 나타내는 도면이다. 도 3의 (b)는 정보 선분에 정보를 인코딩하는 방법을 나타내는 도면이다.FIG. 3 is a diagram illustrating a code printed on a medium according to one embodiment. FIG. 3 (a) is a diagram illustrating unit cells constituting the code. FIG. 3 (b) is a diagram illustrating a method for encoding information on an information segment.
도 3을 참고하면, 코드는 하나의 유닛 셀(unit cell)이 2차원적으로 미디엄 크기에 맞추어 반복적으로 인쇄되는 방식으로 구현될 수 있다. 각각의 유닛 셀에는 특정 규칙에 따라 배치된 복수의 선분들(또는 점들)을 포함하고, 특정 규칙은 해당 유닛 셀에 인코딩되는 정보에 따라 결정될 수 있다.Referring to Figure 3, the code can be implemented in a manner in which a single unit cell is repeatedly printed in two dimensions to fit a medium size. Each unit cell includes a plurality of line segments (or dots) arranged according to a specific rule, and the specific rule can be determined based on the information encoded in the unit cell.
도 3의 (a)를 참고하면, 유닛 셀에 포함되는 선분들은 기준선분과 정보선분으로 구분되고, 기준선분은 가로기준선분, 세로기준선분 및 교차기준선분으로 구성된다.Referring to (a) of Fig. 3, the line segments included in the unit cell are divided into a reference line segment and an information line segment, and the reference line segment is composed of a horizontal reference line segment, a vertical reference line segment, and an intersection reference line segment.
전자기기(1000) 또는 메인 서버(2000)가 코드 이미지를 분석함에 있어서, 기준선분을 통해 유닛 셀의 영역을 구분하고, 정보선분을 통해 유닛 셀에 인코딩된 정보를 획득할 수 있다.When an electronic device (1000) or a main server (2000) analyzes a code image, the area of a unit cell can be divided through a reference line segment, and information encoded in the unit cell can be obtained through an information line segment.
한편, 유닛 셀 내에서, 가상의 선들이 정의될 수 있고, 가상의 선들은 가로방향으로 늘어져 있는 복수의 가로가상선들 및 세로방향으로 늘어져 있는 복수의 세로가상선들로 구성된다. 가상선은 일반적으로 미디엄에 인쇄되지 않는 선을 의미하나, 반드시 그러한 것은 아니며 미디엄에 인쇄될 수도 있다.Meanwhile, within a unit cell, virtual lines can be defined, and the virtual lines are composed of a plurality of horizontal virtual lines extending in the horizontal direction and a plurality of vertical virtual lines extending in the vertical direction. Virtual lines generally refer to lines that are not printed on the medium, but this is not necessarily the case and may be printed on the medium.
복수의 가로가상선들과 복수의 세로가상선들이 서로 만나서 형성하게 되는 복수의 교차점이 형성되는데, 이러한 복수의 교차점들을 이하에서는, 가상 기준점이라고 한다. 가상 기준점 역시 일반적으로 미디엄에 인쇄되지는 않으나, 반드시 그러한 것은 아니며 미디엄에 인쇄될 수도 있다.Multiple horizontal and vertical virtual lines intersect to form multiple intersections. These intersections are hereinafter referred to as "virtual reference points." Virtual reference points are generally not printed on the medium, but this is not necessarily the case and may be printed on the medium.
도 3을 참고하면, 하나의 유닛 셀은 총 7개의 가로가상선들 및 7개의 세로가상선들을 구비하고 있는 것으로 도시되어 있으며, 그 중 가장 위에 배치되어 있는 가로가상선에는 가로기준선분들이 배치되어 있고, 가장 왼쪽에 배치되어 있는 세로가상선에는 상기 세로기준선분들이 배치되어 있는 것이 도시되어 있다.Referring to FIG. 3, one unit cell is illustrated as having a total of seven horizontal virtual lines and seven vertical virtual lines, and among them, horizontal reference line segments are arranged on the horizontal virtual line arranged at the top, and the vertical reference line segments are arranged on the vertical virtual line arranged at the leftmost.
정보선분의 배치 방법에 따라 특정 개수의 이진수를 표현할 수 있다. 이하에서는 설명의 편의를 위해 정보선분이 표현할 수 있는 정보가 4개의 이진수(즉, 2bit)를 표현하는 경우에 대해 서술한다.Depending on how the information segments are arranged, a specific number of binary digits can be expressed. For convenience, the following description assumes that the information segments can express four binary digits (i.e., 2 bits).
명확한 설명을 위하여, 전술한 가상 기준점을 원점으로 하고, 가로기준선분들 및 세로기준선분들의 방향에 정의되는 직교좌표계를 상정한다.For the sake of clarity, assume that the aforementioned virtual reference point is the origin and that an orthogonal coordinate system is defined in the directions of horizontal reference lines and vertical reference lines.
정보선분을 통해 인코딩하고자 하는 정보가 '00'인 경우, 상기 정보선분의 하나의 끝단(가상 기준점에 보다 더 가까이 위치하는 끝단)이 직교좌표계의 3사분면에, 그리고 다른 끝단(가상 기준점에 대해 보다 더 멀리 위치하는 끝단)은 직교좌표계의 1사분면에 위치될 수 있도록 정보선분이 배치될 수 있다(도 3의 (b)에서 가장 왼쪽 참고).When the information to be encoded through the information segment is '00', the information segment can be arranged so that one end of the information segment (the end located closer to the virtual reference point) is located in the third quadrant of the rectangular coordinate system, and the other end (the end located farther from the virtual reference point) is located in the first quadrant of the rectangular coordinate system (see the leftmost end in (b) of Fig. 3).
만약 정보선분을 통해 인코딩하고자 하는 정보가 '01'인 경우, 정보선분의 하나의 끝단(상기 가상기준점에 보다 더 가까이 위치하는 끝단)이 상기 직교좌표계의 4사분면에, 그리고 다른 끝단(가상 기준점에 대해 보다 더 멀리 위치하는 끝단)은 직교좌표계의 2사분면에 위치될 수 있도록 정보선분이 배치될 수 있다(도 3의 (b)에서 왼쪽에서 두 번째 참고).If the information to be encoded through the information segment is '01', the information segment can be arranged so that one end of the information segment (the end located closer to the virtual reference point) is located in the fourth quadrant of the rectangular coordinate system, and the other end (the end located farther from the virtual reference point) is located in the second quadrant of the rectangular coordinate system (see the second from the left in (b) of Fig. 3).
또한, 정보선분을 통해 인코딩하고자 하는 정보가 '10'인 경우, 정보선분의 하나의 끝단(가상 기준점에 대해 보다 더 가까이 위치하는 끝단)이 직교좌표계의 1사분면에, 그리고 다른 끝단(가상기준점에 대해 보다 더 멀리 위치하는 끝단)은 직교좌표계의 3사분면에 위치될 수 있도록 정보선분이 배치될 수 있다(도 3의 (b)에서 왼쪽에서 세 번째 참고).In addition, when the information to be encoded through the information line segment is '10', the information line segment can be arranged so that one end of the information line segment (the end located closer to the virtual reference point) is located in the first quadrant of the rectangular coordinate system, and the other end (the end located farther from the virtual reference point) is located in the third quadrant of the rectangular coordinate system (see the third from the left in (b) of Fig. 3).
아울러, 정보선분을 통해 인코딩하고자 하는 정보가 '11'인 경우, 정보선분의 하나의 끝단(가상 기준점에 대해 보다 더 가까이 위치하는 끝단)이 직교좌표계의 2사분면에, 그리고 다른 끝단(가상 기준점에 대해 보다 더 멀리 위치하는 끝단)은 직교좌표계의 4사분면에 위치될 수 있도록 정보선분이 배치될 수 있다(도 3의 (b)에서 왼쪽에서 네 번째 참고).In addition, when the information to be encoded through the information segment is '11', the information segment can be arranged so that one end of the information segment (the end located closer to the virtual reference point) is located in the second quadrant of the rectangular coordinate system, and the other end (the end located farther from the virtual reference point) is located in the fourth quadrant of the rectangular coordinate system (see the fourth from the left in (b) of Fig. 3).
만약, 도 3의 (b)에 도시된 바와 같이, 정보선분에 2bit의 정보가 인코딩되고 도 3의 (a)에 도시된 바와 같이, 하나의 유닛 셀에 36개의 정보선분이 포함되어 있는 경우, 하나의 유닛 셀에 인코딩할 수 있는 정보는 2bit*36=72bit가 된다.If, as shown in (b) of FIG. 3, 2 bits of information are encoded in an information line segment and, as shown in (a) of FIG. 3, 36 information lines are included in one unit cell, the information that can be encoded in one unit cell is 2 bits*36=72 bits.
다만, 정보선분을 배치하는 방식은, 정보선분의 하나의 끝단과 다른 끝단을 위치시키는 것이므로 정보 선분을 기울이는 각도나 기준점으로부터 정보선분을 이격시키는 방법 등으로 설계될 수도 있다. 이 경우, 정보선분에 인코딩될 수 있는 정보는 2bit로 한정되지 않으며, 3bit 이상이 될 수도 있다.However, since the method of arranging information segments is to position one end of the information segment relative to the other, it can also be designed by tilting the information segment at an angle or by separating the information segment from a reference point. In this case, the information that can be encoded in the information segment is not limited to 2 bits, and can be 3 bits or more.
한편, 코드는 전술한 방법 외에 다양한 방법으로 구현될 수 있다. 예를 들어 코드는 QR 코드와 같이 특정 정보가 인코딩되는 이미지 형태를 가질 수도도 있다.Meanwhile, the code can be implemented in various ways other than the aforementioned methods. For example, the code can take the form of an image encoding specific information, such as a QR code.
센싱부(1100)는 미디엄에 미리 인쇄되어 있던 복수의 코드들 중 일부에 대한 이미지(이하, 코드 이미지)를 획득한다. 전자기기(1000)는 획득된 코드 이미지를 분석하여 코드 이미지에 인코딩되어 있던 정보를 획득한다.The sensing unit (1100) acquires an image (hereinafter, “code image”) of some of the multiple codes pre-printed on the medium. The electronic device (1000) analyzes the acquired code image to acquire information encoded in the code image.
몇몇 실시예들에 의하면, 미디엄에 미리 인쇄되어 있던 코드들은 미디엄의 제목(title), 미디엄의 페이지(page), 미디엄의 한 페이지 내에서의 X좌표 및 Y좌표와 같은 정보들을 인코딩할 수 있다. 예시적으로, 한 단위의 코드들에는 (책제목, 페이지, X좌표, Y좌표)이 인코딩되어 있을 수 있다. 이와 같은 경우, 사용자가 전자기기(1000)를 통해 미디엄의 특정 위치를 지시한 경우, 전자기기(1000)는 사용자가 지시한 미디엄의 특정 위치를 알 수 있게 된다.According to some embodiments, the codes pre-printed on the medium may encode information such as the title of the medium, the page of the medium, and the X-coordinate and Y-coordinate within a page of the medium. For example, a unit of codes may encode (book title, page, X-coordinate, Y-coordinate). In this case, when a user indicates a specific location of the medium through the electronic device (1000), the electronic device (1000) can recognize the specific location of the medium indicated by the user.
몇몇 다른 실시예들에 의하면, 미디엄에 미리 인쇄되어 있던 코드들은 미리 정해진 영역 식별 정보를 인코딩할 수 있다. 이와 같은 경우, 사용자가 전자기기(1000)를 통해 미디엄 중 특정한 영역에 인쇄된 컨텐츠(ex. 글, 그림, 또는 아이콘 등)의 종류를 알 수 있게 된다.In some other embodiments, codes pre-printed on the medium may encode predetermined area identification information. In this case, a user can use the electronic device (1000) to identify the type of content (e.g., text, images, or icons) printed on a specific area of the medium.
몇몇 실시예들에 의하면, 전자기기(1000)는 코드 이미지의 분석을 통해 획득한 정보들(이하, 코드 데이터)을 메인 서버(2000)에 전송할 수 있으며, 메인 서버(2000)는 수신한 코드 데이터를 이용하여, 사용자가 지시한 미디엄의 특정 위치에 인쇄되어 있던 텍스트 혹은 이미지(즉, 인쇄된 컨텐츠의 일부)가 무엇인지를 특정할 수 있게 된다.According to some embodiments, the electronic device (1000) can transmit information (hereinafter, code data) obtained through analysis of a code image to the main server (2000), and the main server (2000) can use the received code data to identify the text or image (i.e., a part of the printed content) printed at a specific location of the medium indicated by the user.
몇몇 다른 실시예들에 의하면, 전자기기(1000)는 획득된 코드 이미지를 메인 서버(2000)에 전송할 수 있으며, 이 경우, 메인 서버(2000)는 코드 이미지를 분석하여 전술한 코드 데이터를 획득할 수 있으며, 이미 설명한 바와 같이, 사용자가 지시한 미디엄의 특정 위치에 인쇄되어 있던 텍스트 혹은 이미지(즉, 인쇄된 컨텐츠의 일부)가 무엇인지를 특정할 수 있게 된다.According to some other embodiments, the electronic device (1000) can transmit the acquired code image to the main server (2000), in which case the main server (2000) can analyze the code image to acquire the aforementioned code data, and as previously described, can specify what text or image (i.e., a part of the printed content) was printed at a specific location of the medium indicated by the user.
다시 도 2를 참고하면, 전자기기 메모리(1200)는 전자기기(1000)에서 처리되는 정보, 및 실행되는 프로그램 등을 저장할 수 있다. 예를 들어, 전자기기 메모리(1200)에는 센싱부(1100)에 의해 획득된 이미지 데이터가 저장될 수 있다. 다른 예를 들어, 전자기기 메모리(1200)에는 이미지 데이터를 분석하여 획득된 코드 데이터가 저장될 수 있다. 또 다른 예를 들어, 전자기기 메모리(1200)에는 코드 데이터를 이용하여 획득된 미디엄에 관한 데이터가 저장될 수 있다.Referring back to FIG. 2, the electronic device memory (1200) can store information processed by the electronic device (1000), programs executed, etc. For example, the electronic device memory (1200) can store image data acquired by the sensing unit (1100). As another example, the electronic device memory (1200) can store code data acquired by analyzing image data. As yet another example, the electronic device memory (1200) can store data regarding a medium acquired using code data.
전자기기 메모리(1200)는 하드웨어적으로, ROM, RAM, EPROM, 플래시 드라이브, 또는 하드 드라이브 등과 같은 다양한 저장기기 형태로 구현될 수 있다.The electronic device memory (1200) can be implemented in hardware in the form of various storage devices such as ROM, RAM, EPROM, flash drive, or hard drive.
전자기기 입력부(1300)는 마이크를 포함할 수 있다. 전자기기 입력부(1300)는 사용자의 음성을 녹음하여 음성 신호를 생성할 수 있다. 음성 신호는 음성 데이터로 전자기기 메모리(1200)에 저장될 수 있다.The electronic device input unit (1300) may include a microphone. The electronic device input unit (1300) may record the user's voice to generate a voice signal. The voice signal may be stored as voice data in the electronic device memory (1200).
전자기기 입력부(1300)는 트리거 버튼을 포함할 수 있다. 사용자가 트리거 버튼을 조작(ex. 가압하여 누르거나 터치하는 등)하는 경우 전자기기 입력부(1300)에 포함된 마이크가 활성화되어 음성 녹음이 개시될 수 있다. 사용자는 트리거 버튼을 누르고 질문이나 하고자 하는 말을 할 수 있고, 전자기기 입력부(1300)는 사용자의 음성을 녹음하여 음성 신호를 생성할 수 있다.The electronic device input unit (1300) may include a trigger button. When a user manipulates the trigger button (e.g., pressing or touching it), a microphone included in the electronic device input unit (1300) may be activated, thereby initiating voice recording. The user may press the trigger button and ask a question or say something, and the electronic device input unit (1300) may record the user's voice and generate a voice signal.
전자기기 입력부(1300)는 키보드, 버튼, 마우스, 마이크, 카메라, 센서, 터치스크린, 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다.The electronic device input unit (1300) may be, but is not limited to, a keyboard, a button, a mouse, a microphone, a camera, a sensor, a touch screen, or a combination thereof.
전자기기 출력부(1400)는 스피커를 포함할 수 있다. 전자기기 출력부(1400)는 메인 서버(2000)로부터 획득된 응답 음성 데이터를 출력할 수 있다.The electronic device output unit (1400) may include a speaker. The electronic device output unit (1400) may output response voice data obtained from the main server (2000).
전자기기 출력부(1400)는 디스플레이, 스피커, 인디케이터(indicator), 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다.The electronic device output unit (1400) may be, but is not limited to, a display, a speaker, an indicator, or a combination thereof.
전자기기 통신부(1500)는 전자기기(1000)와 외부 기기 사이의 데이터 통신을 수행할 수 있다. 예를 들어, 전자기기 통신부(1500)는 메인 서버(2000)에 코드 이미지(또는, 코드 데이터, 맥락 정보 등)를 전송할 수 있다. 다른 예를 들어, 전자기기 통신부(1500)는 메인 서버(2000)로부터 응답 음성 데이터를 수신할 수 있다.The electronic device communication unit (1500) can perform data communication between the electronic device (1000) and an external device. For example, the electronic device communication unit (1500) can transmit a code image (or code data, context information, etc.) to the main server (2000). As another example, the electronic device communication unit (1500) can receive response voice data from the main server (2000).
전자기기 통신부(1500)는 예시적으로 유/무선 LAN(Local Area Network) 모듈, WAN 모듈, 이더넷(ethernet) 모듈, 블루투스(Bluetooth) 모듈, 지그비(Zigbee) 모듈, USB(Universal Serial Bus) 모듈, IEEE 1394 모듈, 와이파이(Wifi) 모듈, 이동 통신 모듈, 위성 통신 모듈 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다.The electronic device communication unit (1500) may be, for example, a wired/wireless LAN (Local Area Network) module, a WAN module, an Ethernet module, a Bluetooth module, a Zigbee module, a USB (Universal Serial Bus) module, an IEEE 1394 module, a Wi-Fi module, a mobile communication module, a satellite communication module, or a combination thereof, but is not limited thereto.
전자기기 제어부(1600)는 전자기기(1000)의 구성들을 제어하거나 전자기기 메모리(1200)에 저장된 프로그램을 실행할 수 있다.The electronic device control unit (1600) can control the components of the electronic device (1000) or execute a program stored in the electronic device memory (1200).
전자기기 제어부(1600)는 예시적으로 중앙 처리 장치(Central Processing Unit, CPU), 그래픽 처리 장치(Graphics Processing Unit, GPU), NPU(Neural Processing Unit), 디지털 신호 처리 장치(Digital Signal Processor, DSP), 상태 기계(state machine), 주문형 반도체(Application Specific Integrated Circuit, ASIC), 무선 주파수 집적 회로(Radio-Frequency Integrated Circuit, RFIC) 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다.The electronic device control unit (1600) may be, for example, a central processing unit (CPU), a graphics processing unit (GPU), a neural processing unit (NPU), a digital signal processor (DSP), a state machine, an application specific integrated circuit (ASIC), a radio-frequency integrated circuit (RFIC), or a combination thereof, but is not limited thereto.
이하에서는 설명의 편의를 위해 전자기기(1000)가 펜 형상을 가지는 장치이고, 사용자가 전자기기(1000)의 말단을 코드가 인쇄된 미디엄에 접촉시키거나 인접하게 위치시키면, 센싱부(1100)가 미디엄을 촬영하여 코드 이미지가 획득되고, 전자기기(1000)에 의해 코드 이미지가 분석되어 코드 데이터가 획득되며, 전자기기(1000)는 코드 데이터를 메인 서버(2000)에 전송하는 것으로 서술한다. 다만, 본 개시의 기술적 사상이 이에 한정되는 것은 아니다. 예를 들어, 전자기기(1000)는 스마트폰 또는 태블릿 등일 수 있으며, 이 때 전술한 전자기기(1000)의 기능(ex. 코드 이미지 촬영, 코드 데이터 획득, 분석, 및 전송 등)을 수행하기 위한 어플리케이션이 스마트폰 또는 태블릿 등에 저장될 수 있다.Hereinafter, for convenience of explanation, it is described that the electronic device (1000) is a device having a pen shape, and when a user contacts or places the end of the electronic device (1000) adjacent to a medium on which a code is printed, the sensing unit (1100) captures the medium to obtain a code image, the electronic device (1000) analyzes the code image to obtain code data, and the electronic device (1000) transmits the code data to the main server (2000). However, the technical idea of the present disclosure is not limited thereto. For example, the electronic device (1000) may be a smartphone or a tablet, and in this case, an application for performing the functions of the electronic device (1000) described above (e.g., capturing a code image, obtaining, analyzing, and transmitting code data, etc.) may be stored in the smartphone or tablet, etc.
메인 서버(2000)는 메인 서버 메모리(2100), 메인 서버 통신부(2200), 및 메인 서버 제어부(2300)를 포함할 수 있다.The main server (2000) may include a main server memory (2100), a main server communication unit (2200), and a main server control unit (2300).
메인 서버 메모리(2100)는 메인 서버(2000)에서 처리되는 정보, 및 실행되는 프로그램 등을 저장할 수 있다. 도 4를 참고하면, 메인 서버 메모리(2100)에는 적어도 STT(Speech to Text) 모델(2110), TTS(Text to Speech) 모델(2130), 및 데이터베이스(2150)가 저장될 수 있다.The main server memory (2100) can store information processed by the main server (2000), programs executed, etc. Referring to FIG. 4, at least a STT (Speech to Text) model (2110), a TTS (Text to Speech) model (2130), and a database (2150) can be stored in the main server memory (2100).
STT 모델(2110)은 음성 데이터(또는 음성 신호)를 텍스트 데이터(또는 음성 텍스트)로 변환하는 프로그램을 의미한다. 메인 서버(2000)는 STT 모델을 이용하여 전자기기(1000)로부터 수신한 사용자의 음성 데이터를 텍스트 데이터로 변환할 수 있다. 메인 서버(2000)는 변환된 텍스트 데이터를 이용하여 후술하는 프롬프트를 생성할 수 있다.The STT model (2110) refers to a program that converts voice data (or voice signal) into text data (or voice text). The main server (2000) can convert the user's voice data received from the electronic device (1000) into text data using the STT model. The main server (2000) can use the converted text data to generate the prompt described below.
한편, 메인 서버(2000)는 음성 데이터를 외부 서버로 전송하고 외부 서버에서 음성 데이터가 텍스트 데이터로 변환되어 메인 서버(2000)에 제공될 수도 있다. 또는, 메인 서버(2000)는 음성 데이터를 텍스트 데이터로 변환하지 않고, 음성 데이터를 이용하여 프롬프트를 생성할 수 있다. 이러한 경우, 메인 서버(2000)는 STT 모델(2110)을 포함하지 않을 수 있다.Meanwhile, the main server (2000) may transmit voice data to an external server, where the voice data may be converted into text data and provided to the main server (2000). Alternatively, the main server (2000) may generate a prompt using voice data without converting the voice data into text data. In this case, the main server (2000) may not include an STT model (2110).
TTS 모델(2130)은 텍스트 데이터를 음성 데이터로 변환하는 프로그램을 의미한다. 메인 서버(2000)는 인공지능 서버(3000)로부터 획득된 응답 텍스트 데이터를 응답 음성 데이터로 변환할 수 있다. 메인 서버(2000)는 응답 음성 데이터를 전자기기(1000)에 전송할 수 있다.The TTS model (2130) refers to a program that converts text data into voice data. The main server (2000) can convert response text data obtained from the artificial intelligence server (3000) into response voice data. The main server (2000) can transmit the response voice data to the electronic device (1000).
한편, 메인 서버(2000)는 응답 텍스트 데이터를 외부 서버로 전송하고 외부 서버에서 응답 텍스트 데이터가 응답 음성 데이터로 변환되어 메인 서버(2000)에 제공될 수도 있다. 또는, 메인 서버(2000)는 인공지능 서버(3000)로부터 응답 음성 데이터를 수신할 수 있다. 이러한 경우, 메인 서버(2000)는 TTS 모델(2130)을 포함하지 않을 수 있다.Meanwhile, the main server (2000) may transmit response text data to an external server, and the response text data may be converted into response voice data by the external server and provided to the main server (2000). Alternatively, the main server (2000) may receive response voice data from the artificial intelligence server (3000). In this case, the main server (2000) may not include a TTS model (2130).
데이터베이스(2150)는 복수의 미디엄에 인쇄된 다양한 컨텐츠에 대한 정보를 저장한다. 예를 들어, 데이터베이스(2150)는 복수의 미디엄들에 인쇄된 텍스트 전부 및/또는 복수의 미디엄들에 인쇄된 이미지를 각 미디엄들에 매핑하여 저장할 수 있다.The database (2150) stores information about various contents printed on multiple media. For example, the database (2150) may store all text printed on multiple media and/or images printed on multiple media by mapping them to each medium.
데이터베이스(2150)는, 각각의 미디엄에 대하여, 텍스트 및 이미지들이 인쇄된 페이지에 대한 정보를 더 저장할 수 있다. 예를 들어, 특정 미디엄의 전체 컨텐츠들 중 제1 페이지에 인쇄된 컨텐츠의 내용과 제2 페이지에 인쇄된 컨텐츠의 내용이 구분될 수 있도록 데이터베이스(2150)는 필요한 정보들을 저장할 수 있다.The database (2150) may further store information about the pages on which text and images are printed for each medium. For example, the database (2150) may store necessary information to distinguish between the content printed on the first page and the content printed on the second page among the entire contents of a specific medium.
데이터베이스(2150)는, 각각의 페이지에 대하여, 텍스트 및 이미지들이 인쇄된 페이지 내의 위치에 대한 정보를 더 저장할 수 있다. 예를 들어, 특정 페이지에 인쇄된 컨텐츠들 중 제1 위치(제1 좌표)에 인쇄된 컨텐츠의 내용과 제2 위치(제2 좌표)에 인쇄된 컨텐츠의 내용이 구분될 수 있도록 데이터베이스(2150)는 필요한 정보들을 저장할 수 있다.The database (2150) may further store, for each page, information regarding the location within the page where text and images are printed. For example, the database (2150) may store necessary information to distinguish between content printed at a first location (first coordinate) and content printed at a second location (second coordinate) among content printed on a specific page.
한편, 데이터베이스(2150)에는 사용자 정보(ex. 사용자의 고유 식별 번호, 이름, 나이, 성별, 성격, 또는 가족관계 등)이 저장될 수 있다. 사용자 정보는 관리자 또는 보호자에 의해 기록되고 저장될 수 있다. 사용자 정보는 후술하는 바와 같이 프롬프트를 생성함에 있어서 이용될 수 있다. 프롬프트를 생성함에 있어서 사용자 정보가 활용됨에 따라 프롬프트에 대해 사용자 맞춤형으로 응답이 생성될 수 있다. 또한, 사용자 정보는 후술하는 세션 정보를 생성하는 데에 이용될 수도 있다.Meanwhile, the database (2150) may store user information (e.g., the user's unique identification number, name, age, gender, personality, or family relationships). User information may be recorded and stored by an administrator or guardian. User information may be used to generate prompts, as described below. By utilizing user information in generating prompts, customized responses to the prompts may be generated. Furthermore, user information may also be used to generate session information, as described below.
메인 서버 메모리(2100)는 하드웨어적으로, ROM, RAM, EPROM, 플래시 드라이브, 또는 하드 드라이브 등과 같은 다양한 저장기기 형태로 구현될 수 있다.The main server memory (2100) can be implemented in hardware in the form of various storage devices such as ROM, RAM, EPROM, flash drive, or hard drive.
메인 서버 통신부(2200)는 메인 서버(2000)와 외부 기기 사이의 데이터 통신을 수행할 수 있다. 예를 들어, 메인 서버 통신부(2200)는 전자기기(1000)로부터 코드 이미지(또는, 코드 데이터, 맥락 정보 등)를 수신할 수 있다. 다른 예를 들어, 메인 서버 통신부(2200)는 인공지능 서버(3000)로부터 응답 데이터(응답 텍스트 데이터 또는 응답 음성 데이터)를 수신할 수 있다. 또 다른 예를 들어, 메인 서버 통신부(2200)는 전자기기(1000)에 응답 음성 데이터를 전송할 수 있다.The main server communication unit (2200) can perform data communication between the main server (2000) and an external device. For example, the main server communication unit (2200) can receive a code image (or code data, context information, etc.) from the electronic device (1000). As another example, the main server communication unit (2200) can receive response data (response text data or response voice data) from the artificial intelligence server (3000). As yet another example, the main server communication unit (2200) can transmit response voice data to the electronic device (1000).
메인 서버 통신부(2200)는 예시적으로 유/무선 LAN(Local Area Network) 모듈, WAN 모듈, 이더넷(ethernet) 모듈, 블루투스(Bluetooth) 모듈, 지그비(Zigbee) 모듈, USB(Universal Serial Bus) 모듈, IEEE 1394 모듈, 와이파이(Wifi) 모듈, 이동 통신 모듈, 위성 통신 모듈 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다.The main server communication unit (2200) may be, for example, a wired/wireless LAN (Local Area Network) module, a WAN module, an Ethernet module, a Bluetooth module, a Zigbee module, a USB (Universal Serial Bus) module, an IEEE 1394 module, a Wi-Fi module, a mobile communication module, a satellite communication module, or a combination thereof, but is not limited thereto.
메인 서버 제어부(2300)는 메인 서버(2000)의 구성들을 제어하거나 메인 서버 메모리(2100)에 저장된 프로그램을 실행할 수 있다.The main server control unit (2300) can control the configurations of the main server (2000) or execute a program stored in the main server memory (2100).
메인 서버 제어부(2300)는 예시적으로 중앙 처리 장치(Central Processing Unit, CPU), 그래픽 처리 장치(Graphics Processing Unit, GPU), NPU(Neural Processing Unit), 디지털 신호 처리 장치(Digital Signal Processor, DSP), 상태 기계(state machine), 주문형 반도체(Application Specific Integrated Circuit, ASIC), 무선 주파수 집적 회로(Radio-Frequency Integrated Circuit, RFIC) 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다.The main server control unit (2300) may be, for example, a central processing unit (CPU), a graphics processing unit (GPU), a neural processing unit (NPU), a digital signal processor (DSP), a state machine, an application specific integrated circuit (ASIC), a radio-frequency integrated circuit (RFIC), or a combination thereof, but is not limited thereto.
도 4에 도시되어 있지 않지만, 메인 서버(2000)는 메인 서버 입력부 및 메인 서버 출력부를 포함할 수 있다. 메인 서버 입력부는 메인 서버(2000)를 관리하는 관리자로부터 입력을 수신할 수 있으며, 키보드, 버튼, 마우스, 마이크, 카메라, 센서, 터치스크린, 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다. 메인 서버 출력부는 관리자에게 메인 서버(2000)에서 처리되는 정보를 출력할 수 있으며, 디스플레이, 스피커, 인디케이터, 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다.Although not shown in FIG. 4, the main server (2000) may include a main server input unit and a main server output unit. The main server input unit may receive input from an administrator who manages the main server (2000), and may be, but is not limited to, a keyboard, a button, a mouse, a microphone, a camera, a sensor, a touchscreen, or a combination thereof. The main server output unit may output information processed in the main server (2000) to the administrator, and may be, but is not limited to, a display, a speaker, an indicator, or a combination thereof.
인공지능 서버(3000)는 인공지능 서버 메모리(3100), 인공지능 서버 통신부(3200), 및 인공지능 서버 제어부(3300)를 포함할 수 있다.The artificial intelligence server (3000) may include an artificial intelligence server memory (3100), an artificial intelligence server communication unit (3200), and an artificial intelligence server control unit (3300).
인공지능 서버 메모리(3100)는 인공지능 서버(3000)에서 처리되는 정보, 및 실행되는 프로그램 등을 저장할 수 있다. 인공지능 서버(3000)는 사용자의 질문이나 말에 대한 응답 데이터를 생성할 수 있고, 이를 위해 생성형 모델이 인공지능 서버 메모리(3100)에 저장될 수 있다.The artificial intelligence server memory (3100) can store information processed by the artificial intelligence server (3000), programs executed, etc. The artificial intelligence server (3000) can generate response data to a user's questions or speech, and for this purpose, a generative model can be stored in the artificial intelligence server memory (3100).
여기서, 생성형 모델은 방대한 코퍼스(corpus) 데이터로 학습된 자연어 처리 모델(NLP, natural language processing model) 또는 거대 언어 모델(LLM, large language model)일 수 있다. 생성형 모델은 트랜스포머(transformer) 모델의 구조를 활용한 GPT(Generative Pre-trained Transformer) 모델을 학습시켜 생성될 수 있다. 생성형 모델의 예시로, 챗GPT(ChatGPT), 구글의 바드(Bard) 또는 제미나이(Gemini), 마이크로소프트의 코파일럿(Copilot)이 있으며, 해당 모델들이 인공지능 서버 메모리(3100)에 저장될 수 있다.Here, the generative model can be a natural language processing model (NLP) or a large language model (LLM) trained with a large corpus of data. The generative model can be created by training a Generative Pre-trained Transformer (GPT) model that utilizes the structure of a transformer model. Examples of generative models include ChatGPT, Google's Bard or Gemini, and Microsoft's Copilot, and these models can be stored in the AI server memory (3100).
한편, 생성형 모델은 인공지능 서버(3000)에서 생성하고자 하는 데이터의 유형에 따라 달라질 수 있다. 예를 들어, 인공지능 서버(3000)가 메인 서버(2000)로부터 음성 프롬프트를 제공받아 음성 응답 데이터를 생성하고자 하는 경우, 생성형 모델은 WaveNet과 같은 음성을 생성하는 모델일 수 있다. 다른 예를 들어, 메인 서버(2000)가 인공지능 서버(3000)에 이미지 데이터를 제공하여 인공지능 서버(3000)가 이미지 응답 데이터를 생성하고자 하는 경우, 생성형 모델은 GAN(Generative Adversarial Network) 또는 Diffusion Model과 같은 이미지를 생성하는 모델일 수 있다. 즉, 생성형 모델은 텍스트 데이터를 입력 받아 텍스트 응답 데이터를 생성하고, 음성 데이터를 입력 받아 음성 응답 데이터를 생성하는 등, 입력 받은 데이터 유형(ex. 텍스트, 소리, 이미지 또는 영상 등)과 동일한 데이터 유형의 응답 데이터를 생성할 수도 있다.Meanwhile, the generative model may vary depending on the type of data to be generated by the artificial intelligence server (3000). For example, if the artificial intelligence server (3000) receives a voice prompt from the main server (2000) and generates voice response data, the generative model may be a voice-generating model, such as WaveNet. For another example, if the main server (2000) provides image data to the artificial intelligence server (3000) and the artificial intelligence server (3000) generates image response data, the generative model may be a model to generate images, such as a Generative Adversarial Network (GAN) or a Diffusion Model. In other words, the generative model may generate response data of the same type as the input data type (e.g., text, sound, image, or video), such as by inputting text data and generating text response data, or by inputting voice data and generating voice response data.
또는, 생성형 모델은 텍스트 데이터를 입력 받아 음성 응답 데이터를 생성하고, 음성 데이터를 입력 받아 텍스트 응답 데이터를 생성하는 등, 입력 받은 데이터 유형과 다른 데이터 유형의 응답 데이터를 생성할 수도 있다.Alternatively, a generative model may generate response data of a different type from the input data type, such as by inputting text data and generating voice response data, or by inputting voice data and generating text response data.
또는, 생성형 모델은 복수의 데이터 유형을 한 번에 입력 받아 어느 한 데이터 유형을 가지는 응답 데이터를 생성할 수도 있다. 예를 들어, 생성형 모델은 텍스트 및 소리를 포함하는 데이터를 입력 받아 텍스트 응답 데이터 또는 음성 응답 데이터를 출력할 수 있다.Alternatively, a generative model can accept multiple data types at once and generate response data of one of the data types. For example, a generative model can accept data containing text and sound and output text response data or voice response data.
인공지능 서버 메모리(3100)는 하드웨어적으로, ROM, RAM, EPROM, 플래시 드라이브, 또는 하드 드라이브 등과 같은 다양한 저장기기 형태로 구현될 수 있다.The artificial intelligence server memory (3100) can be implemented in hardware in the form of various storage devices such as ROM, RAM, EPROM, flash drive, or hard drive.
인공지능 서버 통신부(3200)는 인공지능 서버(3000)와 외부 기기 사이의 데이터 통신을 수행할 수 있다. 예를 들어, 인공지능 서버 통신부(3200)는 메인 서버(2000)로부터 프롬프트를 수신할 수 있다. 다른 예를 들어, 인공지능 서버 통신부(3200)는 메인 서버(2000)에 응답 데이터(응답 텍스트 데이터 또는 응답 음성 데이터)를 전송할 수 있다.The artificial intelligence server communication unit (3200) can perform data communication between the artificial intelligence server (3000) and an external device. For example, the artificial intelligence server communication unit (3200) can receive a prompt from the main server (2000). As another example, the artificial intelligence server communication unit (3200) can transmit response data (response text data or response voice data) to the main server (2000).
인공지능 서버 통신부(3200)는 예시적으로 유/무선 LAN(Local Area Network) 모듈, WAN 모듈, 이더넷(ethernet) 모듈, 블루투스(Bluetooth) 모듈, 지그비(Zigbee) 모듈, USB(Universal Serial Bus) 모듈, IEEE 1394 모듈, 와이파이(Wifi) 모듈, 이동 통신 모듈, 위성 통신 모듈 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다.The artificial intelligence server communication unit (3200) may be, for example, a wired/wireless LAN (Local Area Network) module, a WAN module, an Ethernet module, a Bluetooth module, a Zigbee module, a USB (Universal Serial Bus) module, an IEEE 1394 module, a Wi-Fi module, a mobile communication module, a satellite communication module, or a combination thereof, but is not limited thereto.
인공지능 서버 제어부(3300)는 인공지능 서버(3000)의 구성들을 제어하거나 인공지능 서버 메모리(3100)에 저장된 프로그램을 실행할 수 있다.The artificial intelligence server control unit (3300) can control the configurations of the artificial intelligence server (3000) or execute a program stored in the artificial intelligence server memory (3100).
인공지능 서버 제어부(3300)는 예시적으로 중앙 처리 장치(Central Processing Unit, CPU), 그래픽 처리 장치(Graphics Processing Unit, GPU), NPU(Neural Processing Unit), 디지털 신호 처리 장치(Digital Signal Processor, DSP), 상태 기계(state machine), 주문형 반도체(Application Specific Integrated Circuit, ASIC), 무선 주파수 집적 회로(Radio-Frequency Integrated Circuit, RFIC) 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다.The artificial intelligence server control unit (3300) may be, for example, a central processing unit (CPU), a graphics processing unit (GPU), a neural processing unit (NPU), a digital signal processor (DSP), a state machine, an application specific integrated circuit (ASIC), a radio-frequency integrated circuit (RFIC), or a combination thereof, but is not limited thereto.
도 5에 도시되어 있지 않지만, 인공지능 서버(3000)는 인공지능 서버 입력부 및 인공지능 서버 출력부를 포함할 수 있다. 인공지능 서버 입력부는 인공지능 서버(3000)를 관리하는 관리자로부터 입력을 수신할 수 있으며, 키보드, 버튼, 마우스, 마이크, 카메라, 센서, 터치스크린, 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다. 인공지능 서버 출력부는 관리자에게 인공지능 서버(3000)에서 처리되는 정보를 출력할 수 있으며, 디스플레이, 스피커, 인디케이터, 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다.Although not illustrated in FIG. 5, the artificial intelligence server (3000) may include an artificial intelligence server input unit and an artificial intelligence server output unit. The artificial intelligence server input unit may receive input from an administrator who manages the artificial intelligence server (3000), and may be, but is not limited to, a keyboard, a button, a mouse, a microphone, a camera, a sensor, a touchscreen, or a combination thereof. The artificial intelligence server output unit may output information processed in the artificial intelligence server (3000) to the administrator, and may be, but is not limited to, a display, a speaker, an indicator, or a combination thereof.
이하에서는, 도 6 및 도 7을 참고하여 전술한 상호작용 시스템(100)의 다른 실시예에 대해 서술한다.Below, another embodiment of the above-described interaction system (100) is described with reference to FIGS. 6 and 7.
도 6은 일 실시예에 따른 대화형 인공지능 서비스를 이용한 전자펜 서비스 시스템에 관한 블록 다이어그램을 나타내는 도면이다.FIG. 6 is a drawing showing a block diagram of an electronic pen service system using an interactive artificial intelligence service according to one embodiment.
도 6을 참조하면, 대화형 인공지능 서비스를 이용한 전자펜 서비스 시스템(101)은 전자펜(110), 제1 서버(120) 및 대화형 인공지능 서버(130)를 포함한다. 여기서, 전자펜 서비스 시스템(101)은 도 1 내지 도 5를 통해 설명한 상호작용 시스템(100)에 대응되고, 전자펜(110)은 전자기기(1000)에 대응되며, 제1 서버(120)는 메인 서버(2000)에 대응되며, 그리고 대화형 인공지능 서버(130)는 인공지능 서버(3000)에 대응된다.Referring to FIG. 6, the electronic pen service system (101) using an interactive artificial intelligence service includes an electronic pen (110), a first server (120), and an interactive artificial intelligence server (130). Here, the electronic pen service system (101) corresponds to the interaction system (100) described through FIGS. 1 to 5, the electronic pen (110) corresponds to an electronic device (1000), the first server (120) corresponds to a main server (2000), and the interactive artificial intelligence server (130) corresponds to an artificial intelligence server (3000).
전자펜(110)은 제1 통신부(111), 코드 인식부(112), 제1 제어부(113), TTS부(114) 및 스피커부(115)를 포함한다.The electronic pen (110) includes a first communication unit (111), a code recognition unit (112), a first control unit (113), a TTS unit (114), and a speaker unit (115).
제1 통신부(111)는 유선 또는 무선 인터페이스를 이용하여 제1 서버(120)와 통신할 수 있다. 제1 통신부(111)는 도 2에서 서술한 전자기기 통신부(1500)와 실질적으로 동일한 구성이다.The first communication unit (111) can communicate with the first server (120) using a wired or wireless interface. The first communication unit (111) has substantially the same configuration as the electronic device communication unit (1500) described in FIG. 2.
코드 인식부(112)는 소정의 코드가 인쇄된 인쇄물에서 소정의 코드를 인식한다. 소정의 코드는 인쇄물에서의 위치 정보, 즉, 좌표 정보를 포함하고 있다. 코드 인식부(112)는 카메라를 포함하며, 카메라가 소정의 코드가 인쇄된 인쇄물과 소정의 거리 내에 접근한 경우, 카메라는 카메라가 인식할 수 있는 영역 내에서 소정의 코드를 캡처한다. 그 후, 코드 인식부(112)는 카메라에서 캡처한 이미지를 제1 제어부(113)에 송신하게 된다. 코드 인식부(112)는 도 2에서 서술한 센싱부(1100)와 실질적으로 동일한 구성이다.The code recognition unit (112) recognizes a predetermined code from a printed matter on which a predetermined code is printed. The predetermined code includes location information, i.e., coordinate information, on the printed matter. The code recognition unit (112) includes a camera, and when the camera approaches the printed matter on which the predetermined code is printed within a predetermined distance, the camera captures the predetermined code within an area that the camera can recognize. Thereafter, the code recognition unit (112) transmits the image captured by the camera to the first control unit (113). The code recognition unit (112) has substantially the same configuration as the sensing unit (1100) described in FIG. 2.
제1 제어부(113)는 코드 인식부(112)로부터 수신한 이미지의 소정의 코드에서 좌표 정보를 독출(이미지의 소정의 코드에 대응되는 좌표 정보를 미리 저장된 데이터베이스 등으로부터 가져옴)하게 된다. 제1 제어부(113)는 도 2에서 서술한 전자기기 제어부(1600)와 실질적으로 동일한 구성이다.The first control unit (113) reads coordinate information from a predetermined code of an image received from the code recognition unit (112) (coordinate information corresponding to a predetermined code of the image is retrieved from a pre-stored database, etc.). The first control unit (113) has substantially the same configuration as the electronic device control unit (1600) described in FIG. 2.
그 후, 제1 제어부(113)는 제1 통신부(111)를 통하여 독출한 좌표 정보를 제1 서버(120)로 송신한다.After that, the first control unit (113) transmits the read coordinate information to the first server (120) through the first communication unit (111).
후술하겠지만, 제1 통신부(111)는 제1 서버(120)로부터 송신한 좌표 정보에 대한 결과 값을 수신하게 된다.As will be described later, the first communication unit (111) receives the result value for the coordinate information transmitted from the first server (120).
한편, 제1 제어부(1130)는 코드 인식부(112)로부터 수신한 이미지의 소정의 코드에서 영역 식별 정보를 독출할 수도 있다.Meanwhile, the first control unit (1130) can also read area identification information from a predetermined code of an image received from the code recognition unit (112).
영역 식별 정보는 미디엄 중 일 영역을 식별하기 위한 정보이다. 예를 들어, 미디엄은 적어도 하나의 페이지를 포함하고, 각 페이지에는 컨텐츠가 인쇄될 수 있다. 이 때, 페이지 내에서 특정 영역에 대해 영역 식별 정보가 설정될 수 있다. 이 경우, 특정 영역을 촬영하여 획득되는 코드 이미지에는 해당하는 영역 식별 정보가 인코딩될 수 있다. 여기서, 특정 영역은 특정 도형이 인쇄된 영역, 글이 인쇄된 영역, 또는 그림이 인쇄된 영역 등일 수 있다.Region identification information is information used to identify a region within a medium. For example, a medium may include at least one page, each of which may contain printed content. Region identification information may be set for a specific region within the page. In this case, the corresponding region identification information may be encoded into a code image obtained by photographing the specific region. Here, the specific region may be an area printed with a specific shape, an area printed with text, or an area printed with an image.
영역 식별 정보는 좌표 정보를 대신하여 사용될 수 있다. 예를 들어, 제1 제어부(113)는 제1 통신부(111)를 통하여 독출한 영역 식별 정보를 제1 서버(120)로 송신할 수 있다. 이 경우, 제1 서버(120)는 영역 식별 정보에 대응하는 프롬프트를 대화형 인공지능 서버(130)에 전송하고, 대화형 인공지능 서버(!30)는 수신한 프롬프트에 대해 결과 값을 생성하여 제1 서버(120)에 전송할 수 있다.Area identification information can be used in place of coordinate information. For example, the first control unit (113) can transmit the area identification information read out through the first communication unit (111) to the first server (120). In this case, the first server (120) can transmit a prompt corresponding to the area identification information to the interactive AI server (130), and the interactive AI server (130) can generate a result value for the received prompt and transmit it to the first server (120).
TTS부(114)는 TTS(Text To Speech) 기능을 탑재한 구성요소로, 텍스트를 음성으로 변환하는 기능을 수행한다. TTS부(114)는 제1 통신부(111)가 수신한 결과 값을 음성으로 변환하고, 스피커부(115)를 통하여 변환된 음성이 전자펜(110)의 사용자에게 출력된다. TTS부(114)는 도 4에서 서술한 TTS모델(2130)에 대응되는 구성이다. TTS부(114)는 전자펜(110)이 아닌 제1 서버(120)에 포함될 수도 있다. 이 경우, 전자펜(110)은 제1 서버(120)로부터 결과 값이 변환된 음성을 수신하고, 스피커부(115)를 통해 변환된 음성을 출력할 수 있다.The TTS unit (114) is a component equipped with a TTS (Text To Speech) function and performs the function of converting text into voice. The TTS unit (114) converts the result value received by the first communication unit (111) into voice, and the converted voice is output to the user of the electronic pen (110) through the speaker unit (115). The TTS unit (114) has a configuration corresponding to the TTS model (2130) described in FIG. 4. The TTS unit (114) may be included in the first server (120) rather than the electronic pen (110). In this case, the electronic pen (110) can receive the voice converted from the result value from the first server (120) and output the converted voice through the speaker unit (115).
추가적인 실시예로, 전자펜(110)은 마이크(116) 및 STT부(117)를 더 포함할 수 있다.In an additional embodiment, the electronic pen (110) may further include a microphone (116) and an STT unit (117).
전자펜(110)은 전자펜(110)의 사용자는 마이크(116)를 통하여 사용자의 음성 입력을 수신한다.The electronic pen (110) receives the user's voice input through the microphone (116).
STT부(117)는 STT(Speech To Text) 가능을 탑재한 구성요소로, 음성을 텍스트로 변환하는 기능을 수행한다. STT부(117)는 마이크(116)가 수신한 음성 정보를 문자 정보로 변환하고, 변환된 문자 정보는 제1 서버(120)로 송신된다. 그 후, 제1 통신부(111)는 제1 서버(120)로부터, 송신한 문자에 대한 결과 값을 문자로 수신하게 되고, 제1 통신부(111)가 수신한 문자는 음성으로 변환되어 스피커부(115)를 통하여 전자펜(110)의 사용자에게 출력하게 된다. STT부(117)는 도 4에서 서술한 STT모델(2110)에 대응되는 구성이다. STT부(117)는 전자펜(110)이 아닌 제1 서버(120)에 포함될 수도 있다. 이 경우, 전자펜(110)은 음성 신호를 제1 서버(120)에 전송하고, 제1 서버(120)는 STT부(117)를 이용하여 음성 신호를 문자 정보로 변환할 수 있다.The STT unit (117) is a component equipped with STT (Speech To Text) capability and performs the function of converting voice into text. The STT unit (117) converts voice information received by the microphone (116) into text information, and the converted text information is transmitted to the first server (120). Thereafter, the first communication unit (111) receives a result value for the transmitted text as text from the first server (120), and the text received by the first communication unit (111) is converted into voice and output to the user of the electronic pen (110) through the speaker unit (115). The STT unit (117) is a configuration corresponding to the STT model (2110) described in FIG. 4. The STT unit (117) may also be included in the first server (120) rather than the electronic pen (110). In this case, the electronic pen (110) transmits a voice signal to the first server (120), and the first server (120) can convert the voice signal into text information using the STT unit (117).
또한, 또 다른 실시예로, 전자펜(110)은 저장부(118)를 더 포함할 수가 있다.Additionally, in another embodiment, the electronic pen (110) may further include a storage unit (118).
저장부(118)는 좌표 정보에 지정된 컨텐츠를 포함한다. 저장부(118)는 전자펜(110)이 아닌 제1 서버(120)에 포함될 수 있다.The storage unit (118) contains content specified in the coordinate information. The storage unit (118) may be included in the first server (120) rather than the electronic pen (110).
제1 제어부(113)는 코드 인식부(112)로부터 수신한 이미지로부터 캡처한 소정의 코드에서 좌표 정보를 독출하고, 독출된 좌표 정보에 저장된 컨텐츠를 추출하여, 스피커부(115)를 통하여 추출된 컨텐츠를 사용자에게 출력할 수가 있다.The first control unit (113) can read coordinate information from a predetermined code captured from an image received from a code recognition unit (112), extract content stored in the read coordinate information, and output the extracted content to the user through the speaker unit (115).
본 발명의 일 실시예에 있어서, 제1 서버(120)로 송신하는 좌표 정보 및 문자 정보와 함께 전자펜(110) 사용자의 ID 정보 및 전자펜(110)의 ID 정보가 포함된다.In one embodiment of the present invention, the ID information of the electronic pen (110) user and the ID information of the electronic pen (110) are included together with the coordinate information and character information transmitted to the first server (120).
제1 서버(120)는 제2 통신부(121), 제1 데이터베이스(122) 및 제2 제어부(123)를 포함한다.The first server (120) includes a second communication unit (121), a first database (122), and a second control unit (123).
제2 통신부(121)가 전자펜(110)으로부터 좌표 정보를 수신하는 경우, 제2 제어부(123)는 제1 데이터베이스(122)에 저장한다. 제2 통신부(121)는 도 4에서 서술한 메인 서버 통신부(2200)와 실질적으로 동일한 구성이다.When the second communication unit (121) receives coordinate information from the electronic pen (110), the second control unit (123) stores it in the first database (122). The second communication unit (121) has substantially the same configuration as the main server communication unit (2200) described in FIG. 4.
제1 데이터베이스(122)에는 좌표 정보에 해당하는 프롬프트가 미리 저장되어 있을 수 있다. 프롬프트는 대화형 인공지능 서버(130)에 명령이나 지시를 내리는 입력 데이터를 의미한다. 제1 데이터베이스(122)는 도 4에서 서술한 데이터베이스(2150)에 대응되는 구성이다. 제1 데이터베이스(122)에는 미디엄에 관한 정보가 저장될 수 있다. 예를 들어, 제1 데이터베이스(122)에는 복수의 미디엄 각각에 대한 미디엄 ID, 미디엄 제목, 미디엄에 인쇄된 모든 텍스트, 미디엄의 특정 페이지에 인쇄된 텍스트, 및 미디엄의 특정 좌표에 인쇄된 텍스트 중 적어도 하나가 저장될 수 있다. 더하여, 제1 데이터베이스(122)에는 미리 결정된 프롬프트 및/또는 프롬프트 양식이 저장될 수 있다.The first database (122) may have a prompt corresponding to coordinate information pre-stored. The prompt refers to input data that issues a command or instruction to the interactive artificial intelligence server (130). The first database (122) has a configuration corresponding to the database (2150) described in FIG. 4. The first database (122) may store information regarding a medium. For example, the first database (122) may store at least one of a medium ID for each of a plurality of mediums, a medium title, all text printed on a medium, text printed on a specific page of a medium, and text printed at a specific coordinate of a medium. In addition, the first database (122) may store a predetermined prompt and/or prompt form.
제2 제어부(123)는 수신된 좌표 정보에 대응되는 프롬프트를 추출하고, 추출된 프롬프트를 대화형 인공지능 서버(130)로 송신한다. 제2 제어부(123)는 도 4에서 서술한 메인 서버 제어부(2300)와 실질적으로 동일한 구성이다. 제2 제어부(133)는 제1 데이터베이스(122)로부터 프롬프트를 로드(load)할 수 있다. 또는, 제2 제어부(123)는 제1 데이터베이스(122)로부터 프롬프트 양식 및 미디엄에 관한 정보를 로드(load)하여 프롬프트를 생성할 수 있다.The second control unit (123) extracts a prompt corresponding to the received coordinate information and transmits the extracted prompt to the interactive artificial intelligence server (130). The second control unit (123) has substantially the same configuration as the main server control unit (2300) described in FIG. 4. The second control unit (133) can load a prompt from the first database (122). Alternatively, the second control unit (123) can load information regarding a prompt form and medium from the first database (122) to generate a prompt.
제2 통신부(121)가 전자펜(110)으로부터 문자 정보를 수신하는 경우, 제2 제어부(123)는 제1 데이터베이스(122)에 저장하고, 수신된 문자 정보를 대화형 인공지능 서버(130)로 송신한다.When the second communication unit (121) receives character information from the electronic pen (110), the second control unit (123) stores the received character information in the first database (122) and transmits it to the interactive artificial intelligence server (130).
대화형 인공지능 서버(130)는 인공지능을 활용하기 위한 언어 처리 모델이 임베디드(embedded)된 서버로, 대화형 인공지능 서비스를 제공하는 서버를 의미한다.A conversational artificial intelligence server (130) is a server with an embedded language processing model for utilizing artificial intelligence, and refers to a server that provides a conversational artificial intelligence service.
대화형 인공지능 서비스의 예로는 오픈AI의 챗GPT(ChatGPT), 구글의 바드(Bard) 또는 제미나이(Gemini), 마이크로소프트의 코파일럿(Copilot)가 있다.Examples of conversational AI services include OpenAI's ChatGPT, Google's Bard or Gemini, and Microsoft's Copilot.
대화형 인공지능 서버(130)는 제1 서버(120)로부터 프롬프트 또는 문자 정보를 입력 값으로 하여 언어 처리 모델을 이용하여 결과 값을 추출하고, 추출된 결과 값을 제1 서버(120)로 송신한다. 결과 값은 문자열 데이터로 구성되어 있다.The interactive artificial intelligence server (130) extracts a result value using a language processing model by inputting a prompt or character information from the first server (120) and transmits the extracted result value to the first server (120). The result value is composed of string data.
제2 통신부(121)는 대화형 인공지능 서버(130)로부터 결과 값을 수신하고, 결과 값을 전자펜(110)으로 송신한다.The second communication unit (121) receives the result value from the interactive artificial intelligence server (130) and transmits the result value to the electronic pen (110).
세션은 문자 정보 또는 프롬프트를 대화형 인공지능 서버(130)에 송신하고 이에 대한 결과 값을 받는 일련의 과정을 의미한다. 하나의 세션이 종료된 경우, 제2 제어부(123)는 수신된 결과 값을 세션 ID, 대화형 인공지능 서버(130)로 송신한 문자 정보 또는 프롬프트 및 문자 정보 또는 프롬프트의 기초가 된 코드 정보를 송신한 사용자 및 전자펜(110)의 ID를 연계하여 세션 정보를 생성하고, 이를 제1 데이터베이스(122)에 저장한다. 제2 제어부(123)는 이들의 정보를 JSON 파일 형태로 저장하며, 세션 ID에 대한 시간 정보를 이에 부가하여 더 저장할 수도 있다.A session refers to a series of processes of transmitting text information or a prompt to an interactive artificial intelligence server (130) and receiving a corresponding result value. When one session is terminated, the second control unit (123) generates session information by linking the received result value with the session ID, the text information or prompt transmitted to the interactive artificial intelligence server (130), and the ID of the user who transmitted the code information that became the basis of the text information or prompt, and the ID of the electronic pen (110), and stores this in the first database (122). The second control unit (123) stores this information in the form of a JSON file, and may further store time information for the session ID by adding it thereto.
세션 정보에는 사용자의 음성 신호를 변환한 텍스트, 제1 서버(120)에서 생성한 프롬프트, 대화형 인공지능 서버(130)에서 생성된 결과 값이 포함될 수 있다. 제2 제어부(123)는 소정의 기간 동안 사용자 ID 또는 전자펜 ID를 기준으로 제1 데이터베이스(122)에 저장되어 있는 적어도 하나의 세션 정보를 추출한다.제2 제어부(123)는 제2 통신부(121)를 통하여 미리 결정된 세션 프롬프트 정보와 추출된 적어도 하나의 세션 정보를 대화형 인공지능 서버(130)에 송신한다. 미리 결정된 세션 프롬프트는 적어도 하나의 세션 정보에 대한 요약에 관련된 내용을 포함할 수 있다. 또한, 미리 결정된 세션 프롬프트는 적어도 하나의 세션 정보에 대한 분석과 관련된 내용을 포함할 수 있다.The session information may include text converted from a user's voice signal, a prompt generated by the first server (120), and a result value generated by the interactive artificial intelligence server (130). The second control unit (123) extracts at least one session information stored in the first database (122) based on a user ID or an electronic pen ID for a predetermined period of time. The second control unit (123) transmits predetermined session prompt information and at least one extracted session information to the interactive artificial intelligence server (130) through the second communication unit (121). The predetermined session prompt may include content related to a summary of at least one session information. In addition, the predetermined session prompt may include content related to an analysis of at least one session information.
대화형 인공지능 서버(130)는 제1 서버(120)로부터 수신된 세션 프롬프트를 입력 값으로 하여 언어 처리 모델을 이용하여 결과 값을 추출하고, 추출된 결과 값을 제1 서버(120)로 송신한다.The conversational artificial intelligence server (130) extracts a result value using a language processing model using the session prompt received from the first server (120) as an input value, and transmits the extracted result value to the first server (120).
보다 구체적으로, 제1 서버(120)는 세션 정보를 이용하여 세션 프롬프트를 생성하고, 생성된 세션 프롬프트를 대화형 인공지능 서버(130)에 전송할 수 있다. 대화형 인공지능 서버(130)는 세션 프롬프트를 입력 받아 대화 로그, 대화 요약, 발음 평가, 사용자가 자주 사용하는 키워드, 사용자의 미디엄 이용 시간, 사용자의 미디엄 종류별 이용 시간, 및 사용자의 관심 분야 중 적어도 하나를 출력할 수 있다. 대화형 인공지능 서버(130)는 출력된 분석 정보를 제1 서버(120)에 제공할 수 있다.More specifically, the first server (120) may generate a session prompt using session information and transmit the generated session prompt to the interactive artificial intelligence server (130). The interactive artificial intelligence server (130) may receive the session prompt and output at least one of a conversation log, a conversation summary, a pronunciation evaluation, keywords frequently used by the user, the user's medium usage time, the user's medium type-specific usage time, and the user's areas of interest. The interactive artificial intelligence server (130) may provide the output analysis information to the first server (120).
제1 서버(120)는 수신된 세션 프롬프트에 대한 결과 값(또는 분석 정보)을 제1 데이터베이스(122)에 저장한다. 제1 서버(120)는 사용자 요청이 있는 경우, 적어도 하나의 세션 정보 및 세션 프롬프트에 의한 결과 값을 사용자에게 제공한다.The first server (120) stores the result value (or analysis information) for the received session prompt in the first database (122). When a user requests, the first server (120) provides the user with at least one session information and a result value based on the session prompt.
구체적으로, 제1 서버(120)는 분석 정보를 보호자(ex. 사용자가 아이인 경우 아이의 부모)의 단말(ex. 노트북, 데스크탑, 또는 스마트폰 등)에 전송할 수 있다. 보호자는 자신의 단말을 통해 분석 정보를 확인할 수 있다.Specifically, the first server (120) can transmit analysis information to a terminal (e.g., a laptop, desktop, or smartphone) of a guardian (e.g., the child's parent if the user is a child). The guardian can check the analysis information through his/her terminal.
한편, 제1 서버(120)는 대화형 인공지능 서버(130)를 이용하지 않고 세션 정보를 이용하여 분석 정보를 생성할 수 있다. 분석 정보에는 사용자와 전자펜(110) 사이의 대화를 나타내는 대화 로그, 사용자와 전자펜(110) 사이의 대화를 요약한 대화 요약, 사용자의 발음에 대한 평가를 나타내는 발음 평가 정보, 사용자가 자주 사용하는 키워드, 사용자의 미디엄 이용 시간, 사용자의 미디엄 종류별 이용 시간, 및 사용자의 관심 분야 중 적어도 하나가 포함될 수 있다. 도 7은 다른 실시예에 따른 대화형 인공지능 서비스를 이용한 전자펜 서비스 시스템에 관한 블록 다이어그램을 나타내는 도면이다.Meanwhile, the first server (120) can generate analysis information using session information without using the interactive artificial intelligence server (130). The analysis information may include at least one of a conversation log representing a conversation between a user and an electronic pen (110), a conversation summary summarizing a conversation between a user and an electronic pen (110), pronunciation evaluation information representing an evaluation of the user's pronunciation, keywords frequently used by the user, the user's medium usage time, the user's medium type usage time, and the user's area of interest. Fig. 7 is a drawing showing a block diagram of an electronic pen service system using an interactive artificial intelligence service according to another embodiment.
도 7을 참조하면, 대화형 인공지능 서비스를 이용한 전자펜 서비스 시스템(101)은 전자펜(110), 제1 서버(120), 대화형 인공지능 서버(130) 및 제2 서버(140)를 포함한다. 여기서, 전자펜 서비스 시스템(101)은 상호작용 시스템(100)에 대응되고, 전자펜(110)은 전자기기(1000)에 대응되고, 제1 서버(120)는 메인 서버(2000)에 대응되고, 대화형 인공지능 서버(130)는 인공지능 서버(3000)에 대응된다. 도 6과 도 7의 차이점은, 도 7에서는 제2 서버(140)가 추가적으로 더 구비된다. 제2 서버(140)는 전술한 세션 정보 획득, 세션 프롬프트 생성, 및 분석 정보 획득을 수행할 수 있다.Referring to FIG. 7, an electronic pen service system (101) using an interactive artificial intelligence service includes an electronic pen (110), a first server (120), an interactive artificial intelligence server (130), and a second server (140). Here, the electronic pen service system (101) corresponds to the interaction system (100), the electronic pen (110) corresponds to the electronic device (1000), the first server (120) corresponds to the main server (2000), and the interactive artificial intelligence server (130) corresponds to the artificial intelligence server (3000). The difference between FIG. 6 and FIG. 7 is that in FIG. 7, a second server (140) is additionally provided. The second server (140) can perform the aforementioned session information acquisition, session prompt generation, and analysis information acquisition.
전자펜(110)은 제1 통신부(111), 코드 인식부(112), 제1 제어부(113), TTS부(114) 및 스피커부(115)를 포함한다.The electronic pen (110) includes a first communication unit (111), a code recognition unit (112), a first control unit (113), a TTS unit (114), and a speaker unit (115).
제1 통신부(111)는 유선 또는 무선 인터페이스를 이용하여 제1 서버(120)와 통신할 수 있다. 제1 통신부(111)는 도 2에서 서술한 전자기기 통신부(1500)와 실질적으로 동일한 구성이다.The first communication unit (111) can communicate with the first server (120) using a wired or wireless interface. The first communication unit (111) has substantially the same configuration as the electronic device communication unit (1500) described in FIG. 2.
코드 인식부(112)는 소정의 코드가 인쇄된 인쇄물에서 소정의 코드를 인식한다. 소정의 코드는 인쇄물에서의 위치 정보, 즉, 좌표 정보를 포함하고 있다. 코드 인식부(112)는 카메라를 포함하며, 카메라가 소정의 코드가 인쇄된 인쇄물과 소정의 거리 내에 접근한 경우, 카메라는 카메라가 인식할 수 있는 영역 내에서 소정의 코드를 캡처한다. 그 후, 코드 인식부(112)는 카메라에서 캡처한 이미지를 제1 제어부(113)에 송신하게 된다. 코드 인식부(112)는 도 2에서 서술한 센싱부(1100)와 실질적으로 동일한 구성이다.The code recognition unit (112) recognizes a predetermined code from a printed matter on which a predetermined code is printed. The predetermined code includes location information, i.e., coordinate information, on the printed matter. The code recognition unit (112) includes a camera, and when the camera approaches the printed matter on which the predetermined code is printed within a predetermined distance, the camera captures the predetermined code within an area that the camera can recognize. Thereafter, the code recognition unit (112) transmits the image captured by the camera to the first control unit (113). The code recognition unit (112) has substantially the same configuration as the sensing unit (1100) described in FIG. 2.
제1 제어부(113)는 코드 인식부(112)로부터 수신한 이미지의 소정의 코드에서 좌표 정보를 독출하게 된다. 제1 제어부(113)는 도 2에서 서술한 전자기기 제어부(1600)와 실질적으로 동일한 구성이다.The first control unit (113) reads coordinate information from a predetermined code of an image received from the code recognition unit (112). The first control unit (113) has substantially the same configuration as the electronic device control unit (1600) described in FIG. 2.
그 후, 제1 제어부(113)는 제1 통신부(111)를 통하여 독출한 좌표 정보를 제1 서버(120)로 송신한다.After that, the first control unit (113) transmits the read coordinate information to the first server (120) through the first communication unit (111).
후술하겠지만, 제1 통신부(111)는 제1 서버(120)로부터 송신한 좌표 정보에 대한 결과 값을 수신하게 된다.As will be described later, the first communication unit (111) receives the result value for the coordinate information transmitted from the first server (120).
한편, 좌표 정보를 대신하여 전술한 영역 식별 정보가 사용될 수 있다. 예를 들어, 제1 제어부(113)는 제1 통신부(111)를 통하여 독출한 영역 식별 정보를 제1 서버(120)로 송신할 수 있다. 이 경우, 제1 서버(120)는 영역 식별 정보에 대응하는 프롬프트를 대화형 인공지능 서버(130)에 전송하고, 대화형 인공지능 서버(!30)는 수신한 프롬프트에 대해 결과 값을 생성하여 제1 서버(120)에 전송할 수 있다.Meanwhile, the aforementioned area identification information may be used in place of coordinate information. For example, the first control unit (113) may transmit the area identification information read out via the first communication unit (111) to the first server (120). In this case, the first server (120) may transmit a prompt corresponding to the area identification information to the interactive AI server (130), and the interactive AI server (130) may generate a result value for the received prompt and transmit it to the first server (120).
TTS부(114)는 TTS(Text To Speech) 가능을 탑재한 구성요소로, 텍스트를 음성으로 변환하는 기능을 수행한다. TTS부(114)는 제1 통신부(111)가 수신한 결과 값을 음성으로 변환하고, 스피커부(115)를 통하여 변환된 음성이 전자펜(110)의 사용자에게 출력된다. TTS부(114)는 도 4에서 서술한 TTS모델(2130)에 대응되는 구성이다. TTS부(114)는 전자펜(110)이 아닌 제1 서버(120)에 포함될 수도 있다. 이 경우, 전자펜(110)은 제1 서버(120)로부터 결과 값이 변환된 음성을 수신하고, 스피커부(115)를 통해 변환된 음성을 출력할 수 있다.The TTS unit (114) is a component equipped with TTS (Text To Speech) capability and performs the function of converting text into voice. The TTS unit (114) converts the result value received by the first communication unit (111) into voice, and the converted voice is output to the user of the electronic pen (110) through the speaker unit (115). The TTS unit (114) has a configuration corresponding to the TTS model (2130) described in FIG. 4. The TTS unit (114) may be included in the first server (120) rather than the electronic pen (110). In this case, the electronic pen (110) can receive the voice converted from the result value from the first server (120) and output the converted voice through the speaker unit (115).
추가적인 실시예로, 전자펜(110)은 마이크(116) 및 STT부(117)를 더 포함할 수 있다.In an additional embodiment, the electronic pen (110) may further include a microphone (116) and an STT unit (117).
전자펜(110)은 전자펜(110)의 사용자는 마이크(116)를 통하여 사용자의 음성 입력을 수신한다.The electronic pen (110) receives the user's voice input through the microphone (116).
STT부(117)는 STT(Speech To Text) 가능을 탑재한 구성요소로, 음성을 텍스트로 변환하는 기능을 수행한다. STT부(117)는 마이크(116)가 수신한 음성 정보를 문자 정보로 변환하고, 변환된 문자 정보는 제1 서버(120)로 송신된다. 그 후, 제1 통신부(111)는 제1 서버(120)로부터, 송신한 문자에 대한 결과 값을 문자로 수신하게 되고, 제1 통신부(111)가 수신한 문자는 음성으로 변환되어 스피커부(115)를 통하여 전자펜(110)의 사용자에게 출력된다. STT부(117)는 도 4에서 서술한 STT모델(2110)에 대응되는 구성이다. STT부(117)는 전자펜(110)이 아닌 제1 서버(120)에 포함될 수도 있다. 이 경우, 전자펜(110)은 음성 신호를 제1 서버(120)에 전송하고, 제1 서버(120)는 STT부(117)를 이용하여 음성 신호를 문자 정보로 변환할 수 있다.The STT unit (117) is a component equipped with STT (Speech To Text) capability and performs the function of converting voice into text. The STT unit (117) converts voice information received by the microphone (116) into text information, and the converted text information is transmitted to the first server (120). Thereafter, the first communication unit (111) receives a result value for the transmitted text as text from the first server (120), and the text received by the first communication unit (111) is converted into voice and output to the user of the electronic pen (110) through the speaker unit (115). The STT unit (117) is a configuration corresponding to the STT model (2110) described in FIG. 4. The STT unit (117) may also be included in the first server (120) rather than the electronic pen (110). In this case, the electronic pen (110) transmits a voice signal to the first server (120), and the first server (120) can convert the voice signal into text information using the STT unit (117).
또한, 또 다른 실시예로, 전자펜(110)은 저장부(118)를 더 포함할 수가 있다.Additionally, in another embodiment, the electronic pen (110) may further include a storage unit (118).
저장부(118)는 좌표 정보에 지정된 컨텐츠를 포함한다. 저장부(118)는 전자펜(110)이 아닌 제1 서버(120)에 포함될 수 있다.The storage unit (118) contains content specified in the coordinate information. The storage unit (118) may be included in the first server (120) rather than the electronic pen (110).
제1 제어부(113)는 코드 인식부(112)로부터 수신한 이미지로부터 캡처한 소정의 코드에서 좌표 정보를 독출하고, 독출된 좌표 정보에 저장된 컨텐츠를 추출하여, 스피커부(115)를 통하여 추출된 컨텐츠를 사용자에게 출력할 수가 있다.The first control unit (113) can read coordinate information from a predetermined code captured from an image received from a code recognition unit (112), extract content stored in the read coordinate information, and output the extracted content to the user through the speaker unit (115).
본 발명의 일 실시예에 있어서, 제1 서버(120)로 송신하는 좌표 정보 및 문자 정보와 함께 전자펜(110) 사용자의 ID 정보 및 전자펜(110)의 ID 정보가 포함된다.In one embodiment of the present invention, the ID information of the electronic pen (110) user and the ID information of the electronic pen (110) are included together with the coordinate information and character information transmitted to the first server (120).
제1 서버(120)는 제2 통신부(121), 제1 데이터베이스(122) 및 제2 제어부(123)를 포함한다.The first server (120) includes a second communication unit (121), a first database (122), and a second control unit (123).
제2 통신부(121)가 전자펜(110)으로부터 좌표 정보를 수신하는 경우, 제2 제어부(123)는 제1 데이터베이스(122)에 저장한다. 제2 통신부(121)는 도 4에서 서술한 메인 서버 통신부(2200)와 실질적으로 동일한 구성이다.When the second communication unit (121) receives coordinate information from the electronic pen (110), the second control unit (123) stores it in the first database (122). The second communication unit (121) has substantially the same configuration as the main server communication unit (2200) described in FIG. 4.
제1 데이터베이스(122)에는 좌표 정보에 해당하는 프롬프트가 미리 저장되어 있을 수 있다. 프롬프트는 대화형 인공지능 서버(130)에 명령이나 지시를 내리는 입력 데이터를 의미한다. 제1 데이터베이스(122)는 도 4에서 서술한 데이터베이스(2150)에 대응되는 구성이다. 제1 데이터베이스(122)에는 미디엄에 관한 정보가 저장될 수 있다. 예를 들어, 제1 데이터베이스(122)에는 복수의 미디엄 각각에 대한 미디엄 ID, 미디엄 제목, 미디엄에 인쇄된 모든 텍스트, 미디엄의 특정 페이지에 인쇄된 텍스트, 및 미디엄의 특정 좌표에 인쇄된 텍스트 중 적어도 하나가 저장될 수 있다. 더하여, 데이터베이스(2150)에는 미리 결정된 프롬프트 및/또는 프롬프트 양식이 저장될 수 있다.The first database (122) may have a prompt corresponding to coordinate information pre-stored. The prompt refers to input data that issues a command or instruction to the interactive artificial intelligence server (130). The first database (122) has a configuration corresponding to the database (2150) described in FIG. 4. The first database (122) may store information regarding a medium. For example, the first database (122) may store at least one of a medium ID for each of a plurality of mediums, a medium title, all text printed on a medium, text printed on a specific page of a medium, and text printed at a specific coordinate of a medium. In addition, the database (2150) may store a predetermined prompt and/or prompt form.
제2 제어부(123)는 수신된 좌표 정보에 대응되는 프롬프트를 추출하고, 추출된 프롬프트를 대화형 인공지능 서버(130)로 송신한다. 제2 제어부(123)는 도 4에서 서술한 메인 서버 제어부(2300)와 실질적으로 동일한 구성이다. 제2 제어부(133)는 제1 데이터베이스(122)로부터 프롬프트를 로드(load)할 수 있다. 또는, 제2 제어부(123)는 제1 데이터베이스(122)로부터 프롬프트 양식 및 미디엄에 관한 정보를 로드(load)하여 프롬프트를 생성할 수 있다.The second control unit (123) extracts a prompt corresponding to the received coordinate information and transmits the extracted prompt to the interactive artificial intelligence server (130). The second control unit (123) has substantially the same configuration as the main server control unit (2300) described in FIG. 4. The second control unit (133) can load a prompt from the first database (122). Alternatively, the second control unit (123) can load information regarding a prompt form and medium from the first database (122) to generate a prompt.
제2 통신부(121)가 전자펜(110)으로부터 문자 정보를 수신하는 경우, 제2 제어부(123)는 제1 데이터베이스(122)에 저장하고, 수신된 문자 정보를 대화형 인공지능 서버(130)로 송신한다.When the second communication unit (121) receives character information from the electronic pen (110), the second control unit (123) stores the received character information in the first database (122) and transmits it to the interactive artificial intelligence server (130).
대화형 인공지능 서버(130)는 인공지능을 활용하기 위한 언어 처리 모델이 임베디드된 서버로, 대화형 인공지능 서비스를 제공하는 서버를 의미한다.A conversational artificial intelligence server (130) is a server with an embedded language processing model for utilizing artificial intelligence, and refers to a server that provides a conversational artificial intelligence service.
대화형 인공지능 서비스의 예로는 오픈AI의 챗GPT(ChatGPT), 구글의 바드(Bard) 또는 제미나이(Gemini), 마이크로소프트의 코파일럿(Copilot)가 있다.Examples of conversational AI services include OpenAI's ChatGPT, Google's Bard or Gemini, and Microsoft's Copilot.
대화형 인공지능 서버(130)는 제1 서버(120)로부터 프롬프트 또는 문자 정보를 입력 값으로 하여 언어 처리 모델을 이용하여 결과 값을 추출하고, 추출된 결과 값을 제1 서버(120)로 송신한다. 결과 값은 문자열 데이터로 구성되어 있다.The interactive artificial intelligence server (130) extracts a result value using a language processing model by inputting a prompt or character information from the first server (120) and transmits the extracted result value to the first server (120). The result value is composed of string data.
제2 통신부(121)는 대화형 인공지능 서버(130)로부터 결과 값을 수신하고, 결과 값을 전자펜(110)으로 송신한다.The second communication unit (121) receives the result value from the interactive artificial intelligence server (130) and transmits the result value to the electronic pen (110).
또한, 제2 통신부(121)는 결과 값을 제2 서버(140)로 송신한다.Additionally, the second communication unit (121) transmits the result value to the second server (140).
제2 서버(140)는 제3 통신부(141), 제2 데이터베이스(142) 및 제3 제어부(143)를 포함한다.The second server (140) includes a third communication unit (141), a second database (142), and a third control unit (143).
제3 통신부(141)는 제1 서버(120)로부터 결과 값을 수신하여, 제2 데이터베이스(142)에 저장한다.The third communication unit (141) receives the result value from the first server (120) and stores it in the second database (142).
세션은 문자 정보 또는 프롬프트를 대화형 인공지능 서버(130)에 송신하고 이에 대한 결과 값을 받는 일련의 과정을 의미한다. 하나의 세션이 종료된 경우, 제3 제어부(143)는 수신된 결과 값을 세션 ID, 대화형 인공지능 서버(130)로 송신한 문자 정보 또는 프롬프트 및 문자 정보 또는 프롬프트의 기초가 된 코드 정보를 송신한 사용자 및 전자펜(110)의 ID를 연계하여 세션 정보를 생성하고, 이를 제2 데이터베이스(142)에 저장한다. 제3 제어부(143)는 이들의 정보를 JSON 파일 형태로 저장하며, 세션 ID에 대한 시간 정보를 이에 부가하여 더 저장할 수도 있다.A session refers to a series of processes of transmitting text information or a prompt to an interactive artificial intelligence server (130) and receiving a corresponding result value. When one session is terminated, the third control unit (143) generates session information by linking the received result value with the session ID, the text information or prompt transmitted to the interactive artificial intelligence server (130), and the ID of the user who transmitted the code information that became the basis of the text information or prompt, and the ID of the electronic pen (110), and stores this in the second database (142). The third control unit (143) stores this information in the form of a JSON file, and may further store time information for the session ID by adding it thereto.
제3 제어부(143)는 소정의 기간 동안 사용자 ID 또는 전자펜 ID를 기준으로 제2 데이터베이스(142)에 저장되어 있는 적어도 하나의 세션 정보를 추출한다.The third control unit (143) extracts at least one session information stored in the second database (142) based on the user ID or electronic pen ID for a predetermined period of time.
제3 제어부(143)는 제3 통신부(141)를 통하여 미리 결정된 세션 프롬프트 정보와 추출된 적어도 하나의 세션 정보를 대화형 인공지능 서버(130)에 송신한다. 미리 결정된 세션 프롬프트는 적어도 하나의 세션 정보에 대한 요약에 관련된 내용을 포함할 수 있다. 또한, 미리 결정된 세션 프롬프트는 적어도 하나의 세션 정보에 대한 분석과 관련된 내용을 포함할 수 있다.The third control unit (143) transmits predetermined session prompt information and at least one piece of extracted session information to the interactive artificial intelligence server (130) via the third communication unit (141). The predetermined session prompt may include content related to a summary of at least one piece of session information. Additionally, the predetermined session prompt may include content related to an analysis of at least one piece of session information.
대화형 인공지능 서버(130)는 제2 서버(140)로부터 수신된 세션 프롬프트를 입력 값으로 하여 언어 처리 모델을 이용하여 결과 값을 추출하고, 추출된 결과 값을 제2 서버(140)로 송신한다.The conversational artificial intelligence server (130) extracts a result value using a language processing model using the session prompt received from the second server (140) as an input value, and transmits the extracted result value to the second server (140).
제2 서버(140)는 수신된 세션 프롬프트에 대한 결과 값을 제2 데이터베이스(142)에 저장한다. 제2 서버(140)는 사용자 요청이 있는 경우, 적어도 하나의 세션 정보 및 세션 프롬프트에 의한 결과 값을 사용자에게 제공한다.The second server (140) stores the result value for the received session prompt in the second database (142). When there is a user request, the second server (140) provides the user with at least one session information and the result value according to the session prompt.
3. 상호작용 시스템에서 이용되는 정보3. Information used in the interaction system
이하에서는, 도 8을 참고하여, 상호작용 시스템(100)에서 데이터베이스(2150)에 저장된 정보에 대해 서술한다.Below, with reference to FIG. 8, information stored in a database (2150) in an interaction system (100) is described.
도 8은 일 실시예에 따른 데이터베이스(2150)에 저장된 정보들을 나타내는 도면이다. 데이터베이스(2150)에 저장된 정보들은 메인 서버(2000)에 의해 이용될 수 있으며, 특히 메인 서버(2000)가 프롬프트를 생성하는 데에 이용될 수 있다.FIG. 8 is a diagram illustrating information stored in a database (2150) according to one embodiment. The information stored in the database (2150) can be utilized by the main server (2000), and in particular, can be utilized by the main server (2000) to generate a prompt.
도 8을 참고하면, 데이터베이스(2150)에는 미디엄에 관한 정보(제1 미디엄에 관한 정보 내지 제n 미디엄에 관한 정보), 프롬프트(제1 프롬프트 내지 제n 프롬프트), 및 프롬프트 양식(제1 프롬프트 양식 내지 제n 프롬프트 양식)이 저장될 수 있다.Referring to FIG. 8, the database (2150) may store information about a medium (information about a first medium to information about an n-th medium), prompts (a first prompt to an n-th prompt), and prompt forms (a first prompt form to an n-th prompt form).
미디엄에 관한 정보는 후술하는 바와 프롬프트를 생성하는 데에 이용될 수 있다. 미디엄에 관한 정보는 사용자가 이용하는 미디엄이 무엇인지, 또는 사용자가 관심을 가지는 부분이 어디인지 등을 알기 위한 정보로 이해될 수 있다.Information about the medium can be used to generate prompts, as described below. Information about the medium can be understood as information that helps determine what medium the user uses or what areas the user is interested in.
제1 미디엄에 관한 정보는 복수의 미디엄들 중 제1 미디엄에 대한 정보이다. 제1 미디엄에 관한 정보는 제1 미디엄 ID, 제1 미디엄 종류, 제1 미디엄 명칭, 제1 미디엄 요약, 제1 미디엄 텍스트, 제1 미디엄 페이지별 텍스트, 제1 미디엄 영역별 텍스트, 제1 미디엄 페이지별 이미지, 제1 미디엄 영역별 이미지, 제1 미디엄 질문 사항, 및 제1 미디엄 지시 사항 등을 포함할 수 있다.Information about the first medium refers to information about the first medium among multiple mediums. Information about the first medium may include a first medium ID, a first medium type, a first medium name, a first medium summary, first medium text, first medium page-specific text, first medium area-specific text, first medium page-specific images, first medium area-specific images, first medium questions, and first medium instructions.
제1 미디엄 ID는 미디엄들 중 제1 미디엄을 식별하기 위한 정보이다. 제1 미디엄에 제1 고유 식별 번호가 부여될 수 있고, 제1 고유 식별 번호가 곧 제1 미디엄 ID일 수 있다.The first medium ID is information used to identify the first medium among the mediums. The first medium may be assigned a first unique identification number, and the first unique identification number may be the first medium ID.
제1 미디엄 종류는 미디엄의 형태를 의미하며, 책, 카드, 및 지도 등일 수 있다.The first type of medium refers to the form of the medium, which can be books, cards, and maps.
제1 미디엄 명칭은 제1 미디엄을 명명하는 정보이다. 제1 미디엄이 책이라면 제1 미디엄 명칭은 책의 제목이다. 제1 미디엄이 카드라면 제1 미디엄 명칭은 카드의 명칭을 의미한다.The First Medium Name is the information that identifies the First Medium. If the First Medium is a book, the First Medium Name is the book's title. If the First Medium is a card, the First Medium Name is the card's name.
제1 미디엄 요약은 제1 미디엄의 컨텐츠를 요약한 정보이다. 제1 미디엄이 책이라면 제1 미디엄 요약은 책에 인쇄된 이야기의 요약이다. 제1 미디엄이 카드라면 제1 미디엄 요약은 생략되거나 카드에 인쇄된 컨텐츠의 요약이다.The First Medium Summary is a summary of the content of the First Medium. If the First Medium is a book, the First Medium Summary is a summary of the story printed in the book. If the First Medium is a card, the First Medium Summary is a summary of the content printed on the card, either omitted or omitted.
제1 미디엄 텍스트는 제1 미디엄의 컨텐츠에 대한 정보이다. 제1 미디엄이 책이라면 제1 미디엄 텍스트는 제1 미디엄에 인쇄된 글(또는 이야기) 전체 또는 그 중 일부의 텍스트를 의미한다.A first medium text is information about the content of a first medium. If the first medium is a book, then a first medium text refers to the text of all or part of the text (or story) printed in the first medium.
제1 미디엄 페이지별 텍스트는 제1 미디엄이 책인 경우, 책의 페이지별 인쇄된 글이다. 제1 미디엄이 카드인 경우, 제1 미디엄 페이지별 텍스트는 카드의 앞면 또는 뒷면에 인쇄된 그림이다.The First Medium Page-by-Page Text is the printed text on each page of a book, if the First Medium is a book. If the First Medium is a card, the First Medium Page-by-Page Text is the image printed on the front or back of the card.
제1 미디엄 영역별 텍스트는 제1 미디엄의 특정 페이지(또는 특정 면)에서 특정 영역에 인쇄된 글이다. 제1 미디엄이 책인 경우, 제1 미디엄 영역별 텍스트는 제1 미디엄의 특정 페이지에서 특정 영역에 인쇄된 글(문단 또는 문장)이다. 제1 미디엄이 카드인 경우, 제1 미디엄 영역별 텍스트는 카드의 앞면 또는 뒷면에서 특정 영역에 인쇄된 글이다. 여기서, 특정 영역은 각 미디엄에 대한 정보를 저장할 때 미리 설정될 수 있으며, 다각형, 원, 타원, 또는 임의의 도형 등 다양한 형상을 가질 수 있다.The text for the first medium region is text printed in a specific area on a specific page (or side) of the first medium. If the first medium is a book, the text for the first medium region is text (paragraphs or sentences) printed in a specific area on a specific page of the first medium. If the first medium is a card, the text for the first medium region is text printed in a specific area on the front or back of the card. Here, the specific area can be preset when storing information for each medium and can have various shapes, such as a polygon, circle, ellipse, or any arbitrary shape.
제1 미디엄 페이지별 이미지는 제1 미디엄이 책인 경우, 책의 페이지별 인쇄된 그림이다. 제1 미디엄이 카드인 경우, 제1 미디엄 페이지별 이미지는 카드의 앞면 또는 뒷면에 인쇄된 그림이다.The First Medium Page Image is the printed image for each page of a book, if the First Medium is a book. If the First Medium is a card, the First Medium Page Image is the image printed on the front or back of the card.
제1 미디엄 영역별 이미지는 제1 미디엄의 특정 페이지(또는 특정 면)에서 특정 영역에 인쇄된 그림이다. 제1 미디엄이 책인 경우, 제1 미디엄 영역별 이미지는 제1 미디엄의 특정 페이지에서 특정 영역에 인쇄된 그림이다. 제1 미디엄이 카드인 경우, 제1 미디엄 영역별 이미지는 카드의 앞면 또는 뒷면에서 특정 영역에 인쇄된 그림이다. 여기서, 특정 영역은 각 미디엄에 대한 정보를 저장할 때 미리 설정될 수 있으며, 다각형, 원, 타원, 또는 임의의 도형 등 다양한 형상을 가질 수 있다.A first medium region-specific image is an image printed in a specific area on a specific page (or side) of a first medium. If the first medium is a book, the first medium region-specific image is an image printed in a specific area on a specific page of the first medium. If the first medium is a card, the first medium region-specific image is an image printed in a specific area on the front or back of the card. Here, the specific area can be preset when storing information for each medium and can have various shapes, such as a polygon, circle, ellipse, or any arbitrary shape.
제1 미디엄 페이지별 텍스트, 제1 미디엄 영역별 텍스트, 제1 미디엄 페이지별 이미지, 및 제1 미디엄 영역별 이미지는 미디엄 맥락 정보로 이해될 수 있다. 예를 들어, 후술하는 바와 같이 사용자가 전자기기(1000)를 이용하여 제1 미디엄의 특정 페이지 또는 특정 페이지 내 텍스트나 이미지를 터치하거나 가리키면서 말하거나 질문할 때, 메인 서버(2000)는 제1 미디엄 페이지별 텍스트, 제1 미디엄 영역별 텍스트, 제1 미디엄 페이지별 이미지, 및 제1 미디엄 영역별 이미지 중 적어도 하나를 미디엄 맥락 정보로 획득하고, 미디엄 맥락 정보를 이용하여 프롬프트를 생성할 수 있다.The text per first medium page, the text per first medium area, the image per first medium page, and the image per first medium area can be understood as medium context information. For example, as described below, when a user speaks or asks a question while touching or pointing to a specific page of the first medium or a text or image within a specific page using an electronic device (1000), the main server (2000) can obtain at least one of the text per first medium page, the text per first medium area, the image per first medium page, and the image per first medium area as medium context information, and can generate a prompt using the medium context information.
제1 미디엄 질문 사항은 제1 미디엄에 인쇄된 질문 사항이다.The first medium question is the question printed on the first medium.
제1 미디엄이 책인 경우 제1 미디엄 질문 사항은 제1 미디엄의 이야기에 관한 질문들을 포함할 수 있다. 예시적으로, 제1 미디엄 질문 사항은 제1 미디엄의 이야기에 대한 퀴즈나 주인공의 기분을 물어보는 질문 등을 포함할 수 있다. 제1 미디엄에는 페이지마다 서로 다른 질문 사항이 인쇄될 수 있다. 구체적으로, 제1 미디엄에는 페이지마다 해당 페이지에 인쇄된 글에 관한 질문 사항들이 인쇄될 수 있다.If the first medium is a book, the first medium questionnaire may include questions about the story in the first medium. For example, the first medium questionnaire may include a quiz about the story in the first medium or a question asking about the protagonist's feelings. The first medium may have different questions printed on each page. Specifically, the first medium may have questions about the text printed on each page.
제1 미디엄이 카드인 경우 제1 미디엄 질문 사항은 제1 미디엄의 컨텐츠와 관련된 질문들을 포함할 수 있다. 예를 들어, 제1 미디엄의 컨텐츠가 '자기소개'인 경우, 제1 미디엄 질문 사항은 '너의 이름은 무엇이니?', 및/또는 '너의 취미는 무엇이니?' 등을 포함할 수 있다.If the first medium is a card, the first medium question may include questions related to the content of the first medium. For example, if the content of the first medium is "Introduce Yourself," the first medium question may include "What is your name?" and/or "What are your hobbies?"
제1 미디엄 지시 사항은 제1 미디엄에 인쇄된 지시 사항이다.The First Medium Instructions are the instructions printed on the First Medium.
제1 미디엄이 책인 경우 제1 미디엄 지시 사항은 제1 미디엄의 이야기에 관한 지시들을 포함할 수 있다. 예시적으로, 제1 미디엄 지시 사항은 제1 미디엄의 이야기에 대한 '사용자의 생각 표현하기', '사용자의 경험 이야기하기' 등을 포함할 수 있다. 제1 미디엄에는 페이지마다 서로 다른 지시 사항이 인쇄될 수 있다. 구체적으로, 제1 미디엄에는 페이지마다 해당 페이지에 인쇄된 글에 관한 지시 사항들이 인쇄될 수 있다.If the first medium is a book, the first medium instructions may include instructions regarding the story in the first medium. For example, the first medium instructions may include "expressing the user's thoughts" and "telling the user's experience" regarding the story in the first medium. Different instructions may be printed on each page of the first medium. Specifically, the first medium may print instructions regarding the text printed on each page.
제1 미디엄이 카드인 경우 제1 미디엄 지시 사항은 제1 미디엄의 컨텐츠와 관련된 지시들을 포함할 수 있다. 예를 들어, 제1 미디엄의 컨텐츠가 '장래희망'인 경우, 제1 미디엄 지시 사항은 '닮고 싶은 사람에 대해 말해보세요', '당신이 잘하는 일에 대해 말해보세요' 등을 포함할 수 있다.If the first medium is a card, the first medium instructions may include instructions related to the content of the first medium. For example, if the content of the first medium is "future aspirations," the first medium instructions may include "Tell me about a person you want to be like," "Tell me about something you're good at," etc.
제1 미디엄 질문 사항 또는 제1 미디엄 지시 사항은 인위적 맥락 정보로 이해될 수 있다. 예를 들어, 후술하는 바와 같이 사용자가 전자기기(1000)를 이용하여 제1 미디엄에서 질문이 인쇄된 영역을 터치하거나 가리킬 때, 메인 서버(2000)는 제1 미디엄 질문 사항 또는 제1 미디엄 지시 사항 중 적어도 하나를 인위적 맥락 정보로 획득하고, 인위적 맥락 정보를 이용하여 프롬프트를 생성할 수 있다.The first medium question or first medium instruction can be understood as artificial contextual information. For example, as described below, when a user uses an electronic device (1000) to touch or point to an area on the first medium where a question is printed, the main server (2000) may acquire at least one of the first medium question or first medium instruction as artificial contextual information and generate a prompt using the artificial contextual information.
한편, 미디엄에 관한 정보는 텍스트 외에도 소리, 이미지, 또는 영상을 포함할 수 있다. 예를 들어, 데이터베이스(2150)에는 미디엄 요약에 대한 음성, 미디엄에 인쇄된 글(페이지별 또는 영역별 인쇄된 글)에 대한 음성, 미디엄에 인쇄된 질문 사항 또는 지시 사항에 대한 음성이 저장될 수 있다. 나아가, 데이터베이스(2150)에는 미디엄과 관련된 영상, 미디엄의 각 페이지에 관련된 영상, 미디엄의 일 영역 또는 인쇄된 이미지에 관련된 영상 등이 저장될 수 있다. 이에 따라, 후술하는 맥락 정보 역시 텍스트, 소리, 이미지, 또는 영상 중 적어도 하나를 포함할 수 있다.Meanwhile, information about a medium may include, in addition to text, audio, images, or video. For example, the database (2150) may store audio for a summary of the medium, audio for text printed on the medium (printed text by page or region), and audio for questions or instructions printed on the medium. Furthermore, the database (2150) may store video related to the medium, video related to each page of the medium, video related to a region of the medium or a printed image, and the like. Accordingly, the contextual information described below may also include at least one of text, audio, image, or video.
프롬프트는 인공지능 서버(3000)에 입력되는 정보를 의미한다. 인공지능 서버(3000)는 프롬프트를 입력 받아 그에 대한 응답을 생성할 수 있다. 프롬프트에는 맥락 정보가 포함될 수 있다. 데이터베이스(2150)에 저장되는 프롬프트는 특정 미디엄에 관한 맥락 정보를 포함할 수 있다.A prompt refers to information input into the AI server (3000). The AI server (3000) can receive the prompt and generate a response. The prompt may include contextual information. The prompt stored in the database (2150) may include contextual information regarding a specific medium.
프롬프트의 구체적인 예시에 대해서는 후술하도록 한다.Specific examples of prompts will be described later.
프롬프트 양식은 프롬프트를 생성하기 위한 내용을 포함할 수 있다. 구체적으로, 프롬프트 양식은 인공지능 서버(3000)에게 맥락을 알려주기 위한 문장이나 문단을 포함할 수 있다. 프롬프트 양식은 맥락 정보와 같은 추가적인 정보를 이용하여 수정(ex. 맥락 정보가 부가됨)됨으로써 인공지능 서버(3000)에 입력되는 프롬프트가 될 수 있다.A prompt form may include content for generating a prompt. Specifically, the prompt form may include sentences or paragraphs to provide context to the AI server (3000). The prompt form may be modified (e.g., contextual information may be added) using additional information, such as contextual information, to become a prompt input to the AI server (3000).
메인 서버(2000)는 프롬프트 양식과 사용자의 음성 데이터를 변환한 텍스트 데이터를 이용하여 프롬프트를 생성할 수 있다. 또는, 메인 서버(2000)는 프롬프트 양식과 미디엄 맥락 정보를 이용하여 프롬프트를 생성할 수 있다. 또는, 메인 서버(2000)는 프롬프트 양식과 인위적 맥락 정보를 이용하여 프롬프트를 생성할 수 있다. 또는, 메인 서버(2000)는 프롬프트 양식, 인위적 맥락 정보 및 미디엄 맥락 정보를 이용하여 프롬프트를 생성할 수 있다.The main server (2000) can generate a prompt using a prompt form and text data converted from the user's voice data. Alternatively, the main server (2000) can generate a prompt using a prompt form and medium context information. Alternatively, the main server (2000) can generate a prompt using a prompt form and artificial context information. Alternatively, the main server (2000) can generate a prompt using a prompt form, artificial context information, and medium context information.
프롬프트 양식의 구체적인 예시에 대해서는 후술하도록 한다.Specific examples of prompt formats will be provided later.
한편, 데이터베이스(2150)에는 전술한 정보들 외에 다른 정보들이 더 저장될 수 있다. 또한, 데이터베이스(2150)에 정보들이 저장된 형태가 전술한 형태로 한정되는 것은 아니며, 정보들이 저장되는 방식(ex. 카테고리, 정보들 사이의 연결관계 등)은 다양할 수 있다.Meanwhile, the database (2150) may store other information in addition to the aforementioned information. Furthermore, the format in which information is stored in the database (2150) is not limited to the aforementioned format, and the manner in which information is stored (e.g., categories, relationships between pieces of information, etc.) may vary.
이하에서는, 맥락 정보가 획득되는 과정에 대해 서술한다. 맥락 정보는 전술한 바와 같이 사용자가 전자기기(1000)를 이용하여 미디엄과 상호작용하는 영역에 대한 정보를 의미한다. 맥락 정보는 프롬프트를 생성하는 데에 이용될 수 있다.Below, the process of acquiring contextual information is described. As described above, contextual information refers to information about the area in which a user interacts with the medium using an electronic device (1000). Contextual information can be used to generate prompts.
사용자가 전자기기(1000)를 이용하여 미디엄과 상호작용 함에 있어서, 사용자는 전자기기(1000)를 이용하여 미디엄 내 특정 영역을 터치하거나 가리키게 된다. 예시적으로, 사용자가 전자기기(1000)를 미디엄 내 특정 영역에 접촉시키거나 근접하게 위치시키면, 전자기기(1000)의 센싱부(1100)는 특정 영역을 촬영하여 코드 이미지가 획득될 수 있다.When a user interacts with a medium using an electronic device (1000), the user touches or points to a specific area within the medium using the electronic device (1000). For example, when the user touches or places the electronic device (1000) in proximity to a specific area within the medium, the sensing unit (1100) of the electronic device (1000) can capture a picture of the specific area, thereby obtaining a code image.
코드 이미지는 전자기기(1000) 또는 메인 서버(2000)에 의해 분석될 수 있고, 그에 따라 코드 데이터가 획득될 수 있다.The code image can be analyzed by an electronic device (1000) or a main server (2000), and code data can be obtained accordingly.
메인 서버(2000)는 코드 데이터로부터 참조 정보를 획득할 수 있다. 여기서, 참조 정보는 데이터베이스(2150)에서 필요한 정보를 로드(load)하기 위한 정보를 의미한다. 예를 들어, 참조 정보는 미디엄 ID, 페이지 정보, 및 위치 정보(좌표 정보 및/또는 영역 식별 정보) 중 적어도 하나를 포함할 수 있다.The main server (2000) can obtain reference information from code data. Here, the reference information refers to information for loading necessary information from the database (2150). For example, the reference information may include at least one of a medium ID, page information, and location information (coordinate information and/or area identification information).
메인 서버(2000)는 참조 정보를 이용하여 데이터베이스(2150)에서 필요한 정보를 검색하여 맥락 정보로 획득할 수 있다. 맥락 정보는 미디엄에 인쇄된 글이나 그림 중 적어도 일부에 대응되는 정보를 포함할 수 있다. 메인 서버(2000)는 적어도 맥락 정보를 이용하여 프롬프트를 생성할 수 있다.The main server (2000) can retrieve necessary information from the database (2150) using reference information to obtain contextual information. The contextual information may include information corresponding to at least a portion of the text or images printed on the medium. The main server (2000) can generate a prompt using at least the contextual information.
맥락 정보에 포함되는 정보는 미디엄 중 전자기기(1000)가 접촉되거나 위치한 영역에 기초하여 결정될 수 있다. 다시 말해, 사용자가 미디엄 내 서로 다른 영역에 전자기기(1000)를 위치시키는 경우 메인 서버(2000)가 결과적으로 획득하는 맥락 정보는 서로 달라야 하고, 이는 곧 미디엄 내 영역별로 서로 다른 코드가 인쇄되어 전자기기(1000)에 획득되는 코드 이미지 역시 달라짐을 의미한다.Information included in the contextual information may be determined based on the area within the medium where the electronic device (1000) is in contact or positioned. In other words, when a user positions the electronic device (1000) in different areas within the medium, the contextual information ultimately acquired by the main server (2000) must be different. This means that different codes are printed in each area within the medium, and thus the code images acquired by the electronic device (1000) also differ.
이하에서는, 도 9 및 도 10를 참고하여, 미디엄 내 영역이 구분되는 양태에 대해 서술한다.Below, with reference to FIGS. 9 and 10, the manner in which areas within a medium are distinguished is described.
도 9는 일 실시예에 따른, 미디엄에서 영역이 구분되는 양태를 나타낸 도면이다.FIG. 9 is a diagram illustrating an aspect in which areas are distinguished in a medium according to one embodiment.
도 9를 참고하면, 미디엄에는 그림 영역, 글 영역, 질문 영역, 페이지 번호 및 심볼이 포함될 수 있다. 각 영역에 인쇄된 코드는 서로 다른 패턴을 가질 수 있다. 예를 들어, 각 영역에 인쇄된 코드를 촬영하여 얻어진 코드 데이터를 디코딩하면 서로 다른 영역 식별 정보가 획득될 수 있다.Referring to Figure 9, the medium may include a picture area, a text area, a question area, page numbers, and symbols. The codes printed in each area may have different patterns. For example, by photographing the codes printed in each area and decoding the resulting code data, different area identification information can be obtained.
그림 영역은 특정 그림이 인쇄된 영역으로, 전자기기(1000)가 그림 영역에 접촉되어 얻어진 코드 데이터를 디코딩하면 적어도 미디엄 ID, 페이지 정보 및, 그림 영역을 지시하는 영역 식별 정보가 획득될 수 있다. 메인 서버(2000)는 획득된 미디엄 ID, 페이지 정보, 및 영역 식별 정보를 이용하여 데이터베이스(2150)에서 해당 영역에 인쇄된 그림에 대응하는 이미지를 획득할 수 있다.The picture area is an area where a specific picture is printed. When an electronic device (1000) comes into contact with the picture area and decodes the obtained code data, at least a medium ID, page information, and area identification information indicating the picture area can be obtained. The main server (2000) can use the obtained medium ID, page information, and area identification information to obtain an image corresponding to the picture printed in the corresponding area from the database (2150).
글 영역은 글이 인쇄된 영역으로, 전자기기(1000)가 글 영역에 접촉되어 얻어진 코드 데이터를 디코딩하면 적어도 미디엄 ID, 페이지 정보, 및 글 영역을 지시하는 영역 식별 정보가 획득될 수 있다. 메인 서버(2000)는 획득된 미디엄 ID, 페이지 정보, 및 영역 식별 정보를 이용하여 데이터베이스(2150)에서 해당 영역에 인쇄된 글에 대응하는 텍스트를 획득할 수 있다.The text area is an area where text is printed. When an electronic device (1000) comes into contact with the text area and decodes the obtained code data, at least a medium ID, page information, and area identification information indicating the text area can be obtained. The main server (2000) can use the obtained medium ID, page information, and area identification information to obtain text corresponding to the text printed in the corresponding area from the database (2150).
한편, 글 영역은 글을 구성하는 문장들 각각에 대해 설정될 수도 있다. 이 경우, 한 페이지 내에 복수의 글 영역이 설정될 수 있다.Meanwhile, text areas can be set for each sentence that makes up the text. In this case, multiple text areas can be set on a single page.
질문 영역은 질문이 인쇄된 영역으로, 전자기기(1000)가 질문 영역에 접촉되어 얻어진 코드 데이터를 디코딩하면 적어도 미디엄 ID, 페이지 정보, 및 질문 영역을 지시하는 영역 식별 정보가 획득될 수 있다. 메인 서버(2000)는 획득된 미디엄 ID, 페이지 정보, 및 영역 식별 정보를 이용하여 데이터베이스(2150)에서 해당 영역에 인쇄된 질문에 대응하는 텍스트를 획득할 수 있다.The question area is an area where a question is printed. When an electronic device (1000) comes into contact with the question area and decodes the obtained code data, at least a medium ID, page information, and area identification information indicating the question area can be obtained. The main server (2000) can use the obtained medium ID, page information, and area identification information to obtain text corresponding to the question printed in the corresponding area from the database (2150).
한편, 질문 영역에는 심볼, 질문 사항 및 지시 사항 중 적어도 하나가 인쇄될 수 있고, 인쇄된 내용에 따라 다르게 명명될 수도 있다. 예를 들어, 지시 사항이 인쇄된 경우 지시 영역으로, 또는 심볼만 인쇄된 경우 심볼 영역으로 명명될 수 있다.Meanwhile, the question area may be printed with at least one of a symbol, a question, and an instruction, and may be named differently depending on the printed content. For example, if instructions are printed, it may be named the instruction area, or if only symbols are printed, it may be named the symbol area.
미디엄에서 구분되는 영역들이 전술한 영역들로 한정되는 것은 아니며, 영역을 구분하는 단위와 규칙은 다양하게 결정될 수 있다.The areas distinguished in the medium are not limited to the areas described above, and the units and rules for distinguishing areas can be determined in various ways.
도 10은 다른 실시예에 따른, 미디엄에서 영역이 구분되는 양태를 나타낸 도면이다.FIG. 10 is a drawing showing an aspect in which areas are distinguished in a medium according to another embodiment.
도 10을을 참고하면, 미디엄은 질문 영역 및 설명 영역으로 구분될 수 있다. 질문 영역에는 이미지가 인쇄될 수 있고, 설명 영역에는 글이 인쇄될 수 있다. 각 영역에 인쇄된 코드는 서로 다른 패턴을 가질 수 있다. 예를 들어, 각 영역에 인쇄된 코드를 촬영하여 얻어진 코드 데이터를 디코딩하면 서로 다른 영역 식별 정보가 획득될 수 있다.Referring to Figure 10, the medium can be divided into a question area and a description area. An image can be printed in the question area, and text can be printed in the description area. The codes printed in each area can have different patterns. For example, by photographing the codes printed in each area and decoding the resulting code data, different area identification information can be obtained.
전자기기(1000)가 질문 영역에 접촉되어 얻어진 코드 데이터를 디코딩하면 적어도 미디엄 ID 및 질문 영역을 지시하는 영역 식별 정보가 획득될 수 있다. 메인 서버(2000)는 획득된 미디엄 ID 및 영역 식별 정보를 이용하여 데이터베이스(2150)에서 해당 미디엄에 관한 질문에 대응하는 텍스트를 획득할 수 있다.When an electronic device (1000) comes into contact with a question area and decodes the obtained code data, at least a medium ID and area identification information indicating the question area can be obtained. The main server (2000) can use the obtained medium ID and area identification information to obtain text corresponding to a question regarding the medium from the database (2150).
전자기기(1000)가 설명 영역에 접촉되어 얻어진 코드 데이터를 디코딩하면 적어도 미디엄 ID 및 설명 영역을 지시하는 영역 식별 정보가 획득될 수 있다. 메인 서버(2000)는 획득된 미디엄 ID 및 영역 식별 정보를 이용하여 데이터베이스(2150)에서 해당 미디엄에 관한 설명에 대응하는 텍스트를 획득할 수 있다.When an electronic device (1000) comes into contact with a description area and decodes the obtained code data, at least a medium ID and area identification information indicating the description area can be obtained. The main server (2000) can use the obtained medium ID and area identification information to obtain text corresponding to the description of the medium from the database (2150).
미디엄에서 구분되는 영역들이 전술한 영역들로 한정되는 것은 아니며, 영역들의 종류, 영역들을 특정하는 도형의 형상, 영역들에 대해 인쇄하는 코드가 가지는 패턴 등은 다양하게 결정될 수 있다.The areas distinguished in the medium are not limited to the areas described above, and the types of areas, the shapes of the shapes that specify the areas, and the patterns of the codes printed for the areas can be determined in various ways.
4. 인위적 맥락 정보를 이용한 상호작용4. Interaction using artificial context information
이하에서는, 도 11 내지 도 22을 참고하여, 상호작용 시스템(100)이 인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법에 대해 서술한다.Hereinafter, with reference to FIGS. 11 to 22, a method for an interaction system (100) to assist a user in using a medium by using artificial context information is described.
미디엄은 사용자에게 동화, 자연, 동물, 또는 과학 등 특정 이야기나 정보를 전달하는 것을 주된 목적으로 한다. 한편, 미디엄은 단순히 특정 이야기나 정보를 전달하는 것을 넘어서 사용자가 미디엄의 내용을 심층적으로 이해할 수 있도록 질문, 지시 사항, 연습 문제, 또는 탐구 활동 등의 내용을 더 포함하도록 제작될 수 있다.Medium's primary purpose is to convey specific stories or information to users, such as fairy tales, nature, animals, or science. However, beyond simply conveying specific stories or information, Medium can be designed to include additional content, such as questions, instructions, exercises, or exploration activities, to help users deeply understand the content.
이 경우, 보호자 등이 보조하지 않는 경우 사용자는 질문 답변 또는 지시 사항 수행만 가능하고 그 이후 추가적인 학습이나 탐구는 하기 어렵다. 이에 따라, 보호자를 대신하여 사용자의 미디엄 이용을 보조한다면 미디엄에 인쇄된 이야기나 컨텐츠에 대한 사용자의 이해가 깊어지고 흥미가 증대될 수 있다.In this case, without assistance from a guardian or other person, the user can only answer questions or follow instructions, making further learning or exploration difficult. Therefore, assisting the user in using Medium on behalf of their guardian can deepen their understanding and increase their interest in the stories and content printed on Medium.
이하에서는 보호자를 대신하여 사용자의 미디엄 이용을 보조하는 상호작용 시스템(100)에 대해 서술하되, 특히 미디엄에 이야기나 정보와 함께 추가적인 질문이나 지시 사항이 인쇄된 경우 상호작용 시스템(100)이 상호작용을 위한 프롬프트를 생성하는 방법을 중점적으로 서술한다.Below, an interaction system (100) that assists a user in using a medium on behalf of a guardian is described, with particular emphasis on how the interaction system (100) generates prompts for interaction when additional questions or instructions are printed along with a story or information on the medium.
인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법은 예시적으로 다음의 시나리오를 상정한다. 아이는 보호자 없이 동화책을 읽고 있으며, 동화책에는 이야기 뿐만 아니라 이야기에 대한 퀴즈나 추가 질문들이 인쇄되어 있으며, 아이는 상호작용 시스템(100)을 이용하여 퀴즈나 추가 질문들에 대해 대화하고자 한다.The following scenario is an example of a method for assisting a user's use of a medium using artificial contextual information. A child is reading a storybook without a guardian. The storybook contains not only the story but also quizzes and additional questions about the story. The child wants to use the interaction system (100) to discuss the quizzes and additional questions.
도 11은 제1 실시예에 따른 인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법에 관한 흐름도를 나타내는 도면이다. 이하에서는 도 6에서 서술한 바와 같이, 전자기기(1000)를 전자펜(110)으로, 메인 서버(2000)를 제1 서버(120)로, 인공지능 서버(3000)를 대화형 인공지능 서버(130)로 명명하기로 하며, 각 구성에 대해서는 도 6에서 서술한 내용이 동일하게 적용될 수 있다.FIG. 11 is a flowchart illustrating a method for assisting a user's use of a medium using artificial context information according to a first embodiment. Hereinafter, as described in FIG. 6, the electronic device (1000) will be referred to as an electronic pen (110), the main server (2000) as a first server (120), and the artificial intelligence server (3000) as an interactive artificial intelligence server (130). The descriptions in FIG. 6 can be equally applied to each configuration.
도 11을 참고하면, 단계 301에서, 전자펜은 소정의 코드가 인쇄된 인쇄물에서 소정의 코드를 인식하여 좌표 정보를 추출한다. 소정의 코드는 인쇄물에서의 위치 정보, 즉, 좌표 정보를 포함하고 있다. 전자펜은 카메라를 포함하며, 카메라가 소정의 코드가 인쇄된 인쇄물과 소정의 거리 내에 접근한 경우, 카메라는 카메라가 인식할 수 있는 영역 내에서 소정의 코드를 캡처한다. 그 후, 전자펜은 캡처한 이미지로의 소정의 코드에서 좌표 정보를 독출하게 된다.Referring to FIG. 11, in step 301, the electronic pen recognizes a predetermined code from a printed matter printed with the predetermined code and extracts coordinate information. The predetermined code includes location information, i.e., coordinate information, on the printed matter. The electronic pen includes a camera, and when the camera approaches the printed matter printed with the predetermined code within a predetermined distance, the camera captures the predetermined code within an area that the camera can recognize. Thereafter, the electronic pen reads the coordinate information from the predetermined code in the captured image.
단계 302에서, 전자펜은 독출한 좌표 정보를 제1 서버로 송신한다. 또는, 전자펜은 캡처한 이미지를 제1 서버에 전송하고, 제1 서버는 캡처한 이미지를 분석하여 코드 데이터를 획득하고, 획득된 코드 데이터로부터 적어도 미디엄 ID 및 좌표 정보를 획득할 수 있다. 이 때, 코드 데이터로부터 페이지 정보가 더 획득될 수 있다.In step 302, the electronic pen transmits the extracted coordinate information to the first server. Alternatively, the electronic pen transmits the captured image to the first server, which analyzes the captured image to obtain code data and may obtain at least the medium ID and coordinate information from the obtained code data. At this time, additional page information may be obtained from the code data.
전자펜은 전자펜 사용자의 ID 정보 및 전자펜의 ID 정보를 제1 서버로 더 송신할 수 있다.The electronic pen can further transmit the ID information of the electronic pen user and the ID information of the electronic pen to the first server.
제1 서버는 수신한 좌표 정보, 전자펜 사용자의 ID 정보 및 전자펜의 ID 정보를 연관하여 저장한다.The first server associates and stores the received coordinate information, the electronic pen user's ID information, and the electronic pen's ID information.
단계 303에서, 제1 서버는 좌표 정보에 대응되는 프롬프트를 추출한다.In step 303, the first server extracts a prompt corresponding to the coordinate information.
제1 서버에는 좌표 정보에 해당하는 프롬프트가 미리 저장되어 있을 수도 있다. 프롬프트는 대화형 인공지능 서버에 명령이나 지시를 내리는 입력 데이터를 의미한다. 제1 서버는 제1 데이터베이스에서 미디엄 ID에 대응하는 프롬프트, 좌표 정보에 대응하는 프롬프트, 또는 미디엄 ID와 좌표 정보에 대응하는 프롬프트를 획득할 수 있다.The first server may pre-store prompts corresponding to coordinate information. A prompt is input data that issues commands or instructions to the interactive AI server. The first server may obtain a prompt corresponding to a medium ID, a prompt corresponding to coordinate information, or a prompt corresponding to both a medium ID and coordinate information from the first database.
또는, 제1 서버는 제1 데이터베이스에서 미디엄에 관한 정보 중 미디엄 ID 및 좌표 정보에 대응하는 정보를 검색하여 맥락 정보로 획득할 수 있다. 이 때, 제1 서버는 맥락 정보를 획득함에 있어서 페이지 정보를 더 고려할 수 있다.Alternatively, the first server can retrieve information corresponding to the medium ID and coordinate information from the first database to obtain contextual information. In this case, the first server may further consider page information when obtaining contextual information.
제1 서버는 맥락 정보를 이용하여 프롬프트를 생성할 수 있다. 예를 들어, 제1 서버는 맥락 정보에 내용을 추가하여 프롬프트를 생성할 수 있다. 다른 예를 들어, 제1 시버는 미디엄 ID, 페이지 정보, 및 좌표 정보 중 적어도 하나에 대응하는 프롬프트 양식을 획득하고, 맥락 정보 및 프롬프트 양식을 이용하여 프롬프트를 생성할 수 있다.The first server can generate a prompt using contextual information. For example, the first server can generate a prompt by adding content to the contextual information. In another example, the first server can obtain a prompt form corresponding to at least one of a medium ID, page information, and coordinate information, and generate a prompt using the contextual information and the prompt form.
단계 304에서, 제1 서버는 추출된 프롬프트를 대화형 인공지능 서버로 송신한다.In step 304, the first server transmits the extracted prompt to the conversational artificial intelligence server.
대화형 인공지능 서버는 인공지능을 활용하기 위한 언어 처리 모델이 임베디드된 서버로, 대화형 인공지능 서비스를 제공하는 서버를 의미한다. 대화형 인공지능 서비스의 예로는 오픈AI의 챗GPT(ChatGPT), 구글의 바드(Bard) 또는 제미나이(Gemini), 마이크로소프트의 코파일럿(Copilot)가 있다.A conversational AI server is a server embedded with a language processing model for utilizing AI, providing conversational AI services. Examples of conversational AI services include OpenAI's ChatGPT, Google's Bard or Gemini, and Microsoft's Copilot.
단계 305에서, 대화형 인공지능 서버는 제1 서버로부터 수신한 프롬프트를 입력 값으로 하여 언어 처리 모델을 이용하여 결과 값을 생성하여 추출한다.In step 305, the conversational artificial intelligence server uses a language processing model with the prompt received from the first server as an input value to generate and extract a result value.
결과 값은 문자열 데이터로 구성되어 있다.The result value consists of string data.
단계 306에서, 대화형 인공지능 서버는 추출된 결과 값을 제1 서버로 송신한다.In step 306, the conversational artificial intelligence server transmits the extracted result value to the first server.
단계 307에서, 제1 서버는 수신한 결과 값을 전자펜으로 송신한다.In step 307, the first server transmits the received result value to the electronic pen.
단계 308에서, 전자펜은 텍스트를 음성으로 변환하는 기능을 이용하여, 수신한 결과 값을 음성으로 변환한다.In step 308, the electronic pen converts the received result value into voice using the text-to-speech function.
단계 309에서, 전자펜은 변환된 음성을 전자펜의 사용자에게 출력하게 된다.At step 309, the electronic pen outputs the converted voice to the user of the electronic pen.
단계 310에서, 제1 서버는 세션 정보를 생성한다.In step 310, the first server creates session information.
세션은 프롬프트를 대화형 인공지능 서버에 송신하고 이에 대한 결과 값을 받는 일련의 과정을 의미한다. 하나의 세션이 종료된 경우, 제1 서버는 수신된 결과 값을 세션 ID, 대화형 인공지능 서버로 송신한 프롬프트 및 프롬프트의 기초가 된 코드 정보를 송신한 사용자 및 전자펜의 ID를 연계하여 세션 정보를 생성한다. 그리고, 제1 서버는 이를 저장한다. 제1 서버는 이들의 정보를 JSON 파일 형태로 저장하며, 세션 ID에 대한 시간 정보를 이에 부가하여 더 저장할 수도 있다.A session refers to a series of processes involving sending prompts to an interactive AI server and receiving corresponding results. When a session ends, the first server generates session information by linking the received result values to the session ID, the prompt sent to the interactive AI server, and the IDs of the user and electronic pen that sent the code information that formed the basis of the prompt. The first server then stores this information. The first server stores this information in a JSON file and can also add time information related to the session ID to further store it.
단계 311에서, 제1 서버는 소정의 기간 동안 사용자 ID 또는 전자펜 ID를 기준으로 저장되어 있는 적어도 하나의 세션 정보를 추출하고, 미리 결정된 세션 프롬프트 정보와 함께 대화형 인공지능 서버에 송신한다.In step 311, the first server extracts at least one session information stored based on a user ID or electronic pen ID for a predetermined period of time and transmits it to the interactive artificial intelligence server along with predetermined session prompt information.
미리 결정된 세션 프롬프트는 적어도 하나의 세션 정보에 대한 요약에 관련된 내용을 포함할 수 있다. 또한, 미리 결정된 세션 프롬프트는 적어도 하나의 세션 정보에 대한 분석과 관련된 내용을 포함할 수 있다.The predetermined session prompt may include content related to a summary of at least one session piece of information. Additionally, the predetermined session prompt may include content related to an analysis of at least one session piece of information.
단계 312에서, 대화형 인공지능 서버는 제1 서버로부터 수신된 세션 프롬프트를 입력 값으로 하여 언어 처리 모델을 이용하여 결과 값을 생성한다.In step 312, the conversational artificial intelligence server uses a language processing model to generate a result value using the session prompt received from the first server as an input value.
단계 313에서, 대화형 인공지능 서버는 생성된 결과 값을 제1 서버로 송신한다.In step 313, the conversational artificial intelligence server transmits the generated result value to the first server.
제1 서버는 수신된 세션 프롬프트에 대한 결과 값을 저장한다. 제1 서버는 사용자 요청이 있는 경우, 적어도 하나의 세션 정보 및 세션 프롬프트에 의한 결과 값을 사용자에게 제공한다.The first server stores the result values for the received session prompts. Upon user request, the first server provides the user with at least one session information and the result values for the session prompts.
도 12는 본 발명의 제2 실시예에 따른 인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법에 관한 흐름도를 나타내는 도면이다. 이하에서는 도 6에서 서술한 바와 같이, 전자기기(1000)를 전자펜(110)으로, 메인 서버(2000)를 제1 서버(120)로, 인공지능 서버(3000)를 대화형 인공지능 서버(130)로 명명하기로 하며, 각 구성에 대해서는 도 6에서 서술한 내용이 동일하게 적용될 수 있다.FIG. 12 is a flowchart illustrating a method for assisting a user's use of a medium using artificial context information according to a second embodiment of the present invention. Hereinafter, as described in FIG. 6 , the electronic device (1000) will be referred to as an electronic pen (110), the main server (2000) as a first server (120), and the artificial intelligence server (3000) as an interactive artificial intelligence server (130). The descriptions in FIG. 6 can be equally applied to each component.
도 12를 참고고하면, 단계 501에서, 전자펜은 마이크를 통하여 사용자의 음성 입력을 수신하고, 음성 정보를 문자정보로 변환한다.Referring to Figure 12, in step 501, the electronic pen receives the user's voice input through a microphone and converts the voice information into text information.
단계 502에서, 전자펜은 변환된 문자 정보를 제1 서버로 송신한다.In step 502, the electronic pen transmits the converted character information to the first server.
제1 서버는 수신한 문자 정보, 전자펜 사용자의 ID 정보 및 전자펜의 ID 정보를 연관하여 저장한다.The first server associates and stores the received text information, the electronic pen user's ID information, and the electronic pen's ID information.
제1 서버는 문자 정보를 이용하여 프롬프트를 생성할 수 있다. 예를 들어, 제1 서버는 제1 데이터베이스에서 미디엄 ID에 대응되는 프롬프트 양식을 획득하고, 프롬프트 양식 및 문자 정보를 이용하여 프롬프트를 생성할 수 있다. 다른 예를 들어, 제1 서버는 문자 정보에 내용을 추가하거나 문자 정보를 수정하여 프롬프트를 생성할 수 있다. 또 다른 예를 들어, 제1 서버는 문자 정보가 획득되기에 앞서 생성한 프롬프트 및 문자 정보를 이용하여 새로운 프롬프트를 생성할 수 있다.The first server can generate a prompt using text information. For example, the first server can obtain a prompt form corresponding to a medium ID from the first database and generate a prompt using the prompt form and text information. For another example, the first server can generate a prompt by adding content to or modifying text information. For another example, the first server can generate a new prompt using a prompt and text information generated prior to obtaining the text information.
단계 503에서, 제1 서버는 문자 정보를 대화형 인공지능 서버로 송신한다. 제1 서버는 프롬프트를 인공지능 서버로 송신할 수 있다.In step 503, the first server transmits text information to the interactive artificial intelligence server. The first server may transmit a prompt to the artificial intelligence server.
대화형 인공지능 서버는 인공지능을 활용하기 위한 언어 처리 모델이 임베디드된 서버로, 대화형 인공지능 서비스를 제공하는 서버를 의미한다. 대화형 인공지능 서비스의 예로는 오픈AI의 챗GPT(ChatGPT), 구글의 바드(Bard) 또는 제미나이(Gemini), 마이크로소프트의 코파일럿(Copilot)가 있다.A conversational AI server is a server embedded with a language processing model for utilizing AI, providing conversational AI services. Examples of conversational AI services include OpenAI's ChatGPT, Google's Bard or Gemini, and Microsoft's Copilot.
단계 504에서, 대화형 인공지능 서버는 제1 서버로부터 수신한 문자 정보를 입력 값으로 하여 언어 처리 모델을 이용하여 결과 값을 생성하여 추출한다. 또는, 대화형 인공지능 서버는 제1 서버로부터 수신한 프롬프트를 입력 값으로 하여 결과 값을 생성할 수 있다.In step 504, the conversational AI server generates and extracts a result value using a language processing model with the character information received from the first server as input. Alternatively, the conversational AI server may generate a result value using the prompt received from the first server as input.
결과 값은 문자열 데이터로 구성되어 있다.The result value consists of string data.
단계 505에서, 대화형 인공지능 서버는 추출된 결과 값을 제1 서버로 송신한다.In step 505, the conversational artificial intelligence server transmits the extracted result value to the first server.
단계 506에서, 제1 서버는 수신한 결과 값을 전자펜으로 송신한다.In step 506, the first server transmits the received result value to the electronic pen.
단계 507에서, 전자펜은 텍스트를 음성으로 변환하는 기능을 이용하여, 수신한 결과 값을 음성으로 변환한다.In step 507, the electronic pen converts the received result value into voice using the text-to-speech function.
단계 508에서, 전자펜은 변환된 음성을 전자펜의 사용자에게 출력하게 된다.At step 508, the electronic pen outputs the converted voice to the user of the electronic pen.
단계 509에서, 제1 서버는 세션 정보를 생성한다.In step 509, the first server creates session information.
세션은 문자 정보를 대화형 인공지능 서버에 송신하고 이에 대한 결과 값을 받는 일련의 과정을 의미한다. 하나의 세션이 종료된 경우, 제1 서버는 수신된 결과 값을 세션 ID, 대화형 인공지능 서버로 송신한 문자 정보 및 문자 정보의 기초가 된 음성을 입력한 사용자 및 전자펜의 ID를 연계하여 세션 정보를 생성한다. 그리고, 제1 서버는 이를 저장한다. 제1 서버는 이들의 정보를 JSON 파일 형태로 저장하며, 세션 ID에 대한 시간 정보를 이에 부가하여 더 저장할 수도 있다.A session refers to a series of processes that involve sending text information to an interactive AI server and receiving corresponding results. When a session ends, the first server generates session information by linking the received result value to the session ID, the text information sent to the interactive AI server, and the user and electronic pen IDs that formed the basis of the text information. The first server then stores this information. The first server stores this information in a JSON file and can also add time information related to the session ID to further store it.
단계 510에서, 제1 서버는 소정의 기간 동안 사용자 ID 또는 전자펜 ID를 기준으로 저장되어 있는 적어도 하나의 세션 정보를 추출하고, 미리 결정된 세션 프롬프트 정보와 함께 대화형 인공지능 서버에 송신한다.In step 510, the first server extracts at least one session information stored based on a user ID or electronic pen ID for a predetermined period of time and transmits it to the interactive artificial intelligence server along with predetermined session prompt information.
미리 결정된 세션 프롬프트는 적어도 하나의 세션 정보에 대한 요약에 관련된 내용을 포함할 수 있다. 또한, 미리 결정된 세션 프롬프트는 적어도 하나의 세션 정보에 대한 분석과 관련된 내용을 포함할 수 있다.The predetermined session prompt may include content related to a summary of at least one session piece of information. Additionally, the predetermined session prompt may include content related to an analysis of at least one session piece of information.
단계 511에서, 대화형 인공지능 서버는 제1 서버로부터 수신된 세션 프롬프트를 입력 값으로 하여 언어 처리 모델을 이용하여 결과 값을 생성한다.In step 511, the conversational artificial intelligence server uses a language processing model to generate a result value using the session prompt received from the first server as an input value.
단계 512에서, 대화형 인공지능 서버는 생성된 결과 값을 제1 서버로 송신한다.In step 512, the conversational artificial intelligence server transmits the generated result value to the first server.
제1 서버는 수신된 세션 프롬프트에 대한 결과 값을 저장한다. 제1 서버는 사용자 요청이 있는 경우, 적어도 하나의 세션 정보 및 세션 프롬프트에 의한 결과 값을 사용자에게 제공한다.The first server stores the result values for the received session prompts. Upon user request, the first server provides the user with at least one session information and the result values for the session prompts.
도 13은은 본 발명의 제3 실시예에 따른 인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법에 관한 흐름도를 나타내는 도면이다. 이하에서는 도 7에서 서술한 바와 같이, 전자기기(1000)를 전자펜(110)으로, 메인 서버(2000)를 제1 서버(120)로, 인공지능 서버(3000)를 대화형 인공지능 서버(130)로 명명하기로 하며, 각 구성에 대해서는 도 7에서 서술한 내용이 동일하게 적용될 수 있다.FIG. 13 is a flowchart illustrating a method for assisting a user's use of a medium using artificial context information according to a third embodiment of the present invention. Hereinafter, as described in FIG. 7, the electronic device (1000) will be referred to as an electronic pen (110), the main server (2000) as a first server (120), and the artificial intelligence server (3000) as an interactive artificial intelligence server (130). The descriptions in FIG. 7 can be equally applied to each configuration.
도 13을 참고고하면, 단계 401에서, 전자펜은 소정의 코드가 인쇄된 인쇄물에서 소정의 코드를 인식하여 좌표 정보를 추출한다. 소정의 코드는 인쇄물에서의 위치 정보, 즉, 좌표 정보를 포함하고 있다. 전자펜은 카메라를 포함하며, 카메라가 소정의 코드가 인쇄된 인쇄물과 소정의 거리 내에 접근한 경우, 카메라는 카메라가 인식할 수 있는 영역 내에서 소정의 코드를 캡처한다. 그 후, 전자펜은 캡처한 이미지로의 소정의 코드에서 좌표 정보를 독출하게 된다.Referring to Figure 13, in step 401, the electronic pen recognizes a predetermined code from a printed matter having a predetermined code printed thereon and extracts coordinate information. The predetermined code includes location information, i.e., coordinate information, on the printed matter. The electronic pen includes a camera, and when the camera approaches the printed matter having the predetermined code printed thereon within a predetermined distance, the camera captures the predetermined code within an area that the camera can recognize. Thereafter, the electronic pen reads the coordinate information from the predetermined code in the captured image.
단계 402에서, 전자펜은 독출한 좌표 정보를 제1 서버로 송신한다.In step 402, the electronic pen transmits the read coordinate information to the first server.
전자펜은 전자펜 사용자의 ID 정보 및 전자펜의 ID 정보를 제1 서버로 더 송신할 수 있다.The electronic pen can further transmit the ID information of the electronic pen user and the ID information of the electronic pen to the first server.
제1 서버는 수신한 좌표 정보, 전자펜 사용자의 ID 정보 및 전자펜의 ID 정보를 연관하여 저장한다.The first server associates and stores the received coordinate information, the electronic pen user's ID information, and the electronic pen's ID information.
단계 403에서, 제1 서버는 좌표 정보에 대응되는 프롬프트를 추출한다.In step 403, the first server extracts a prompt corresponding to the coordinate information.
제1 서버에는 좌표 정보에 해당하는 프롬프트가 미리 저장되어 있다. 프롬프트는 대화형 인공지능 서버에 명령이나 지시를 내리는 입력 데이터를 의미한다.The first server pre-stores prompts corresponding to coordinate information. Prompts are input data that issue commands or instructions to the interactive AI server.
단계 404에서, 제1 서버는 추출된 프롬프트를 대화형 인공지능 서버로 송신한다.In step 404, the first server sends the extracted prompt to the conversational artificial intelligence server.
대화형 인공지능 서버는 인공지능을 활용하기 위한 언어 처리 모델이 임베디드된 서버로, 대화형 인공지능 서비스를 제공하는 서버를 의미한다. 대화형 인공지능 서비스의 예로는 오픈AI의 챗GPT(ChatGPT), 구글의 바드(Bard) 또는 제미나이(Gemini), 마이크로소프트의 코파일럿(Copilot)가 있다.A conversational AI server is a server embedded with a language processing model for utilizing AI, providing conversational AI services. Examples of conversational AI services include OpenAI's ChatGPT, Google's Bard or Gemini, and Microsoft's Copilot.
단계 405에서, 대화형 인공지능 서버는 제1 서버로부터 수신한 프롬프트를 입력 값으로 하여 언어 처리 모델을 이용하여 결과 값을 생성하여 추출한다.In step 405, the conversational artificial intelligence server uses a language processing model to generate and extract a result value using the prompt received from the first server as an input value.
결과 값은 문자열 데이터로 구성되어 있다.The result value consists of string data.
단계 406에서, 대화형 인공지능 서버는 추출된 결과 값을 제1 서버로 송신한다.In step 406, the conversational artificial intelligence server transmits the extracted result value to the first server.
단계 407에서, 제1 서버는 수신한 결과 값을 전자펜으로 송신한다.In step 407, the first server transmits the received result value to the electronic pen.
단계 408에서, 전자펜은 텍스트를 음성으로 변환하는 기능을 이용하여, 수신한 결과 값을 음성으로 변환한다.In step 408, the electronic pen converts the received result value into voice using the text-to-speech function.
단계 409에서, 전자펜은 변환된 음성을 전자펜의 사용자에게 출력하게 된다.At step 409, the electronic pen outputs the converted voice to the user of the electronic pen.
단계 410에서, 제1 서버는 수신한 결과 값을 제2 서버로 송신한다.In step 410, the first server transmits the received result value to the second server.
단계 411에서, 제2 서버는 세션 정보를 생성한다.At step 411, the second server creates session information.
세션은 프롬프트를 대화형 인공지능 서버에 송신하고 이에 대한 결과 값을 받는 일련의 과정을 의미한다. 하나의 세션이 종료된 경우, 제1 서버는 수신된 결과 값을 세션 ID, 대화형 인공지능 서버로 송신한 프롬프트 및 프롬프트의 기초가 된 코드 정보를 송신한 사용자 및 전자펜의 ID를 연계하여 세션 정보를 생성한다. 그리고, 제1 서버는 이를 저장한다. 제1 서버는 이들의 정보를 JSON 파일 형태로 저장하며, 세션 ID에 대한 시간 정보를 이에 부가하여 더 저장할 수도 있다.A session refers to a series of processes involving sending prompts to an interactive AI server and receiving corresponding results. When a session ends, the first server generates session information by linking the received result values to the session ID, the prompt sent to the interactive AI server, and the IDs of the user and electronic pen that sent the code information that formed the basis of the prompt. The first server then stores this information. The first server stores this information in a JSON file and can also add time information related to the session ID to further store it.
단계 412에서, 제2 서버는 소정의 기간 동안 사용자 ID 또는 전자펜 ID를 기준으로 저장되어 있는 적어도 하나의 세션 정보를 추출하고, 미리 결정된 세션 프롬프트 정보와 함께 대화형 인공지능 서버에 송신한다.In step 412, the second server extracts at least one session information stored based on the user ID or electronic pen ID for a predetermined period of time and transmits it to the interactive artificial intelligence server along with predetermined session prompt information.
미리 결정된 세션 프롬프트는 적어도 하나의 세션 정보에 대한 요약에 관련된 내용을 포함할 수 있다. 또한, 미리 결정된 세션 프롬프트는 적어도 하나의 세션 정보에 대한 분석과 관련된 내용을 포함할 수 있다.The predetermined session prompt may include content related to a summary of at least one session piece of information. Additionally, the predetermined session prompt may include content related to an analysis of at least one session piece of information.
단계 413에서, 대화형 인공지능 서버는 제2 서버로부터 수신된 세션 프롬프트를 입력 값으로 하여 언어 처리 모델을 이용하여 결과 값을 생성한다.In step 413, the conversational artificial intelligence server uses a language processing model to generate a result value using the session prompt received from the second server as an input value.
단계 414에서, 대화형 인공지능 서버는 생성된 결과 값을 제2 서버로 송신한다.In step 414, the conversational artificial intelligence server transmits the generated result value to the second server.
제2 서버는 수신된 세션 프롬프트에 대한 결과 값을 저장한다. 제2 서버는 사용자 요청이 있는 경우, 적어도 하나의 세션 정보 및 세션 프롬프트에 의한 결과 값을 사용자에게 제공한다.The second server stores the result values for the received session prompts. Upon user request, the second server provides the user with at least one session information and the result values for the session prompts.
도 14는 제4 실시예에 따른 인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법에 관한 흐름도를 나타내는 도면이다. 이하에서는 도 7에서 서술한 바와 같이, 전자기기(1000)를 전자펜(110)으로, 메인 서버(2000)를 제1 서버(120)로, 인공지능 서버(3000)를 대화형 인공지능 서버(130)로 명명하기로 하며, 각 구성에 대해서는 도 7에서 서술한 내용이 동일하게 적용될 수 있다.FIG. 14 is a flowchart illustrating a method for assisting a user's use of a medium using artificial context information according to a fourth embodiment. Hereinafter, as described in FIG. 7, the electronic device (1000) will be referred to as an electronic pen (110), the main server (2000) as a first server (120), and the artificial intelligence server (3000) as an interactive artificial intelligence server (130). The descriptions in FIG. 7 can be equally applied to each configuration.
단계 601에서, 전자펜은 마이크를 통하여 사용자의 음성 입력을 수신하고, 음성 정보를 문자정보로 변환한다.In step 601, the electronic pen receives the user's voice input through a microphone and converts the voice information into text information.
단계 602에서, 전자펜은 변환된 문자 정보를 제1 서버로 송신한다.In step 602, the electronic pen transmits the converted character information to the first server.
제1 서버는 수신한 문자 정보, 전자펜 사용자의 ID 정보 및 전자펜의 ID 정보를 연관하여 저장한다.The first server associates and stores the received text information, the electronic pen user's ID information, and the electronic pen's ID information.
단계 603에서, 제1 서버는 문자 정보를 대화형 인공지능 서버로 송신한다.In step 603, the first server transmits text information to the interactive artificial intelligence server.
대화형 인공지능 서버는 인공지능을 활용하기 위한 언어 처리 모델이 임베디드된 서버로, 대화형 인공지능 서비스를 제공하는 서버를 의미한다. 대화형 인공지능 서비스의 예로는 오픈AI의 챗GPT(ChatGPT), 구글의 바드(Bard) 또는 제미나이(Gemini), 마이크로소프트의 코파일럿(Copilot)가 있다.A conversational AI server is a server embedded with a language processing model for utilizing AI, providing conversational AI services. Examples of conversational AI services include OpenAI's ChatGPT, Google's Bard or Gemini, and Microsoft's Copilot.
단계 604에서, 대화형 인공지능 서버는 제1 서버로부터 수신한 문자 정보를 입력 값으로 하여 언어 처리 모델을 이용하여 결과 값을 생성하여 추출한다.In step 604, the conversational artificial intelligence server uses the character information received from the first server as input values to generate and extract a result value using a language processing model.
결과 값은 문자열 데이터로 구성되어 있다.The result value consists of string data.
단계 605에서, 대화형 인공지능 서버는 추출된 결과 값을 제1 서버로 송신한다.In step 605, the conversational artificial intelligence server transmits the extracted result value to the first server.
단계 606에서, 제1 서버는 수신한 결과 값을 전자펜으로 송신한다.In step 606, the first server transmits the received result value to the electronic pen.
단계 607에서, 전자펜은 텍스트를 음성으로 변환하는 기능을 이용하여, 수신한 결과 값을 음성으로 변환한다.In step 607, the electronic pen converts the received result value into voice using the text-to-speech function.
단계 608에서, 전자펜은 변환된 음성을 전자펜의 사용자에게 출력하게 된다.At step 608, the electronic pen outputs the converted voice to the user of the electronic pen.
단계 609에서, 제1 서버는 수신한 결과 값을 제2 서버로 송신한다.In step 609, the first server transmits the received result value to the second server.
단계 610에서, 제2 서버는 세션 정보를 생성한다.At step 610, the second server generates session information.
세션은 문자 정보 또는 프롬프트를 대화형 인공지능 서버에 송신하고 이에 대한 결과 값을 받는 일련의 과정을 의미한다. 하나의 세션이 종료된 경우, 제1 서버는 수신된 결과 값을 세션 ID, 대화형 인공지능 서버로 송신한 문자 정보 및 문자 정보의 기초가 된 음성 정보를 송신한 사용자 및 전자펜의 ID를 연계하여 세션 정보를 생성한다. 그리고, 제2 서버는 이를 저장한다. 제2 서버는 이들의 정보를 Jason 파일 형태로 저장하며, 세션 ID에 대한 시간 정보를 이에 부가하여 더 저장할 수도 있다.A session refers to a series of processes that involve sending text information or prompts to an interactive AI server and receiving corresponding results. When a session ends, the first server creates session information by linking the received result value to the session ID, the text information sent to the interactive AI server, and the IDs of the user and electronic pen that sent the voice information that formed the basis of the text information. The second server then stores this information. The second server stores this information in the form of a Jason file and may also store additional time information related to the session ID.
단계 611에서, 제2 서버는 소정의 기간 동안 사용자 ID 또는 전자펜 ID를 기준으로 저장되어 있는 적어도 하나의 세션 정보를 추출하고, 미리 결정된 세션 프롬프트 정보와 함께 대화형 인공지능 서버에 송신한다.In step 611, the second server extracts at least one session information stored based on the user ID or electronic pen ID for a predetermined period of time and transmits it to the interactive artificial intelligence server along with predetermined session prompt information.
미리 결정된 세션 프롬프트는 적어도 하나의 세션 정보에 대한 요약에 관련된 내용을 포함할 수 있다. 또한, 미리 결정된 세션 프롬프트는 적어도 하나의 세션 정보에 대한 분석과 관련된 내용을 포함할 수 있다.The predetermined session prompt may include content related to a summary of at least one session piece of information. Additionally, the predetermined session prompt may include content related to an analysis of at least one session piece of information.
단계 612에서, 대화형 인공지능 서버는 제2 서버로부터 수신된 세션 프롬프트를 입력 값으로 하여 언어 처리 모델을 이용하여 결과 값을 생성한다.In step 612, the conversational artificial intelligence server uses a language processing model to generate a result value using the session prompt received from the second server as an input value.
단계 613에서, 대화형 인공지능 서버는 생성된 결과 값을 제2 서버로 송신한다.In step 613, the conversational artificial intelligence server transmits the generated result value to the second server.
제2 서버는 수신된 세션 프롬프트에 대한 결과 값을 저장한다. 제2 서버는 사용자 요청이 있는 경우, 적어도 하나의 세션 정보 및 세션 프롬프트에 의한 결과 값을 사용자에게 제공한다.The second server stores the result values for the received session prompts. Upon user request, the second server provides the user with at least one session information and the result values for the session prompts.
도 15는 제5 실시예에 따른, 인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법을 나타내는 순서도이다.Fig. 15 is a flowchart illustrating a method for assisting a user's use of a medium using artificial context information according to a fifth embodiment.
도 16은은 제5 실시예에 따른, 인위적 맥락 정보가 획득되는 과정을 나타내는 도면이다.Figure 16 is a diagram showing a process of obtaining artificial context information according to the fifth embodiment.
도 17은 제5 실시예에 따른, 인위적 맥락 정보를 이용하여 프롬프트가 생성되는 것을 나타내는 도면이다.Fig. 17 is a diagram showing a prompt being generated using artificial context information according to the fifth embodiment.
도 15를 참고하면, 미디엄 이용 보조 방법은 코드 이미지를 획득하는 단계(S1100), 코드 이미지를 분석하여 코드 데이터를 획득하는 단계(S1200), 코드 데이터로부터 참조 정보를 획득하는 단계(S1300), 참조 정보에 기초하여 인위적 맥락 정보를 획득하는 단계(S1400), 인위적 맥락 정보를 이용하여 프롬프트를 생성하는 단계(S1500), 프롬프트를 이용하여 응답 데이터를 생성하는 단계(S1600), 응답 데이터에 대응되는 응답 음성 데이터를 획득하는 단계(S1700), 및 응답 음성 데이터를 출력하는 단계(S1800)를 포함할 수 있다.Referring to FIG. 15, the medium use assistance method may include a step of obtaining a code image (S1100), a step of analyzing the code image to obtain code data (S1200), a step of obtaining reference information from the code data (S1300), a step of obtaining artificial context information based on the reference information (S1400), a step of generating a prompt using the artificial context information (S1500), a step of generating response data using the prompt (S1600), a step of obtaining response voice data corresponding to the response data (S1700), and a step of outputting the response voice data (S1800).
이하에서 각 단계에 대해 구체적으로 서술한다.Each step is described in detail below.
코드 이미지가 획득될 수 있다(S1100). 구체적으로, 미디엄에는 컨텐츠(글 또는 그림)와 함께 코드가 인쇄되어 있고, 사용자가 전자기기(1000)를 미디엄 중 관심 영역에 접촉시키거나 근접하게 위치시키면 전자기기(1000)는 센싱부(1100)를 이용하여 관심 영역의 적어도 일부를 촬영하여 코드 이미지를 획득할 수 있다. 이 때, 센싱부(1100)는 주기적으로 활성화되어 이미지가 획득될 수 있다. 또는, 센싱부(1100)는 사용자가 전자기기(1000)의 버튼을 조작하는 경우에만 활성화되어 이미지가 획득될 수 있다.A code image can be acquired (S1100). Specifically, a code is printed on a medium along with content (text or image), and when a user brings an electronic device (1000) into contact with or places it close to an area of interest in the medium, the electronic device (1000) can capture at least a portion of the area of interest using a sensing unit (1100) to acquire a code image. At this time, the sensing unit (1100) can be periodically activated to acquire an image. Alternatively, the sensing unit (1100) can be activated to acquire an image only when the user operates a button on the electronic device (1000).
도 16을을 참고하면, 예시적으로 사용자는 전자기기(1000)를 이용하여 책의 14페이지 중 질문 영역의 일부 영역(또는 질문 영역 중 도형이 있는 부분)을 터치할 수 있고, 전자기기(1000)는 센싱부(1100)를 이용하여 터치된 영역에 인쇄된 코드에 대한 코드 이미지를 획득할 수 있다.Referring to FIG. 16, as an example, a user can use an electronic device (1000) to touch a part of a question area (or a part of the question area with a shape) on page 14 of a book, and the electronic device (1000) can use a sensing unit (1100) to obtain a code image for a code printed in the touched area.
코드 이미지를 분석하여 코드 데이터가 획득할 수 있다(S1200). 구체적으로, 전자기기(1000) 또는 메인 서버(2000)는 코드 이미지를 분석하여 코드 데이터를 획득할 수 있다. 예를 들어, 전자기기(1000)는 코드 이미지를 메인 서버(2000)에 전송하고, 메인 서버(2000)는 코드 이미지에 포함된 복수의 미세한 점들이 배열된 형태에 기초하여 코드 데이터를 획득할 수 있다. 다른 예를 들어, 전자기기(1000)는 코드 이미지로부터 코드 데이터를 획득하고, 획득된 코드 데이터를 메인 서버(2000)에 전송할 수 있다. 여기서, 코드 데이터는 미디엄에 관한 정보들 중 특정 정보가 인코딩된 데이터를 의미할 수 있다.Code data can be obtained by analyzing a code image (S1200). Specifically, an electronic device (1000) or a main server (2000) can obtain code data by analyzing a code image. For example, the electronic device (1000) can transmit a code image to the main server (2000), and the main server (2000) can obtain code data based on the arrangement of a plurality of fine dots included in the code image. As another example, the electronic device (1000) can obtain code data from the code image and transmit the obtained code data to the main server (2000). Here, the code data may mean data in which specific information among information about a medium is encoded.
코드 데이터로부터 참조 정보가 획득될 수 있다(S1300). 구체적으로, 도 16을 참고하면, 메인 서버(2000)는 코드 데이터를 디코딩하여 미디엄 종류, 미디엄 ID, 페이지 정보, 및 위치 정보(좌표 정보 및/또는 영역 식별 정보) 중 적어도 하나를 획득할 수 있다. 예시적으로, 도 16에서 획득되는 참조 정보는 {책(미디엄 종류), BOOK000 (미디엄 ID), 14(페이지 정보), A1(영역 식별 정보)}를 포함할 수 있다.Reference information can be obtained from code data (S1300). Specifically, referring to FIG. 16, the main server (2000) can decode the code data to obtain at least one of medium type, medium ID, page information, and location information (coordinate information and/or area identification information). For example, the reference information obtained in FIG. 16 may include {Book (medium type), BOOK000 (medium ID), 14 (page information), A1 (area identification information)}.
참조 정보에 기초하여 인위적 맥락 정보가 획득될 수 있다(S1400). 구체적으로, 도 16을 참고하면, 메인 서버(2000)는 데이터베이스(2150)에서 미디엄에 관한 정보 중 참조 정보에 대응하는 정보를 검색하여 미디엄 제목, 및 질문 사항을 획득할 수 있다. 전술한 바와 같이, 질문 사항은 미디엄에 인쇄된 이야기의 흐름과 관련성이 낮은 정보로, 컨텐츠 제작자가 이야기에 대한 사용자의 이해나 흥미를 높이기 위해 추가한 것인 바, 인위적 맥락 정보로 이해될 수 있다. 예시적으로, 도 16에서 획득되는 미디엄 제목은 '백설공주와 일곱 난쟁이'이고, 질문 사항은 '왕비는 왜 공주를 질투할까요?'이다.Artificial contextual information can be acquired based on reference information (S1400). Specifically, referring to FIG. 16, the main server (2000) can retrieve information corresponding to the reference information among information about the medium from the database (2150) to acquire the medium title and the question. As described above, the question is information with little relevance to the flow of the story printed on the medium, and is added by the content creator to increase the user's understanding or interest in the story, and thus can be understood as artificial contextual information. For example, the medium title acquired in FIG. 16 is "Snow White and the Seven Dwarfs," and the question is "Why is the queen jealous of the princess?"
인위적 맥락 정보를 이용하여 프롬프트가 생성될 수 있다(S1500). 구체적으로, 메인 서버(2000)는 적어도 인위적 맥락 정보를 이용하여 프롬프트를 생성할 수 있다. 예를 들어, 메인 서버(2000)는 데이터베이스(2150)로부터 프롬프트 양식을 로드(load)하고, 프롬프트 양식을 인위적 맥락 정보를 이용하여 수정하여 프롬프트를 생성할 수 있다. 메인 서버(2000)는 데이터베이스(2150)에서 참조 정보 또는 맥락 정보에 대응하는 프롬프트 양식을 로드할 수 있다. 한편, 메인 서버(2000)는 프롬프트 양식을 수정함에 있어서 인위적 맥락 정보 외의 맥락 정보나 사용자 정보 등 다른 정보들을 이용할 수 있다.A prompt can be generated using artificial context information (S1500). Specifically, the main server (2000) can generate a prompt using at least artificial context information. For example, the main server (2000) can load a prompt form from the database (2150) and modify the prompt form using artificial context information to generate a prompt. The main server (2000) can load a prompt form corresponding to reference information or context information from the database (2150). Meanwhile, the main server (2000) can use other information, such as context information or user information, in addition to artificial context information when modifying the prompt form.
일 예로, 도 17을 참고하면, 메인 서버(2000)는 데이터베이스(2150)로부터 제1 프롬프트 양식을 로드할 수 있다. 제1 프롬프트 양식은 미디엄 제목, 인위적 맥락 정보, 및 추가 정보가 삽입되는 부분을 포함하는 텍스트이다. 메인 서버(2000)는 기 획득한 미디엄 제목 '백설공주와 일곱 난쟁이' 및 질문 사항 '왕비는 왜 공주를 질투할까요?', 그리고 미리 저장된 사용자 정보 '아이는 만 5세'(이외에 사용자의 성별, 성격, 또는 가족 관계 등 다양한 사용자 정보가 이용될 수 있다)를 이용하여 제1 프롬프트 양식을 수정할 수 있다. 메인 서버(2000)는 제1 프롬프트 양식을 수정하여 제1 프롬프트를 생성할 수 있다.For example, referring to FIG. 17, the main server (2000) can load a first prompt form from the database (2150). The first prompt form is text that includes a medium title, artificial context information, and a part where additional information is inserted. The main server (2000) can modify the first prompt form using the previously acquired medium title 'Snow White and the Seven Dwarfs', the question 'Why is the queen jealous of the princess?', and the pre-stored user information 'The child is 5 years old' (in addition, various user information such as the user's gender, personality, or family relationships can be used). The main server (2000) can modify the first prompt form to generate the first prompt.
다른 예로, 메인 서버(2000)는 인위적 맥락 정보를 수정하거나 내용을 추가하여 프롬프트를 생성할 수 있다. 또 다른 예로, 메인 서버(2000)는 인위적 맥락 정보만을 포함하는 프롬프트를 생성할 수 있다.As another example, the main server (2000) may generate a prompt by modifying or adding artificial contextual information. As another example, the main server (2000) may generate a prompt that only includes artificial contextual information.
프롬프트에는 인위적 맥락 정보를 설명하는 설명 텍스트가 포함될 수 있다. 또한, 프롬프트에는 인공지능 서버(3000)가 응답을 생성할 시 고려할 사항을 서술한 가이드 텍스트가 더 포함될 수 있다.The prompt may include descriptive text describing the artificial contextual information. Additionally, the prompt may further include guidance text describing what the AI server (3000) should consider when generating a response.
프롬프트를 이용하여 응답 데이터가 생성될 수 있다(S1600). 구체적으로, 메인 서버(2000)는 단계 S1500에서 생성한 프롬프트를 인공지능 서버(3000)에 전송하고, 인공지능 서버(3000)는 수신된 프롬프트를 거대 언어 모델에 입력하여 응답 데이터를 생성할 수 있다. 예시적으로, 인공지능 서버(3000)는 도 17에 도시된 제1 프롬프트를 입력 받아 '왕비는 왜 공주를 질투할까요?', 또는 '왕비가 백설공주를 질투하는 것 같아요. 왕비는 왜 공주를 질투할까요?' 등의 응답 데이터를 생성할 수 있다.Response data can be generated using a prompt (S1600). Specifically, the main server (2000) transmits the prompt generated in step S1500 to the artificial intelligence server (3000), and the artificial intelligence server (3000) can input the received prompt into a large language model to generate response data. For example, the artificial intelligence server (3000) can receive the first prompt illustrated in FIG. 17 and generate response data such as "Why is the queen jealous of the princess?" or "I think the queen is jealous of Snow White. Why is the queen jealous of the princess?"
응답 데이터는 인공지능 서버(2000)가 인위적 맥락 정보를 고려하여 생성한 데이터로 이해될 수 있다. 즉, 사용자가 미디엄을 이용함에 있어서, 상호작용 시스템(100)이 사용자와의 대화를 유도할 수 있고, 유도되는 대화의 주제는 인위적 맥락 정보와 관련될 수 있다.The response data can be understood as data generated by the artificial intelligence server (2000) by considering artificial contextual information. That is, when a user uses the medium, the interaction system (100) can induce a conversation with the user, and the topic of the conversation can be related to artificial contextual information.
응답 데이터는 텍스트 데이터일 수도 있고, 음성 데이터일 수도 있다. 구체적으로, 인공지능 서버(3000)에 포함된 거대 언어 모델은 텍스트 기반 또는 음성 기반으로 구현될 수 있고, 입력되는 프롬프트가 텍스트 형식이라면 텍스트 형식의 응답 데이터를 출력하고, 입력되는 프롬프트가 음성 신호 형태인 경우 음성 응답 데이터를 출력할 수 있다.The response data may be text data or voice data. Specifically, the large language model included in the artificial intelligence server (3000) may be implemented in a text-based or voice-based manner, and if the input prompt is in text format, it may output text-based response data, and if the input prompt is in the form of a voice signal, it may output voice response data.
응답 데이터에 대응되는 응답 음성 데이터가 획득될 수 있다(S1700). 구체적으로, 메인 서버(2000)는 인공지능 서버(3000)로부터 응답 데이터를 수신하고, TTS 모델(2130)을 이용하여 응답 데이터를 응답 음성 데이터로 변환할 수 있다. 한편, 메인 서버(2000)에는 TTS 모델(2130)이 포함되지 않을 수 있으며, 이 경우 메인 서버(2000)는 외부의 텍스트-음성 변환 서비스를 이용하여 응답 데이터에 대응하는 응답 음성 데이터를 획득할 수 있다. 또한, 메인 서버(2000)가 인공지능 서버(3000)로부터 음성 응답 데이터를 수신한 경우, 메인 서버(2000)는 해당 데이터를 변환 없이 그대로 이용할 수 있다.Response voice data corresponding to the response data can be obtained (S1700). Specifically, the main server (2000) can receive the response data from the artificial intelligence server (3000) and convert the response data into response voice data using the TTS model (2130). Meanwhile, the main server (2000) may not include the TTS model (2130), in which case the main server (2000) can obtain response voice data corresponding to the response data using an external text-to-speech conversion service. In addition, when the main server (2000) receives voice response data from the artificial intelligence server (3000), the main server (2000) can use the data as is without conversion.
응답 음성 데이터가 출력될 수 있다(S1800). 구체적으로, 메인 서버(2000)는 음성 응답 데이터를 전자기기(1000)에 전송하고, 전자기기(1000)는 전자기기 출력부(1400)를 통해 음성 응답 데이터를 출력할 수 있다.Response voice data can be output (S1800). Specifically, the main server (2000) transmits voice response data to the electronic device (1000), and the electronic device (1000) can output the voice response data through the electronic device output unit (1400).
이하에서는, 도 18 및 도 19를를 참고하여, 후속 프롬프트를 생성하는 방법에 대해 서술한다. 후속 프롬프트는 앞서 인위적 맥락 정보를 고려하여 생성된 응답 데이터가 사용자에게 전달되고, 이에 대해 사용자가 답하였을 때 생성될 수 있다. 메인 서버(2000)는 후속 프롬프트를 생성하여 인공지능 서버(3000)에 전송하고, 인공지능 서버(3000)는 후속 프롬프트에 대한 후속 응답 데이터를 출력하며, 후속 응답 데이터가 사용자에게 전달됨으로써 후속 대화가 이어질 수 있다.Hereinafter, a method for generating a follow-up prompt will be described with reference to FIGS. 18 and 19. A follow-up prompt can be generated when response data generated by considering previously artificial contextual information is delivered to the user and the user responds to it. The main server (2000) generates a follow-up prompt and transmits it to the artificial intelligence server (3000), and the artificial intelligence server (3000) outputs follow-up response data for the follow-up prompt. The follow-up response data is then delivered to the user, allowing a follow-up conversation to continue.
도 18은 제5 실시예에 따른, 후속 프롬프트를 생성하는 방법을 나타내는 순서도이다.Figure 18 is a flowchart illustrating a method for generating a follow-up prompt according to the fifth embodiment.
도 19는는 제5 실시예에 따른, 인위적 맥락 정보를 이용하여 후속 프롬프트가 생성되는 것을 나타내는 도면이다.FIG. 19 is a diagram showing a subsequent prompt being generated using artificial context information according to the fifth embodiment.
도 18을 참고하면, 후속 프롬프트를 생성하는 방법은 사용자의 음성에 대응되는 음성 텍스트를 획득하는 단계(S2100), 인위적 맥락 정보 및 음성 텍스트를 이용하여 후속 프롬프트를 생성하는 단계(S2200), 후속 프롬프트를 이용하여 후속 응답 데이터를 생성하는 단계(S2300), 후속 응답 데이터에 대응되는 후속 응답 음성 데이터를 획득하는 단계(S2400), 및 후속 응답 음성 데이터를 출력하는 단계(S2500)를 포함할 수 있다.Referring to FIG. 18, a method for generating a follow-up prompt may include a step of obtaining a voice text corresponding to a user's voice (S2100), a step of generating a follow-up prompt using artificial context information and a voice text (S2200), a step of generating follow-up response data using the follow-up prompt (S2300), a step of obtaining follow-up response voice data corresponding to the follow-up response data (S2400), and a step of outputting the follow-up response voice data (S2500).
이하에서 각 단계에 대해 구체적으로 서술한다.Each step is described in detail below.
사용자의 음성에 대응되는 음성 텍스트가 획득될 수 있다(S2100). 구체적으로, 전자기기(1000)는 사용자의 버튼 조작에 의해 전자기기 입력부(1300)의 마이크를 활성화하여 사용자의 음성을 녹음할 수 있다. 전자기기(1000)는 녹음된 사용자 음성 데이터를 메인 서버(2000)에 전송하고, 메인 서버(2000)는 STT 모델(2110)을 이용하여 사용자 음성 데이터를 음성 텍스트로 변환할 수 있다. 한편, 메인 서버(2000)에는 STT 모델(2110)이 포함되지 않을 수 있으며, 이 경우 메인 서버(2000)는 외부의 음성-텍스트 변환 서비스를 이용하여 사용자 음성 데이터에 대응하는 음성 텍스트를 획득할 수 있다.A voice text corresponding to a user's voice can be obtained (S2100). Specifically, the electronic device (1000) can record the user's voice by activating the microphone of the electronic device input unit (1300) through the user's button operation. The electronic device (1000) transmits the recorded user voice data to the main server (2000), and the main server (2000) can convert the user voice data into voice text using the STT model (2110). Meanwhile, the main server (2000) may not include the STT model (2110), in which case the main server (2000) can obtain voice text corresponding to the user voice data using an external voice-to-text conversion service.
인위적 맥락 정보 및 음성 텍스트를 이용하여 후속 프롬프트가 생성될 수 있다(S2200). 구체적으로, 메인 서버(2000)는 적어도 인위적 맥락 정보 및 음성 텍스트를 이용하여 후속 프롬프트를 생성할 수 있다.A follow-up prompt can be generated using artificial context information and spoken text (S2200). Specifically, the main server (2000) can generate a follow-up prompt using at least artificial context information and spoken text.
예를 들어, 메인 서버(2000)는 데이터베이스(2150)로부터 후속 프롬프트 양식을 로드(load)하고, 후속 프롬프트 양식을 인위적 맥락 정보 및 음성 텍스트를 이용하여 수정함으로써 프롬프트를 생성할 수 있다. 여기서, 메인 서버(2000)는 데이터베이스(2150)에서 참조 정보 또는 맥락 정보에 대응하는 후속 프롬프트 양식을 로드할 수 있다. 한편, 메인 서버(2000)는 후속 프롬프트 양식을 수정함에 있어서 인위적 맥락 정보 외의 맥락 정보나 사용자 정보 등 다른 정보들을 이용할 수 있다.For example, the main server (2000) can generate a prompt by loading a follow-up prompt form from the database (2150) and modifying the follow-up prompt form using artificial context information and spoken text. Here, the main server (2000) can load a follow-up prompt form corresponding to reference information or context information from the database (2150). Meanwhile, the main server (2000) can utilize other information, such as context information or user information, in addition to artificial context information, when modifying the follow-up prompt form.
일 예로, 도 19를를 참고하면, 메인 서버(2000)는 데이터베이스(2150)로부터 제1 후속 프롬프트 양식을 로드할 수 있다. 제1 후속 프롬프트 양식은 인위적 맥락 정보, 및 사용자 음성 정보가 삽입되는 부분을 포함하는 텍스트일 수 있다. 메인 서버(2000)는 앞서 단계 S1400에서 획득된 질문 사항 “왕비는 왜 공주를 질투할까요?” 및 단계 S2100에서 획득된 음성 텍스트 “거울이 공주가 더 예쁘다고 해서”를 이용하여 제1 후속 프롬프트 양식을 수정할 수 있다. 메인 서버(2000)는 제1 후속 프롬프트 양식을 수정하여 제1 후속 프롬프트를 생성할 수 있다.For example, referring to FIG. 19, the main server (2000) may load a first follow-up prompt form from the database (2150). The first follow-up prompt form may be text that includes artificial contextual information and a portion into which user voice information is inserted. The main server (2000) may modify the first follow-up prompt form using the question obtained in step S1400, “Why is the queen jealous of the princess?” and the voice text obtained in step S2100, “Because the mirror said the princess was prettier.” The main server (2000) may modify the first follow-up prompt form to generate the first follow-up prompt.
다른 예로, 메인 서버(2000)는 음성 텍스트를 수정하거나 내용을 추가하여 후속 프롬프트를 생성할 수 있다. 또 다른 예로, 메인 서버(2000)는 음성 텍스트만을 포함하는 후속 프롬프트를 생성할 수도 있다.As another example, the main server (2000) may generate a follow-up prompt by modifying or adding content to the spoken text. As another example, the main server (2000) may generate a follow-up prompt that only includes the spoken text.
후속 프롬프트에는 음성 텍스트를 설명하는 설명 텍스트가 포함될 수 있다. 또한, 후속 프롬프트에는 인공지능 서버(3000)가 응답을 생성할 시 고려할 사항을 서술한 가이드 텍스트가 더 포함될 수 있다.The follow-up prompt may include descriptive text describing the spoken text. Additionally, the follow-up prompt may further include guidance text describing considerations for the AI server (3000) when generating a response.
후속 프롬프트를 이용하여 후속 응답 데이터가 생성될 수 있다(S2300). 구체적으로, 메인 서버(2000)는 단계 S2200에서 생성한 후속 프롬프트를 인공지능 서버(3000)에 전송하고, 인공지능 서버(3000)는 수신된 후속 프롬프트를 거대 언어 모델에 입력하여 후속 응답 데이터를 생성할 수 있다. 예시적으로, 인공지능 서버(3000)는 도 19에 도시된 제1 후속 프롬프트를 입력 받아 '맞아요, 거울 때문에 왕비는 공주를 질투하고 있어요', 또는 '맞아요, 거울 때문에 왕비는 공주를 질투하고 있어요, 누군가에게 질투를 느낀 적이 있나요?' 등의 후속 응답 데이터를 생성할 수 있다.Follow-up response data can be generated using the follow-up prompt (S2300). Specifically, the main server (2000) transmits the follow-up prompt generated in step S2200 to the artificial intelligence server (3000), and the artificial intelligence server (3000) can input the received follow-up prompt into a large language model to generate follow-up response data. For example, the artificial intelligence server (3000) can receive the first follow-up prompt illustrated in FIG. 19 and generate follow-up response data such as "That's right, the queen is jealous of the princess because of the mirror" or "That's right, the queen is jealous of the princess because of the mirror. Have you ever felt jealous of someone?"
후속 응답 데이터는 인공지능 서버(2000)가 인위적 맥락 정보를 고려하여 생성한 데이터로 이해될 수 있다. 즉, 상호작용 시스템(100)이 사용자와의 대화를 유도한 이후, 유도되는 대화의 주제가 지속적으로 인위적 맥락 정보와 관련될 수 있다.The follow-up response data can be understood as data generated by the artificial intelligence server (2000) considering artificial contextual information. That is, after the interaction system (100) induces a conversation with the user, the topic of the induced conversation may be continuously related to the artificial contextual information.
후속 응답 데이터는 텍스트 데이터일 수도 있고, 음성 데이터일 수도 있다. 구체적으로, 인공지능 서버(3000)에 포함된 거대 언어 모델은 텍스트 기반 또는 음성 기반으로 구현될 수 있고, 입력되는 후속 프롬프트가 텍스트 형식이라면 텍스트 형식의 후속 응답 데이터를 출력하고, 입력되는 후속 프롬프트가 음성 신호 형태인 경우 후속 음성 응답 데이터를 출력할 수 있다.The follow-up response data may be text data or voice data. Specifically, the large language model included in the artificial intelligence server (3000) may be implemented in a text-based or voice-based manner, and if the input follow-up prompt is in text format, follow-up response data in text format may be output, and if the input follow-up prompt is in the form of a voice signal, follow-up voice response data may be output.
후속 응답 데이터에 대응되는 후속 응답 음성 데이터가 획득될 수 있다(S2400). 구체적으로, 메인 서버(2000)는 인공지능 서버(3000)로부터 후속 응답 데이터를 수신하고, TTS 모델(2130)을 이용하여 후속 응답 데이터를 후속 응답 음성 데이터로 변환할 수 있다. 한편, 메인 서버(2000)에는 TTS 모델(2130)이 포함되지 않을 수 있으며, 이 경우 메인 서버(2000)는 외부의 텍스트-음성 변환 서비스를 이용하여 후속 응답 데이터에 대응하는 후속 응답 음성 데이터를 획득할 수 있다. 또한, 메인 서버(2000)가 인공지능 서버(3000)로부터 후속 음성 응답 데이터를 수신한 경우, 메인 서버(2000)는 해당 데이터를 변환 없이 그대로 이용할 수 있다.Follow-up response voice data corresponding to follow-up response data can be obtained (S2400). Specifically, the main server (2000) can receive follow-up response data from the artificial intelligence server (3000) and convert the follow-up response data into follow-up response voice data using the TTS model (2130). Meanwhile, the main server (2000) may not include the TTS model (2130), in which case the main server (2000) can obtain follow-up response voice data corresponding to the follow-up response data using an external text-to-speech conversion service. In addition, when the main server (2000) receives follow-up voice response data from the artificial intelligence server (3000), the main server (2000) can use the data as is without conversion.
후속 응답 음성 데이터가 출력될 수 있다(S2500). 구체적으로, 메인 서버(2000)는 후속 음성 응답 데이터를 전자기기(1000)에 전송하고, 전자기기(1000)는 전자기기 출력부(1400)를 통해 후속 음성 응답 데이터를 출력할 수 있다.Follow-up response voice data may be output (S2500). Specifically, the main server (2000) transmits the follow-up voice response data to the electronic device (1000), and the electronic device (1000) may output the follow-up voice response data through the electronic device output unit (1400).
후속 응답 음성 데이터가 출력된 이후 후속 프롬프트 생성 방법이 다시 수행될 수 있다. 구체적으로, 사용자가 전자기기(1000)를 이용하여 음성을 녹음하는 경우, 획득되는 음성 텍스트 및 인위적 맥락 정보를 이용하여 후속 프롬프트가 생성되고, 후속 프롬프트에 대한 후속 음성 응답 데이터가 생성되어 사용자에게 출력될 수 있다(이 때, 후속 프롬프트 양식은 달라질 수 있다). 이는 곧, 상호작용 시스템(100)과 사용자 사이의 대화가 지속되는 것을 의미한다.After the subsequent response voice data is output, the subsequent prompt generation method may be performed again. Specifically, when a user records a voice using an electronic device (1000), a subsequent prompt is generated using the acquired voice text and artificial context information, and subsequent voice response data for the subsequent prompt is generated and output to the user (at this time, the format of the subsequent prompt may vary). This means that the conversation between the interaction system (100) and the user continues.
한편, 이용되는 인위적 맥락 정보가 달라지는 경우(ex. 사용자가 전자기기(1000)를 이용하여 다른 질문 영역을 터치하거나 가리킴으로써 다른 인위적 맥락 정보가 획득되는 경우) 세션이 종료되고 새로운 세션이 시작될 수 있다. 이 때, 세션은 하나의 인위적 맥락 정보에 대한 대화를 의미하며, 새로운 세션이 시작되는 것은 도 15에 도시된 인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법이 다시 수행되는 것을 의미한다.Meanwhile, if the artificial context information being used changes (e.g., if the user acquires different artificial context information by touching or pointing to a different question area using the electronic device (1000), the session may end and a new session may begin. In this case, a session refers to a conversation about a single artificial context information, and the beginning of a new session means that the method of assisting the user's use of the medium using the artificial context information illustrated in FIG. 15 is performed again.
메인 서버(2000)는 세션에서 생성된 프롬프트 및 응답 데이터를 세션 정보로 저장할 수 있다. 세션 정보는 전술한 바와 같이 분석 정보를 생성하는 데에 이용될 수 있다. 예를 들어, 메인 서버(2000) 또는 인공지능 서버(3000)는 세션 정보를 이용하여 사용자와 전자기기(1000) 사이의 대화를 나타내는 대화 로그, 사용자와 전자기기(1000) 사이의 대화를 요약한 대화 요약, 사용자의 발음에 대한 평가를 나타내는 발음 평가, 사용자가 자주 사용하는 키워드, 사용자의 미디엄 이용 시간, 사용자의 미디엄 종류별 이용 시간, 및 사용자의 관심 분야 중 적어도 하나를 생성할 수 있다.The main server (2000) can store the prompt and response data generated in the session as session information. The session information can be used to generate analysis information as described above. For example, the main server (2000) or the artificial intelligence server (3000) can use the session information to generate at least one of a conversation log representing a conversation between a user and an electronic device (1000), a conversation summary summarizing a conversation between a user and an electronic device (1000), a pronunciation evaluation representing an evaluation of the user's pronunciation, keywords frequently used by the user, the user's medium usage time, the user's medium usage time by type, and the user's areas of interest.
이하에서는, 도 20 내지 도 22을 참고하여, 상호작용 시스템(100)이 인위적 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법 중 미리 저장된 프롬프트를 이용하여 사용자의 미디엄 이용을 보조하는 방법에 대해 서술한다.Hereinafter, with reference to FIGS. 20 to 22, a method of assisting a user in using a medium by using a pre-stored prompt among methods of assisting a user in using a medium by using artificial context information by an interaction system (100) is described.
도 20은 제6 실시예에 따른, 미리 저장된 프롬프트가 획득되는 과정을 나타내는 도면이다.Figure 20 is a diagram showing a process of obtaining a pre-stored prompt according to the sixth embodiment.
도 21은 제6 실시예에 따른, 미리 저장된 프롬프트를 나타내는 도면이다.Fig. 21 is a drawing showing a pre-stored prompt according to the sixth embodiment.
도 22는는 제6 실시예에 따른, 인위적 맥락 정보를 이용하여 후속 프롬프트가 생성되는 것을 나타내는 도면이다.FIG. 22 is a diagram showing a subsequent prompt being generated using artificial context information according to the sixth embodiment.
미리 저장된 프롬프트를 이용하여 사용자의 미디엄 이용을 보조하는 방법은 도 15 및 도 18에서 서술한 단계들을 포함할 수 있다. 따라서, 앞서 서술한 내용과 중복되는 부분은 생략하도록 하며, 도 15 및 도 18에서 서술한 내용이 동일하게 적용될 수 있다.A method for assisting a user's use of a medium using pre-saved prompts may include the steps described in FIGS. 15 and 18. Accordingly, any overlapping portions with the previously described content will be omitted, and the content described in FIGS. 15 and 18 may be applied equally.
도 20을을 참고하면, 미디엄은 특정 정보가 인쇄된 카드이고, 사용자는 전자기기(1000)를 카드의 일 영역에 접촉시키거나 위치시킬 수 있다. 미디엄은 질문 영역과 설명 영역으로 구분될 수 있다.Referring to Figure 20, a medium is a card with specific information printed on it, and a user can touch or position an electronic device (1000) on a specific area of the card. The medium can be divided into a question area and an explanation area.
전자기기(1000)가 카드의 일 영역에 접촉되거나 위치하면 단계 S1100 내지 단계 S1300에서 서술한 바와 같이 참조 정보가 획득될 수 있다. 여기서, 참조 정보는 미디엄 종류, 미디엄 ID, 및 위치 정보(좌표 정보 및/또는 영역 식별 정보)를 포함할 수 있다. 예시적으로, 도 20을을 참고하면 참조 정보는 {카드(미디엄 종류), CARD000(미디엄 ID), (1308.59, 393.417)(좌표 정보)}일 수 있다.When an electronic device (1000) comes into contact with or is positioned on an area of a card, reference information may be acquired as described in steps S1100 to S1300. Here, the reference information may include medium type, medium ID, and location information (coordinate information and/or area identification information). For example, referring to FIG. 20, the reference information may be {card (medium type), CARD000 (medium ID), (1308.59, 393.417) (coordinate information)}.
메인 서버(2000)는 데이터베이스(2150)에서 참조 정보에 대응하는 프롬프트를 로드할 수 있다. 프롬프트는 데이터베이스(2150)에 미리 저장될 수 있으며, 추가적인 수정이나 가공 없이 인공지능 서버(3000)의 거대 언어 모델에 입력될 수 있다.The main server (2000) can load prompts corresponding to reference information from the database (2150). The prompts can be pre-stored in the database (2150) and input into the large language model of the artificial intelligence server (3000) without additional modification or processing.
한편, 전자기기(1000)가 접촉하는 영역에 따라 참조 정보 중 위치 정보가 변경될 수 있고, 위치 정보가 질문 영역 또는 설명 영역 중 어디에 포함되는지(좌표 정보인 경우) 또는 위치 정보가 질문 영역 또는 설명 영역 중 무엇인지(영역 식별 정보인 경우)에 따라 로드되는 프롬프트가 달라질 수 있다.Meanwhile, depending on the area that the electronic device (1000) comes into contact with, the location information among the reference information may change, and the prompt to be loaded may vary depending on whether the location information is included in the question area or the description area (if it is coordinate information) or whether the location information is included in the question area or the description area (if it is area identification information).
예를 들어, 위치 정보가 질문 영역에 포함되거나 질문 영역을 나타내는 경우, 메인 서버(2000)는 도 21에 도시된 제2 프롬프트를 로드할 수 있다. 제2 프롬프트는 카드에 인쇄된 컨텐츠에 대한 정보, 및 대화를 시작하기 위한 질문 생성 가이드 등을 포함할 수 있다. 메인 서버(2000)는 제2 프롬프트를 인공지능 서버(3000)에 전송하고, 인공지능 서버(3000)는 제2 프롬프트를 이용하여 응답 데이터를 생성할 수 있다. 응답 데이터는 예를 들어 '하늘다람쥐에 대해 들어봤어?'일 수 있다.For example, if location information is included in the question area or indicates the question area, the main server (2000) may load the second prompt illustrated in FIG. 21. The second prompt may include information about the content printed on the card, a question generation guide for starting a conversation, and the like. The main server (2000) may transmit the second prompt to the artificial intelligence server (3000), and the artificial intelligence server (3000) may use the second prompt to generate response data. The response data may be, for example, "Have you heard of flying squirrels?"
이후, 단계 S1700 및 단계 S1800에 따라 응답 데이터에 대응하는 음성이 사용자에게 출력될 수 있다.Thereafter, a voice corresponding to the response data may be output to the user according to steps S1700 and S1800.
응답 데이터에 대응하는 음성이 사용자에게 출력된 후, 사용자는 전자기기(1000)의 녹음 기능을 활성화하여 출력된 음성에 대해 답변함으로써 사용자 음성 데이터가 획득될 수 있다. 이후, 단계 S2100가 수행되어 음성 텍스트가 획득될 수 있다.After a voice corresponding to the response data is output to the user, the user can obtain user voice data by activating the recording function of the electronic device (1000) to respond to the output voice. Thereafter, step S2100 is performed to obtain voice text.
메인 서버(2000)는 응답 텍스트 및 음성 텍스트를 이용하여 후속 프롬프트를 생성할 수 있다. 여기서, 응답 텍스트는 앞서 미리 저장된 프롬프트를 이용하여 생성된 응답 데이터를 의미한다.The main server (2000) can generate subsequent prompts using response text and spoken text. Here, response text refers to response data generated using a previously stored prompt.
일 예로, 도 22를를 참고하면 메인 서버(2000)는 데이터베이스(2150)에서 제2 후속 프롬프트 양식을 로드할 수 있다. 제2 후속 프롬프트 양식은 응답 정보, 및 사용자 음성 정보가 삽입되는 부분을 포함하는 텍스트일 수 있다. 메인 서버(2000)는 앞서 획득한 응답 텍스트 '하늘다람쥐에 대해 들어봤어?' 및 음성 텍스트 '다람쥐는 알아'를 이용하여 제2 후속 프롬프트 양식을 수정할 수 있다. 메인 서버(2000)는 제2 후속 프롬프트 양식을 수정하여 제2 후속 프롬프트를 생성할 수 있다.For example, referring to FIG. 22, the main server (2000) can load a second follow-up prompt form from the database (2150). The second follow-up prompt form can be text that includes response information and a portion where user voice information is inserted. The main server (2000) can modify the second follow-up prompt form using the previously obtained response text, "Have you heard of flying squirrels?" and the voice text, "Squirrels know." The main server (2000) can modify the second follow-up prompt form to generate the second follow-up prompt.
다른 예로, 메인 서버(2000)는 음성 텍스트를 수정하거나 내용을 추가하여 후속 프롬프트를 생성할 수 있다. 또 다른 예로, 메인 서버(2000)는 음성 텍스트만을 포함하는 후속 프롬프트를 생성할 수도 있다.As another example, the main server (2000) may generate a follow-up prompt by modifying or adding content to the spoken text. As another example, the main server (2000) may generate a follow-up prompt that only includes the spoken text.
후속 프롬프트에는 음성 텍스트를 설명하는 설명 텍스트가 포함될 수 있다. 또한, 프롬프트에는 인공지능 서버(3000)가 응답을 생성할 시 고려할 사항을 서술한 가이드 텍스트가 더 포함될 수 있다.The subsequent prompt may include descriptive text describing the spoken text. Additionally, the prompt may further include guidance text describing what the AI server (3000) should consider when generating a response.
이후, 단계 S2300 내지 단계 S2500이 수행되어 후속 프롬프트에 대응하는 후속 응답 음성 데이터가 사용자에게 출력될 수 있다.Thereafter, steps S2300 to S2500 may be performed so that subsequent response voice data corresponding to the subsequent prompt may be output to the user.
후속 응답 음성 데이터가 출력된 이후 후속 프롬프트 생성 방법이 다시 수행될 수 있다. 구체적으로, 사용자가 전자기기(1000)를 이용하여 음성을 추가적으로 녹음하는 경우, 획득되는 음성 텍스트를 이용하여 후속 프롬프트가 생성되고, 후속 프롬프트에 대한 후속 음성 응답 데이터가 생성되어 사용자에게 출력될 수 있다. 이는 곧, 상호작용 시스템(100)과 사용자 사이의 대화가 지속되는 것을 의미한다. 이 때, 후속 프롬프트 양식은 달라질 수 있다.After the follow-up response voice data is output, the follow-up prompt generation method can be performed again. Specifically, if the user additionally records voice using the electronic device (1000), a follow-up prompt can be generated using the acquired voice text, and follow-up voice response data for the follow-up prompt can be generated and output to the user. This means that the conversation between the interaction system (100) and the user continues. At this time, the follow-up prompt format may vary.
한편, 미디엄 ID가 변경되는 경우(ex. 사용자가 전자기기(1000)를 이용하여 다른 카드를 터치하는 경우) 세션이 종료되고 새로운 세션이 시작될 수 있다. 이 때, 세션은 하나의 미디엄에 대해 수행된 대화를 의미하며, 새로운 세션이 시작되는 것은 전술한 미리 저장된 프롬프트를 이용하여 사용자의 미디엄 이용을 보조하는 방법이 다시 수행되는 것을 의미한다.Meanwhile, if the medium ID changes (e.g., the user touches a different card using an electronic device (1000), the session may end and a new session may begin. In this case, a session refers to a conversation conducted on a single medium, and the beginning of a new session means that the method of assisting the user's use of the medium using the previously-saved prompts is re-executed.
메인 서버(2000)는 세션에서 생성된 프롬프트 및 응답 데이터를 세션 정보로 저장할 수 있다. 세션 정보는 전술한 바와 같이 분석 정보를 생성하는 데에 이용될 수 있다. 예를 들어, 메인 서버(2000) 또는 인공지능 서버(3000)는 세션 정보를 이용하여 사용자와 전자기기(1000) 사이의 대화를 나타내는 대화 로그, 사용자와 전자기기(1000) 사이의 대화를 요약한 대화 요약, 사용자의 발음에 대한 평가를 나타내는 발음 평가, 사용자가 자주 사용하는 키워드, 사용자의 미디엄 이용 시간, 사용자의 미디엄 종류별 이용 시간, 및 사용자의 관심 분야 중 적어도 하나를 생성할 수 있다.The main server (2000) can store the prompt and response data generated in the session as session information. The session information can be used to generate analysis information as described above. For example, the main server (2000) or the artificial intelligence server (3000) can use the session information to generate at least one of a conversation log representing a conversation between a user and an electronic device (1000), a conversation summary summarizing a conversation between a user and an electronic device (1000), a pronunciation evaluation representing an evaluation of the user's pronunciation, keywords frequently used by the user, the user's medium usage time, the user's medium usage time by type, and the user's areas of interest.
5. 미디엄 맥락 정보를 이용한 상호작용5. Interaction using medium context information
이하에서는, 도 23 내지 도 27을 참고하여, 상호작용 시스템(100)이 미디엄 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법에 대해 서술한다.Hereinafter, with reference to FIGS. 23 to 27, a method for an interaction system (100) to assist a user in using a medium by using medium context information is described.
사용자(특히 아이)는 책을 읽으면서 궁금한 부분이나 떠오른 생각에 대해 말할 수 있다. 이 경우, 사용자의 음성을 거대 언어 모델에 입력하여 응답 데이터가 제공될 수 있다. 다만, 여기서, 사용자가 말하는 질문이나 생각은 책을 읽으면서 발생된 것으로, 보다 적절한 응답 데이터가 생성되기 위해서는 거대 언어 모델이 사용자가 하는 말의 의도나 취지 등 어떤 맥락에서 사용자가 말을 했는지 파악할 필요가 있다.Users (especially children) may express questions or thoughts that arise while reading a book. In this case, the user's voice can be input into a large language model to provide response data. However, the user's questions or thoughts arise while reading the book. To generate more appropriate response data, the large language model needs to understand the context in which the user spoke, including the intent and purpose of the words.
거대 언어 모델에서 사용자의 맥락을 파악하기 위한 방법으로, 거대 언어 모델에 미디엄에 인쇄된 컨텐츠 정보가 제공될 수 있다. 보다 구체적으로, 사용자의 음성과 함께 사용자가 읽는 책의 제목이나 내용, 또는 관심 내용 등에 대한 정보가 함께 거대 언어 모델에 입력되면, 출력되는 응답 데이터는 사용자의 맥락 내에서 생성될 것으로 기대할 수 있다.As a way to understand the user's context in a large-scale language model, the large-scale language model can be provided with content information printed on the medium. More specifically, if the user's voice is input into the large-scale language model along with information such as the title or content of the book the user is reading, or their interests, the resulting response data can be expected to be generated within the user's context.
도 23은 제7 실시예에 따른, 미디엄 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법을 나타내는 순서도이다.FIG. 23 is a flowchart illustrating a method for assisting a user's use of a medium by using medium context information according to the seventh embodiment.
도 24는 제7 실시예에 따른, 미디엄 맥락 정보가 획득되는 과정을 나타내는 도면이다.Figure 24 is a diagram showing a process for obtaining medium context information according to the seventh embodiment.
도 25는 제7 실시예에 따른, 미디엄 맥락 정보를 이용하여 프롬프트가 생성되는 것을 나타내는 도면이다.FIG. 25 is a diagram showing a prompt being generated using medium context information according to the seventh embodiment.
도 23을을 참고하면, 미디엄 이용 보조 방법은 코드 이미지를 획득하는 단계(S3100), 코드 이미지를 분석하여 코드 데이터를 획득하는 단계(S3200), 코드 데이터로부터 참조 정보를 획득하는 단계(S3300), 참조 정보에 기초하여 미디엄 맥락 정보를 획득하는 단계(S3400), 사용자의 음성에 대응되는 음성 텍스트를 획득하는 단계(S3500), 음성 텍스트 및 미디엄 맥락 정보를 이용하여 프롬프트를 생성하는 단계(S3600), 프롬프트를 이용하여 응답 데이터를 생성하는 단계(S3700), 응답 데이터에 대응되는 응답 음성 데이터를 획득하는 단계(S3800), 및 응답 음성 데이터를 출력하는 단계(S3900)를 포함할 수 있다.Referring to FIG. 23, the medium use assistance method may include a step of obtaining a code image (S3100), a step of analyzing the code image to obtain code data (S3200), a step of obtaining reference information from the code data (S3300), a step of obtaining medium context information based on the reference information (S3400), a step of obtaining voice text corresponding to the user's voice (S3500), a step of generating a prompt using the voice text and medium context information (S3600), a step of generating response data using the prompt (S3700), a step of obtaining response voice data corresponding to the response data (S3800), and a step of outputting the response voice data (S3900).
이하에서 각 단계에 대해 구체적으로 서술한다. 다만, 단계 S3100은 단계 S1100과 동일하고, 단계 S3200은 단계 S1200과 동일하고, 단계 S3800은 단계 S1700와 동일하고, 단계 S3900은 단계 S1800과 동일한 바 도 15에서 서술한 내용이 동일하게 적용될 수 있다.Each step is described in detail below. However, step S3100 is identical to step S1100, step S3200 is identical to step S1200, step S3800 is identical to step S1700, and step S3900 is identical to step S1800, so the contents described in FIG. 15 can be applied in the same manner.
단계 S3100 및 단계 S3200이 수행된 후 코드 데이터로부터 참조 정보가 획득될 수 있다(S3300). 이 때, 단계 S3100에서 획득되는 코드 이미지는 사용자는 전자기기(1000)를 이용하여 미디엄의 특정 페이지 중 글이 인쇄된 글 영역을 터치하여 획득될 수 있다.After steps S3100 and S3200 are performed, reference information can be obtained from the code data (S3300). At this time, the code image obtained in step S3100 can be obtained by the user using an electronic device (1000) to touch a text area on a specific page of the medium where text is printed.
도 24를를 참고하면, 메인 서버(2000)는 코드 데이터를 디코딩하여 미디엄 종류, 미디엄 ID, 페이지 정보, 및 위치 정보(좌표 정보 및/또는 영역 식별 정보) 중 적어도 하나를 획득할 수 있다. 예시적으로, 도 24에서 메인 서버(2000)가 획득하는 참조 정보는 {책(미디엄 종류), BOOK000(미디엄 ID), 14(페이지 정보), A2(영역 식별 정보)}를 포함할 수 있다.Referring to FIG. 24, the main server (2000) can decode code data to obtain at least one of medium type, medium ID, page information, and location information (coordinate information and/or area identification information). For example, the reference information obtained by the main server (2000) in FIG. 24 may include {Book (medium type), BOOK000 (medium ID), 14 (page information), A2 (area identification information)}.
참조 정보에 기초하여 미디엄 맥락 정보가 획득될 수 있다(S3400). 구체적으로, 도 24를를 참고하면, 메인 서버(2000)는 데이터베이스(2150)에서 미디엄에 관한 정보 중 참조 정보에 대응하는 정보를 검색하여 미디엄 제목, 및 페이지별 텍스트를 획득할 수 있다. 전술한 바와 같이, 페이지별 텍스트는 미디엄에 인쇄된 이야기의 흐름에 관한 정보로, 미디엄 맥락 정보로 이해될 수 있다. 예시적으로, 도 24에서 획득되는 미디엄 제목은 '백설공주와 일곱 난쟁이'이고, 페이지별 텍스트는 '어느 날부터 마법 거울의 대답도 달라졌어요. “백설 공주님이 세상에서 제일 예쁩니다“ “뭐라고? 백설 공주가 나보다 더 예쁘다고?“ 다시 묻고 또 물어도 마법 거울은 백설 공주가 제일 예쁘다는 말만 되풀이했지요. 왕비의 눈빛은 질투심에 활활 타올랐어요.'(이하, '어느 날부터…질투심에 활활 타올랐어요')이다.Medium context information can be acquired based on reference information (S3400). Specifically, referring to FIG. 24, the main server (2000) can retrieve information corresponding to the reference information among the information about the medium from the database (2150) to acquire the medium title and page-by-page text. As described above, the page-by-page text is information about the flow of the story printed on the medium and can be understood as medium context information. For example, the medium title acquired in FIG. 24 is 'Snow White and the Seven Dwarfs', and the page-by-page text is 'From one day...even the magic mirror's answers changed. "Snow White is the fairest in the world." "What? Snow White is prettier than me?" No matter how many times I asked, the magic mirror only repeated that Snow White was the fairest. The queen's eyes burned with jealousy.' (hereinafter, 'From one day...burned with jealousy').
한편, 이상에서는 미디엄 맥락 정보가 페이지별 텍스트인 것으로 서술하였으나, 본 개시의 기술적 사상이 이에 한정되는 것은 아니다. 미디엄 맥락 정보는 미디엄에 인쇄된 글 또는 그림 전체 또는 사용자가 관심을 가지는 일부일 수 있다. 즉, 미디엄 맥락 정보는 미디엄에서 사용자가 전자기기(1000)를 접촉한 부분과 관련된 글 또는 이를 요약하거나 변형한 글을 포함할 수 있다. 미디엄 맥락 정보는 단어, 문장, 또는 문단일 수도 있으며, 미디엄 맥락 정보에는 그림이 포함될 수도 있다.Meanwhile, while the medium context information is described above as page-specific text, the technical concept of the present disclosure is not limited thereto. The medium context information may be the entire text or image printed on the medium, or a portion of the text or image that the user is interested in. Specifically, the medium context information may include text related to the portion of the medium that the user touched with the electronic device (1000), or a summary or modified text thereof. The medium context information may be a word, sentence, or paragraph, and may also include an image.
사용자의 음성에 대응되는 음성 텍스트가 획득될 수 있다(S3500). 구체적으로, 전자기기(1000)는 사용자의 버튼 조작에 의해 전자기기 입력부(1300)의 마이크를 활성화하여 사용자의 음성을 녹음할 수 있다. 전자기기(1000)는 녹음된 사용자 음성 데이터를 메인 서버(2000)에 전송하고, 메인 서버(2000)는 STT 모델(2110)을 이용하여 사용자 음성 데이터를 음성 텍스트로 변환할 수 있다. 한편, 메인 서버(2000)에는 STT 모델(2110)이 포함되지 않을 수 있으며, 이 경우 메인 서버(2000)는 외부의 음성-텍스트 변환 서비스를 이용하여 사용자 음성 데이터에 대응하는 음성 텍스트를 획득할 수 있다.A voice text corresponding to a user's voice can be obtained (S3500). Specifically, the electronic device (1000) can record the user's voice by activating the microphone of the electronic device input unit (1300) through the user's button operation. The electronic device (1000) transmits the recorded user voice data to the main server (2000), and the main server (2000) can convert the user voice data into voice text using the STT model (2110). Meanwhile, the main server (2000) may not include the STT model (2110), in which case the main server (2000) can obtain voice text corresponding to the user voice data using an external voice-to-text conversion service.
음성 텍스트 및 미디엄 맥락 정보를 이용하여 프롬프트가 생성될 수 있다(S3600). 구체적으로, 메인 서버(2000)는 적어도 음성 텍스트 및 미디엄 맥락 정보를 이용하여 프롬프트를 생성할 수 있다. 예를 들어, 메인 서버(2000)는 데이터베이스(2150)로부터 프롬프트 양식을 로드(load)하고, 프롬프트 양식을 음성 텍스트 및 미디엄 맥락 정보를 이용하여 수정하여 프롬프트를 생성할 수 있다.A prompt can be generated using spoken text and medium context information (S3600). Specifically, the main server (2000) can generate a prompt using at least spoken text and medium context information. For example, the main server (2000) can load a prompt form from the database (2150) and modify the prompt form using spoken text and medium context information to generate a prompt.
메인 서버(2000)는 데이터베이스(2150)에서 참조 정보(ex. 미디엄 종류, 미디엄 ID, 페이지 정보, 영역 식별 정보) 또는 맥락 정보(ex. 미디엄 제목)에 대응하는 프롬프트 양식을 로드할 수 있다. 한편, 메인 서버(2000)는 프롬프트 양식을 수정함에 있어서 미디엄 맥락 정보 외의 맥락 정보나 사용자 정보 등 다른 정보들을 이용할 수 있다.The main server (2000) can load a prompt form corresponding to reference information (e.g., medium type, medium ID, page information, area identification information) or contextual information (e.g., medium title) from the database (2150). Meanwhile, the main server (2000) can utilize other information, such as contextual information or user information other than medium contextual information, when modifying the prompt form.
일 예로, 도 25를 참고하면, 메인 서버(2000)는 데이터베이스(2150)로부터 제3 프롬프트 양식을 로드할 수 있다. 제3 프롬프트 양식은 미디엄 제목, 미디엄 맥락 정보, 및 사용자 음성 정보가 삽입되는 부분을 포함하는 텍스트이다. 메인 서버(2000)는 기 획득한 미디엄 제목 '백설공주와 일곱 난쟁이' 및 페이지별 텍스트 '어느 날부터…질투심에 활활 타올랐어요', 그리고 음성 텍스트 '공주는 어디에 살고 있어?'를 이용하여 제3 프롬프트 양식을 수정할 수 있다. 메인 서버(2000)는 제3 프롬프트 양식을 수정하여 제3 프롬프트를 생성할 수 있다.For example, referring to FIG. 25, the main server (2000) can load a third prompt form from the database (2150). The third prompt form is text that includes a section where a medium title, medium context information, and user voice information are inserted. The main server (2000) can modify the third prompt form using the previously acquired medium title, “Snow White and the Seven Dwarfs,” the page-specific text, “From which day on… I was burning with jealousy,” and the voice text, “Where does the princess live?” The main server (2000) can modify the third prompt form to generate the third prompt.
다른 예로, 메인 서버(2000)는 미디엄 맥락 정보 및 음성 텍스트를 일부 수정하거나 내용을 추가하여 프롬프트를 생성할 수 있다. 또 다른 예로, 메인 서버(2000)는 미디엄 맥락 정보만을 포함하는 프롬프트와 음성 텍스트만을 포함하는 프롬프트를 별도로 생성하여 순차적으로 인공지능 서버(3000)에 전송할 수도 있다.As another example, the main server (2000) may generate a prompt by modifying or adding content to the medium context information and spoken text. As another example, the main server (2000) may separately generate a prompt containing only the medium context information and a prompt containing only the spoken text, and sequentially transmit these to the artificial intelligence server (3000).
프롬프트에는 미디엄 맥락 정보를 설명하는 설명 텍스트가 포함될 수 있다. 또한, 프롬프트에는 인공지능 서버(3000)가 응답을 생성할 시 고려할 사항을 서술한 가이드 텍스트가 더 포함될 수 있다.The prompt may include descriptive text describing the medium's contextual information. Additionally, the prompt may include guidance text describing considerations for the AI server (3000) to consider when generating a response.
프롬프트를 이용하여 응답 데이터가 생성될 수 있다(S3700). 구체적으로, 메인 서버(2000)는 단계 S3600에서 생성한 프롬프트를 인공지능 서버(3000)에 전송하고, 인공지능 서버(3000)는 수신된 프롬프트를 거대 언어 모델에 입력하여 응답 데이터를 생성할 수 있다. 예시적으로, 인공지능 서버(3000)는 도 25에 도시된 제3 프롬프트를 입력 받아 '공주는 왕비와 함께 성에 살고 있어', 또는 '공주는 왕비와 함께 성에 살고 있어, 또 어떤 게 궁금해?' 등의 응답 데이터를 생성할 수 있다.Response data can be generated using a prompt (S3700). Specifically, the main server (2000) transmits the prompt generated in step S3600 to the artificial intelligence server (3000), and the artificial intelligence server (3000) can input the received prompt into a large language model to generate response data. For example, the artificial intelligence server (3000) can receive the third prompt illustrated in FIG. 25 and generate response data such as "The princess lives in the castle with the queen" or "The princess lives in the castle with the queen. What else are you curious about?"
응답 데이터는 인공지능 서버(2000)가 미디엄 맥락 정보를 고려하여 생성한 데이터로 이해될 수 있다. 즉, 사용자가 미디엄을 이용함에 있어서, 상호작용 시스템(100)이 사용자와의 대화를 유도할 수 있고, 유도되는 대화의 주제는 미디엄에 인쇄된 이야기 중 사용자가 읽고 있는(또는 관심을 가지는) 부분과 관련될 수 있다.The response data can be understood as data generated by the artificial intelligence server (2000) considering the contextual information of the medium. That is, when a user uses the medium, the interaction system (100) can induce a conversation with the user, and the topic of the conversation can be related to the part of the story printed on the medium that the user is reading (or is interested in).
응답 데이터는 텍스트 데이터일 수도 있고, 음성 데이터일 수도 있다. 구체적으로, 인공지능 서버(3000)에 포함된 거대 언어 모델은 텍스트 기반 또는 음성 기반으로 구현될 수 있고, 입력되는 프롬프트가 텍스트 형식이라면 텍스트 형식의 응답 데이터를 출력하고, 입력되는 프롬프트가 음성 신호 형태인 경우 음성 응답 데이터를 출력할 수 있다.The response data may be text data or voice data. Specifically, the large language model included in the artificial intelligence server (3000) may be implemented in a text-based or voice-based manner, and if the input prompt is in text format, it may output text-based response data, and if the input prompt is in the form of a voice signal, it may output voice response data.
이후, 단계 S3800 및 단계 S3900가 수행되어 응답 데이터에 대응하는 응답 음성 데이터가 사용자에게 출력될 수 있다.Thereafter, steps S3800 and S3900 are performed so that response voice data corresponding to the response data can be output to the user.
응답 데이터에 대응하는 음성이 사용자에게 출력된 후, 사용자는 전자기기(1000)의 녹음 기능을 활성화하여 출력된 음성에 대해 답변함으로써 사용자 음성 데이터가 획득될 수 있다.After a voice corresponding to the response data is output to the user, the user can obtain user voice data by activating the recording function of the electronic device (1000) to respond to the output voice.
이 경우, 메인 서버(2000)는 후속 프롬프트를 생성하여 인공지능 서버(3000)에 전송하고, 인공지능 서버(3000)는 후속 프롬프트에 대한 후속 응답 데이터를 출력하며, 후속 응답 데이터가 사용자에게 전달됨으로써 후속 대화가 이어질 수 있다.In this case, the main server (2000) generates a follow-up prompt and transmits it to the artificial intelligence server (3000), the artificial intelligence server (3000) outputs follow-up response data for the follow-up prompt, and the follow-up response data is transmitted to the user, thereby allowing a follow-up conversation to continue.
이하에서는 도 26을 참고하여 후속 프롬프트가 생성되는 방법에 대해 서술한다.Below, we describe how a follow-up prompt is generated with reference to Figure 26.
도 26은 제7 실시예에 따른, 후속 프롬프트를 생성하는 방법을 나타내는 순서도이다.Figure 26 is a flowchart illustrating a method for generating a follow-up prompt according to the seventh embodiment.
도 26을을 참고하면, 후속 프롬프트를 생성하는 방법은 사용자의 음성에 대응되는 음성 텍스트를 획득하는 단계(S4100), 미디엄 맥락 정보 및 음성 텍스트를 이용하여 후속 프롬프트를 생성하는 단계(S4200), 후속 프롬프트를 이용하여 후속 응답 데이터를 생성하는 단계(S4300), 후속 응답 데이터에 대응되는 후속 응답 음성 데이터를 획득하는 단계(S4400), 및 후속 응답 음성 데이터를 출력하는 단계(S4500)를 포함할 수 있다.Referring to FIG. 26, a method for generating a follow-up prompt may include a step of obtaining a voice text corresponding to a user's voice (S4100), a step of generating a follow-up prompt using medium context information and the voice text (S4200), a step of generating follow-up response data using the follow-up prompt (S4300), a step of obtaining follow-up response voice data corresponding to the follow-up response data (S4400), and a step of outputting the follow-up response voice data (S4500).
여기서, 단계 S4100은 단계 S2100과 동일하고, 단계 S4300은 단계 S2300과 동일하고, 단계 S4400은 단계 S2400와 동일하며, 단계 S4500은 단계 S2500과 동일하여, 도 18에서 서술된 내용이 동일하게 적용될 수 있다.Here, step S4100 is identical to step S2100, step S4300 is identical to step S2300, step S4400 is identical to step S2400, and step S4500 is identical to step S2500, so that the contents described in FIG. 18 can be applied identically.
이에 따라, 단계 S4200에 대해서만 구체적으로 서술하도록 한다.Accordingly, only step S4200 will be described in detail.
단계 S4100이 수행되어 음성 텍스트가 획득된 후 응답 데이터 및 음성 텍스트를 이용하여 후속 프롬프트가 생성될 수 있다(S4200). 구체적으로, 메인 서버(2000)는 적어도 응답 데이터 및 음성 텍스트를 이용하여 후속 프롬프트를 생성할 수 있다. 여기서, 응답 데이터는 단계 S3700에서 생성된 데이터를 의미한다.After step S4100 is performed and the spoken text is acquired, a subsequent prompt can be generated using the response data and the spoken text (S4200). Specifically, the main server (2000) can generate the subsequent prompt using at least the response data and the spoken text. Here, the response data refers to the data generated in step S3700.
예를 들어, 메인 서버(2000)는 데이터베이스(2150)로부터 후속 프롬프트 양식을 로드(load)하고, 후속 프롬프트 양식을 응답 데이터 및 음성 텍스트를 이용하여 수정함으로써 프롬프트를 생성할 수 있다. 여기서, 메인 서버(2000)는 데이터베이스(2150)에서 참조 정보 또는 맥락 정보에 대응하는 후속 프롬프트 양식을 로드할 수 있다. 한편, 메인 서버(2000)는 후속 프롬프트 양식을 수정함에 있어서 응답 데이터 및 음성 텍스트 외의 미디엄 맥락 정보나 사용자 정보 등 다른 정보들을 이용할 수 있다.For example, the main server (2000) can generate a prompt by loading a follow-up prompt form from the database (2150) and modifying the follow-up prompt form using response data and spoken text. Here, the main server (2000) can load a follow-up prompt form corresponding to reference information or contextual information from the database (2150). Meanwhile, the main server (2000) can utilize other information, such as medium contextual information or user information, in addition to response data and spoken text, when modifying the follow-up prompt form.
다른 예를 들어, 메인 서버(2000)는 앞서 획득된 응답 데이터 및 음성 텍스트를 포함하는 후속 프롬프트를 생성할 수 있다. 이 때, 응답 데이터 및 음성 데이터가 각각 일부 수정되거나 내용이 추가될 수 있다.For another example, the main server (2000) may generate a subsequent prompt that includes previously acquired response data and spoken text. At this time, the response data and spoken text may each be partially modified or have additional content added to them.
또 다른 예를 들어, 메인 서버(2000)는 음성 텍스트를 수정하거나 내용을 추가하여 후속 프롬프트를 생성할 수 있다. 또 다른 예로, 메인 서버(2000)는 음성 텍스트만을 포함하는 후속 프롬프트를 생성할 수도 있다.As another example, the main server (2000) may generate a follow-up prompt by modifying or adding content to the spoken text. As another example, the main server (2000) may generate a follow-up prompt that only includes the spoken text.
이후, 단계 S4300 내지 단계 S4500이 수행되어 후속 응답 음성 데이터가 전자기기(1000)를 통해 사용자에게 출력될 수 있다.Thereafter, steps S4300 to S4500 are performed so that subsequent response voice data can be output to the user through the electronic device (1000).
6. 인위적 맥락 정보 및 미디엄 맥락 정보를 이용한 상호작용6. Interaction using artificial context information and medium context information
이하에서는, 도 27 내지 도 29를 참고하여, 상호작용 시스템(100)이 인위적 맥락 정보 및 미디엄 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법에 대해 서술한다.Hereinafter, with reference to FIGS. 27 to 29, a method for an interaction system (100) to assist a user in using a medium by using artificial context information and medium context information is described.
도 27은 제8 실시예에 따른, 인위적 맥락 정보 및 미디엄 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법을 나타내는 순서도이다.FIG. 27 is a flowchart illustrating a method for assisting a user's use of a medium by using artificial context information and medium context information according to the eighth embodiment.
도 28은 제8 실시예에 따른, 인위적 맥락 정보 및 미디엄 맥락 정보가 획득되는 과정을 나타내는 도면이다.Figure 28 is a diagram showing a process for obtaining artificial context information and medium context information according to the eighth embodiment.
도 29는 제8 실시예에 따른, 인위적 맥락 정보 및 미디엄 맥락 정보를 이용하여 프롬프트가 생성되는 것을 나타내는 도면이다.FIG. 29 is a diagram showing a prompt being generated using artificial context information and medium context information according to the eighth embodiment.
도 27을 참고하면, 미디엄 이용 보조 방법은 코드 이미지를 획득하는 단계(S5100), 코드 이미지를 분석하여 코드 데이터를 획득하는 단계(S5200), 코드 데이터로부터 참조 정보를 획득하는 단계(S5300), 참조 정보에 기초하여 인위적 맥락 정보 및 미디엄 맥락 정보를 획득하는 단계(S5400), 인위적 맥락 정보 및 미디엄 맥락 정보를 이용하여 프롬프트를 생성하는 단계(S5500), 프롬프트를 이용하여 응답 데이터를 생성하는 단계(S5600), 응답 데이터에 대응되는 응답 음성 데이터를 획득하는 단계(S5700), 및 응답 음성 데이터를 출력하는 단계(S5800)를 포함할 수 있다.Referring to FIG. 27, the medium use assistance method may include a step of obtaining a code image (S5100), a step of analyzing the code image to obtain code data (S5200), a step of obtaining reference information from the code data (S5300), a step of obtaining artificial context information and medium context information based on the reference information (S5400), a step of generating a prompt using the artificial context information and the medium context information (S5500), a step of generating response data using the prompt (S5600), a step of obtaining response voice data corresponding to the response data (S5700), and a step of outputting the response voice data (S5800).
이하에서 각 단계에 대해 구체적으로 서술한다. 다만, 단계 S5100은 단계 S1100과 동일하고, 단계 S5200은 단계 S1200과 동일하고, 단계 S5700은 단계 S1700과 동일하며, 단계 S5800은 단계 S1800과 동일한 바 도 15에서 서술한 내용이 동일하게 적용될 수 있다.Each step is described in detail below. However, step S5100 is identical to step S1100, step S5200 is identical to step S1200, step S5700 is identical to step S1700, and step S5800 is identical to step S1800, so the contents described in FIG. 15 can be applied identically.
단계 S5100 및 단계 S5200이 수행된 후 코드 데이터로부터 참조 정보가 획득될 수 있다(S5300). 이 때, 단계 S5100에서 획득되는 코드 이미지는 사용자가 전자기기(1000)를 이용하여 미디엄의 특정 페이지 중 질문 영역을 터치하여 획득될 수 있다.After steps S5100 and S5200 are performed, reference information can be obtained from the code data (S5300). At this time, the code image obtained in step S5100 can be obtained by a user touching a question area on a specific page of the medium using an electronic device (1000).
도 28을 참고하면, 메인 서버(2000)는 코드 데이터를 디코딩하여 미디엄 종류, 미디엄 ID, 페이지 정보, 및 위치 정보(좌표 정보 및/또는 영역 식별 정보 중 적어도 하나를 획득할 수 있다. 예시적으로, 도 28에서 메인 서버(2000)가 획득하는 참조 정보는 {책(미디엄 종류), BOOK000(미디엄 ID), 14(페이지 정보), A1(영역 식별 정보)}를 포함할 수 있다.Referring to FIG. 28, the main server (2000) can decode code data to obtain at least one of medium type, medium ID, page information, and location information (coordinate information and/or area identification information). For example, the reference information obtained by the main server (2000) in FIG. 28 can include {Book (medium type), BOOK000 (medium ID), 14 (page information), A1 (area identification information)}.
참조 정보에 기초하여 인위적 맥락 정보 및 미디엄 맥락 정보가 획득될 수 있다(S5400). 구체적으로, 도 28을 참고하면, 메인 서버(2000)는 데이터베이스(2150)에서 미디엄에 관한 정보 중 참조 정보에 대응하는 정보를 검색하여 미디엄 제목, 페이지별 텍스트, 및 질문 사항을 획득할 수 있다. 전술한 바와 같이, 페이지별 텍스트는 미디엄에 인쇄된 이야기의 흐름에 관한 정보로, 미디엄 맥락 정보로 이해될 수 있다. 또한, 질문 사항은 미디엄에 인쇄된 이야기의 흐름과 관련성은 낮고, 컨텐츠 제작자가 사용자의 흥미와 이해도를 향상시키기 위해 제작한 것으로 인위적 맥락 정보로 이해될 수 있다.Based on reference information, artificial context information and medium context information can be acquired (S5400). Specifically, referring to FIG. 28, the main server (2000) can retrieve information corresponding to the reference information among information about the medium from the database (2150) to acquire the medium title, page-by-page text, and questions. As described above, the page-by-page text is information about the flow of the story printed on the medium and can be understood as medium context information. In addition, the questions have little relevance to the flow of the story printed on the medium and are created by the content creator to enhance the user's interest and comprehension, and can be understood as artificial context information.
예시적으로, 도 28에서 획득되는 미디엄 제목은 '백설공주와 일곱 난쟁이'이고, 페이지별 텍스트는 '어느 날부터…질투심에 활활 타올랐어요'이고, 질문 사항은 '왕비는 왜 공주를 질투할까요?'이다. 한편, 이상에서는 미디엄 맥락 정보가 페이지별 텍스트인 것으로 서술하였으나, 본 개시의 기술적 사상이 이에 한정되는 것은 아니다. 미디엄 맥락 정보는 페이지별 텍스트 뿐만 아니라 미디엄 전체에 인쇄된 글 또는 그림 정보일 수 있다. 또는, 미디엄 맥락 정보는 특정 페이지 내 특정 문장일 수도 있다. 또한, 이상에서는 인위적 맥락 정보가 질문 사항인 것으로 서술하였으나, 본 개시의 기술적 사상이 이에 한정되는 것은 아니며, 특정 학습을 지시하는 사항 등 이야기의 흐름에는 영향을 주지 않으면서 미디엄에 대한 이해를 돕기 위한 내용들이 인위적 맥락 정보로 획득될 수 있다.For example, the medium title obtained in FIG. 28 is 'Snow White and the Seven Dwarfs', the page-specific text is 'From which day... I was filled with jealousy', and the question is 'Why is the queen jealous of the princess?' Meanwhile, although the medium context information is described as page-specific text in the above, the technical idea of the present disclosure is not limited thereto. The medium context information may be printed text or picture information not only in the page-specific text but also throughout the medium. Alternatively, the medium context information may be a specific sentence within a specific page. Furthermore, although the artificial context information is described as a question in the above, the technical idea of the present disclosure is not limited thereto, and contents that help understanding of the medium without affecting the flow of the story, such as instructions for specific learning, may be obtained as artificial context information.
인위적 맥락 정보 및 미디엄 맥락 정보를 이용하여 프롬프트가 생성될 수 있다(S5500). 구체적으로, 메인 서버(2000)는 적어도 인위적 맥락 정보 및 미디엄 맥락 정보를 이용하여 프롬프트를 생성할 수 있다. 예를 들어, 메인 서버(2000)는 데이터베이스(2150)로부터 프롬프트 양식을 로드(load)하고, 프롬프트 양식을 인위적 맥락 정보 및 미디엄 맥락 정보를 이용하여 수정하여 프롬프트를 생성할 수 있다.Prompts can be generated using artificial context information and medium context information (S5500). Specifically, the main server (2000) can generate prompts using at least artificial context information and medium context information. For example, the main server (2000) can load a prompt form from the database (2150) and modify the prompt form using artificial context information and medium context information to generate a prompt.
메인 서버(2000)는 데이터베이스(2150)에서 참조 정보(ex. 미디엄 종류, 미디엄 ID, 페이지 정보, 영역 식별 정보) 또는 맥락 정보(ex. 미디엄 제목)에 대응하는 프롬프트 양식을 로드할 수 있다. 한편, 메인 서버(2000)는 프롬프트 양식을 수정함에 있어서 인위적 맥락 정보 및 미디엄 맥락 정보 외의 맥락 정보나 사용자 정보 등 다른 정보들을 더 이용할 수 있다.The main server (2000) can load a prompt form corresponding to reference information (e.g., medium type, medium ID, page information, area identification information) or contextual information (e.g., medium title) from the database (2150). Meanwhile, the main server (2000) can further utilize other information, such as artificial contextual information and contextual information other than medium contextual information or user information, when modifying the prompt form.
일 예로, 도 29를를 참고하면, 메인 서버(2000)는 데이터베이스(2150)로부터 제4 프롬프트 양식을 로드할 수 있다. 제4 프롬프트 양식은 미디엄 제목, 미디엄 맥락 정보, 및 인위적 맥락 정보가 삽입되는 부분을 포함하는 텍스트이다. 메인 서버(2000)는 기 획득한 미디엄 제목 '백설공주와 일곱 난쟁이' 및 페이지별 텍스트 '어느 날부터…질투심에 활활 타올랐어요', 그리고 질문 정보 '왕비는 왜 공주를 질투할까요?'를 이용하여 제4 프롬프트 양식을 수정할 수 있다. 메인 서버(2000)는 제4 프롬프트 양식을 수정하여 제4 프롬프트를 생성할 수 있다.For example, referring to FIG. 29, the main server (2000) can load a fourth prompt form from the database (2150). The fourth prompt form is text that includes a portion where a medium title, medium context information, and artificial context information are inserted. The main server (2000) can modify the fourth prompt form using the previously acquired medium title 'Snow White and the Seven Dwarfs', the page-specific text 'From which day... I was consumed by jealousy', and the question information 'Why is the queen jealous of the princess?'. The main server (2000) can modify the fourth prompt form to generate the fourth prompt.
다른 예로, 메인 서버(2000)는 인위적 맥락 정보 및 미디엄 맥락 정보를 일부 수정하거나 내용을 추가하여 프롬프트를 생성할 수 있다. 또 다른 예로, 메인 서버(2000)는 인위적 맥락 정보만을 포함하는 프롬프트 또는 미디엄 맥락 정보만을 포함하는 프롬프트를 별도로 생성하여 순차적으로 인공지능 서버(3000)에 전송할 수도 있다.As another example, the main server (2000) may generate a prompt by partially modifying or adding artificial context information and medium context information. As another example, the main server (2000) may separately generate a prompt containing only artificial context information or a prompt containing only medium context information and sequentially transmit the prompt to the artificial intelligence server (3000).
프롬프트에는 인위적 맥락 정보를 설명하는 설명 텍스트가 포함될 수 있다. 또한, 프롬프트에는 인공지능 서버(3000)가 응답을 생성할 시 고려할 사항을 서술한 가이드 텍스트가 더 포함될 수 있다.The prompt may include descriptive text describing the artificial contextual information. Additionally, the prompt may further include guidance text describing what the AI server (3000) should consider when generating a response.
프롬프트를 이용하여 응답 데이터가 생성될 수 있다(S5600). 구체적으로, 메인 서버(2000)는 단계 S5500에서 생성한 프롬프트를 인공지능 서버(3000)에 전송하고, 인공지능 서버(3000)는 수신된 프롬프트를 거대 언어 모델에 입력하여 응답 데이터를 생성할 수 있다. 예시적으로, 인공지능 서버(3000)는 도 29에 도시된 제4 프롬프트를 입력 받아 '왕비는 왜 공주를 질투할까요?', 또는 '왕비는 왜 공주를 질투할까요? 거울이 무슨 말을 했나요?' 등의 응답 데이터를 생성할 수 있다.Response data can be generated using a prompt (S5600). Specifically, the main server (2000) transmits the prompt generated in step S5500 to the artificial intelligence server (3000), and the artificial intelligence server (3000) inputs the received prompt into a large language model to generate response data. For example, the artificial intelligence server (3000) can receive the fourth prompt illustrated in FIG. 29 and generate response data such as "Why is the queen jealous of the princess?" or "Why is the queen jealous of the princess? What did the mirror say?"
응답 데이터는 인공지능 서버(2000)가 인위적 맥락 정보 및 미디엄 맥락 정보를 고려하여 생성한 데이터로 이해될 수 있다. 즉, 사용자가 미디엄을 이용함에 있어서, 상호작용 시스템(100)이 사용자와의 대화를 유도할 수 있고, 유도되는 대화의 주제는 미디엄에 인쇄된 이야기 중 사용자가 읽고 있는(또는 관심을 가지는) 부분과 관련되고, 대화는 컨텐츠 제작자가 유도한 심화 학습(미디엄에 대한 이해도 향상을 위한)을 고려하여 전개되는 것으로 이해할 수 있다.The response data can be understood as data generated by the artificial intelligence server (2000) by considering artificial contextual information and medium contextual information. That is, when a user uses the medium, the interaction system (100) can induce a conversation with the user. The topic of the conversation is related to the part of the story printed on the medium that the user is reading (or is interested in), and the conversation can be understood as developing by considering the deep learning (to enhance understanding of the medium) induced by the content creator.
응답 데이터는 텍스트 데이터일 수도 있고, 음성 데이터일 수도 있다. 구체적으로, 인공지능 서버(3000)에 포함된 거대 언어 모델은 텍스트 기반 또는 음성 기반으로 구현될 수 있고, 입력되는 프롬프트가 텍스트 형식이라면 텍스트 형식의 응답 데이터를 출력하고, 입력되는 프롬프트가 음성 신호 형태인 경우 음성 응답 데이터를 출력할 수 있다.The response data may be text data or voice data. Specifically, the large language model included in the artificial intelligence server (3000) may be implemented in a text-based or voice-based manner, and if the input prompt is in text format, it may output text-based response data, and if the input prompt is in the form of a voice signal, it may output voice response data.
이후, 단계 S5700 및 단계 S5800이 수행되어 응답 데이터에 대응하는 응답 음성 데이터가 사용자에게 출력될 수 있다.Thereafter, steps S5700 and S5800 are performed so that response voice data corresponding to the response data can be output to the user.
응답 데이터에 대응하는 음성이 사용자에게 출력된 후, 사용자는 전자기기(1000)의 녹음 기능을 활성화하여 출력된 음성에 대해 답변함으로써 사용자 음성 데이터가 획득될 수 있다.After a voice corresponding to the response data is output to the user, the user can obtain user voice data by activating the recording function of the electronic device (1000) to respond to the output voice.
이 경우, 도 18에서 서술한 후속 프롬프트 생성 방법이 수행될 수 있고, 후속 프롬프트에 대한 후속 응답 데이터가 생성될 수 있으며, 이에 따라 후속 응답 데이터가 사용자에게 전달됨으로써 후속 대화가 이어질 수 있다. 후속 프롬프트를 생성함에 있어서, 여기서, 인위적 맥락 정보 뿐만 아니라 미디엄 맥락 정보가 더 이용될 수 있음은 물론이다.In this case, the follow-up prompt generation method described in Figure 18 can be performed, and follow-up response data for the follow-up prompt can be generated. Accordingly, the follow-up response data can be delivered to the user, allowing a follow-up conversation to continue. In generating the follow-up prompt, it goes without saying that medium context information can be utilized in addition to artificial context information.
7. 생성형 모델에서 처리하는 데이터 유형이 다양한 경우7. When the data types processed in the generative model are diverse
이하에서는, 도 30을 참고하여 인공지능 서버(3000)에 저장된 생성형 모델이 텍스트 데이터 외에 다른 형식의 데이터를 처리하는 경우 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법에 대해 서술한다.Below, referring to FIG. 30, a method for assisting a user's use of a medium by using contextual information when a generative model stored in an artificial intelligence server (3000) processes data in a format other than text data is described.
도 30은 제9 실시예에 따른 맥락 정보를 이용하여 사용자의 미디엄 이용을 보조하는 방법을 나타내는 순서도이다.Fig. 30 is a flowchart illustrating a method for assisting a user's use of a medium using contextual information according to the ninth embodiment.
도 30을 참고하면, 미디엄 이용 보조 방법은 코드 이미지를 획득하는 단계(S6100), 코드 이미지를 분석하여 코드 데이터를 획득하는 단계(S6200), 코드 데이터로부터 참조 정보를 획득하는 단계(S6300), 참조 정보에 기초하여 맥락 정보를 획득하는 단계(S6400), 맥락 정보를 특정 데이터 유형에 따라 변환하는 단계(S6500), 사용자의 음성이 녹음된 음성 데이터를 획득하는 단계(S6600), 음성 데이터를 특정 데이터 유형에 따라 변환하는 단계(S6700), 변환된 맥락 정보 및 변환된 음성 데이터를 이용하여 프롬프트를 생성하는 단계(S6800), 프롬프트를 이용하여 응답 데이터를 생성하는 단계(S6900), 응답 데이터를 출력하는 단계(S7000)를 포함할 수 있다.Referring to FIG. 30, the medium use assistance method may include a step of obtaining a code image (S6100), a step of analyzing the code image to obtain code data (S6200), a step of obtaining reference information from the code data (S6300), a step of obtaining context information based on the reference information (S6400), a step of converting the context information according to a specific data type (S6500), a step of obtaining voice data in which the user's voice is recorded (S6600), a step of converting the voice data according to a specific data type (S6700), a step of generating a prompt using the converted context information and the converted voice data (S6800), a step of generating response data using the prompt (S6900), and a step of outputting the response data (S7000).
이하에서 각 단계에 대해 구체적으로 서술한다. 다만, 단계 S6100은 단계 S1100과 동일하고, 단계 S6200은 단계 S1200과 동일한 바 도 15에서 서술한 내용이 동일하게 적용될 수 있다.Each step is described in detail below. However, step S6100 is identical to step S1100, and step S6200 is identical to step S1200, so the contents described in FIG. 15 can be applied equally.
단계 S6100 및 단계 S6200이 수행된 후 코드 데이터로부터 참조 정보가 획득될 수 있다(S6300). 이 때, 단계 S6100에서 획득되는 코드 이미지는 사용자가 전자기기(1000)를 이용하여 미디엄의 특정 페이지 중 일 영역(ex. 글 영역, 그림 영역, 또는 질문 영역)을 터치하여 획득될 수 있다.After steps S6100 and S6200 are performed, reference information can be obtained from the code data (S6300). At this time, the code image obtained in step S6100 can be obtained by the user using an electronic device (1000) to touch an area (e.g., a text area, a picture area, or a question area) of a specific page of the medium.
참조 정보는 미디엄 종류, 미디엄 ID, 페이지 정보, 및 위치 정보(좌표 정보 및/또는 영역 식별 정보 중 적어도 하나를 포함할 수 있다.Reference information may include at least one of medium type, medium ID, page information, and location information (coordinate information and/or area identification information).
참조 정보에 기초하여 맥락 정보가 획득될 수 있다(S6400). 여기서, 맥락 정보는 인위적 맥락 정보 및/또는 미디엄 맥락 정보를 포함할 수 있다. 인위적 맥락 정보가 획득되는 방법은 예시적으로, 단계 S1400에서 서술한 방법이 동일하게 적용될 수 있다. 미디엄 맥락 정보가 획득되는 방법은 예시적으로, 단계 S3400에서 서술한 방법이 동일하게 적용될 수 있다. 인위적 맥락 정보 및 미디엄 맥락 정보가 획득되는 방법은 단계 S5500에서 서술한 방법이 동일하게 적용될 수 있다.Contextual information can be acquired based on reference information (S6400). Here, the contextual information may include artificial contextual information and/or medium contextual information. For example, the method described in step S1400 may be applied to the artificial contextual information. For example, the method described in step S3400 may be applied to the medium contextual information. For example, the method described in step S5500 may be applied to the artificial contextual information and medium contextual information.
한편, 맥락 정보는 텍스트, 소리, 이미지, 또는 영상 중 적어도 하나를 포함할 수 있다. 예를 들어, 맥락 정보는 미디엄의 특정 페이지에 인쇄된 글(텍스트), 인쇄된 글을 읽는 음성, 인쇄된 글과 관련된 소리, 인쇄된 글에 대한 이미지, 또는 인쇄된 글과 관련된 영상을 포함할 수 있다. 다른 예를 들어, 맥락 정보는 미디엄의 특정 페이지에 인쇄된 이미지, 인쇄된 이미지를 설명하는 글, 인쇄된 이미지를 설명하는 음성, 인쇄된 이미지와 관련된 소리, 또는 인쇄된 이미지와 관련된 영상을 포함할 수 있다.Meanwhile, contextual information may include at least one of text, sound, image, or video. For example, contextual information may include text printed on a specific page of the medium, a voice reading the printed text, a sound related to the printed text, an image related to the printed text, or a video related to the printed text. For another example, contextual information may include an image printed on a specific page of the medium, text describing the printed image, a voice describing the printed image, a sound related to the printed image, or a video related to the printed image.
맥락 정보는 특정 데이터 유형에 따라 변환될 수 있다(S6500). 예를 들어, 메인 서버(2000)는 인공지능 서버(3000)에 저장된 생성형 모델이 처리할 수 있는 데이터 유형에 기초하여 맥락 정보를 변환할 수 있다. 여기서, 생성형 모델이 처리할 수 있는 데이터 유형이란, 생성형 모델이 지원하는 입력 데이터의 데이터 유형(또는 입력 받아 적절한 응답을 출력할 수 있는 데이터 유형)을 의미하며, 텍스트, 소리, 이미지, 또는 영상 중 적어도 하나를 포함할 수 있다.Contextual information can be converted based on a specific data type (S6500). For example, the main server (2000) can convert contextual information based on the data type that the generative model stored in the artificial intelligence server (3000) can process. Here, the data type that the generative model can process refers to the data type of input data supported by the generative model (or the data type that can receive input and output an appropriate response), and can include at least one of text, sound, image, or video.
일 예로, 맥락 정보가 텍스트로 구성되고 생성형 모델이 입력 받을 수 있는 데이터 유형이 소리인 경우, 메인 서버(2000)는 맥락 정보의 텍스트를 소리(ex. 음성)으로 변환할 수 있다. 이 때, 전술한 TTS 모델(2130)이 이용되거나 텍스트를 음성으로 변환하는 기능을 수행할 수 있는 외부 서버가 이용될 수 있다.For example, if contextual information is composed of text and the type of data that the generative model can input is sound, the main server (2000) can convert the text of the contextual information into sound (e.g., voice). In this case, the aforementioned TTS model (2130) may be used, or an external server capable of performing the function of converting text into voice may be used.
다른 예로, 맥락 정보가 이미지 또는 영상으로 구성되고 생성형 모델이 입력 받을 수 있는 데이터 유형이 텍스트인 경우, 메인 서버(2000)는 맥락 정보의 이미지 또는 영상을 텍스트로 변환할 수 있다. 여기서, 텍스트는 이미지에 대한 설명 또는 영상에 대한 설명을 의미한다.As another example, if the contextual information consists of an image or video and the data type that the generative model can input is text, the main server (2000) can convert the image or video of the contextual information into text. Here, the text means a description of the image or video.
한편, 생성형 모델은 복수의 데이터 유형들을 처리할 수 있고, 맥락 정보의 데이터 유형이 생성형 모델이 처리할 수 있는 데이터 유형들에 포함되는 경우, 메인 서버(2000)는 맥락 정보를 변환하지 않을 수 있다. 예를 들어, 맥락 정보가 소리로 구성되고 생성형 모델이 입력 받을 수 있는 데이터 유형이 텍스트 및 소리인 경우, 메인 서버(2000)는 맥락 정보를 변환하지 않을 수 있다. 즉, 단계 S6500은 생략될 수 있다.Meanwhile, if the generative model can process multiple data types, and the data type of the contextual information is included in the data types that the generative model can process, the main server (2000) may not convert the contextual information. For example, if the contextual information consists of sound and the data types that the generative model can input are text and sound, the main server (2000) may not convert the contextual information. That is, step S6500 may be omitted.
메인 서버(2000)는 사용자의 음성이 녹음된 음성 데이터를 획득할 수 있다(S6600). 구체적으로, 전자기기(1000)는 사용자의 버튼 조작에 의해 전자기기 입력부(1300)의 마이크를 활성화하여 사용자의 음성을 녹음할 수 있다. 전자기기(1000)는 녹음된 사용자 음성 데이터를 메인 서버(2000)에 전송할 수 있다. 여기서, 음성 데이터는 음성 정보 또는 음성 신호를 가지는 데이터로 이해될 수 있다.The main server (2000) can obtain voice data in which the user's voice is recorded (S6600). Specifically, the electronic device (1000) can record the user's voice by activating the microphone of the electronic device input unit (1300) through the user's button operation. The electronic device (1000) can transmit the recorded user voice data to the main server (2000). Here, the voice data can be understood as data containing voice information or a voice signal.
음성 데이터는 특정 데이터 유형에 따라 변환될 수 있다(S6700). 예를 들어, 메인 서버(2000)는 인공지능 서버(3000)에 저장된 생성형 모델이 처리할 수 있는 데이터 유형에 기초하여 음성 데이터를 변환할 수 있다. 여기서, 생성형 모델이 처리할 수 있는 데이터 유형이란, 생성형 모델이 지원하는 입력 데이터의 데이터 유형(또는 입력 받아 적절한 응답을 출력할 수 있는 데이터 유형)을 의미하며, 텍스트, 소리, 이미지, 또는 영상 중 적어도 하나를 포함할 수 있다.Voice data can be converted according to a specific data type (S6700). For example, the main server (2000) can convert voice data based on the data type that the generative model stored in the artificial intelligence server (3000) can process. Here, the data type that the generative model can process refers to the data type of input data supported by the generative model (or the data type that can receive input and output an appropriate response), and can include at least one of text, sound, image, or video.
일 예로, 생성형 모델이 입력 받을 수 있는 데이터 유형이 텍스트인 경우, 메인 서버(2000)는 음성 데이터를 텍스트로 변환할 수 있다. 이 때, 전술한 STT 모델(2110)이 이용되거나 음성을 텍스트로 변환하는 기능을 수행할 수 있는 외부 서버가 이용될 수 있다.For example, if the type of data that the generative model can receive is text, the main server (2000) can convert voice data into text. In this case, the aforementioned STT model (2110) may be used, or an external server capable of converting voice into text may be used.
한편, 생성형 모델이 입력 받을 수 있는 데이터 유형에는 소리가 포함될 수 있다. 이 때, 메인 서버(2000)는 음성 데이터를 변환하지 않을 수 있다. 즉, 단계 S6700은 생략될 수 있다.Meanwhile, the data types that the generative model can input may include sound. In this case, the main server (2000) may not convert the sound data. That is, step S6700 may be omitted.
변환된 맥락 정보 및 변환된 음성 데이터를 이용하여 프롬프트가 생성될 수 있다(S6800). 구체적으로, 메인 서버(2000)는 단계 S6500에서 획득된 변환된 맥락 정보 및 단계 S6700에서 획득된 변환된 음성 데이터를 이용하여 프롬프트를 생성할 수 있다.A prompt can be generated using the converted context information and converted voice data (S6800). Specifically, the main server (2000) can generate a prompt using the converted context information obtained in step S6500 and the converted voice data obtained in step S6700.
일 예로, 메인 서버(2000)는 변환된 맥락 정보 및 변환된 음성 데이터를 연결(concatenate)하여 프롬프트를 생성할 수 있다.For example, the main server (2000) can generate a prompt by concatenating converted context information and converted speech data.
다른 예로, 메인 서버(2000)는 전술한 프롬프트 양식을 이용하되, 변환된 맥락 정보 및 변환된 음성 데이터를 이용하여 프롬프트 양식을 가공하여 프롬프트를 생성할 수 있다.As another example, the main server (2000) can generate a prompt by using the aforementioned prompt form, but processing the prompt form using converted context information and converted voice data.
한편, 변환된 맥락 정보의 데이터 유형과 변환된 음성 데이터의 데이터 유형은 서로 같거나 다를 수 있다. 메인 서버(2000)는 변환된 맥락 정보와 변환된 음성 데이터의 데이터 유형을 어느 하나로 통일한 후 프롬프트를 생성할 수도 있다.Meanwhile, the data type of the converted context information and the data type of the converted speech data may be the same or different. The main server (2000) may generate a prompt after unifying the data types of the converted context information and the converted speech data into one.
프롬프트를 이용하여 응답 데이터가 생성될 수 있다(S6900). 예를 들어, 메인 서버(2000)는 생성된 프롬프트를 인공지능 서버(3000)에 전송하고, 인공지능 서버(300)는 생성형 모델을 이용하여 프롬프트로부터 응답 데이터를 생성할 수 있다.Response data can be generated using a prompt (S6900). For example, the main server (2000) can transmit the generated prompt to the artificial intelligence server (3000), and the artificial intelligence server (3000) can generate response data from the prompt using a generative model.
생성되는 응답 데이터의 데이터 유형은 텍스트, 소리, 이미지, 및 영상 중 적어도 하나를 포함할 수 있다. 응답 데이터의 데이터 유형은 생성형 모델이 학습된 과정에 따라 달라질 수 있다. 생성형 모델은 텍스트, 소리, 이미지, 및 영상 중 적어도 하나의 데이터 유형을 포함하는 데이터를 입력 받아 텍스트, 소리, 이미지, 및 영상 중 적어도 하나의 데이터 유형을 포함하는 데이터를 출력하도록 학습될 수 있다.The data type of the generated response data may include at least one of text, sound, image, and video. The data type of the response data may vary depending on the process by which the generative model was trained. The generative model may be trained to input data including at least one of the data types of text, sound, image, and video and output data including at least one of the data types of text, sound, image, and video.
응답 데이터는 사용자에게 출력될 수 있다(S7000). 구체적으로, 메인 서버(2000)는 응답 데이터를 변환하거나 변환하지 않고 전자기기(1000)에 전달할 수 있고, 이 때 응답 데이터의 데이터 유형에 따라 전자기기(1000)에서 응답 데이터를 출력하는 형태가 달라질 수 있다.Response data can be output to the user (S7000). Specifically, the main server (2000) can transmit the response data to the electronic device (1000) with or without conversion, and at this time, the form in which the response data is output from the electronic device (1000) can vary depending on the data type of the response data.
일 예로, 응답 데이터가 텍스트인 경우, 메인 서버(2000)는 응답 데이터를 응답 음성 데이터로 변환하여 전자기기(1000)에 제공하고, 전자기기(1000)는 전자기기 출력부(1400)의 스피커를 통해 응답 음성 데이터를 출력할 수 있다. 이 때, 메인 서버(2000)의 TTS 모델(2130)이 이용될 수 있다.For example, if the response data is text, the main server (2000) converts the response data into response voice data and provides it to the electronic device (1000), and the electronic device (1000) can output the response voice data through the speaker of the electronic device output unit (1400). At this time, the TTS model (2130) of the main server (2000) can be used.
다른 예로, 응답 데이터가 음성(또는 소리)인 경우, 메인 서버(2000)는 응답 데이터를 변환하지 않고 전자기기(1000)에 제공하고, 전자기기(1000)는 전자기기 출력부(1400)의 스피커를 통해 응답 데이터를 출력할 수 있다.As another example, if the response data is voice (or sound), the main server (2000) provides the response data to the electronic device (1000) without converting it, and the electronic device (1000) can output the response data through the speaker of the electronic device output unit (1400).
다른 예로, 응답 데이터가 이미지 또는 영상인 경우, 메인 서버(2000)는 응답 데이터를 응답 음성 데이터로 변환하여 전자기기(1000)에 제공하고, 전자기기(1000)는 전자기기 출력부(1400)의 스피커를 통해 응답 데이터를 출력할 수 있다.As another example, if the response data is an image or video, the main server (2000) converts the response data into response voice data and provides it to the electronic device (1000), and the electronic device (1000) can output the response data through the speaker of the electronic device output unit (1400).
다른 예로, 응답 데이터가 이미지 또는 영상인 경우, 메인 서버(2000)는 응답 데이터를 변환하지 않고 그대로 전자기기(1000)에 제공하고, 전자기기(1000)는 전자기기 출력부(1400)의 디스플레이를 통해 응답 데이터를 출력할 수 있다.As another example, if the response data is an image or video, the main server (2000) provides the response data to the electronic device (1000) as is without converting it, and the electronic device (1000) can output the response data through the display of the electronic device output unit (1400).
인공지능 서버(3000)에 저장된 생성형 모델이 다양한 데이터 유형을 처리할 수 있음에 따라, 사용자에게 출력되는 응답 데이터는 보다 사용자의 맥락을 고려하여 생성된 것으로 이해될 수 있다. 예를 들어, 사용자가 전자기기(1000)를 이용하여 미디엄 내 이미지를 가리키면서 질문을 하는 경우, 생성형 모델이 텍스트만 처리할 수 있다면 이미지를 텍스트로 변환하는 과정이 수반되어야 하고, 변환된 텍스트는 이미지와 관련은 있더라도 이미지 자체는 아니기 때문에, 생성형 모델에서 생성할 수 있는 응답 데이터 역시 사용자의 관심이나 질문 의도를 명확히 인지한 상태에서 생성되었다고 볼 수 없게 된다. 반면 생성형 모델이 텍스트와 이미지를 모두 처리할 수 있다면, 생성형 모델은 이미지 원본을 입력 받아 사용자의 관심이나 질문 의도를 보다 명확히 인지하고 응답 데이터를 생성할 수 있게 된다.Since the generative model stored in the artificial intelligence server (3000) can process various data types, the response data output to the user can be understood as having been generated with greater consideration to the user's context. For example, when a user asks a question by pointing to an image in the medium using an electronic device (1000), if the generative model can only process text, a process of converting the image into text must be followed, and since the converted text is related to the image but is not the image itself, the response data that the generative model can generate cannot be considered to have been generated with clear recognition of the user's interest or question intent. On the other hand, if the generative model can process both text and images, the generative model can receive the original image as input, more clearly recognize the user's interest or question intent, and generate response data.
이에 따라, 사용자에게 보다 적절한 응답, 즉 사용자의 질문 취지에 보다 적합한 응답이 제공될 수 있는 것이다.Accordingly, a more appropriate response can be provided to the user, that is, a response more appropriate to the intent of the user's question.
이상에서 실시 형태들에 설명된 특징, 구조, 효과 등은 본 명세서의 적어도 하나의 실시 형태에 포함되며, 반드시 하나의 실시 형태에만 한정되는 것은 아니다. 나아가, 각 실시 형태에서 예시된 특징, 구조, 효과 등은 실시 형태들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시 형태들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 명세서의 범위에 포함되는 것으로 해석되어야 할 것이다.The features, structures, effects, etc. described in the embodiments above are included in at least one embodiment of the present specification, and are not necessarily limited to just one embodiment. Furthermore, the features, structures, effects, etc. exemplified in each embodiment can be combined or modified in other embodiments by a person skilled in the art to which the embodiments pertain. Therefore, the contents related to such combinations and modifications should be construed as being included within the scope of the present specification.
또한, 이상에서 실시 형태를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 명세서의 기술적 사상을 한정하는 것이 아니며, 본 명세서가 속하는 분야의 통상의 지식을 가진 자라면 본 실시 형태의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 즉, 실시 형태에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 명세서의 범위에 포함되는 것으로 해석되어야 할 것이다In addition, although the above description focuses on the embodiments, these are merely examples and do not limit the technical idea of this specification. Those with ordinary skill in the art to which this specification pertains will recognize that various modifications and applications not exemplified above are possible without departing from the essential characteristics of this embodiment. In other words, each component specifically shown in the embodiments can be modified and implemented. In addition, differences related to such modifications and applications should be interpreted as being included within the scope of this specification as defined in the appended claims.
--
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR10-2024-0026889 | 2024-02-25 | ||
| KR20240026889 | 2024-02-25 | ||
| KR1020240183219AKR20250130741A (en) | 2024-02-25 | 2024-12-11 | Interactive system for assisting user to use medium |
| KR10-2024-0183219 | 2024-12-11 |
| Publication Number | Publication Date |
|---|---|
| WO2025178442A1true WO2025178442A1 (en) | 2025-08-28 |
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/KR2025/099343PendingWO2025178442A1 (en) | 2024-02-25 | 2025-02-07 | Interaction system for assisting with use of medium by user |
| Country | Link |
|---|---|
| WO (1) | WO2025178442A1 (en) |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009003531A (en)* | 2007-06-19 | 2009-01-08 | Dainippon Printing Co Ltd | Electronic pen and program used for it |
| KR102082181B1 (en)* | 2019-08-21 | 2020-05-29 | 에이아이프렌드 주식회사 | Electronic Pen based on Artificial Intelligence, System for Playing Contents using Electronic Pen based on artificial intelligence and Method thereof |
| US20210374341A1 (en)* | 2020-06-01 | 2021-12-02 | Salesforce.Com, Inc. | Generative-discriminative language modeling for controllable text generation |
| JP2022522712A (en)* | 2019-03-04 | 2022-04-20 | セールスフォース ドット コム インコーポレイティッド | Using a language model to generate a common sense description |
| US20230315722A1 (en)* | 2022-03-31 | 2023-10-05 | Sophos Limited | Methods and apparatus for natural language interface for constructing complex database queries |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009003531A (en)* | 2007-06-19 | 2009-01-08 | Dainippon Printing Co Ltd | Electronic pen and program used for it |
| JP2022522712A (en)* | 2019-03-04 | 2022-04-20 | セールスフォース ドット コム インコーポレイティッド | Using a language model to generate a common sense description |
| KR102082181B1 (en)* | 2019-08-21 | 2020-05-29 | 에이아이프렌드 주식회사 | Electronic Pen based on Artificial Intelligence, System for Playing Contents using Electronic Pen based on artificial intelligence and Method thereof |
| US20210374341A1 (en)* | 2020-06-01 | 2021-12-02 | Salesforce.Com, Inc. | Generative-discriminative language modeling for controllable text generation |
| US20230315722A1 (en)* | 2022-03-31 | 2023-10-05 | Sophos Limited | Methods and apparatus for natural language interface for constructing complex database queries |
| Publication | Publication Date | Title |
|---|---|---|
| WO2021071115A1 (en) | Electronic device for processing user utterance and method of operating same | |
| WO2013022222A2 (en) | Method for controlling electronic apparatus based on motion recognition, and electronic apparatus applying the same | |
| WO2013022218A2 (en) | Electronic apparatus and method for providing user interface thereof | |
| WO2013022223A2 (en) | Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same | |
| WO2015178611A1 (en) | Server and method of providing collaboration services and user terminal for receiving collaboration services | |
| WO2016167481A1 (en) | Method and apparatus for recommending reply message | |
| WO2016182368A1 (en) | Method and device for providing content | |
| WO2016129934A1 (en) | Handwriting recognition method and apparatus | |
| WO2013069936A1 (en) | Electronic apparatus and method for controlling thereof | |
| WO2013022221A2 (en) | Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same | |
| WO2016129940A1 (en) | Device and method for inputting note information into image of photographed object | |
| WO2020235696A1 (en) | Artificial intelligence apparatus for interconverting text and speech by considering style, and method for same | |
| WO2016114428A1 (en) | Method and device for performing voice recognition using grammar model | |
| WO2016018111A1 (en) | Message service providing device and method of providing content via the same | |
| WO2014010998A1 (en) | Method for transmitting and receiving data between memo layer and application and electronic device using the same | |
| WO2016024740A1 (en) | Cloud system and method of displaying, by cloud system, content | |
| WO2016018004A1 (en) | Method, apparatus, and system for providing translated content | |
| WO2016024741A1 (en) | Cloud system and method of displaying, by cloud system, content | |
| WO2014011000A1 (en) | Method and apparatus for controlling application by handwriting image recognition | |
| WO2017142127A1 (en) | Method, server, and computer program for setting word/idiom examination questions | |
| WO2021029627A1 (en) | Server that supports speech recognition of device, and operation method of the server | |
| WO2018101534A1 (en) | Method for converting electronic document and system for performing same | |
| WO2014163283A1 (en) | Message service method, and apparatus, system, and recording medium for recording program for same | |
| EP3283942A1 (en) | Method and apparatus for recommending reply message | |
| WO2021086065A1 (en) | Electronic device and operating method thereof |
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application | Ref document number:25758691 Country of ref document:EP Kind code of ref document:A1 |