生成文字记录的方法及系统技术领域
本发明涉及语音识别技术领域,特别涉及一种生成文字记录的方法及系统。
背景技术
随着信息技术的发展,出现了可以通过语音识别设备,来对会议过程录音,记录会议中发言的自动记录装置。这种装置的主要工作流程是分析记录与会人说话的声音,从这些声音中分辨出发言内容,并生成文字记录。但这种装置的主要缺点在于,经常会出现不能完整记录会议参与者每个人的发言的情况,而且还不能快速准确地分辨出说话人的身份,导致不能生成区分各个会议参与者的文字会议记录。
发明内容
本发明解决的问题在于提供一种生成文字记录的方法及系统,使得可以完整记录每一个发言者的发言内容,且可以准确地识别发言者的身份。
为解决上述技术问题,本发明的实施方式提供了一种生成文字记录的方法,包含以下步骤:
第一终端和第二终端相互连接;其中,所述第一终端预存第一发言者的语音特征信息,所述第二终端预存第二发言者的语音特征信息;
所述第一终端根据所述第一发言者的语音特征信息,识别所述第一发言者语音信息,并根据记录的语音信息生成第一发言记录;所述第二终端根据所述第二发言者的语音特征信息,识别所述第二发言者语音信息,并根据记录的语音信息生成第二发言记录;
所述第一终端将所述第一发言记录发送给所述第二终端,所述第二终端将所述第二发言记录发送给所述第一终端;
所述第一终端和所述第二终端分别按预设的排序规则对所有发言者的发言记录进行排序,并生成发言文字记录。
本发明的实施方式还提供了一种生成文字记录的系统,包含:第一终端和第二终端;
所述第一终端和所述第二终端相互连接;其中,所述第一终端预存第一发言者的语音特征信息,所述第二终端预存第二发言者的语音特征信息;
所述第一终端,用于根据所述第一发言者的语音特征信息,识别所述第一发言者语音信息,并根据记录的语音信息生成第一发言记录;所述第二终端,用于根据所述第二发言者的语音特征信息,识别所述第二发言者语音信息,并根据记录的语音信息生成第二发言记录;
所述第一终端,还用于将所述第一发言记录发送给所述第二终端,所述第二终端,还用于将所述第二发言记录发送给所述第一终端;
所述第一终端和所述第二终端还分别用于按预设的排序规则对所有发言者的发言记录进行排序,并生成发言文字记录。
本发明实施方式相对于现有技术而言,在对两个发言者的发言进行文字记录时,将第一终端和第二终端相互连接,其中,第一终端预存第一发言者的语音特征信息,第二终端预存第二发言者的语音特征信息;利用单个终端根据预存的语音特征信息对与之对应的一个发言者的发言进行记录与语音识别,这样,由于一个终端仅对一个相应的发言者的发言进行采集、识别及记录,提高了终端识别发言者身份的准确性;各终端均可以获取所有发言者的发言记录,并生成发言文字记录;由于每个终端不但生成本终端对应的发言者的发言记录,还可以获取其他发言者的发言记录,这样,即使若干个发言者同时发言,每一个终端也可以分别得到全部发言者的发言记录,从而生成完整的发言文字记录。总之,本发明的实施方式可以完整记录每一个发言者的发言内容,且可以准确地识别发言者的身份。
另外,所述第一终端将所述第一发言记录发送给所述第二终端的步骤中,所述第一终端实时地将生成的所述第一发言记录,发送给所述第二终端;所述第二终端将所述第二发言记录发送给所述第一终端的步骤中,所述第二终端实时地将生成的所述第二发言记录,发送给所述第一终端。这样,可以保证终端上的发言记录可以得到及时更新。
另外,所述第一终端将所述第一发言记录发送给所述第二终端的步骤中,具体包含:所述第一终端将所述语音信息转换为文字信息,并为所述文字信息添加所述发言者标识信息及发言时间信息,生成所述发言记录;所述第二终端将所述第二发言记录发送给所述第一终端的步骤中,具体包含:所述第二终端将所述语音信息转换为文字信息,并为所述文字信息添加所述发言者标识信息及发言时间信息,生成所述发言记录。终端在将记录的语音信息转换为文字信息后,再生成发言记录,这样,可以在将发言记录发送至其他终端时,减轻数据传输的负担。
附图说明
图1是根据本发明第一实施方式中的生成文字记录的系统的结构示意图;
图2是根据本发明第一实施方式的生成文字记录的方法的流程图;
图3是根据本发明第二实施方式的生成文字记录的方法的流程图;
图4是根据本发明第二实施方式中的数据交互流程图;
图5是根据本发明第三实施方式中的数据交互流程图;
图6是根据本发明第四实施方式的生成文字记录的方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术方案。
图1为本发明实施例提供的一种场景示意图,参照图1,本发明实施例提供一种生成文字记录的系统,该系统包括多个移动终端,具体的,移动终端可以为:手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)等;该系统中的各个移动终端之间通过Wifi或Wifi热点进行网络连接,可选的,该系统还可以包括:路由设备;则各个移动终端通过路由设备建立Wifi连接;或者,多个移动终端中,将一个移动终端作为Wifi热点设备。
进一步的,多个移动终端中,选择一个移动终端作为主设备,即连接发起终端,由该连接发起终端触发各个移动终端进行互联,具体的连接触发过程会在下文中进行描述,此处不予详细说明。可选的,该连接发起终端可以为上述Wifi热点设备,也可以为其他非Wifi热点设备,此处不予限定。对于连接发起终端的选择标准,可以为终端的负载能力或处理能力,此处不予限定。
可选的,第一终端可以基于白名单向白名单中的第二终端和第三终端发送请求消息,该白名单可以预先设置于第一终端内。或者,可以在第一终端接收到各个终端发送的响应消息,该响应消息中携带有对应终端的认证信息,该第一终端根据认证信息进行认证,并生成白名单存储通过认证的终端。具体的,该白名单可以存储终端的标识信息和权限信息。
基于图1所示的生成文字记录的系统,下面对该系统执行的生成文字记录的方法进行详细说明,其中,下文是以第一终端、第二终端以及第三终端作为示例对本发明实施例提供的方案中,终端的功能和终端之间的交互方式进行具体说明;需要强调的是,本发明的实施例对于终端的个数不进行限定,当存在多个终端时,每个终端具有的功能和执行的步骤都与第一终端、第二终端以及第三终端相同或类似。
本发明的第一实施方式涉及一种生成文字记录的方法,具体流程如图2所示,包含以下步骤:
步骤201,第一终端和第二终端相互连接;其中,第一终端预存第一发言者的语音特征信息,第二终端预存第二发言者的语音特征信息。
步骤202,第一终端根据第一发言者的语音特征信息,识别第一发言者语音信息,并根据记录的语音信息生成第一发言记录;第二终端根据第二发言者的语音特征信息,识别第二发言者语音信息,并根据记录的语音信息生成第二发言记录。
步骤203,第一终端将第一发言记录发送给第二终端,第二终端将第二发言记录发送给第一终端。
步骤204,第一终端和第二终端分别按预设的排序规则对所有发言者的发言记录进行排序,并生成发言文字记录。
本实施方式提供的生成文字记录的方法,在对两个发言者的发言进行文字记录时,将两个终端进行相互连接,利用单个终端根据预存的语音特征信息对与之对应的一个发言者的发言进行记录与语音识别,而且,各终端均可以获取所有发言者的发言记录,并生成发言文字记录,实现了准确地识别发言者的身份,并完整记录每一个发言者的发言内容的技术效果。
本发明的第二实施方式涉及一种生成文字记录的方法,第二实施方式在第一实施方式的基础上作了进一步改进,主要改进之处在于,在本实施方式中,每一个终端每生成一个发言记录就发送至其他终端,这样,可以保证终端上的发言文字记录可以得到及时更新。
在本实施方式中,还包含第三终端,第三终端分别与第一终端和第二终端相连接;第三终端预存第三发言者的语音特征信息;第三终端根据第三发言者的语音特征信息识别第三发言者的语音信息,并根据记录的语音信息生成第三发言记录。下面以3个发言者利用各自的终端(比如手机)进行会议文字记录为例进行说明。
具体地说,在本实施方式中,具体如图3所示,包含如下步骤:
步骤301,第一终端、第二终端、第三终端相互连接。具体地说,在本实施方式中,生成文字记录的系统包含第一终端、第二终端与第三终端。其中,第一终端为用于发起连接的连接发起终端,在会议开始时,可以向第二终端与第三终端发出连接请求,具体地,具体如图1所示,第一终端分别向第二终端、第三终端发送建立连接的请求消息;当第二终端与第三终端接收连接请求消息时,确认是否建立连接,并分别向第一终端发送确认建立连接的响应消息;第一终端接收到响应消息时,第一终端与第二终端、第三终端通过WIFI直连或者WIFI热点相互连接。通过WIFI互连,可以使进行会议的地点不局限于办公室内,使得在更开放环境(比如室外)也可以举办会议。同时,由连接发起终端(第一终端)作为主设备发起连接,可以与从设备(第二终端、第三终端)之间组建一个用于文字记录的局域网,局域网中的各终端之间在主设备的协调下进行交互信息。
而且,每个终端中分别预存有其持有者的语音特征信息,具体而言,是第一终端中预存第一发言者的语音特征信息,第二终端中预存第二发言者的语音特征信息,第三终端中预存第三发言者的语音特征信息。如果第一终端采集的语音信息中包含第一发言者的语音特征信息,则表明第一发言者在发言,若包含第二发言者的语音特征信息,则表明第二发言者在发言。
步骤302,第一终端根据第一发言者的语音特征信息,识别第一发言者语音信息,并根据记录的语音信息生成第一发言记录;第二终端根据第二发言者的语音特征信息,识别第二发言者语音信息,并根据记录的语音信息生成第二发言记录;第三终端根据第三发言者的语音特征信息识别第三发言者的语音信息,并根据记录的语音信息生成第三发言记录。每个终端记录不同发言者的语音信息,并根据记录的语音信息生成发言记录。其中,第一发言记录还包含第一发言者的标识信息及发言时间信息;第二发言记录还包含第二发言者的标识信息及发言时间信息;第三发言记录还包含第三发言者的标识信息及发言时间信息。发言者的标识信息可以是发言者的姓名或者代码等。
在本步骤中,若第一终端确认接收的声音数据中包含第一发言者的语音特征信息,则提取出第一发言者的语音信息,并进行记录,否则,不进行记录。比如说,在有发言者发言时,第一终端根据预存的语音特征信息判断采集的声音数据是否包含第一发言者的语音特征信息,若包含第一发言者的语音特征信息,则提取出第一发言者的语音信息,并进行记录。
在本步骤中,第一终端还为语音信息添加发言者标识信息及发言时间信息,生成发言者的发言记录。其中,发言者标识信息为发言者的名称或者发言者的身份代码。也就是,一条发言记录中包含发言者的发言内容、发言者的身份标识以及发言时间。
同理,若第二终端确认接收的声音数据中包含第二发言者的语音特征信息,则提取出第二发言者的语音信息,并进行记录。比如说,在有发言者发言时,第二终端根据预存的语音特征信息判断采集的声音数据是否包含第二发言者的语音特征信息,若包含第二发言者的语音信息,则提取出第二发言者的语音信息,并进行记录。
第二终端为语音信息添加发言者标识信息及发言时间信息,生成发言者的发言记录。比如,第二终端为第二发言者的发言内容添加第二发言者的标识信息、发言时间,生成第二发言者的发言记录。其中,第二发言者的发言记录还携带第二终端的终端标识信息。
同理,若第三终端确认接收的声音数据中包含第三发言者的语音特征信息,则提取出第三发言者的语音信息,并进行记录。第三终端为语音信息添加发言者标识信息及发言时间信息,生成发言者的发言记录。其中,第三发言者的发言记录还携带第三终端的终端标识信息。
步骤303,第一终端、第二终端、第三终端分别获取与本终端相连的终端生成的发言记录。具体地说,第一终端分别从第二终端、第三终端获取第二发言记录、第三发言记录;第二终端分别从第一终端、第三终端获取第一发言记录、第三发言记录;第三终端分别从第一终端、第二终端获取第一发言记录、第二发言记录。
在本步骤中,第一终端实时地将生成的发言记录,发送给与本终端相连的终端。具体如图4所示,第一终端在生成第一发言记录后,执行步骤3031与步骤3032:将第一发言记录分别发送给第二终端和第三终端;在实际应用时,第一终端在每生成一个发言记录后,将当前生成的第一发言记录发送给第二终端与第三终端。这样,可以保证终端上的发言记录可以得到及时更新。
同理,第二终端在每生成一个第二发言记录后,将当前生成的第二发言记录发送给第一终端与第三终端;第三终端在每生成一个第三发言记录后,将当前生成的第三发言记录发送给第一终端与第二终端。
具体地,第二终端在生成第二发言记录后,执行步骤3033:将第二发言记录发送给第一终端。其中,第二发言记录还携带第二终端的终端标识信息。第一终端可以在收到来自第二终端的发言记录后,执行步骤3034:将收到的第二发言记录内的第二终端的终端标识信息发送给第三终端,通知第三终端根据接收到的第二终端的终端标识信息从第二终端中获取第二发言记录。第三终端在接收到通知信息后,执行步骤3035:从第二终端获取第二发言记录。更具体地,第一终端(即连接发起终端)更新数据或者接收到第二终端发送的数据后,更新其维护的数据完整性检查表,并发送通知信息至第三终端,其中,通知信息中包含更新数据的第二终端的终端标识信息及数据的更新信息,其中,该数据的更新信息可以是发言时间。比如,第二终端将最新记录的一条第二发言者的发言记录(发言时间为10:00)发送至第一终端后,第一终端更新其维护的数据完整性检查表,并发送通知信息至第三终端,其中,通知信息包含第二终端的标识信息以及第二发言者的发言时间(10:00),第三终端接收到通知信息后,根据通知信息,向数据连接列表中的第二终端请求添加更新的数据,来更新本终端保存的发言记录。其中,数据完整性检查表是记载所有终端的发言记录更新信息的列表,且各个终端与其发言记录更新信息一一对应。每个终端持续重复这一过程,可以保证数据的高效交换和完整性。
同理,第三终端在生成第三发言记录后,执行步骤3036:将第三发言记录发送给第一终端。其中,第三发言记录还携带第三终端的终端标识信息。第一终端可以在收到来自第三终端的第三发言记录后,执行步骤3037:将收到的第三发言记录内的第三终端的终端标识信息发送给第二终端,通知第二终端根据接收到的第三终端的终端标识信息从第三终端中获取第三发言记录。第二终端在接收到通知信息后,执行步骤3038:从第三终端获取第三发言记录。
步骤304,第一终端、第二终端和第三终端分别按预设的排序规则对所有发言者的发言记录进行排序,并生成发言文字记录。具体地,第一终端根据第一发言记录、第二发言记录、第三发言记录中的发言时间信息,对所有发言者的发言记录进行排序;第二终端根据第一发言记录、第二发言记录、第三发言记录中的发言时间信息,对所有发言者的发言记录进行排序;第三终端根据第一发言记录、第二发言记录、第三发言记录中的发言时间信息,对所有发言者的发言记录进行排序。这样,可以保证会议记录与会议流程在时间上的一致性。
第一终端、第二终端与第三终端分别将接收的语音信息转换为文字信息,生成发言文字记录。将语音信息转换为文字信息,便于查阅。
综上所述,本实施方式具备如下优点:
1.由于一个终端仅对一个相应的发言者的发言进行语音采集、识别及记录,这样,可以提高发言记录过程中语音信息的采集准确率,使得生成的文字记录包含有更多准确信息。
2.使用了P2P(对等计算,即点对点)的记录自动分享策略,每个终端都可以直接向其他终端请求数据,使得发言过程结束后不必向各发言者发送文字记录邮件,而是在发言结束时每个发言者都会直接拥有文字记录的全部内容。
3.每一个终端每生成一个发言记录就发送至其他终端,这样,可以保证终端上的发言文字记录可以得到及时更新。
4.通过WIFI互连,可以使进行会议的地点不局限于办公室内,使得在更开放环境(比如室外)也可以举办会议。
另外,需要说明的是,本实施方式中的生成文字记录的方法还可以对更多终端组成的生成文字记录的方系统进行文字记录,比如,生成文字记录的方系统还可以包含第四终端,其中,第四终端与第二终端、第三终端的角色相同,功能相似,在此不再赘述。
本发明第三实施方式涉及一种生成文字记录的方法。第三实施方式与第二实施方式大致相同,主要区别之处在于:在第二实施方式中,第一终端在收到来自第二终端的第二发言记录后,通知第三终端从第二终端中获取第二发言记录。而在本发明第三实施方式中,第二终端在生成第二发言记录后,将生成的第二发言记录直接发送给第一终端和第三终端,这样,可以节约第三终端更新发言记录的时间,使数据更新更高效。
在本实施方式中,在第一终端、第二终端、第三终端分别将生成的发言记录,发送给与本终端相连的终端的步骤中,第一终端在生成第一发言记录后,将生成的第一发言记录发送给第二终端和第三终端,第二终端在生成第二发言记录后,将生成的第二发言记录发送给第一终端和第三终端,第三终端在生成第三发言记录后,将生成的第三发言记录发送给第一终端和第二终端。这样,可以节约各个终端更新发言记录的时间,使数据更新更高效。
具体如图5所示,第二终端在生成第二发言记录后,不是通过第一终端通知第三终端获取第二发言记录,而是直接执行步骤3039:将第二发言记录发送至第三终端。同样,第三终端在生成第三发言记录后,不是通过第一终端通知第二终端获取第三发言记录,而是直接执行步骤30310:将第三发言记录发送至第二终端。这样,可以节约第二、三终端更新发言记录的时间,使数据更新更高效。
本发明第四实施方式涉及一种生成文字记录的方法。第四实施方式与第二实施方式大致相同,主要区别之处在于:在第二实施方式中,在各终端交互的发言记录中发言内容的形式是语音信息,接收语音信息的终端将接收的语音信息转换为文字信息。而在本发明第四实施方式中,在终端交互的发言记录之前先将采集的语音信息转换为文字信息,再进行数据交互,这样,可以减轻数据交互的负担。
具体地说,在本实施方式中,包含步骤601~604,其中,本实施方式中的步骤601、603与第二实施方式中的步骤601、603相似,在此不再赘述,下面仅介绍不同之处:
步骤602,第一终端根据第一发言者的语音特征信息,识别第一发言者语音信息,并根据记录的语音信息生成第一发言记录;第二终端根据第二发言者的语音特征信息,识别第二发言者语音信息,并根据记录的语音信息生成第二发言记录;第三终端根据第三发言者的语音特征信息识别第三发言者的语音信息,并根据记录的语音信息生成第三发言记录。
在本步骤中,第一终端将语音信息转换为文字信息,并为文字信息添加发言者标识信息及发言时间信息,生成第一发言者的第一发言记录。
同理,第二终端将语音信息转换为文字信息,并为文字信息添加发言者标识信息及发言时间信息,生成第二发言者的第二发言记录,再将生成的第二发言者的第二发言记录发送至第一终端。
同理,第三终端将语音信息转换为文字信息,并为文字信息添加发言者标识信息及发言时间信息,生成第三发言者的第三发言记录,再将生成的第三发言者的第三发言记录发送至第一终端。
这样,在各终端进行数据交互时,交互的数据量小,减轻了数据交互的负担。
步骤604,第一终端、第二终端和第三终端分别按预设的排序规则对所有发言者的发言记录进行排序,并生成发言文字记录。各个终端保存的发言记录(包含发言者标识信息、发言内容、发言时间、终端标识信息)本来就是文字信息,在将发言记录生成发言文字记录时实现方便。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包含相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第五实施方式涉及一种生成文字记录的系统,包含:第一终端和第二终端。
第一终端和第二终端相互连接;其中,第一终端预存第一发言者的语音特征信息,第二终端预存第二发言者的语音特征信息。
第一终端,用于根据第一发言者的语音特征信息,识别第一发言者语音信息,并根据记录的语音信息生成第一发言记录;第二终端,用于根据第二发言者的语音特征信息,识别第二发言者语音信息,并根据记录的语音信息生成第二发言记录。
第一终端,还用于将第一发言记录发送给第二终端,第二终端,还用于将第二发言记录发送给第一终端。
第一终端和第二终端还分别用于按预设的排序规则对所有发言者的发言记录进行排序,并生成发言文字记录。
在实际应用中,每个终端中包含语音文字引擎,用于将语音信息转化为文字信息。
本实施例提供的生成文字记录的系统,在对两个发言者的发言进行文字记录时,将两个终端进行相互连接,利用单个终端根据预存的语音特征信息对与之对应的一个发言者的发言进行记录与语音识别,而且,各终端均可以获取所有发言者的发言记录,并生成发言文字记录,实现了准确地识别发言者的身份,并完整记录每一个发言者的发言内容的技术效果。
不难发现,本实施方式为与第一实施方式相对应的系统实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
本发明第六实施方式涉及一种生成文字记录的系统,第六实施方式与第五实施方式大致相同,主要区别之处在于:在第五实施方式中,仅包含两个终端进行文字记录,而在本实施方式中,还包含第三终端。
第三终端分别与第一终端和第二终端相连接;其中,第三终端预存第三发言者的语音特征信息。
第三终端,用于根据第三发言者的语音特征信息识别第三发言者的语音信息,并根据记录的语音信息生成第三发言记录。
第一终端,还用于从第三终端获取第三发言记录。
第二终端,还用于从第三终端获取第三发言记录。
第三终端,还用于分别从第一终端、第二终端获取第一发言记录、第二发言记录。
第一终端、第二终端和第三终端,还分别用于按预设的排序规则对所有发言者的发言记录进行排序,并生成发言文字记录。
本实施方式中的生成文字记录的系统可以与第二、三、四实施方式中的生成文字记录的方法配合使用,实现不同方式的文字记录方案。
本实施方式提供的生成文字记录的系统具备如下优点:
1.由于一个终端仅对一个相应的发言者的发言进行语音采集、识别及记录,这样,可以提高发言记录过程中语音信息的采集准确率,使得生成的文字记录包含有更多准确信息。
2.每个终端都可以向其他终端请求数据,使得发言过程结束后不必向各发言者发送文字记录邮件,而是在发言结束时每个发言者都会直接拥有文字记录的全部内容。
另外,需要说明的是,本实施方式中的生成文字记录的方法还可以对更多终端组成的生成文字记录的方系统进行文字记录,比如,生成文字记录的方系统还可以包含第四终端,其中,第四终端与第二终端、第三终端的角色相同,功能相似,在此不再赘述。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。