基于包的视频内容的分析技术领域
本发明涉及基于包的视频内容的分析。
背景技术
基于包的视频在此可交换地用IPTV(互联网协议电视的缩写)来指代,并包含诸如YouTube和Google Video之类的按需要将视音频流递送到用户的计算机的简单视频递送业务,以及诸如AT&T的UVerse业务和British Telecom(英国电信)的BT Vision业务之类的通常基于用户来提供更丰富的内容的更复杂的业务。(“YouTube”、“Google Video”、“UVerse”和“BT Vision”分别是YouTube公司、Google公司、AT&T和British Telecom所有的商标。)
IPTV的一个关键吸引力在于它允许与诸如电话、视频会议、电子邮件和即时消息(IM)之类的其他业务的交互。因此例如,用户的电话系统可与IPTV机顶盒(STB)相集成以便当呼入被接收时,呼叫者ID在屏幕上被显示给收看电视的用户。
IPTV数据量的更丰富的性质还允许节目制作者用描述内容或与内容有关的元数据给流加标签。通过这种方式,电视节目可以被加上野生生物纪录片的标签,或者节目制作者可嵌入活动内容,观看者可以在屏幕上与该活动内容进行交互(例如,“点击这里来给新闻组发电子邮件”或“更多关于专利的信息,点击这里”,这些相应的链接分别启动与机顶盒或用户的个人计算机相集成的电子邮件客户端和浏览器)。
这种标签的问题在于它可能打扰观看者,或者它可能根据观看者的视点不正确地给内容加标签。例如,观看者可能对一般“足球赛”或一般“曲棍球赛”不感兴趣,而可能对涉及他或她的地方社区的节目特别感兴趣或者可能对涉及地方足球或曲棍球队的比赛感兴趣。如果节目内容未被正确而充分地加标签以识别地方足球队,则观看者可能意识不到有感兴趣的节目可用。这种粒状而丰富的标签需要最终由用户负担订阅费的额外负荷和成本。
发明内容
提供了操作用于接收和解码基于包的视频信号的系统的方法,包括以下步骤:
(a)接收编码了视频信号的基于包的数据流;
(b)维持一组规则,每个规则指定内容匹配条件和要采取的相应动作;
(c)为接收和解码系统的用户提供编辑所述一组规则的接口;
(d)分析基于包的数据流的内容以判断是否其内容与所述规则之一中指定的条件相匹配;
(e)在所述分析步骤中确定了匹配条件后,实现所述规则之一中指定的相应动作,所述动作能用于控制在所述接收和解码系统控制下的组件。
代替在节目创建时或者多播或上传到IP网络时给元数据加标签,本方法为接收系统的用户(例如接收系统的观看者或所有者)提供了当这种内容被接收和检测时指定特定的感兴趣内容和要采取的动作的能力。
这使得用户不受节目制作者、业务供应者或网络运营者供应的元数据的约束,并且允许用户根据可能与内容提供者采用的标准大不相同的标准来丰富观看体验。
如这里使用的,术语“编码了视频信号的基于包的数据流”涵盖编码了具有视频分量和音频分量的信号的流。这种流的分析可能仅涉及音频分量的分析、仅涉及视频分量的分析或二者都涉及。
优选地,分析基于包的数据流的内容的步骤包括解码基于包的数据流并分析解码后的信号。
用户可以指定用于识别编码的数据流中的相关条件的规则,但在大多数情况下,可以设想,规则将指定与解码后的内容有关的条件。
此外,优选地,分析解码后的信号的步骤包括分析解码后的信号的音频分量以检测与所述规则之一中的所述条件相匹配的音频内容。
与条件相匹配的音频内容可以是音乐、声效或口语内容。特定优选实施例涉及识别与用户确定的规则相匹配的口语内容。
因此优选地,分析音频分量的步骤包括应用语音分析技术来匹配检测与所述用户在用于编辑所述一组规则的所述接口中指定的一个或多个口语词或词模式的匹配。
这为用户提供了丰富观看体验的强大技术。通过指定与一个或多个关键字或单模式(例如,感兴趣的URI、电子邮件地址、体育队名称或话题)相匹配的语言内容,用户可以事先指定某些动作应被采取,例如切换到另一频道、在屏幕上显示警告、启动通信程序或影响计算机系统的动作、给出几个非限制性示例。
这与接收加了标签的音频流(带有闭合字幕或带有代表完整音频内容的元数据)不同。因为语音分析被应用于用户设备,不依赖内容提供者来对口语内容进行分析和加标签,并且如果所需的一切就只是对与有限的一组规则(也许是几十或几百个关键字)的匹配的判断,则处理要求可以大大降低。
作为替代或补充,分析解码后的信号的步骤包括分析解码后的信号的视频分量以检测与所述规则之一中的所述条件相匹配的视频内容。
虽然音频匹配目前是向未经训练的用户提供用于识别感兴趣内容的手段的优选方式,但是老用户可能希望识别他们能够自己指定的图片中的图形元素。可以设想,随着图像界面中处理能力的进步并且随着一般大众的计算机文化的提高,这种技术将越来越多地可被全部用户访问。
因此优选地,分析视频分量的步骤包括应用模式匹配技术来识别与所述用户在用于编辑所述一组规则的所述接口中指定的可视元素的匹配。
此外,优选地,所述可视元素包括文本串。
通过这种方式,用户可将他或他的雇主的名称指定为感兴趣文本串,并且如果该名称被文本匹配技术识别,则用户指定的动作可被发起(例如记录该频道或在“稍后观看”列表中存储标记),以便用户能够收看提及或展示雇主的节目。将理解,文本匹配无需限制在屏幕上示出的印刷文本或字幕的识别上。雇主的名称同样可从出现该名称的符号或标志中识别。(为了继续本示例,如果公司标志为以容易辨认的形式包含该名称,则用户可上传公司标志的图形文件以便作为代替,该图像文件可被匹配)。
优选地,所述实现相应动作的步骤包括实现能用于控制所述接收和解码系统的组件的动作。
某些可控制元素可包括解码器、图片处理器、数据流控制器、频道选择系统、视频或音频记录系统、“稍后收看”列表、节目队列、用于在多个场景或观看角度之间进行选择的场景选择系统、警告系统、设备显示器、整合的(integral)通信客户端(例如,电子邮件、语音或视频电话、即时消息、统一通信)和嵌入式浏览器。
作为替代,所述实现相应动作的步骤包括实现能用于控制与所述接收和解码系统相关并可由所述接收和解码系统控制的系统的组件的动作。
相关且可控的系统可以是遥控单元、电视机或显示屏、通过有线或无线网络与接收和解码系统通信的个人计算机、网络服务器、视频记录系统或已被配置成许可由该接收和解码系统控制的任何其他系统。将理解,这提供了一种允许用户指定该用户具有控制许可的几乎任何联网的可控设备的地址的广泛而有力的方法,并准许任何可允许的控制信号被发送到该设备,给予了该用户一个使用接收的电视或视频内容来自动控制这类设备的非常有力的工具。
接收和解码系统可以是诸如私有或普通机顶盒之类的专用系统,或者它可以是运行适当软件以实现接收和解码功能的通用或专用计算机系统。该系统可驻留在单一设备上或者它可分布在相互结合来操作的多个联网的设备上。
接收的编码了视频信号的、将被分析的基于包的数据流无需是已被选择供用户观看的流。用户可以收看另一个流或者可以根本不收看视频或电视业务。例如,对IPTV的普通商业订购允许用户接收若干个流或频道,并且用户可在一个电视上收看一个流,家庭成员在联网的计算机显示屏上收看另一个流,第三个流被记录在个人视频记录仪(PVR)或机顶盒的硬盘驱动器上,并且第四、第五和第六个流被接收但既不被收看也不被记录。这些流中的任一个或全部可能被进行内容分析以判断与用户可编辑的规则的匹配。
数据流可通过任何适当格式被编码,并且所述流可被单播或多播。它可代表电视频道、视频点播(VOD)、闭路电视、录制的视频或任何其他视频信号。所述流可由诸如YouTube之类的网站主控,它可从非公共网络地址流出,它可使用互联网通过业务提供者流向订户,或者它可经由诸如私有光纤或线缆网络之类的另一网络到达。
还提供了包含编码了指令的程序载体的相应计算机程序产品,所述指令当被用于接收和解码基于包的视频信号的系统运行时能用于使得该系统执行以下步骤:
(a)维持一组规则,每个规则指定内容匹配条件和要采取的相应动作;
(b)为接收和解码系统的用户提供编辑所述一组规则的接口;
(c)分析接收的编码了视频信号的基于包的数据流的内容以判断是否其内容与所述规则之一中指定的条件相匹配;
(d)在所述分析步骤中确定了匹配条件后,实现所述规则之一中指定的相应动作,所述动作能用于控制在所述接收和解码系统控制下的组件。
程序载体例如可以是磁或光数据载体、闪存、计算机中的内部存储芯片、或者具有用于存储程序指令的任何其他适当格式。
程序可在任何独立计算系统或系统的任何联网组合上运行以提供接收和解码视频信号的功能。
还提供了用于接收和解码基于包的视频信号的系统,包括:
(a)用于接收编码了视频信号的基于包的数据流的网络连接;
(b)存储一组规则的存储器,每个规则指定内容匹配条件和要采取的相应动作;
(c)接收和解码系统的用户能操作来编辑所述一组规则的接口;
(d)用于分析基于包的数据流的内容以判断是否其内容与所述规则之一中指定的条件相匹配的内容分析系统;
(e)被编程以在所述分析步骤中确定了匹配条件后,实现所述规则之一中指定的相应动作的处理器,所述动作能用于控制在所述接收和解码系统控制下的组件。
附图说明
现在将仅以示例方式参考附图来进一步通过本发明实施例的以下描述来例示本发明,附图中:
图1是包括用于接收和解码基于包的视频信号的示例性系统的IPTV网络的框图;并且
图2是例示了操作用于接收和解码基于包的视频信号的系统的方法的框图。
具体实施方式
图1示出包括IPTV业务提供者的主办公室10和其地方办公室12之一、用于将电视信号传输到业务的订户的网络14(在本例中,该网络是互联网)以及用于接收和解码视频信号的订户网络16的IPTV网络。
电视和视频点播内容被使用诸如国际电联的H.264标准之类的适当标准、利用主办公室10处的一个或多个编码器18来编码。内容可以立即被发送到地方办公室或者它可被存储以便稍后由服务器20递送。由于订户或互联网之间的带宽限制,IPTV业务提供者使用专用链路来将大量频道和视频流发送到诸如地方办公室12之类的多个办公室中的每一个,并且地方办公室12处的视频服务器20使用受控于账户验证系统26的频道选择和切换路由器24来将信号提供给订户子集中的每一个。地方办公室12通常会在适当的断点处将地方广告添加到节目馈送上。
除了直接的音频和视频,数据流可以被增加其他元素。IPTV的一个优点在于信号能够携带补充了描述节目内容的元数据并且用户可在屏幕上与之进行交互的电子邮件地址、网络链接和其他统一资源指示符(URI)。
因此,每个订户可被发送(比如说)2至10个频道的馈送,至少一个频道被订户主动选择,并且其他频道或者被订户选择,或者被IPTV业务提供者选择。用户可选择若干频道来在不同设备上或者使用画中画及其他混合技术在同一设备上收看,其他频道被选择用于记录或监视和分析,如这里所描述的。业务提供者可用主动收看的频道的上一频道和下一频道来自动填充带宽(以促进用户进行“频道跳跃”时的瞬时切换),或者用用户收看最多的(一个或多个)频道或通过任何其他方式来填充带宽,或者可通过将馈送限制在仅所请求的(一个或多个)频道上来节约带宽。
通过这种方式,每个订户可以获得代表频道或视频记录的一个或多个数据流。在示例性系统中,用户或订户被以机顶盒(STB)的形式提供了接收和解码系统16,这基本上是一个被小尺寸地封装的、具有专用接口的专用计算机或处理器,所述专用接口经由与红外端口30和RC接收器31通信的遥控单元28、连接到以太网端口34的PC 32(或使用无线连接)或通过从连接到TV输出端口38的电视机36传递回的信号来提供用户控制。将理解,同样的功能可以在任何适当的计算机或联网的计算机集合上通过软件来实现。为了简便,所示系统16在下文中将可交换地用机顶盒和STB来指代。
PC和遥控器是可选的,并且用户可使用诸如语音命令、单元上的按钮、经由互联网发送到STB的IP地址的远程命令、来自IPTV业务提供者的命令(例如,基于访问按次付费频道的电话请求)或来自手机的蓝牙信号之类的任何其他接口来与STB进行交互(仅给出几个示例)。
编码了视频信号的数据流被使用实时协议/互联网协议(RTP/IP)套接字40来接收,并且数据流的接收和选择是经由数据流控制器42来进行的。除了数据流本身,诸如电子节目指南(EPG)信息之类的其他数据也被接收。
数据流被传递到一组解码器44。在所示实施例中,STB配备有H.264解码器46和MPEG-2解码器48,当然,可以考虑更多协议和编码标准。通常,一个或多个流被用户选择为当前观看,这些流被解码并被发送到对信号进行格式化以便在电视机36上回放的图片控制处理器50。
数据流控制器43、解码器44和图片控制处理器50的控制由机顶盒控制器52执行。该控制器52例如将向数据流控制器42发送用户的频道挑选选择、对EPG信息的请求、视频点播订阅请求等。它将向解码器44发送有关将每个解码后的数据流发送到哪里的指示(考虑到诸如选择电影中的替代场景或体育活动中的另一相机之类的用户挑选的选项,有的发送到电视、有的发送到视频记录仪、有的丢弃等),并且它将向图片控制处理器50发送有关如何格式化图片以反映诸如画中画频道、宽屏观看选择等用户选择之类的选项的指示(这可被实现为运行在STB控制器所有的处理器54上的处理)。
当STB控制器有效地是具有专用操作系统的分拆式(stripped-down)计算机时,除了处理器54,它还具有存储器56、控制软件58和图形用户界面或GUI 60。如前所述,用户可与STB控制器进行交互以通过多种方式来控制处理器54的动作,但是两个最常用的控制机制是:(i)与GUI560的屏上交互(由图片控制处理器50提供,用户可使用遥控器28来与之交互),和(ii)使用经由PC 32可访问的相同或不同图形界面。PC 32可操作它自己的STB控制软件,该STB控制软件与STB控制软件58进行交互。
STB还配备了在集成的封装中提供诸如电子邮件、SMS、即时消息(聊天)、存在性信息、IP电话、视频会议、呼叫控制和语音控制的统一通信系统或UCS 62。UCS 62被连接到互联网,并且使用该STB设施,用户可参与与第三方的通信。UCS软件是公知的,并包括Nortel Network(北电网络)的“Software Communications System”、MicrosoftCorporation(微软公司)的“Office Communications Server”、IBM的“Lotus Sametime”和Unison Technologies的“Unison”软件(引号中所有产品名称是相应所有者的商标)。不是所有这些产品都提供相同的功能,但是在每个实例中,都存在一起交互并为用户提供通信方法的选择的通信客户端套件。UCS不一定需要位于STB中,而是可以在PC 30上或由STB可控制的另一计算机系统远程提供。除了IP电话和UCS,诸如标准企业和住宅电话业务之类的通信系统也可以与IPTV业务相集成并使用这里描述的技术来控制。
STB还配备了可操作来接收信号并对该信号执行分析操作的分析引擎64。例如,分析引擎可以包括可操作来获得音频信号并对该信号执行语音识别和模式匹配的语音分析引擎。分析引擎64被用规则66编程,所述规则66指定要与音频匹配的条件和响应于检测出的匹配要采取的动作。用户控制接口68被提供以使得用户能够编辑规则,由此用户可指定新的条件(例如关键字的组合或对照脏话列表的匹配)和适当的动作(例如对于基于脏话的家长过滤器,改变频道和锁定频道以防重选,或者例如用于在检测到公司名称时开始记录不想要的频道的命令)。STB可用初始规则组来编程,或者用户可下载规则组,或者规则可完全由用户创建。然而,用户必须至少能够编辑规则组中的某些规则。
STB控制器52包括允许用户采用GUI 60(或者任何其他输入方法)来访问分析引擎的用户接口68的分析接口70。分析接口70还从分析引擎64接收根据规则要采取的任何动作的指示。它最好具有命令的形式,所述命令随后被适当地处理和格式化以控制接收和解码系统或接收和解码系统可控制可访问的某一其他系统的另一组件。
STB控制器52还操作对添加的图片元素72的处理。该处理允许STB控制器创建并格式化添加到由图片控制处理器50呈现给电视机36的视频或音频混合上的附加元素。某些附加元素包括图形、听觉和文本警告以及用户可与之交互的诸如电子邮件地址和链接之类的活动图片元素。
语音分析的使用仅是一种类型的分析引擎或处理,它可在该种类型的系统中采用或结合在该种类型的系统中。还可以采用音乐分析工具来识别音乐片段或其他声音,或者这种分析可由诸如www.shazam.com之类的外部站点或使用诸如Tunatic(www.wildbits.com/tunatic)之类的软件来完成。
作为补充或替代,分析可以包括视觉匹配软件以识别图形、文本串、脸部、运动或色彩组合,并且如果这种分析被提供,则可以设置规则以指定视频信号分量满足的条件。
参考图2附加图1,现在将描述STB的操作方法。
处理开始于步骤80。在步骤82,分析引擎64加载规则66以为适当的分析做准备。数据流被接收,步骤84(实际上,代表不同频道的多个流可同时被接收,或者若干频道可在单一数据流中被接收),并且流被解码,步骤86。在步骤88,每个频道或流被评估以判断它是否已被选择用于显示。如果是,则它被发送到图片控制器然后发送到电视或显示监视器,步骤90。如果不是,它不被显示,步骤92(虽然它可能还是被监视和分析或发送到诸如记录仪之类的另一位置)。
每个数据流被发送到系统上存在或系统可用的音频和/或视频分析引擎或服务,步骤94,其中数据流根据规则被分析,步骤96。所述分析对是否发现匹配进行判断,判决98,并且如果不是,则处理继续,步骤100,进一步分析,步骤94。
如果发现与规则中的条件的匹配,则根据规则确定相关动作,步骤102。分析引擎向STB控制器的分析接口发送命令或代码,STB控制器进而格式化适当的命令并将其发送到该系统或另一连接的系统的适当组件,步骤104。
命令可被发送到数据流控制器,步骤106,以便例如将所需数据流的改变传送到地方办公室。命令可被发送到添加的图片元素处理,步骤108,以便制定要添加到图片混合的附加被动或主动元素(意味着添加到被发送给电视机的音频、视频或数据信号分量上)。命令可被发送到PC,步骤110,以控制该计算机上的应用。命令可被发送到统一通信系统,步骤112,以便例如通过启动电子邮件或IM或者语音或视频电话会话来影响或控制该系统的行为。命令可被发送到GUI,步骤114,以便例如通过将GUI菜单在屏幕上或者在遥控器的显示器或PC的显示器上呈现给用户来控制GUI的操作。将理解,这些组件仅作为示例给出,规则中指定的适当命令或动作可向STB可控制可访问的任何组件发出,无论是在用户位置的本地环境中还是通过互联网或某些其他网络远程发出。
本发明不限于这里描述的(一个或多个)实施例,而是可在不脱离本发明的范围的情况下被修改或修饰。