html5lib/html5lib-pythonPublic

NotificationsYou must be signed in to change notification settings
Fork302
Star1.2k

Commit114ab64

committed

Make the Python html5lib tree-walker API use a dict with (namespace, name): value key: value pairs for attributes.

I promise I won't update this part of the API again — this is now something I'm happy with, so I won't do what I've just done and change it twice in six^W seven months again. The only possible slight update from this is to move to using an ordered dict for trees that can preserve attribute order, but this should have no API breakage.

1 parentbc4ceca commit114ab64Copy full SHA for 114ab64

File tree

10 files changed

+64

-75

lines changed

html5lib
- filters
  - inject_meta_charset.py
- serializer
  - htmlserializer.py
- tests
  - test_serializer.py
  - test_treewalkers.py
- treewalkers

10 files changed

+64

-75

lines changed

`‎html5lib/filters/inject_meta_charset.py‎`

Lines changed: 6 additions & 12 deletions

Original file line number	Diff line number	Diff line change
`@@ -20,32 +20,26 @@ def __iter__(self):`
`20`	`20`	`iftoken["name"].lower()=="meta":`
`21`	`21`	`# replace charset with actual encoding`
`22`	`22`	`has_http_equiv_content_type=False`
`23`		`-content_index=-1`
`24`		`-fori,attrinenumerate(token["data"]):`
`25`		`-namespace=attr["namespace"]`
`26`		`-name=attr["name"]`
`27`		`-value=attr["value"]`
	`23`	`+for (namespace,name),valueintoken["data"].iteritems():`
`28`	`24`	`ifnamespace!=None:`
`29`	`25`	`continue`
`30`	`26`	`elifname.lower()=='charset':`
`31`		`-token["data"][i]["value"]=self.encoding`
	`27`	`+token["data"][(namespace,name)]=self.encoding`
`32`	`28`	`meta_found=True`
`33`	`29`	`break`
`34`	`30`	`elifname=='http-equiv'andvalue.lower()=='content-type':`
`35`	`31`	`has_http_equiv_content_type=True`
`36`		`-elifname=='content':`
`37`		`-content_index=i`
`38`	`32`	`else:`
`39`		`-ifhas_http_equiv_content_typeandcontent_index>=0:`
`40`		`-token["data"][content_index]["value"]=u'text/html; charset=%s'%self.encoding`
	`33`	`+ifhas_http_equiv_content_typeand(None,"content")intoken["data"]:`
	`34`	`+token["data"][(None,"content")]=u'text/html; charset=%s'%self.encoding`
`41`	`35`	`meta_found=True`
`42`	`36`
`43`	`37`	`eliftoken["name"].lower()=="head"andnotmeta_found:`
`44`	`38`	`# insert meta into empty head`
`45`	`39`	`yield {"type":"StartTag","name":"head",`
`46`	`40`	`"data":token["data"]}`
`47`	`41`	`yield {"type":"EmptyTag","name":"meta",`
`48`		`-"data":[{"namespace":None,"name":"charset","value":self.encoding}]}`
	`42`	`+"data":{(None,"charset"):self.encoding}}`
`49`	`43`	`yield {"type":"EndTag","name":"head"}`
`50`	`44`	`meta_found=True`
`51`	`45`	`continue`
`@@ -56,7 +50,7 @@ def __iter__(self):`
`56`	`50`	`yieldpending.pop(0)`
`57`	`51`	`ifnotmeta_found:`
`58`	`52`	`yield {"type":"EmptyTag","name":"meta",`
`59`		`-"data":[{"namespace":None,"name":"charset","value":self.encoding}]}`
	`53`	`+"data":{(None,"charset"):self.encoding}}`
`60`	`54`	`whilepending:`
`61`	`55`	`yieldpending.pop(0)`
`62`	`56`	`meta_found=True`

`‎html5lib/serializer/htmlserializer.py‎`

Lines changed: 3 additions & 7 deletions

Original file line number	Diff line number	Diff line change
`@@ -220,15 +220,11 @@ def serialize(self, treewalker, encoding=None):`
`220`	`220`	`in_cdata=True`
`221`	`221`	`elifin_cdata:`
`222`	`222`	`self.serializeError(_("Unexpected child element of a CDATA element"))`
`223`		`-attrs=token["data"]`
`224`		`-ifhasattr(attrs,"items"):`
`225`		`-attrs=attrs.items()`
`226`		`-attrs.sort()`
`227`	`223`	`attributes= []`
`228`		`-forattrinattrs:`
	`224`	`+for(attr_namespace,attr_name),attr_valueinsorted(token["data"].items()):`
`229`	`225`	`#TODO: Add namespace support here`
`230`		`-k=attr["name"]`
`231`		`-v=attr["value"]`
	`226`	`+k=attr_name`
	`227`	`+v=attr_value`
`232`	`228`	`ifencoding:`
`233`	`229`	`k=k.encode(encoding,"strict")`
`234`	`230`	`attributes.append(' ')`

`‎html5lib/tests/test_serializer.py‎`

Lines changed: 15 additions & 2 deletions

Original file line number	Diff line number	Diff line change
`@@ -31,7 +31,7 @@ def __iter__(self):`
`31`	`31`	`else:`
`32`	`32`	`namespace=default_namespace`
`33`	`33`	`name,attrib=token[1:3]`
`34`		`-yieldself.startTag(namespace,name,attrib)`
	`34`	`+yieldself.startTag(namespace,name,self._convertAttrib(attrib))`
`35`	`35`	`eliftype=="EndTag":`
`36`	`36`	`iflen(token)==3:`
`37`	`37`	`namespace,name=token[1:3]`
`@@ -45,7 +45,7 @@ def __iter__(self):`
`45`	`45`	`else:`
`46`	`46`	`namespace=default_namespace`
`47`	`47`	`name,attrib=token[1:]`
`48`		`-fortokeninself.emptyTag(namespace,name,attrib):`
	`48`	`+fortokeninself.emptyTag(namespace,name,self._convertAttrib(attrib)):`
`49`	`49`	`yieldtoken`
`50`	`50`	`eliftype=="Comment":`
`51`	`51`	`yieldself.comment(token[1])`
`@@ -61,6 +61,19 @@ def __iter__(self):`
`61`	`61`	`yieldself.doctype(token[1])`
`62`	`62`	`else:`
`63`	`63`	`raiseValueError("Unknown token type: "+type)`
	`64`	`+`
	`65`	`+def_convertAttrib(self,attribs):`
	`66`	`+"""html5lib tree-walkers use a dict of (namespace, name): value for`
	`67`	`+ attributes, but JSON cannot represent this. Convert from the format`
	`68`	`+ in the serializer tests (a list of dicts with "namespace", "name",`
	`69`	`+ and "value" as keys) to html5lib's tree-walker format."""`
	`70`	`+attrs= {}`
	`71`	`+forattribinattribs:`
	`72`	`+name= (attrib["namespace"],attrib["name"])`
	`73`	`+assert(namenotinattrs)`
	`74`	`+attrs[name]=attrib["value"]`
	`75`	`+returnattrs`
	`76`	`+`
`64`	`77`
`65`	`78`	`classTestCase(unittest.TestCase):`
`66`	`79`	`defaddTest(cls,name,description,input,expected,xhtml,options):`

`‎html5lib/tests/test_treewalkers.py‎`

Lines changed: 17 additions & 17 deletions

Original file line number	Diff line number	Diff line change
`@@ -196,17 +196,17 @@ def convertTokens(tokens):`
`196`	`196`	`indent+=2`
`197`	`197`	`attrs=token["data"]`
`198`	`198`	`ifattrs:`
`199`		`-attrs.sort(lambdaa,b:cmp(a["name"],b["name"]))`
`200`		`-forattrinattrs:`
`201`		`-ifattr["namespace"]:`
`202`		`-ifattr["namespace"]inconstants.prefixes:`
`203`		`-name=constants.prefixes[attr["namespace"]]`
	`199`	`+#TODO: Remove this if statement, attrs should always exist`
	`200`	`+for(namespace,name),valueinsorted(attrs.items()):`
	`201`	`+ifnamespace:`
	`202`	`+ifnamespaceinconstants.prefixes:`
	`203`	`+outputname=constants.prefixes[namespace]`
`204`	`204`	`else:`
`205`		`-name=attr["namespace"]`
`206`		`-name+=u" "+attr["name"]`
	`205`	`+outputname=namespace`
	`206`	`+outputname+=u" "+name`
`207`	`207`	`else:`
`208`		`-name=attr["name"]`
`209`		`-output.append(u"%s%s=\"%s\""% (" "*indent,name,attr["value"]))`
	`208`	`+outputname=name`
	`209`	`+output.append(u"%s%s=\"%s\""% (" "*indent,outputname,value))`
`210`	`210`	`iftype=="EmptyTag":`
`211`	`211`	`indent-=2`
`212`	`212`	`eliftype=="EndTag":`
`@@ -270,17 +270,17 @@ def runTest(self, innerHTML, input, expected, errors, treeClass):`
`270`	`270`	`classTokenTestCase(unittest.TestCase):`
`271`	`271`	`deftest_all_tokens(self):`
`272`	`272`	`expected= [`
`273`		`- {'data':[],'type':'StartTag','name':u'html'},`
`274`		`- {'data':[],'type':'StartTag','name':u'head'},`
`275`		`- {'data':[],'type':'EndTag','name':u'head'},`
`276`		`- {'data':[],'type':'StartTag','name':u'body'},`
	`273`	`+ {'data':{},'type':'StartTag','namespace':u'http://www.w3.org/1999/xhtml','name':u'html'},`
	`274`	`+ {'data':{},'type':'StartTag','namespace':u'http://www.w3.org/1999/xhtml','name':u'head'},`
	`275`	`+ {'data':{},'type':'EndTag','namespace':u'http://www.w3.org/1999/xhtml','name':u'head'},`
	`276`	`+ {'data':{},'type':'StartTag','namespace':u'http://www.w3.org/1999/xhtml','name':u'body'},`
`277`	`277`	`{'data':u'a','type':'Characters'},`
`278`		`- {'data':[],'type':'StartTag','name':u'div'},`
	`278`	`+ {'data':{},'type':'StartTag','namespace':u'http://www.w3.org/1999/xhtml','name':u'div'},`
`279`	`279`	`{'data':u'b','type':'Characters'},`
`280`		`- {'data':[],'type':'EndTag','name':u'div'},`
	`280`	`+ {'data':{},'type':'EndTag','namespace':u'http://www.w3.org/1999/xhtml','name':u'div'},`
`281`	`281`	`{'data':u'c','type':'Characters'},`
`282`		`- {'data':[],'type':'EndTag','name':u'body'},`
`283`		`- {'data':[],'type':'EndTag','name':u'html'}`
	`282`	`+ {'data':{},'type':'EndTag','namespace':u'http://www.w3.org/1999/xhtml','name':u'body'},`
	`283`	`+ {'data':{},'type':'EndTag','namespace':u'http://www.w3.org/1999/xhtml','name':u'html'}`
`284`	`284`	`]`
`285`	`285`	`fortreeName,treeClsintreeTypes.iteritems():`
`286`	`286`	`p=html5parser.HTMLParser(tree=treeCls["builder"])`

`‎html5lib/treewalkers/_base.py‎`

Lines changed: 10 additions & 8 deletions

Original file line number	Diff line number	Diff line change
`@@ -15,13 +15,15 @@ def error(self, msg):`
`15`	`15`	`return {"type":"SerializeError","data":msg}`
`16`	`16`
`17`	`17`	`defnormalizeAttrs(self,attrs):`
`18`		`-ifnotattrs:`
`19`		`-attrs= []`
`20`		`-forattrinattrs:`
`21`		`-attr["namespace"]=unicode(attr["namespace"])ifattr["namespace"]elseNone`
`22`		`-attr["name"]=unicode(attr["name"])`
`23`		`-attr["value"]=unicode(attr["value"])`
`24`		`-returnattrs`
	`18`	`+newattrs= {}`
	`19`	`+ifattrs:`
	`20`	`+#TODO: treewalkers should always have attrs`
	`21`	`+for (namespace,name),valueinattrs.iteritems():`
	`22`	`+namespace=unicode(namespace)ifnamespaceelseNone`
	`23`	`+name=unicode(name)`
	`24`	`+value=unicode(value)`
	`25`	`+newattrs[(namespace,name)]=value`
	`26`	`+returnnewattrs`
`25`	`27`
`26`	`28`	`defemptyTag(self,namespace,name,attrs,hasChildren=False):`
`27`	`29`	`yield {"type":"EmptyTag","name":unicode(name),`
`@@ -40,7 +42,7 @@ def endTag(self, namespace, name):`
`40`	`42`	`return {"type":"EndTag",`
`41`	`43`	`"name":unicode(name),`
`42`	`44`	`"namespace":unicode(namespace),`
`43`		`-"data":[]}`
	`45`	`+"data":{}}`
`44`	`46`
`45`	`47`	`deftext(self,data):`
`46`	`48`	`data=unicode(data)`

`‎html5lib/treewalkers/dom.py‎`

Lines changed: 2 additions & 4 deletions

Original file line number	Diff line number	Diff line change
`@@ -15,12 +15,10 @@ def getNodeDetails(self, node):`
`15`	`15`	`return_base.TEXT,node.nodeValue`
`16`	`16`
`17`	`17`	`elifnode.nodeType==Node.ELEMENT_NODE:`
`18`		`-attrs=[]`
	`18`	`+attrs={}`
`19`	`19`	`forattrinnode.attributes.keys():`
`20`	`20`	`attr=node.getAttributeNode(attr)`
`21`		`-attrs.append({"namespace":attr.namespaceURI,`
`22`		`-"name":attr.localName,`
`23`		`-"value":attr.value})`
	`21`	`+attrs[(attr.namespaceURI,attr.localName)]=attr.value`
`24`	`22`	`return (_base.ELEMENT,node.namespaceURI,node.nodeName,`
`25`	`23`	`attrs,node.hasChildNodes())`
`26`	`24`

`‎html5lib/treewalkers/etree.py‎`

Lines changed: 3 additions & 7 deletions

Original file line number	Diff line number	Diff line change
`@@ -69,17 +69,13 @@ def getNodeDetails(self, node):`
`69`	`69`	`else:`
`70`	`70`	`namespace=None`
`71`	`71`	`tag=node.tag`
`72`		`-attrs=[]`
	`72`	`+attrs={}`
`73`	`73`	`forname,valueinnode.attrib.items():`
`74`	`74`	`match=tag_regexp.match(name)`
`75`	`75`	`ifmatch:`
`76`		`-attrs.append({"namespace":match.group(1),`
`77`		`-"name":match.group(2),`
`78`		`-"value":value})`
	`76`	`+attrs[(match.group(1),match.group(2))]=value`
`79`	`77`	`else:`
`80`		`-attrs.append({"namespace":None,`
`81`		`-"name":name,`
`82`		`-"value":value})`
	`78`	`+attrs[(None,name)]=value`
`83`	`79`	`return (_base.ELEMENT,namespace,tag,`
`84`	`80`	`attrs,len(node)ornode.text)`
`85`	`81`

`‎html5lib/treewalkers/lxmletree.py‎`

Lines changed: 3 additions & 7 deletions

Original file line number	Diff line number	Diff line change
`@@ -140,17 +140,13 @@ def getNodeDetails(self, node):`
`140`	`140`	`else:`
`141`	`141`	`namespace=None`
`142`	`142`	`tag=node.tag`
`143`		`-attrs=[]`
	`143`	`+attrs={}`
`144`	`144`	`forname,valueinnode.attrib.items():`
`145`	`145`	`match=tag_regexp.match(name)`
`146`	`146`	`ifmatch:`
`147`		`-attrs.append({"namespace":match.group(1),`
`148`		`-"name":match.group(2),`
`149`		`-"value":value})`
	`147`	`+attrs[(match.group(1),match.group(2))]=value`
`150`	`148`	`else:`
`151`		`-attrs.append({"namespace":None,`
`152`		`-"name":name,`
`153`		`-"value":value})`
	`149`	`+attrs[(None,name)]=value`
`154`	`150`	`return (_base.ELEMENT,namespace,self.filter.fromXmlName(tag),`
`155`	`151`	`attrs,len(node)>0ornode.text)`
`156`	`152`

`‎html5lib/treewalkers/pulldom.py‎`

Lines changed: 2 additions & 4 deletions

Original file line number	Diff line number	Diff line change
`@@ -30,12 +30,10 @@ def tokens(self, event, next):`
`30`	`30`	`iftype==START_ELEMENT:`
`31`	`31`	`name=node.nodeName`
`32`	`32`	`namespace=node.namespaceURI`
`33`		`-attrs=[]`
	`33`	`+attrs={}`
`34`	`34`	`forattrinnode.attributes.keys():`
`35`	`35`	`attr=node.getAttributeNode(attr)`
`36`		`-attrs.append({"namespace":attr.namespaceURI,`
`37`		`-"name":attr.localName,`
`38`		`-"value":attr.value})`
	`36`	`+attrs[(attr.namespaceURI,attr.localName)]=attr.value`
`39`	`37`	`ifnameinvoidElements:`
`40`	`38`	`fortokeninself.emptyTag(namespace,`
`41`	`39`	`name,`

`‎html5lib/treewalkers/simpletree.py‎`

Lines changed: 3 additions & 7 deletions

Original file line number	Diff line number	Diff line change
`@@ -32,16 +32,12 @@ def getNodeDetails(self, node):`
`32`	`32`	`return_base.TEXT,node.value`
`33`	`33`
`34`	`34`	`elifnode.type==5:# Element`
`35`		`-attrs=[]`
	`35`	`+attrs={}`
`36`	`36`	`forname,valueinnode.attributes.items():`
`37`	`37`	`ifisinstance(name,tuple):`
`38`		`-attrs.append({"namespace":name[2],`
`39`		`-"name":name[1],`
`40`		`-"value":value})`
	`38`	`+attrs[(name[2],name[1])]=value`
`41`	`39`	`else:`
`42`		`-attrs.append({"namespace":None,`
`43`		`-"name":name,`
`44`		`-"value":value})`
	`40`	`+attrs[(None,name)]=value`
`45`	`41`	`return (_base.ELEMENT,node.namespace,node.name,`
`46`	`42`	`attrs,node.hasContent())`
`47`	`43`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commit114ab64

File tree

10 files changed

10 files changed

`‎html5lib/filters/inject_meta_charset.py‎`

`‎html5lib/serializer/htmlserializer.py‎`

`‎html5lib/tests/test_serializer.py‎`

`‎html5lib/tests/test_treewalkers.py‎`

`‎html5lib/treewalkers/_base.py‎`

`‎html5lib/treewalkers/dom.py‎`

`‎html5lib/treewalkers/etree.py‎`

`‎html5lib/treewalkers/lxmletree.py‎`

`‎html5lib/treewalkers/pulldom.py‎`

`‎html5lib/treewalkers/simpletree.py‎`

0 commit comments