Commit566ca68

committed

Move RCData parser to where it should have been to begin with in order to fix last lxml unit test

--HG--extra : convert_revision : svn%3Aacbfec75-9323-0410-a652-858a13e371e0/trunk%401151

1 parentabfca04 commit566ca68Copy full SHA for 566ca68

File tree

3 files changed

+47

-38

lines changed

src/html5lib

3 files changed

+47

-38

lines changed

`‎src/html5lib/html5parser.py`

Lines changed: 38 additions & 33 deletions

Original file line number	Diff line number	Diff line change
`@@ -75,7 +75,7 @@ def __init__(self, strict = False, tree=simpletree.TreeBuilder,`
`75`	`75`	`"afterBody":AfterBodyPhase(self,self.tree),`
`76`	`76`	`"inFrameset":InFramesetPhase(self,self.tree),`
`77`	`77`	`"afterFrameset":AfterFramesetPhase(self,self.tree),`
`78`		`-"trailingEnd":TrailingEndPhase(self,self.tree)`
	`78`	`+"trailingEnd":TrailingEndPhase(self,self.tree),`
`79`	`79`	`# XXX after after body`
`80`	`80`	`# XXX after after frameset`
`81`	`81`	`# XXX trailingEnd is gone`
`@@ -117,10 +117,11 @@ def _parse(self, stream, innerHTML=False, container="div",`
`117`	`117`	`# relevant ... need others too`
`118`	`118`	`self.lastPhase=None`
`119`	`119`
	`120`	`+self.beforeRCDataPhase=None`
	`121`	`+`
`120`	`122`	`# XXX This is temporary for the moment so there isn't any other`
`121`	`123`	`# changes needed for the parser to work with the iterable tokenizer`
`122`		`-fortokeninself.tokenizer:`
`123`		`-token=self.normalizeToken(token)`
	`124`	`+fortokeninself.normalizedTokens():`
`124`	`125`	`type=token["type"]`
`125`	`126`	`method=getattr(self.phase,"process%s"%type,None)`
`126`	`127`	`iftypein ("Characters","SpaceCharacters","Comment"):`
`@@ -137,6 +138,10 @@ def _parse(self, stream, innerHTML=False, container="div",`
`137`	`138`	`# When the loop finishes it's EOF`
`138`	`139`	`self.phase.processEOF()`
`139`	`140`
	`141`	`+defnormalizedTokens(self):`
	`142`	`+fortokeninself.tokenizer:`
	`143`	`+yieldself.normalizeToken(token)`
	`144`	`+`
`140`	`145`	`defparse(self,stream,encoding=None,parseMeta=True,useChardet=True):`
`141`	`146`	`"""Parse a HTML document into a well-formed tree`
`142`	`147`
`@@ -238,6 +243,29 @@ def resetInsertionMode(self):`
`238`	`243`	`self.phase=self.phases["inBody"]`
`239`	`244`	`break`
`240`	`245`
	`246`	`+defparseRCDataCData(self,name,attributes,contentType):`
	`247`	`+"""Generic (R)CDATA Parsing algorithm`
	`248`	`+ contentType - RCDATA or CDATA`
	`249`	`+ """`
	`250`	`+assertcontentTypein ("CDATA","RCDATA")`
	`251`	`+`
	`252`	`+element=self.tree.insertElement(name,attributes)`
	`253`	`+self.tokenizer.contentModelFlag=contentModelFlags[contentType]`
	`254`	`+`
	`255`	`+fortokeninself.normalizedTokens():`
	`256`	`+iftoken["type"]in ("Characters","SpaceCharacters"):`
	`257`	`+self.tree.insertText(token["data"])`
	`258`	`+eliftoken["type"]=="ParseError":`
	`259`	`+self.parseError(token["data"],token.get("datavars", {}))`
	`260`	`+else:`
	`261`	`+assertself.tokenizer.contentModelFlag==contentModelFlags["PCDATA"]`
	`262`	`+asserttoken["type"]=="EndTag"andtoken["name"]==name,repr(token)`
	`263`	`+assertself.tree.openElements.pop()==element`
	`264`	`+return`
	`265`	`+#Otherwise we hit EOF`
	`266`	`+assertself.tree.openElements.pop()==element`
	`267`	`+self.parseError("expected-closing-tag-but-got-eof")`
	`268`	`+`
`241`	`269`	`classPhase(object):`
`242`	`270`	`"""Base class for helper object that implements each phase of processing`
`243`	`271`	`"""`
`@@ -298,29 +326,6 @@ def startTagHtml(self, name, attributes):`
`298`	`326`	`defprocessEndTag(self,name):`
`299`	`327`	`self.endTagHandler[name](name)`
`300`	`328`
`301`		`-defparseRCDataCData(self,name,attributes,contentType):`
`302`		`-"""Generic (R)CDATA Parsing algorithm`
`303`		`- contentType - RCDATA or CDATA`
`304`		`- """`
`305`		`-assertcontentTypein ("CDATA","RCDATA")`
`306`		`-element=self.tree.insertElement(name,attributes)`
`307`		`-self.parser.tokenizer.contentModelFlag=contentModelFlags[contentType]`
`308`		`-fortokeninself.parser.tokenizer:`
`309`		`-token=self.parser.normalizeToken(token)`
`310`		`-iftoken["type"]in ("Characters","SpaceCharacters"):`
`311`		`-self.tree.insertText(token["data"])`
`312`		`-eliftoken["type"]=="ParseError":`
`313`		`-self.parser.parseError(token["data"],token.get("datavars", {}))`
`314`		`-else:`
`315`		`-assertself.parser.tokenizer.contentModelFlag==contentModelFlags["PCDATA"]`
`316`		`-asserttoken["type"]=="EndTag"andtoken["name"]==name,repr(token)`
`317`		`-assertself.tree.openElements.pop()==element`
`318`		`-return`
`319`		`-#Otherwise we hit EOF`
`320`		`-assertself.tree.openElements.pop()==element`
`321`		`-self.parser.parseError("expected-closing-tag-but-got-eof")`
`322`		`-`
`323`		`-`
`324`	`329`	`classInitialPhase(Phase):`
`325`	`330`	`# This phase deals with error handling as well which is currently not`
`326`	`331`	`# covered in the specification. The error handling is typically known as`
`@@ -586,18 +591,18 @@ def startTagHead(self, name, attributes):`
`586`	`591`	`self.parser.parseError("two-heads-are-not-better-than-one")`
`587`	`592`
`588`	`593`	`defstartTagTitle(self,name,attributes):`
`589`		`-self.parseRCDataCData(name,attributes,"RCDATA")`
	`594`	`+self.parser.parseRCDataCData(name,attributes,"RCDATA")`
`590`	`595`
`591`	`596`	`defstartTagStyle(self,name,attributes):`
`592`		`-self.parseRCDataCData(name,attributes,"CDATA")`
	`597`	`+self.parser.parseRCDataCData(name,attributes,"CDATA")`
`593`	`598`
`594`	`599`	`defstartTagNoScript(self,name,attributes):`
`595`	`600`	`#Need to decide whether to implement the scripting-disabled case`
`596`		`-self.parseRCDataCData(name,attributes,"CDATA")`
	`601`	`+self.parser.parseRCDataCData(name,attributes,"CDATA")`
`597`	`602`
`598`	`603`	`defstartTagScript(self,name,attributes):`
`599`	`604`	`#I think this is equivalent to the CDATA stuff since we don't execute script`
`600`		`-self.parseRCDataCData(name,attributes,"CDATA")`
	`605`	`+self.parser.parseRCDataCData(name,attributes,"CDATA")`
`601`	`606`
`602`	`607`	`defstartTagBaseLinkMeta(self,name,attributes):`
`603`	`608`	`if (self.tree.headPointerisnotNoneandself.parser.phase==self.parser.phases["inHead"]):`
`@@ -612,7 +617,7 @@ def startTagOther(self, name, attributes):`
`612`	`617`	`self.parser.phase.processStartTag(name,attributes)`
`613`	`618`
`614`	`619`	`defendTagHead(self,name):`
`615`		`-assertself.tree.openElements[-1].name=="head"`
	`620`	`+assertself.tree.openElements[-1].name=="head","Expected head got %s"%self.tree.openElements[-1].name`
`616`	`621`	`self.tree.openElements.pop()`
`617`	`622`	`self.parser.phase=self.parser.phases["afterHead"]`
`618`	`623`
`@@ -922,7 +927,7 @@ def startTagAppletMarqueeObject(self, name, attributes):`
`922`	`927`
`923`	`928`	`defstartTagXmp(self,name,attributes):`
`924`	`929`	`self.tree.reconstructActiveFormattingElements()`
`925`		`-self.parseRCDataCData(name,attributes,"CDATA")`
	`930`	`+self.parser.parseRCDataCData(name,attributes,"CDATA")`
`926`	`931`
`927`	`932`	`defstartTagTable(self,name,attributes):`
`928`	`933`	`ifself.tree.elementInScope("p"):`
`@@ -982,7 +987,7 @@ def startTagTextarea(self, name, attributes):`
`982`	`987`
`983`	`988`	`defstartTagCdata(self,name,attributes):`
`984`	`989`	`"""iframe, noembed noframes, noscript(if scripting enabled)"""`
`985`		`-self.parseRCDataCData(name,attributes,"CDATA")`
	`990`	`+self.parser.parseRCDataCData(name,attributes,"CDATA")`
`986`	`991`
`987`	`992`	`defstartTagSelect(self,name,attributes):`
`988`	`993`	`self.tree.reconstructActiveFormattingElements()`

`‎src/html5lib/liberalxmlparser.py`

Lines changed: 3 additions & 0 deletions

Original file line number	Diff line number	Diff line change
`@@ -63,6 +63,9 @@ def _parse(self, stream, innerHTML=False, container="div", encoding=None,`
`63`	`63`	`encoding,lowercaseElementName=False,`
`64`	`64`	`lowercaseAttrName=False)`
`65`	`65`
	`66`	`+defparseRCDataCData(self,name,attributes,contentType):`
	`67`	`+self.tree.insertElement(name,attributes)`
	`68`	`+`
`66`	`69`	`classXHTMLParser(XMLParser):`
`67`	`70`	`""" liberal XMTHML parser """`
`68`	`71`

`‎src/html5lib/tokenizer.py`

Lines changed: 6 additions & 5 deletions

Original file line number	Diff line number	Diff line change
`@@ -315,10 +315,11 @@ def dataState(self):`
`315`	`315`	`self.escapeFlagand"".join(self.lastFourChars)=="<!--":`
`316`	`316`	`self.escapeFlag=True`
`317`	`317`	`self.tokenQueue.append({"type":"Characters","data":data})`
`318`		`-elifdata=="<"and (self.contentModelFlag==\`
`319`		`-contentModelFlags["PCDATA"]or (self.contentModelFlagin`
`320`		`- (contentModelFlags["CDATA"],contentModelFlags["RCDATA"])and\`
`321`		`-self.escapeFlag==False)):`
	`318`	`+elif (data=="<"and (self.contentModelFlag==contentModelFlags["PCDATA"]`
	`319`	`+or (self.contentModelFlagin`
	`320`	`+ (contentModelFlags["CDATA"],`
	`321`	`+contentModelFlags["RCDATA"])and`
	`322`	`+self.escapeFlag==False))):`
`322`	`323`	`self.state=self.states["tagOpen"]`
`323`	`324`	`elifdata==">"andself.contentModelFlagin\`
`324`	`325`	`(contentModelFlags["CDATA"],contentModelFlags["RCDATA"])and\`
`@@ -343,7 +344,7 @@ def dataState(self):`
`343`	`344`	`self.lastFourChars+=chars[-4:]`
`344`	`345`	`self.lastFourChars=self.lastFourChars[-4:]`
`345`	`346`	`returnTrue`
`346`		`-`
	`347`	`+`
`347`	`348`	`defentityDataState(self):`
`348`	`349`	`entity=self.consumeEntity()`
`349`	`350`	`ifentity:`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commit566ca68

File tree

3 files changed

3 files changed

`‎src/html5lib/html5parser.py`

`‎src/html5lib/liberalxmlparser.py`

`‎src/html5lib/tokenizer.py`

0 commit comments