Commit699276b

authored

Merge pull request#257 from gsnedders/det_encoding

Update encoding detection; r=nobody!

2 parentsdce9d62 +fc9f63b commit699276bCopy full SHA for 699276b

File tree

7 files changed

+137

-83

lines changed

7 files changed

+137

-83

lines changed

`‎CHANGES.rst‎`

Lines changed: 4 additions & 0 deletions

Original file line number	Diff line number	Diff line change
`@@ -46,6 +46,10 @@ Released on XXX`
`46`	`46`
`47`	`47`	`* Drop support of charade, now that chardet is supported once more.`
`48`	`48`
	`49`	`+* **Replace the charset keyword argument on parse and related methods`
	`50`	`+ with a set of keyword arguments: override_encoding, transport_encoding,`
	`51`	`+ same_origin_parent_encoding, likely_encoding, and default_encoding.**`
	`52`	`+`
`49`	`53`
`50`	`54`	`0.9999999/1.0b8`
`51`	`55`	`~~~~~~~~~~~~~~~`

`‎README.rst‎`

Lines changed: 2 additions & 2 deletions

Original file line number	Diff line number	Diff line change
`@@ -51,7 +51,7 @@ pass into html5lib as follows:`
`51`	`51`	`import html5lib`
`52`	`52`
`53`	`53`	`with closing(urlopen("http://example.com/"))as f:`
`54`		`- document= html5lib.parse(f,encoding=f.info().getparam("charset"))`
	`54`	`+ document= html5lib.parse(f,transport_encoding=f.info().getparam("charset"))`
`55`	`55`
`56`	`56`	When using with ``urllib.request`` (Python 3), the charset from HTTP
`57`	`57`	`should be pass into html5lib as follows:`
`@@ -62,7 +62,7 @@ should be pass into html5lib as follows:`
`62`	`62`	`import html5lib`
`63`	`63`
`64`	`64`	`with urlopen("http://example.com/")as f:`
`65`		`- document= html5lib.parse(f,encoding=f.info().get_content_charset())`
	`65`	`+ document= html5lib.parse(f,transport_encoding=f.info().get_content_charset())`
`66`	`66`
`67`	`67`	`To have more control over the parser, create a parser object explicitly.`
`68`	`68`	`For instance, to make the parser raise exceptions on parse errors, use:`

`‎html5lib/html5parser.py‎`

Lines changed: 11 additions & 28 deletions

Original file line number	Diff line number	Diff line change
`@@ -28,19 +28,17 @@`
`28`	`28`	`)`
`29`	`29`
`30`	`30`
`31`		`-defparse(doc,treebuilder="etree",encoding=None,`
`32`		`-namespaceHTMLElements=True,scripting=False):`
	`31`	`+defparse(doc,treebuilder="etree",namespaceHTMLElements=True,**kwargs):`
`33`	`32`	`"""Parse a string or file-like object into a tree"""`
`34`	`33`	`tb=treebuilders.getTreeBuilder(treebuilder)`
`35`	`34`	`p=HTMLParser(tb,namespaceHTMLElements=namespaceHTMLElements)`
`36`		`-returnp.parse(doc,encoding=encoding,scripting=scripting)`
	`35`	`+returnp.parse(doc,**kwargs)`
`37`	`36`
`38`	`37`
`39`		`-defparseFragment(doc,container="div",treebuilder="etree",encoding=None,`
`40`		`-namespaceHTMLElements=True,scripting=False):`
	`38`	`+defparseFragment(doc,container="div",treebuilder="etree",namespaceHTMLElements=True,**kwargs):`
`41`	`39`	`tb=treebuilders.getTreeBuilder(treebuilder)`
`42`	`40`	`p=HTMLParser(tb,namespaceHTMLElements=namespaceHTMLElements)`
`43`		`-returnp.parseFragment(doc,container=container,encoding=encoding,scripting=scripting)`
	`41`	`+returnp.parseFragment(doc,container=container,**kwargs)`
`44`	`42`
`45`	`43`
`46`	`44`	`defmethod_decorator_metaclass(function):`
`@@ -59,18 +57,13 @@ class HTMLParser(object):`
`59`	`57`	`"""HTML parser. Generates a tree structure from a stream of (possibly`
`60`	`58`	`malformed) HTML"""`
`61`	`59`
`62`		`-def__init__(self,tree=None,tokenizer=tokenizer.HTMLTokenizer,`
`63`		`-strict=False,namespaceHTMLElements=True,debug=False):`
	`60`	`+def__init__(self,tree=None,strict=False,namespaceHTMLElements=True,debug=False):`
`64`	`61`	`"""`
`65`	`62`	`strict - raise an exception when a parse error is encountered`
`66`	`63`
`67`	`64`	`tree - a treebuilder class controlling the type of tree that will be`
`68`	`65`	`returned. Built in treebuilders can be accessed through`
`69`	`66`	`html5lib.treebuilders.getTreeBuilder(treeType)`
`70`		`-`
`71`		`- tokenizer - a class that provides a stream of tokens to the treebuilder.`
`72`		`- This may be replaced for e.g. a sanitizer which converts some tags to`
`73`		`- text`
`74`	`67`	`"""`
`75`	`68`
`76`	`69`	`# Raise an exception on the first error encountered`
`@@ -79,22 +72,17 @@ def __init__(self, tree=None, tokenizer=tokenizer.HTMLTokenizer,`
`79`	`72`	`iftreeisNone:`
`80`	`73`	`tree=treebuilders.getTreeBuilder("etree")`
`81`	`74`	`self.tree=tree(namespaceHTMLElements)`
`82`		`-self.tokenizer_class=tokenizer`
`83`	`75`	`self.errors= []`
`84`	`76`
`85`	`77`	`self.phases=dict([(name,cls(self,self.tree))forname,clsin`
`86`	`78`	`getPhases(debug).items()])`
`87`	`79`
`88`		`-def_parse(self,stream,innerHTML=False,container="div",encoding=None,`
`89`		`-parseMeta=True,useChardet=True,scripting=False,**kwargs):`
	`80`	`+def_parse(self,stream,innerHTML=False,container="div",scripting=False,**kwargs):`
`90`	`81`
`91`	`82`	`self.innerHTMLMode=innerHTML`
`92`	`83`	`self.container=container`
`93`	`84`	`self.scripting=scripting`
`94`		`-self.tokenizer=self.tokenizer_class(stream,encoding=encoding,`
`95`		`-parseMeta=parseMeta,`
`96`		`-useChardet=useChardet,`
`97`		`-parser=self,**kwargs)`
	`85`	`+self.tokenizer=tokenizer.HTMLTokenizer(stream,parser=self,**kwargs)`
`98`	`86`	`self.reset()`
`99`	`87`
`100`	`88`	`try:`
`@@ -232,8 +220,7 @@ def normalizedTokens(self):`
`232`	`220`	`fortokeninself.tokenizer:`
`233`	`221`	`yieldself.normalizeToken(token)`
`234`	`222`
`235`		`-defparse(self,stream,encoding=None,parseMeta=True,`
`236`		`-useChardet=True,scripting=False):`
	`223`	`+defparse(self,stream,args,*kwargs):`
`237`	`224`	`"""Parse a HTML document into a well-formed tree`
`238`	`225`
`239`	`226`	`stream - a filelike object or string containing the HTML to be parsed`
`@@ -245,13 +232,10 @@ def parse(self, stream, encoding=None, parseMeta=True,`
`245`	`232`
`246`	`233`	`scripting - treat noscript elements as if javascript was turned on`
`247`	`234`	`"""`
`248`		`-self._parse(stream,innerHTML=False,encoding=encoding,`
`249`		`-parseMeta=parseMeta,useChardet=useChardet,scripting=scripting)`
	`235`	`+self._parse(stream,False,None,args,*kwargs)`
`250`	`236`	`returnself.tree.getDocument()`
`251`	`237`
`252`		`-defparseFragment(self,stream,container="div",encoding=None,`
`253`		`-parseMeta=False,useChardet=True,scripting=False):`
`254`		`-# pylint:disable=unused-argument`
	`238`	`+defparseFragment(self,stream,args,*kwargs):`
`255`	`239`	`"""Parse a HTML fragment into a well-formed tree fragment`
`256`	`240`
`257`	`241`	`container - name of the element we're setting the innerHTML property`
`@@ -266,8 +250,7 @@ def parseFragment(self, stream, container="div", encoding=None,`
`266`	`250`
`267`	`251`	`scripting - treat noscript elements as if javascript was turned on`
`268`	`252`	`"""`
`269`		`-self._parse(stream,True,container=container,`
`270`		`-encoding=encoding,scripting=scripting)`
	`253`	`+self._parse(stream,True,args,*kwargs)`
`271`	`254`	`returnself.tree.getFragment()`
`272`	`255`
`273`	`256`	`defparseError(self,errorcode="XXX-undefined-error",datavars=None):`

`‎html5lib/inputstream.py‎`

Lines changed: 62 additions & 36 deletions

Original file line number	Diff line number	Diff line change
`@@ -128,7 +128,7 @@ def _readFromBuffer(self, bytes):`
`128`	`128`	`returnb"".join(rv)`
`129`	`129`
`130`	`130`
`131`		`-defHTMLInputStream(source,encoding=None,parseMeta=True,chardet=True):`
	`131`	`+defHTMLInputStream(source,**kwargs):`
`132`	`132`	`# Work around Python bug #20007: read(0) closes the connection.`
`133`	`133`	`# http://bugs.python.org/issue20007`
`134`	`134`	`if (isinstance(source,http_client.HTTPResponse)or`
`@@ -142,12 +142,13 @@ def HTMLInputStream(source, encoding=None, parseMeta=True, chardet=True):`
`142`	`142`	`isUnicode=isinstance(source,text_type)`
`143`	`143`
`144`	`144`	`ifisUnicode:`
`145`		`-ifencodingisnotNone:`
`146`		`-raiseTypeError("Cannot explicitly set an encoding with a unicode string")`
	`145`	`+encodings= [xforxinkwargsifx.endswith("_encoding")]`
	`146`	`+ifencodings:`
	`147`	`+raiseTypeError("Cannot set an encoding with a unicode input, set %r"%encodings)`
`147`	`148`
`148`		`-returnHTMLUnicodeInputStream(source)`
	`149`	`+returnHTMLUnicodeInputStream(source,**kwargs)`
`149`	`150`	`else:`
`150`		`-returnHTMLBinaryInputStream(source,encoding,parseMeta,chardet)`
	`151`	`+returnHTMLBinaryInputStream(source,**kwargs)`
`151`	`152`
`152`	`153`
`153`	`154`	`classHTMLUnicodeInputStream(object):`
`@@ -173,8 +174,6 @@ def __init__(self, source):`
`173`	`174`	`regardless of any BOM or later declaration (such as in a meta`
`174`	`175`	`element)`
`175`	`176`
`176`		`- parseMeta - Look for a <meta> element containing encoding information`
`177`		`-`
`178`	`177`	`"""`
`179`	`178`
`180`	`179`	`ifnotutils.supports_lone_surrogates:`
`@@ -390,7 +389,9 @@ class HTMLBinaryInputStream(HTMLUnicodeInputStream):`
`390`	`389`
`391`	`390`	`"""`
`392`	`391`
`393`		`-def__init__(self,source,encoding=None,parseMeta=True,chardet=True):`
	`392`	`+def__init__(self,source,override_encoding=None,transport_encoding=None,`
	`393`	`+same_origin_parent_encoding=None,likely_encoding=None,`
	`394`	`+default_encoding="windows-1252",useChardet=True):`
`394`	`395`	`"""Initialises the HTMLInputStream.`
`395`	`396`
`396`	`397`	`HTMLInputStream(source, [encoding]) -> Normalized stream from source`
`@@ -403,30 +404,29 @@ def __init__(self, source, encoding=None, parseMeta=True, chardet=True):`
`403`	`404`	`regardless of any BOM or later declaration (such as in a meta`
`404`	`405`	`element)`
`405`	`406`
`406`		`- parseMeta - Look for a <meta> element containing encoding information`
`407`		`-`
`408`	`407`	`"""`
`409`	`408`	`# Raw Stream - for unicode objects this will encode to utf-8 and set`
`410`	`409`	`# self.charEncoding as appropriate`
`411`	`410`	`self.rawStream=self.openStream(source)`
`412`	`411`
`413`	`412`	`HTMLUnicodeInputStream.__init__(self,self.rawStream)`
`414`	`413`
`415`		`-self.charEncoding= (lookupEncoding(encoding),"certain")`
`416`		`-`
`417`	`414`	`# Encoding Information`
`418`	`415`	`# Number of bytes to use when looking for a meta element with`
`419`	`416`	`# encoding information`
`420`	`417`	`self.numBytesMeta=1024`
`421`	`418`	`# Number of bytes to use when using detecting encoding using chardet`
`422`	`419`	`self.numBytesChardet=100`
`423`		`-# Encoding to use if no other information can be found`
`424`		`-self.defaultEncoding="windows-1252"`
	`420`	`+# Things from args`
	`421`	`+self.override_encoding=override_encoding`
	`422`	`+self.transport_encoding=transport_encoding`
	`423`	`+self.same_origin_parent_encoding=same_origin_parent_encoding`
	`424`	`+self.likely_encoding=likely_encoding`
	`425`	`+self.default_encoding=default_encoding`
`425`	`426`
`426`		`-# Detect encoding iff no explicit "transport level" encoding is supplied`
`427`		`-if (self.charEncoding[0]isNone):`
`428`		`-self.charEncoding=self.detectEncoding(parseMeta,chardet)`
`429`		`-assertself.charEncoding[0]isnotNone`
	`427`	`+# Determine encoding`
	`428`	`+self.charEncoding=self.determineEncoding(useChardet)`
	`429`	`+assertself.charEncoding[0]isnotNone`
`430`	`430`
`431`	`431`	`# Call superclass`
`432`	`432`	`self.reset()`
`@@ -454,21 +454,45 @@ def openStream(self, source):`
`454`	`454`
`455`	`455`	`returnstream`
`456`	`456`
`457`		`-defdetectEncoding(self,parseMeta=True,chardet=True):`
`458`		`-#First look for a BOM`
	`457`	`+defdetermineEncoding(self,chardet=True):`
	`458`	`+#BOMs take precedence over everything`
`459`	`459`	`# This will also read past the BOM if present`
`460`		`-encoding=self.detectBOM()`
`461`		`-confidence="certain"`
`462`		`-# If there is no BOM need to look for meta elements with encoding`
`463`		`-# information`
`464`		`-ifencodingisNoneandparseMeta:`
`465`		`-encoding=self.detectEncodingMeta()`
`466`		`-confidence="tentative"`
	`460`	`+charEncoding=self.detectBOM(),"certain"`
	`461`	`+ifcharEncoding[0]isnotNone:`
	`462`	`+returncharEncoding`
	`463`	`+`
	`464`	`+# If we've been overriden, we've been overriden`
	`465`	`+charEncoding=lookupEncoding(self.override_encoding),"certain"`
	`466`	`+ifcharEncoding[0]isnotNone:`
	`467`	`+returncharEncoding`
	`468`	`+`
	`469`	`+# Now check the transport layer`
	`470`	`+charEncoding=lookupEncoding(self.transport_encoding),"certain"`
	`471`	`+ifcharEncoding[0]isnotNone:`
	`472`	`+returncharEncoding`
	`473`	`+`
	`474`	`+# Look for meta elements with encoding information`
	`475`	`+charEncoding=self.detectEncodingMeta(),"tentative"`
	`476`	`+ifcharEncoding[0]isnotNone:`
	`477`	`+returncharEncoding`
	`478`	`+`
	`479`	`+# Parent document encoding`
	`480`	`+charEncoding=lookupEncoding(self.same_origin_parent_encoding),"tentative"`
	`481`	`+ifcharEncoding[0]isnotNoneandnotcharEncoding[0].name.startswith("utf-16"):`
	`482`	`+returncharEncoding`
	`483`	`+`
	`484`	`+# "likely" encoding`
	`485`	`+charEncoding=lookupEncoding(self.likely_encoding),"tentative"`
	`486`	`+ifcharEncoding[0]isnotNone:`
	`487`	`+returncharEncoding`
	`488`	`+`
`467`	`489`	`# Guess with chardet, if available`
`468`		`-ifencodingisNoneandchardet:`
`469`		`-confidence="tentative"`
	`490`	`+ifchardet:`
`470`	`491`	`try:`
`471`	`492`	`fromchardet.universaldetectorimportUniversalDetector`
	`493`	`+exceptImportError:`
	`494`	`+pass`
	`495`	`+else:`
`472`	`496`	`buffers= []`
`473`	`497`	`detector=UniversalDetector()`
`474`	`498`	`whilenotdetector.done:`
`@@ -481,14 +505,16 @@ def detectEncoding(self, parseMeta=True, chardet=True):`
`481`	`505`	`detector.close()`
`482`	`506`	`encoding=lookupEncoding(detector.result['encoding'])`
`483`	`507`	`self.rawStream.seek(0)`
`484`		`-exceptImportError:`
`485`		`-pass`
`486`		`-# If all else fails use the default encoding`
`487`		`-ifencodingisNone:`
`488`		`-confidence="tentative"`
`489`		`-encoding=lookupEncoding(self.defaultEncoding)`
	`508`	`+ifencodingisnotNone:`
	`509`	`+returnencoding,"tentative"`
	`510`	`+`
	`511`	`+# Try the default encoding`
	`512`	`+charEncoding=lookupEncoding(self.default_encoding),"tentative"`
	`513`	`+ifcharEncoding[0]isnotNone:`
	`514`	`+returncharEncoding`
`490`	`515`
`491`		`-returnencoding,confidence`
	`516`	`+# Fallback to html5lib's default if even that hasn't worked`
	`517`	`+returnlookupEncoding("windows-1252"),"tentative"`
`492`	`518`
`493`	`519`	`defchangeEncoding(self,newEncoding):`
`494`	`520`	`assertself.charEncoding[1]!="certain"`

`‎html5lib/tests/test_encoding.py‎`

Lines changed: 51 additions & 3 deletions

Original file line number	Diff line number	Diff line change
`@@ -2,6 +2,8 @@`
`2`	`2`
`3`	`3`	`importos`
`4`	`4`
	`5`	`+importpytest`
	`6`	`+`
`5`	`7`	`from .supportimportget_data_files,test_dir,errorMessage,TestDataas_TestData`
`6`	`8`	`fromhtml5libimportHTMLParser,inputstream`
`7`	`9`
`@@ -11,7 +13,7 @@ def test_basic_prescan_length():`
`11`	`13`	`pad=1024-len(data)+1`
`12`	`14`	`data=data.replace(b"-a-",b"-"+ (b"a"*pad)+b"-")`
`13`	`15`	`assertlen(data)==1024# Sanity`
`14`		`-stream=inputstream.HTMLBinaryInputStream(data,chardet=False)`
	`16`	`+stream=inputstream.HTMLBinaryInputStream(data,useChardet=False)`
`15`	`17`	`assert'utf-8'==stream.charEncoding[0].name`
`16`	`18`
`17`	`19`
`@@ -20,14 +22,59 @@ def test_parser_reparse():`
`20`	`22`	`pad=10240-len(data)+1`
`21`	`23`	`data=data.replace(b"-a-",b"-"+ (b"a"*pad)+b"-")`
`22`	`24`	`assertlen(data)==10240# Sanity`
`23`		`-stream=inputstream.HTMLBinaryInputStream(data,chardet=False)`
	`25`	`+stream=inputstream.HTMLBinaryInputStream(data,useChardet=False)`
`24`	`26`	`assert'windows-1252'==stream.charEncoding[0].name`
`25`	`27`	`p=HTMLParser(namespaceHTMLElements=False)`
`26`	`28`	`doc=p.parse(data,useChardet=False)`
`27`	`29`	`assert'utf-8'==p.documentEncoding`
`28`	`30`	`assertdoc.find(".//title").text=="Caf\u00E9"`
`29`	`31`
`30`	`32`
	`33`	`+@pytest.mark.parametrize("expected,data,kwargs", [`
	`34`	`+ ("utf-16le",b"\xFF\xFE", {"override_encoding":"iso-8859-2"}),`
	`35`	`+ ("utf-16be",b"\xFE\xFF", {"override_encoding":"iso-8859-2"}),`
	`36`	`+ ("utf-8",b"\xEF\xBB\xBF", {"override_encoding":"iso-8859-2"}),`
	`37`	`+ ("iso-8859-2",b"", {"override_encoding":"iso-8859-2","transport_encoding":"iso-8859-3"}),`
	`38`	`+ ("iso-8859-2",b"<meta charset=iso-8859-3>", {"transport_encoding":"iso-8859-2"}),`
	`39`	`+ ("iso-8859-2",b"<meta charset=iso-8859-2>", {"same_origin_parent_encoding":"iso-8859-3"}),`
	`40`	`+ ("iso-8859-2",b"", {"same_origin_parent_encoding":"iso-8859-2","likely_encoding":"iso-8859-3"}),`
	`41`	`+ ("iso-8859-2",b"", {"same_origin_parent_encoding":"utf-16","likely_encoding":"iso-8859-2"}),`
	`42`	`+ ("iso-8859-2",b"", {"same_origin_parent_encoding":"utf-16be","likely_encoding":"iso-8859-2"}),`
	`43`	`+ ("iso-8859-2",b"", {"same_origin_parent_encoding":"utf-16le","likely_encoding":"iso-8859-2"}),`
	`44`	`+ ("iso-8859-2",b"", {"likely_encoding":"iso-8859-2","default_encoding":"iso-8859-3"}),`
	`45`	`+ ("iso-8859-2",b"", {"default_encoding":"iso-8859-2"}),`
	`46`	`+ ("windows-1252",b"", {"default_encoding":"totally-bogus-string"}),`
	`47`	`+ ("windows-1252",b"", {}),`
	`48`	`+])`
	`49`	`+deftest_parser_args(expected,data,kwargs):`
	`50`	`+stream=inputstream.HTMLBinaryInputStream(data,useChardet=False,**kwargs)`
	`51`	`+assertexpected==stream.charEncoding[0].name`
	`52`	`+p=HTMLParser()`
	`53`	`+p.parse(data,useChardet=False,**kwargs)`
	`54`	`+assertexpected==p.documentEncoding`
	`55`	`+`
	`56`	`+`
	`57`	`+@pytest.mark.parametrize("kwargs", [`
	`58`	`+ {"override_encoding":"iso-8859-2"},`
	`59`	`+ {"override_encoding":None},`
	`60`	`+ {"transport_encoding":"iso-8859-2"},`
	`61`	`+ {"transport_encoding":None},`
	`62`	`+ {"same_origin_parent_encoding":"iso-8859-2"},`
	`63`	`+ {"same_origin_parent_encoding":None},`
	`64`	`+ {"likely_encoding":"iso-8859-2"},`
	`65`	`+ {"likely_encoding":None},`
	`66`	`+ {"default_encoding":"iso-8859-2"},`
	`67`	`+ {"default_encoding":None},`
	`68`	`+ {"foo_encoding":"iso-8859-2"},`
	`69`	`+ {"foo_encoding":None},`
	`70`	`+])`
	`71`	`+deftest_parser_args_raises(kwargs):`
	`72`	`+withpytest.raises(TypeError)asexc_info:`
	`73`	`+p=HTMLParser()`
	`74`	`+p.parse("",useChardet=False,**kwargs)`
	`75`	`+assertexc_info.value.args[0].startswith("Cannot set an encoding with a unicode input")`
	`76`	`+`
	`77`	`+`
`31`	`78`	`defrunParserEncodingTest(data,encoding):`
`32`	`79`	`p=HTMLParser()`
`33`	`80`	`assertp.documentEncodingisNone`
`@@ -38,7 +85,7 @@ def runParserEncodingTest(data, encoding):`
`38`	`85`
`39`	`86`
`40`	`87`	`defrunPreScanEncodingTest(data,encoding):`
`41`		`-stream=inputstream.HTMLBinaryInputStream(data,chardet=False)`
	`88`	`+stream=inputstream.HTMLBinaryInputStream(data,useChardet=False)`
`42`	`89`	`encoding=encoding.lower().decode("ascii")`
`43`	`90`
`44`	`91`	`# Very crude way to ignore irrelevant tests`
`@@ -55,6 +102,7 @@ def test_encoding():`
`55`	`102`	`yield (runParserEncodingTest,test[b'data'],test[b'encoding'])`
`56`	`103`	`yield (runPreScanEncodingTest,test[b'data'],test[b'encoding'])`
`57`	`104`
	`105`	`+`
`58`	`106`	`# pylint:disable=wrong-import-position`
`59`	`107`	`try:`
`60`	`108`	`importchardet# noqa`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commit699276b

File tree

7 files changed

7 files changed

`‎CHANGES.rst‎`

`‎README.rst‎`

`‎html5lib/html5parser.py‎`

`‎html5lib/inputstream.py‎`

`‎html5lib/tests/test_encoding.py‎`

0 commit comments