Movatterモバイル変換


[0]ホーム

URL:


Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

BytesGenerator breaks UTF8 string #92081

Closed
Assignees
warsaw
Labels
@Yuribtr

Description

@Yuribtr

Hi!
I found an issue when sending emails with Cyrillic letters in Subject header. Some spaces at Subject header are trimmed when sent.

Example:
When sending email with below subject:
Уведомление о принятии в работу обращения

at SMTP server logs I see subject that differs from original:
Уведомление о принятиив работу обращения

  • As you can see, space between words "принятии в" was stripped.

During research I've found that problem relates to small piece of code which encodes EmailMessage instance to byte string.
Python versions tested and problem confirmed: 3.8, 3.9, 3.10

Here is minimal reproducible example. Code can be used "as is", without any third party packages.

Minimal reproducible example
import ioimport email.generatorfrom email.message import EmailMessagefrom email.header import decode_headerdef encode_decode(subject: str):    # preparing EmailMessage    msg = EmailMessage()    msg['Subject'] = subject    # below code sample was taken from "send_message" function (lib/python3.8/smtplib.py)    # this is the place where problem actually appears    with io.BytesIO() as bytesmsg:        g = email.generator.BytesGenerator(bytesmsg)        g.flatten(msg, linesep='\r\n')        flatmsg = bytesmsg.getvalue()    # assembling string and cutting off beginning part ('Subject: ')    result = ''    for string, encoding in decode_header(flatmsg.decode()):        result += string.decode(encoding=encoding or 'utf8')    return result[9:]if __name__ == '__main__':    test_cases = [        'ффффффффффффффффффффффффф',   # ok        'фффффффффффффффффффффффф ',   # ok        'ффффффффффффффффффффффф ф',   # ok        'фффффффффффффффффффффф фф',   # ok        'ффффффффффффффффффффф ф ф',   # broken        'фффффффффффффффффффф фф ф',   # ok        'ффффффффффффффффффф ф ф ф',   # ok        'фффффффффффффффффф ф ф ф ф',  # broken        'ффффффффффффффффф ф фф ф ф',  # broken        'фффффффффффффффф ф ффф ф ф',  # broken        'ффффффффффффффф ф фффф ф ф',  # broken        'фффффффффффффф ф ффффф ф ф',  # broken        'ффффффффффффф ф фффффф ф ф',  # broken        'фффффффффффф ф ффффффф ф ф',  # broken        'ффффффффффф ф фффффффф ф ф',  # broken        'фффффффффф ф ффффффффф ф ф',  # broken        'ффффффффф ф фффффффффф ф ф',  # broken        'фффффффф ф ффффффффффф ф ф',  # broken        'ффффффф ф фффффффффффф ф ф',  # broken        'фффффф ф ффффффффффффф ф ф',  # broken        'ффффф ф фффффффффффффф ф ф',  # broken        'фффф ф ффффффффффффффф ф ф',  # broken        'ффф ф фффффффффффффффф ф ф',  # broken        'фф ф ффффффффффффффффф ф ф',  # broken        'ф ф фффффффффффффффффф ф ф',  # broken        ' ф ффффффффффффффффффф ф ф',  # broken        'ф фффффффффффффффффффф ф ф',  # ok        ' ффффффффффффффффффффф ф ф',  # broken        'фффффффффффффффффффффф ф ф',  # ok    ]    for in_ in test_cases:        out_ = encode_decode(in_)        res = 'ok' if out_ == in_ else 'broken'        print(f'In  | {in_}', f'Out | {out_}', f'Res | {res}\n', sep='\n')

Above code demonstrates inequality of input and output strings after encoding message with BytesGenerator. Please note that not all strings with Cyrillic letters are broken. Only those strings that have word with single Cyrillic char only are affected under some conditions.
Small additional list of string with explanations you can find below:

Additional strings with explanations
# Example 1 - below string will be broken'Уведомление о принятии в работу обращения для подключения услуги',# fixed version (removed one cyrillic UTF8 "и" from word "принятии")'Уведомление о приняти в работу обращения для подключения услуги',# fixed version (changed cyrillic UTF8 letter "о" to ASCII letter "o")'Уведомление o принятии в работу обращения для подключения услуги',## Example 2 - below string will be broken'Уведомление принятии в работу обращения для подключения услуги',# fixed version (removed preposition "в" that consist from single cyrillic UTF8 letter)'Уведомление принятии работу обращения для подключения услуги',# fixed version (changed preposition "в" with cyrillic UTF8 letter to ASCII letter "B")'Уведомление принятии B работу обращения для подключения услуги',

Linked PRs

Metadata

Metadata

Assignees

Labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions


    [8]ページ先頭

    ©2009-2025 Movatter.jp