为什么超文本传输协议分块编码前缀长度小于实际长度

提问者：小点点

为什么超文本传输协议分块编码前缀长度小于实际长度

目前，我正在通过python接收tcp流并分析HTTP数据。我已经在这里学习了如何解码分块数据。我的问题是：当我持有整个HTTP响应并开始解码它时，但是前缀块大小比实际大小要小得多。我会在下面展示：

这是我收到的纯数据：

b'000096F6\r\n<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml" prefix="og: http://opengraphprotocol.org/schema/ fb: http://www.facebook.com/2010/fbml d: http://dictionary.com/2011/dml">\n<head>\n<meta http-equiv="Content-type" content="text/html; charset=utf-8"/>\n<base href="http://dictionary.reference.com/">\n<title>Search | Define Search at Dictionary.com</title>\n<script.....(more data)

您可以看到前缀大小为（十六进制）96F6=38646（字节）

但是如果我用这个算法分割数据：

    encoded = row_data;
    new_data = ""
    while encoded != '':
        off = int(encoded[:encoded.index('\r\n')], 16)
        if off == 0:
            break
        encoded = encoded[encoded.index('\r\n') + 2:]
        new_data = new_data.__add__(encoded[:off])
        encoded = encoded[off + 2:]

    return new_data

我只能得到两个受损的组：

(more data).....<div class="dot dot-left dot-bottom "></

和

v>
<div class="language-name oneClick-disabled">.....(more data)

所以它通过我一个异常，无法在下一个循环中关闭。当我仔细检查响应体时，我得到len（data）是78543，len（data. decode（））是78503，整个响应只有一个块！

然后我尝试了很多网页，他们都有这个问题。

所以，我的问题是：我怎么了？如何正确解码这种类型的数据？感谢可以提供帮助的人！

共1个答案

匿名用户

您的示例代码在https://www.facebook.com/的响应下对我来说运行良好。要获得更容易重现的案例，请尝试Wikipedia文章中的示例：

4\r\n
Wiki\r\n
5\r\n
pedia\r\n
e\r\n
 in\r\n\r\nchunks.\r\n
0\r\n
\r\n

或者，作为Python字符串：

encoded = '4\r\nWiki\r\n5\r\npedia\r\ne\r\n in\r\n\r\nchunks.\r\n0\r\n\r\n'

使用您的代码，这会给出：

Wikipedia in

chunks.

正如预期的那样。

程序中最有可能的两个错误是编码或网络。请注意，块长度是以字节为单位指定的。如果您在任何时候解码或重新编码了row_data，那么您可能没有原始数据。或者，请确保正确连接从套接字读取的数据，而不引入任何虚假空格或换行符。