将pandas.DataFrame转换为字节
问题内容:
我需要将存储在中的数据pandas.DataFrame
转换为字节字符串,其中每列可以具有单独的数据类型(整数或浮点数)。这是一组简单的数据:
df = pd.DataFrame([ 10, 15, 20], dtype='u1', columns=['a'])
df['b'] = np.array([np.iinfo('u8').max, 230498234019, 32094812309], dtype='u8')
df['c'] = np.array([1.324e10, 3.14159, 234.1341], dtype='f8')
df看起来像这样:
a b c
0 10 18446744073709551615 1.324000e+10
1 15 230498234019 3.141590e+00
2 20 32094812309 2.341341e+02
在DataFrame
对各类型列的都知道df.dtypes
,所以我想这样做:
data_to_pack = [tuple(record) for _, record in df.iterrows()]
data_array = np.array(data_to_pack, dtype=zip(df.columns, df.dtypes))
data_bytes = data_array.tostring()
这通常可以正常工作,但是在这种情况下(由于存储在中的最大值),df['b'][0]
上述第二行将元组数组转换为np.array
具有给定类型集的元组会导致以下错误:
OverflowError: Python int too large to convert to C long
错误结果(我相信)在第一行中,该错误将记录提取为Series
单一数据类型(默认为float64
),并且float64
为最大值选择的表示形式uint64
无法直接转换回uint64
。
1)既然DataFrame
已经知道每一列的类型,有没有一种方法来创建一个元组行以输入到类型化numpy.array
构造函数中?还是有比上面概述的方法更好的方法来保存此类转换中的类型信息?
2)有没有一种方法可以DataFrame
使用每一列的类型信息直接跳转到表示数据的字节字符串。
问题答案:
您可以使用df.to_records()
将数据帧转换为numpy数组,然后调用.tostring()
将其转换为字节字符串:
rec = df.to_records(index=False)
print(repr(rec))
# rec.array([(10, 18446744073709551615, 13240000000.0), (15, 230498234019, 3.14159),
# (20, 32094812309, 234.1341)],
# dtype=[('a', '|u1'), ('b', '<u8'), ('c', '<f8')])
s = rec.tostring()
rec2 = np.fromstring(s, rec.dtype)
print(np.all(rec2 == rec))
# True