spark 读取 tfrecord文件，解析tf.train.Feature(bytes_list=tf.train.BytesList(np.array(feature, dtype=np.float32).tobytes())) 文件字节码异常

1. 如下图所示：用spark直接去读取tfrecord数据，string类型的字段可以直接读取，但是adc_traj等numpy.array的数据会是乱码的形式。
<img width="632" alt="image" src="https://user-images.githubusercontent.com/15085946/165214322-b013cf40-9f92-4aca-b439-17d9a9a81485.png">
2. 原因是spark加载tfrecord数据的时候，会默认把bytes类型的数据转成str，目前不清楚字符编码。而adc_traj存储的时候是用tf.train.Feature(bytes_list=tf.train.BytesList(np.array(feature, dtype=np.float32).tobytes()))方式存储的。
3. 用 np.frombuffer(str_y., dtype=np.float32)去解析数据
数据还是会报错：
ValueError: buffer size must be a multiple of element size

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

spark 读取 tfrecord文件，解析tf.train.Feature(bytes_list=tf.train.BytesList(np.array(feature, dtype=np.float32).tobytes())) 文件字节码异常 #48

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

spark 读取 tfrecord文件，解析tf.train.Feature(bytes_list=tf.train.BytesList(np.array(feature, dtype=np.float32).tobytes())) 文件字节码异常 #48

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions