阅读(13.9k) 书签 (0)

TensorFlow函数:tf.string_split

2018-03-21 13:47 更新

tf.string_split函数

tf.string_split(
    source,
    delimiter=' ',
    skip_empty=True
)

定义在:tensorflow/python/ops/string_ops.py.

参见指南:字符串操作>拆分

将基于 delimiter 的 source 的元素拆分为 SparseTensor.

设 N 是源的大小(通常 N 将是批量大小).将基于 delimiter 的 source 的元素拆分,并返回一个包含分割标记的 SparseTensor.空标记被忽略.

如果 delimiter 是一个空字符串,则该 source 中的每个元素被分割成单独的字符串,每个字符串包含一个字节.这包括拆分 UTF-8 的多字节序列.如果分隔符包含多个字节,则将其视为一组分隔符,每个分隔符都被视为潜在的分割点.

例如:N = 2,source [0] 是 'hello world',source [1] 是'ab c',那么输出将是:

st.indices = [0, 0; 0, 1; 1, 0; 1, 1; 1, 2] st.shape = [2, 3] st.values = ['hello', 'world', 'a', 'b', 'c']

函数参数:

  • source:1-D 字符串 Tensor,要分割的字符串.
  • delimiter:0-D 字符串 Tensor,分隔符,字符串应该是长度为 0 或 1.
  • skip_empty:一个 bool;如果为 True,则从结果中跳过空字符串.

函数返回值:

tf.string_split函数返回一个秩为 2 的 SparseTensor,字符串根据分隔符拆分.索引的第一列对应于 source 中行的内容,第二列对应于此行中拆分组件的索引.

可能引发的异常:

  • ValueError:如果分隔符(delimiter)不是字符串.