Flink SQL 中TableFunction运用分析

电子工程世界
2019-12-01 16:51:47 2

+关注

Flink SQL 中 TableFunction 的应用分析

本文介绍了如何在 Flink Table/SQL 中自定义一个表函数（TableFunction），包括其基本用法及源码分析。

基本应用

表函数（TableFunction）与标量函数（ScalarFunction）不同，它是一种一对多的关系。通常用于实现列转行的操作。通过一个实际案例来说明其用法：终端设备上报数据，数据类型包括温度、耗电量等，上报方式是多条数据。我们需要将这些数据转换成特定的格式。

假设原始数据如下：

{ "devid": "dev01", "time": 1574944573000, "data": [ { "type": "temperature", "value": "10" }, { "type": "battery", "value": "1" } ] }

目标数据格式如下：

dev01, 1574944573000, temperature, 10 dev01, 1574944573000, battery, 1

为了实现这一功能，我们编写了一个名为 MyUDTF 的类，继承自 TableFunction，并在其中实现了 eval 方法。该方法用于处理数据并将其转换为多行多列的形式。

```java public class MyUDTF extends TableFunction {

public void eval(String s) {
    JSONArray jsonArray = JSONArray.parseArray(s);
    for (int i = 0; i < jsonArray.size(); i++) {
        JSONObject jsonObject = jsonArray.getJSONObject(i);
        String type = jsonObject.getString("type");
        String value = jsonObject.getString("value");
        collector.collect(Row.of(type, value));
    }
}

@Override
public TypeInformation getResultType() {
    return Types.ROW(Types.STRING(), Types.STRING());
}

} ```

在 MyUDTF 类中，我们重写了 eval 方法来处理输入的 JSON 数据，并使用 collector 对象将处理后的数据发送出去。此外，我们还重写了 getResultType 方法来指定返回的数据类型。

示例代码

下面是一个完整的示例代码，展示了如何注册和使用自定义的表函数 MyUDTF：

```scala def main(args: Array[String]): Unit = { val env = StreamExecutionEnvironment.getExecutionEnvironment val tabEnv = TableEnvironment.getTableEnvironment(env) tabEnv.registerFunction("udtf", new MyUDTF)

val kafkaConfig = new Properties()
kafkaConfig.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092")
kafkaConfig.put(ConsumerConfig.GROUP_ID_CONFIG, "test1")

val consumer = new FlinkKafkaConsumer[String]("topic1", new SimpleStringSchema(), kafkaConfig)
val ds: DataStream[(String, Long, String)] = env.addSource(consumer)
    .map(x => {
        val obj = JSON.parseObject(x, classOf[RawData])
        Tuple3(obj.devId, obj.time, obj.data)
    })

tabEnv.registerDataStream("tbl1", ds, 'devId, 'time, 'data)
val rsTab = tabEnv.sqlQuery("SELECT devId, `time`, `type`, `value` FROM tbl1, LATERAL TABLE(udtf(data)) AS t(`type`, `value`) ")
rsTab.writeToSink(new PaulRetractStreamTableSink)
env.execute()

} ```