先來個簡單的UDF

場景:
我們有這樣一個文本文件:

1^^d2^b^d3^c^d4^^d

在讀取數(shù)據(jù)的時候,第二列的數(shù)據(jù)如果為空,需要顯示'null',不為空就直接輸出它的值。定義完成后,就可以直接在SparkSQL中使用了。

代碼為:

package test;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.Row;import org.apache.spark.sql.RowFactory;import org.apache.spark.sql.SQLContext;import org.apache.spark.sql.types.DataTypes;import org.apache.spark.sql.types.StructField;import org.apache.spark.sql.types.StructType;import&
        
		

網(wǎng)友評論