先來(lái)個(gè)簡(jiǎn)單的UDF
場(chǎng)景:
我們有這樣一個(gè)文本文件:
1^^d2^b^d3^c^d4^^d
在讀取數(shù)據(jù)的時(shí)候,第二列的數(shù)據(jù)如果為空,需要顯示'null'
,不為空就直接輸出它的值。定義完成后,就可以直接在SparkSQL中使用了。
代碼為:
package test;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.Row;import org.apache.spark.sql.RowFactory;import org.apache.spark.sql.SQLContext;import org.apache.spark.sql.types.DataTypes;import org.apache.spark.sql.types.StructField;import org.apache.spark.sql.types.StructType;import&