文章詳情頁

JAVA spark創建DataFrame的方法

瀏覽：4日期：2022-08-25 17:52:40

述說正傳，接下來開始說正事。

以前用Python和Scala操作Spark的時候比較多，畢竟Python和Scala代碼寫起來要簡潔很多。

今天一起來看看Java版本怎么創建DataFrame，代碼寫起來其實差不多，畢竟公用同一套API。測試數據可以參考我之前的文章。

先來總結下Spark的一般流程：

1，先創建Spark基礎變量，spark，sc

2，加載數據，rdd.textFile，spark.read.csv/json等

3，數據處理，mapPartition, map，filter，reduce等一系列transformation操作

4，數據保存，saveAstextFile，或者其他DataFrame方法

祭出代碼

package dev.java;import dev.utils.Utils;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.RowFactory;import org.apache.spark.sql.SparkSession;import org.apache.spark.sql.types.StructType;import scala.Tuple2;import java.util.List;public class Spark1 { private static final String fileData = 'seed'; private static final String fileSave = 'result'; private static SparkSession spark = SparkSession.builder().appName('Java-Spark').master('local[*]').config('spark.default.parallelism', 100).config('spark.sql.shuffle.partitions', 100).config('spark.driver.maxResultSize', '3g').getOrCreate(); private static JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext()); public static void main(String[] args) { Utils.delete(fileSave); // t1(); } private static void t1() { JavaRDD<Row> rdd = sc.textFile(fileData).map(v -> { String[] parts = v.split('t'); return RowFactory.create(parts[0], Long.parseLong(parts[1]));}).filter(v -> v.getLong(1) >= 10000).sortBy(v -> v.getLong(1), false, 100).coalesce(2); Dataset<Row> df = spark.createDataFrame(rdd, StructType.fromDDL('title string, qty long')); df.write().csv(fileSave); spark.stop(); }}

以上就是JAVA操作spark創建DataFrame的方法的詳細內容，更多關于JAVA Spark 創建DataFrame的資料請關注好吧啦網其它相關文章！

Java

上一條：Java HashMap實現原理分析（一）下一條：Java NIO異步文件通道原理及用法解析

相關文章：

1. CSS3實例分享之多重背景的實現(Multiple backgrounds)2. XHTML 1.0：標記新的開端3. HTML5 Canvas繪制圖形從入門到精通4. XML解析錯誤：未組織好的解決辦法5. ASP基礎知識VBScript基本元素講解6. asp(vbscript)中自定義函數的默認參數實現代碼7. 詳解CSS偽元素的妙用單標簽之美8. 利用CSS3新特性創建透明邊框三角9. 使用Spry輕松將XML數據顯示到HTML頁的方法10. XML入門的常見問題(四)

排行榜

					
					XML解析錯誤：未組織好 的解決辦法
idea修改背景顏色樣式的方法
IntelliJ IDEA設置自動提示功能快捷鍵的方法
IntelliJ IDEA配置Tomcat服務器的方法
IntelliJ IDEA 統一設置編碼為utf-8編碼的實現
利用CSS3新特性創建透明邊框三角
python selenium 獲取接口數據的實現
php strncmp函數原型源碼分析
CSS3實例分享之多重背景的實現(Multiple backgrounds)
php網絡安全中命令執行漏洞的產生及本質探究
詳解CSS偽元素的妙用單標簽之美