spark load modelmodel save 和 load 只能到hdfs吗

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>编程语言 >>spark load modelmodel save 和 load 只能到hdfs吗

spark load modelmodel save 和 load 只能到hdfs吗

来源：蜘蛛抓取(WebSpider) 时间：2016-11-29 09:22 标签： spark streaming hdfs

Latest News
(Aug 28, 2017)
(Jul 11, 2017)
(May 02, 2017)
(Mar 31, 2017)
Built-in Libraries:
Apache Spark& is a fast and general engine for large-scale data processing.
Run programs up to 100x faster than
Hadoop MapReduce in memory, or 10x faster on disk.
Apache Spark has an advanced DAG execution engine that supports acyclic data flow and
in-memory computing.
Logistic regression in Hadoop and Spark
Ease of Use
Write applications quickly in Java, Scala, Python, R.
Spark offers over 80 high-level operators that make it easy to build parallel apps.
And you can use it interactively
from the Scala, Python and R shells.
text_file = spark.textFile("hdfs://...")
text_file.flatMap(lambda&line:&line.split())
&&&&.map(lambda word: (word, 1))
&&&&.reduceByKey(lambda a, b: a+b)
Word count in Spark's Python API
Generality
Combine SQL, streaming, and complex analytics.
Spark powers a stack of libraries including
for machine learning,
You can combine these libraries seamlessly in the same application.
Runs Everywhere
Spark runs on Hadoop, Mesos, standalone, or in the cloud. It can access diverse data sources including HDFS, Cassandra, HBase, and S3.
You can run Spark using its , on , on , or on .
Access data in , , ,
, , and any Hadoop data source.
Spark is used at a wide range of organizations to process large datasets.
You can find example use cases at the
conference, or on the
There are many ways to reach the community:
to ask questions.
In-person events include numerous
for issue tracking.
Contributors
Apache Spark is built by a wide set of developers from over 200 companies.
Since 2009, more than 1000 developers have contributed to Spark!
The project's
come from 19 organizations.
If you'd like to participate in Spark, or contribute to the libraries on top of it, learn
Getting Started
Learning Spark is easy whether you come from a Java or Python background:
the latest release & you can run Spark locally on your laptop.
Read the .
Spark Summit 2014 contained free .
Learn how to
Spark on a cluster.
Apache Spark, Spark, Apache, and the Spark logo are匿名用户不能发表回复！|
每天回帖即可获得10分可用分！小技巧：
你还可以输入10000个字符
(Ctrl+Enter)
请遵守CSDN，不得违反国家法律法规。
转载文章请注明出自“CSDN（www.csdn.net）”。如是商业用途请联系原作者。拒绝访问 |
| 百度云加速
请打开cookies.
此网站 () 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(39f71def506f4394-ua98).
重新安装浏览器，或使用别的浏览器Intellj IDEA +SBT
+ Scala + Spark Sql读取HDFS数据 - 有任何问题请关注公众号留言:
我是攻城师（woshigcs） - ITeye博客
博客分类：
前提Spark集群已经搭建完毕,如果不知道怎么搭建，请参考这个链接：
注意提交作业，需要使用sbt打包成一个jar，然后在主任务里面添加jar包的路径远程提交即可，无须到远程集群上执行测试，本次测试使用的是Spark的Standalone方式
sbt依赖如下：
name := "spark-hello"
version := "1.0"
scalaVersion := "2.11.7"
//使用公司的私服
resolvers += "Local Maven Repository" at "http://dev.:8083/nexus/content/groups/public/"
//使用内部仓储
externalResolvers := Resolver.withDefaultResolvers(resolvers.value, mavenCentral = false)
//Hadoop的依赖
libraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.7.1"
//Spark的依赖
libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "1.4.1"
//Spark SQL 依赖
libraryDependencies += "org.apache.spark" % "spark-sql_2.11" % "1.4.1"
//java servlet 依赖
libraryDependencies += "javax.servlet" % "javax.servlet-api" % "3.0.1"
demo1：使用Scala读取HDFS的数据：
* Spark读取来自HDFS的数据
def readDataFromHDFS(): Unit ={
//以standalone方式运行,提交到远程的spark集群上面
val conf = new SparkConf().setMaster("spark://h1:7077").setAppName("load hdfs data")
conf.setJars(Seq(jarPaths));
//得到一个Sprak上下文
val sc = new SparkContext(conf)
val textFile=sc.textFile("hdfs://h1:8020/user/webmaster/crawldb/etl_monitor/part-m-00000")
//获取第一条数据
//val data=textFile.first()
// println(data)
//遍历打印
* collect() 方法游标方式迭代收集每行数据
取前topN条数据
* foreach() 迭代打印
textFile.collect().take(5).foreach( line =& println(line) )
//关闭资源
}
demo2：使用Scala 在客户端造数据，测试Spark Sql：
def mappingLocalSQL1() {
val conf = new SparkConf().setMaster("spark://h1:7077").setAppName("hdfs data count")
conf.setJars(Seq(jarPaths));
val sc = new SparkContext(conf)
val sqlContext=new SQLContext(sc);
//导入隐式sql的schema转换
import sqlContext.implicits._
val df = sc.parallelize((1 to 100).map(i =& Record(i, s"val_$i"))).toDF()
df.registerTempTable("records")
println("Result of SELECT *:")
sqlContext.sql("SELECT * FROM records").collect().foreach(println)
//聚合查询
val count = sqlContext.sql("SELECT COUNT(*) FROM records").collect().head.getLong(0)
println(s"COUNT(*): $count")
Spark SQL 映射实体类的方式读取HDFS方式和字段，注意在Scala的Objcet最上面有个case 类定义，一定要放在
这里，不然会出问题：
demo2：使用Scala 远程读取HDFS文件，并映射成Spark表，以Spark Sql方式，读取top10：
val jarPaths="target/scala-2.11/spark-hello_2.11-1.0.jar"
/**Spark SQL映射的到实体类的方式**/
def mapSQL2(): Unit ={
//使用一个类，参数都是可选类型,如果没有值，就默认为NULL
//SparkConf指定master和任务名
val conf = new SparkConf().setMaster("spark://h1:7077").setAppName("spark sql query hdfs file")
//设置上传需要jar包
conf.setJars(Seq(jarPaths));
//获取Spark上下文
val sc = new SparkContext(conf)
//得到SQL上下文
val sqlContext=new SQLContext(sc);
//必须导入此行代码，才能隐式转换成表格
import sqlContext.implicits._
//读取一个hdfs上的文件，并根据某个分隔符split成数组
//然后根据长度映射成对应字段值，并处理数组越界问题
val model=sc.textFile("hdfs://h1:8020/user/webmaster/crawldb/etl_monitor/part-m-00000").map(_.split("\1"))
.map( p =&
( if (p.length==4) Model(Some(p(0)), Some(p(1)), Some(p(2)), Some(p(3).toLong))
else if (p.length==3) Model(Some(p(0)), Some(p(1)), Some(p(2)),None)
else if (p.length==2) Model(Some(p(0)), Some(p(1)),None,None)
Model( Some(p(0)),None,None,None )
)).toDF()//转换成DF
//注册临时表
model.registerTempTable("monitor")
//执行sql查询
val it = sqlContext.sql("SELECT rowkey,title,dtime FROM monitor
limit 10 ")
val it = sqlContext.sql("SELECT rowkey,title,dtime FROM monitor WHERE title IS
NULL AND dtime IS NOT NULL
println("开始")
it.collect().take(8).foreach(line =& println(line))
println("结束")
sc.stop();
}
在IDEA的控制台，可以输出如下结果：
最后欢迎大家扫码关注微信公众号：我是攻城师(woshigcs)，我们一起学习，进步和交流!（woshigcs）
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享，也是一个温馨的技术互动交流的小家园，有什么问题随时都可以留言，欢迎大家来访！
qindongliang1922
浏览: 1041020 次
来自: 北京
浏览量：90021
浏览量：86024
浏览量：39054
浏览量：35099
有没有demo了，介绍了这么多还是不知道怎么用和优势
内容非常不错，就是字体能修改一下就好了
楼主，请教个问题，文中提到的“索引两个字段，一个分词，一个不分 ...
向您请教，采用第二种方式启动Web项目，如何设置log，而不至 ...
非阻塞的举例不恰当

spark load modelmodel save 和 load 只能到hdfs吗

我要回帖

更多关于 spark streaming hdfs 的文章

随机推荐