在正常调用过程中难免需要对哆个文件夹下的多个文件进行读取,然而之前只是明确了具备读取多个文件的能力
针对多个文件夹下的多个文件,以前的做法是先进行攵件夹的遍历然后再进行各个文件夹目录的读取。
今天在做的时候居然发现spark原生就支持这样的能力。
原理也非常简单就是textFile功能。编寫这样的代码读取上次输出的多个结果,由于RDD保存结果都是保存为一个文件夹而多个相关联RDD的结果就是多个文件夹。
经过测试可以實现对多个相关联RDD保存结果的一次性读取。
在Python环境下写一个HTTP客户端发送POST请求,同时上传表单数据和文件我们可以使用Requests模块来实现。代码如下:
如果需要用户权限可以使用requests.session()客户端,先登录获得cookies然后再发送post请求。
该方法只适用于上传小文件上传大文件的时候就需要用到流式上传,否则占用主机内存太多参考文档。