如何在Pyspark中使用两个AWS凭据

我正在阅读使用特定凭据的存储桶中的倍数文件,我需要在其他AWS帐户中的另一个存储桶中写下这些文件。 我正在更改每个函数中的AWS凭据,但是在执行写功能期间,它给了我有关读取函数1的错误,好像凭据已更改,但Spark仍在读取这些文件。 如何解决这个问题? ... 阅读全文

python apache-spark pyspark apache-spark-sql

如何使用jupyter笔记本在Pyspark查询中传递日期参数

我想在jupyter笔记本中的以下查询中传递日期参数,但它的作用不如下文所述。不知道问题在哪里。 filedate = '2022-11-15' query = """(select * from db.xyz where name = 'Tom' an... 阅读全文

python pyspark jdbc

如何从03MAR23格式转换为Python中的yyyy-mm-dd

我想从03feb23格式转换为python中的yyyy-mm-dd 我该怎么做? 使用以下代码: from pyspark.sql.functions import * df=spark.createDataFrame([["1"]],["id"]) d... 阅读全文

python dataframe pyspark

在Pyspark中消失的数据:如何使其停止消失

我的pyspark脚本有问题。我的任务基本上是 将数据从MySQL数据库导入Pyspark。 进行一些转变 将转换的数据写回MySQL数据库 我无法向您展示完整的代码,但我可以向您展示基本上的样子。 # load the SparkSession con... 阅读全文

python mysql apache-spark pyspark

一定时间后,如何将文件从Azure ADLS修改为Pyspark DataFrame

加载last_modified在Pyspark中过滤的文件 你好! 您如何看待从Azure ADLS(实际上,文件系统并不重要)加载到DF ONLI文件后修改后的DF ONLI文件的最佳方法是什么? 是否有input_file_name()这样的功能,但... 阅读全文

python pyspark databricks azure-data-lake

如何与Spark连接到MongoDB

当我尝试加载数据时,我会收到此消息 PY4JJAVAERROR:调用O172.LOAD时发生错误。 :java.lang.classnotfoundexception:无法找到数据来源:com.mongodb.spark.sql.defaultsourc... 阅读全文

python mongodb pyspark bigdata

如何在dataFrame中创建一个新列,其值是从dataframe的其他列中得出的

我有一个具有a b列的dataframe。我想在同一dataframe架中创建另一列的列,该列的值(每行)应为a*b。我怎么做? 我尝试了几个例子,但没有一个正在起作用 short_df['Revenue'] = short_df.(lambda row... 阅读全文

python dataframe pyspark apache-spark-sql