如何访问存储在PySpark Dataframe中数组内部深处的项目的集合

我有一个PySparkdataframe- root |-- itemId: string (nullable = true) |-- contents: array (nullable = true) | |-- element: struct (co... 阅读全文

python apache-spark pyspark apache-spark-sql pyspark-dataframes

如何在Pyspark Dataframe的特定行中定位特定列

如何传递'vin等于1 idx'更新列的值 +----------+---------+---+ | vin| vinar|idx| +----------+---------+---+ | wdwer43w| eqr21144| 1| |Ebntyur... 阅读全文

python apache-spark pyspark apache-spark-sql

如何从列表列创建组合的Pysparkdataframe

我目前有一个像这样的pysparkdataframe: +--------------------+ | items| +--------------------+ | [1, 2, 3, 4]| | [1, 5, 7]| | [9, 10]| | ..... 阅读全文

python apache-spark pyspark apache-spark-sql pyspark-dataframes

如何使用pyspark从DataFrame的日期列中提取年份

我最近开始使用Pyspark,我正在尝试在Dataframe的add_date列中提取的不同方式,并创建一个名为A年的新列。 +-------+-------+-----+---------+-----------------+ |show_id| ty... 阅读全文

python dataframe apache-spark pyspark apache-spark-sql

如何使用SQL从一个字符串列中提取多列

我有两列,在收费列中我有不同的费用,如post,neg,transfer,drawer充电等 ref_no charges 001 POSTEX USD 100 B^NEGO USD 200 B^TRAN USD 150 002 POSTEX USD 4... 阅读全文

mysql sql apache-spark apache-spark-sql

如何使用Spark SQL查找串中的重复项

我想在一个字符串中找到重复,我想知道有没有办法我们可以使用Spark SQL找到这一点。下面是我写的查询。 spark.sql("""select case when lower(value) like '%,code,%' or lower(value... 阅读全文

mysql dataframe apache-spark apache-spark-sql

如何在Pyspark中使用两个AWS凭据

我正在阅读使用特定凭据的存储桶中的倍数文件,我需要在其他AWS帐户中的另一个存储桶中写下这些文件。 我正在更改每个函数中的AWS凭据,但是在执行写功能期间,它给了我有关读取函数1的错误,好像凭据已更改,但Spark仍在读取这些文件。 如何解决这个问题? ... 阅读全文

python apache-spark pyspark apache-spark-sql

如何在dataFrame中创建一个新列,其值是从dataframe的其他列中得出的

我有一个具有a b列的dataframe。我想在同一dataframe架中创建另一列的列,该列的值(每行)应为a*b。我怎么做? 我尝试了几个例子,但没有一个正在起作用 short_df['Revenue'] = short_df.(lambda row... 阅读全文

python dataframe pyspark apache-spark-sql