本文分享在Azure Databricks中如何实现行转列和列转行,并介绍对查询的结果进行排序的各种方式。 一,行转列 在分组中,把每个分组中的某一列的数据连接在一起: collect_list:把一……继续阅读 » 2天前 2837浏览 0评论263个赞
Azure Storage Account(存储账户)包含所有Azure Storage的数据对象,包括Blob、Data Lake Gen2,File、Queue、Disk和Table等服务,该St……继续阅读 » 5年前 (2021-04-07) 2291浏览 0评论552个赞
Databricks 文件系统 (DBFS,Databricks File System) 是一个装载到 Azure Databricks 工作区的分布式文件系统,可以在 Azure Databric……继续阅读 » 5年前 (2021-04-01) 3292浏览 0评论1326个赞
对数据分析时,通常需要对数据进行分组,并对每个分组进行聚合运算。在一定意义上,窗口也是一种分组统计的方法。 分组数据 DataFrame.groupBy()返回的是GroupedData类,可以对分组……继续阅读 » 5年前 (2021-04-01) 2605浏览 0评论2785个赞
pyspark中的DataFrame等价于Spark SQL中的一个关系表。在pyspark中,DataFrame由Column和Row构成。 pyspark.sql.SparkSession:是Da……继续阅读 » 5年前 (2021-04-01) 2847浏览 0评论2224个赞
Spark SQL 表的命名方式是db_name.table_name,只有数据库名称和数据表名称。如果没有指定db_name而直接引用table_name,实际上是引用default 数据库下的表。……继续阅读 » 5年前 (2021-03-30) 1885浏览 0评论2925个赞
Spark SQL 支持多种数据类型,并兼容Python、Scala等语言的数据类型。 一,标识符 标识符是一个字符串,用于标识一个数据库对象,比如table、view、schema、column。S……继续阅读 » 5年前 (2021-01-25) 3203浏览 0评论554个赞
DBFS使用dbutils实现存储服务的装载(mount、挂载),用户可以把Azure Data Lake Storage Gen2和Azure Blob Storage 账户装载到DBFS中。Mou……继续阅读 » 5年前 (2021-01-21) 3053浏览 0评论2813个赞