Azure Storage Account(存储账户)包含所有Azure Storage的数据对象,包括Blob、Data Lake Gen2,File、Queue、Disk和Table等服务,该St……继续阅读 » 4年前 (2021-04-07) 2653浏览 0评论2165个赞
Databricks 文件系统 (DBFS,Databricks File System) 是一个装载到 Azure Databricks 工作区的分布式文件系统,可以在 Azure Databric……继续阅读 » 4年前 (2021-04-01) 3053浏览 0评论478个赞
对数据分析时,通常需要对数据进行分组,并对每个分组进行聚合运算。在一定意义上,窗口也是一种分组统计的方法。 分组数据 DataFrame.groupBy()返回的是GroupedData类,可以对分组……继续阅读 » 4年前 (2021-04-01) 1498浏览 0评论2755个赞
pyspark中的DataFrame等价于Spark SQL中的一个关系表。在pyspark中,DataFrame由Column和Row构成。 pyspark.sql.SparkSession:是Da……继续阅读 » 4年前 (2021-04-01) 2991浏览 0评论2942个赞
Spark SQL 表的命名方式是db_name.table_name,只有数据库名称和数据表名称。如果没有指定db_name而直接引用table_name,实际上是引用default 数据库下的表。……继续阅读 » 4年前 (2021-03-30) 1987浏览 0评论951个赞
Spark SQL 支持多种数据类型,并兼容Python、Scala等语言的数据类型。 一,标识符 标识符是一个字符串,用于标识一个数据库对象,比如table、view、schema、column。S……继续阅读 » 4年前 (2021-01-25) 1820浏览 0评论1909个赞
DBFS使用dbutils实现存储服务的装载(mount、挂载),用户可以把Azure Data Lake Storage Gen2和Azure Blob Storage 账户装载到DBFS中。Mou……继续阅读 » 4年前 (2021-01-21) 2061浏览 0评论1680个赞