programing

PySpark에서 데이터 프레임의 크기나 모양을 찾는 방법은 무엇입니까?

testmans 2023. 7. 19. 21:14
반응형

PySpark에서 데이터 프레임의 크기나 모양을 찾는 방법은 무엇입니까?

저는 PySpark에 있는 DataFrame의 크기/형상을 알아보고 있습니다.이 기능을 수행할 수 있는 기능이 하나도 없습니다.

Python에서는 다음을 수행할 수 있습니다.

data.shape()

PySpark에도 유사한 기능이 있습니까?이것은 나의 현재 해결책이지만, 나는 요소 하나를 찾고 있습니다.

row_number = data.count()
column_number = len(data.dtypes)

열 수 계산은 이상적이지 않습니다...

받을 수 있습니다.shape포함:

print((df.count(), len(df.columns)))

사용하다df.count()행 수를 가져옵니다.

코드에 추가합니다.

import pyspark
def spark_shape(self):
    return (self.count(), len(self.columns))
pyspark.sql.dataframe.DataFrame.shape = spark_shape

그러면 할 수 있습니다.

>>> df.shape()
(10000, 10)

하지만 당신에게 상기시켜 주세요..count()지속되지 않은 매우 큰 테이블의 경우 속도가 매우 느릴 수 있습니다.

print((df.count(), len(df.columns)))

소규모 데이터셋의 경우 더 쉽습니다.

그러나 데이터 세트가 크면 판다와 화살표를 사용하여 데이터 프레임을 판다와 호출 모양으로 변환하는 것이 대안이 될 수 있습니다.

spark.conf.set("spark.sql.execution.arrow.enabled", "true")
spark.conf.set("spark.sql.crossJoin.enabled", "true")
print(df.toPandas().shape)

비슷한 기능은 없는 것 같습니다.data.shape스파크에서.하지만 나는 사용할 것입니다.len(data.columns)보다는len(data.dtypes)

언급URL : https://stackoverflow.com/questions/39652767/how-to-find-the-size-or-shape-of-a-dataframe-in-pyspark

반응형