반응형
PySpark에서 데이터 프레임의 크기나 모양을 찾는 방법은 무엇입니까?
저는 PySpark에 있는 DataFrame의 크기/형상을 알아보고 있습니다.이 기능을 수행할 수 있는 기능이 하나도 없습니다.
Python에서는 다음을 수행할 수 있습니다.
data.shape()
PySpark에도 유사한 기능이 있습니까?이것은 나의 현재 해결책이지만, 나는 요소 하나를 찾고 있습니다.
row_number = data.count()
column_number = len(data.dtypes)
열 수 계산은 이상적이지 않습니다...
받을 수 있습니다.shape
포함:
print((df.count(), len(df.columns)))
사용하다df.count()
행 수를 가져옵니다.
코드에 추가합니다.
import pyspark
def spark_shape(self):
return (self.count(), len(self.columns))
pyspark.sql.dataframe.DataFrame.shape = spark_shape
그러면 할 수 있습니다.
>>> df.shape()
(10000, 10)
하지만 당신에게 상기시켜 주세요..count()
지속되지 않은 매우 큰 테이블의 경우 속도가 매우 느릴 수 있습니다.
print((df.count(), len(df.columns)))
소규모 데이터셋의 경우 더 쉽습니다.
그러나 데이터 세트가 크면 판다와 화살표를 사용하여 데이터 프레임을 판다와 호출 모양으로 변환하는 것이 대안이 될 수 있습니다.
spark.conf.set("spark.sql.execution.arrow.enabled", "true")
spark.conf.set("spark.sql.crossJoin.enabled", "true")
print(df.toPandas().shape)
비슷한 기능은 없는 것 같습니다.data.shape
스파크에서.하지만 나는 사용할 것입니다.len(data.columns)
보다는len(data.dtypes)
언급URL : https://stackoverflow.com/questions/39652767/how-to-find-the-size-or-shape-of-a-dataframe-in-pyspark
반응형
'programing' 카테고리의 다른 글
플라스크에서 응답 헤더를 설정하려면 어떻게 해야 합니까? (0) | 2023.07.19 |
---|---|
양식을 변경할 수 있습니까?인증 쿠키 이름? (0) | 2023.07.19 |
정확히 sklearn.pipeline입니다.파이프라인? (0) | 2023.07.19 |
한 커밋이 다른 커밋의 하위인지 확인하려면 어떻게 해야 합니까? (0) | 2023.07.19 |
팬더 그림에서 x축 눈금 레이블을 회전하는 방법 (0) | 2023.07.19 |