как использовать статистические функции, такие как avg, max и так далее в sparkr

function max average min sparkr

108 просмотра

2 ответа

Я использую SparkR. Теперь у меня проблемы с использованием статистических функций, таких как avg, max и так далее. Во-первых, я читаю файл JSON, например:

> a <- read.df(sqlContext, "/home/fengchen/mine/mydata/try.json", "json")  

Тогда a - это информационный кадр в искре вместо нормального R-информационного кадра. Я пробую некоторые функции из https://spark.apache.org/docs/1.5.1/api/R/ Но когда я использую такие функции, как avg, max, min, я ничего не получаю. На RStudio это показывает как:

> avg(aa$pipelat)
Column avg(pipelat) 

Итак, как я могу показать или узнать значение функций? Кстати, функции, параметры которых являются кадрами, работают нормально, например, agg. Я просто не знаю, как обращаться с функциями, параметрами которых являются столбцы.

Автор: Feng Chen Источник Размещён: 08.11.2019 11:30

Ответы (2)


2 плюса

Решение

head()возвращает только первые строки результирующего DataFrame.
rdf <- collect(sdf)
преобразует распределенный Spark DataFrame в локальный R data.frame, который можно отобразить.

Итак, для примера в вашем втором посте: collect(selectExpr(df,"max(laidyear)","min(type)")) ... вернет результаты для всех значений layyear, а не только для первых 6 строк.

Автор: SpiritusPrana Размещён: 21.08.2016 11:51

0 плюса

Просто получил это. Следующий формат работает.

head(selectExpr(df,"max(laidyear)","min(type)"))
Автор: Feng Chen Размещён: 21.08.2016 05:05
Вопросы из категории :
32x32