iMind Developers Blog

iMind開発者ブログ

2019-03-07から1日間の記事一覧

PySparkで1レコードを複数行にする

概要 PySparkでexplodeやflatMap、mapPartitionsを用いて1レコードを複数レコードに加工する。またgroupByで元の1レコードに戻す。 バージョン情報 spark-2.3.1 Python 3.5.5 サンプルデータ id, title, tagsの3つのカラムを持つcsvファイルがあるとする。ta…