iMind Developers Blog

iMind開発者ブログ

2019-01-20から1日間の記事一覧

PySparkでXMLファイルの読み書き

概要 WikipediaのXMLファイルをSpark上で読み込んでみたかったので、SparkでのXMLの読み書きについて学習する。 バージョン情報 spark-2.3.1 Python 3.5.5 サンプルデータ 最初からWikipediaのデータを扱うのは怖いので(bzip2で固めて2.6GB)、まずは小さな…