2017年12月21日の記事一覧

pandas + Apache Sparkで並列・分散処理を楽しく~

こんにちは。データサイエンスチームのHan-Cheolです。 この記事は、NHN テコラス DATAHOTEL:確率統計・機械学習・ビッグデータを語る Advent Calendar 2017の21日目の記事になります。 はじめに PandasはPythonを利用したデータ分析で一番よく知られ、使われているツールです。 本記事では、データのサイズが大きく、またデータ分析を行うための前処理作業の計算量が多い時に、PyS…
 
続きを読む