統計でデータを活用!Japan Rに参加して

こんにちは。データサイエンスチーム 山川です。
この記事は、DataScience Advent Calendar の3日目の記事です。

Japan.R2017に参加してしてきました。 Japan.Rは毎年11月~12月頃開催されているR言語の勉強会です。普段R勉強会は日本各地で開催されていますが、この日ばかりは日本中からRユーザーが集まります。2010年から開催されていて、今年は8回目、初回は40人規模だったJapan.Rも5倍ほどになり、R言語の普及度合いを感じさせます(といっても、筆者は今回が初参加ですが)。

なお、LTは一部のみ紹介しています。

 

Boosting R Code Performance

資料はこちら

発表者のKun Ren氏は最近発売された名著「Rプログラミング本格入門」の著者です。

Rは比較されるいろいろな言語と比べると遅いが、そんな中でもパフォーマンスを改善する手段は色々あります。発表の中では
1)まずコーディングして、profvisでプロファイリングする
2)ボトルネックを特定し、その部分を改善する
3)再度プロファイリング。以後2)と3)を繰り返す
という手順が紹介されていました。

サンプル事例を、ローカル環境で試してみると、例えばlm関数をlm.fit関数に置き換えただけで、
処理時間が35.28秒 -> 11.76秒と3倍の高速化が実現したのに驚きました。
データ分析言語(R, Python, Julia) 1年の振り返り

資料はこちら

R言語における1年間の進歩の振り返り、特にtidyverseの周辺にフォーカスされていました。
tidyverseは「Rではじめるデータサイエンス」で詳しく説明されているのでに知名度が上がってきていますが、何しろ機能が多くて把握するのが大変です。なので、こうして注目点を説明していただけるのはありがたかったです。
特に、tidyevalについてよくわかっていなくて、以前からNSEとSEの処理をどうするのかと悩んでいました。
[NSEの処理]enquo()と!!を使う
[SEの処理]rlang::sym()と!!を使う
というレシピを今日から使ってみます。

 

LINE Fukuokaでの分析事例と福岡のR事情

資料のリンク判明次第更新します。

Tokyo.Rのコアメンバーであったdoradora09氏の発表でした。東京から福岡に移住されたので福岡でのデータ分析界隈の生々しい話を伺えました。
勉強会参加者リストをconnpass等から取得して、Cytoscapeで可視化して複数のイベントに参加しているハブ人材を見つける手法は、応用が利きそうです。

 

文章自動生成における手法の一考察

資料はこちら

genericSummary{LSAfun}などで文章の自動生成、自動要約の技術的なハードルは下がっています。
他方で、機械的に処理をすると盗作にあたってしまう可能性があり、適切な言い換えをどうするかが大きな課題です。AIや機械学習に対する法整備の推進を期待します、切に。

 

今年書いた記事から何か発表する

資料はこちら

  1. 賭ケグルイの投票じゃんけんの検証
  2. μ’sとAqoursの人気の差の検証
  3. Aqoursの松浦果南ちゃんのセリフに関する検証

の三本立てでした。スライドやblog記事だけでは伝わってこない、圧倒的な熱量を感じてきました。

 

綺麗なデータと汚いデータ その傾向と対策

資料のリンク判明次第更新します。

tidydataは第三正規化済データとほぼ等しい、という目からうろこの指摘から始まりました。
プログラムを綺麗にするより、データをきれいにするほうがコストパフォーマンスが高いのだが、そのことを理解されないケースもしばしばあるようで、
結論は「汚いデータに出会ったら逃げろ!」でした。

弊社データサイエンスチームは汚いデータにあっても逃げません(宣伝)。

 

トライアスロンと僕

資料はこちら

トライアスロンはスイム、ラン、バイク三種類から成る競技で、gepuro氏が更に順位を上げるにはどうすればよいかを、統計的にアプローチしていました。
「稼ぎのバイク」(資金を積まないとバイクの成績は伸ばしにくい)というのがなんとも世知辛い。

 

もっとRを楽しむ方法を考える

資料のリンク判明次第更新します。

分析環境の保存、履歴管理のパッケージとして{packrat}と{changes}が紹介されていました。Dockerを使うには大げさだが、複数人で分析を行う場合は抑えておくべきスキルだと思いました。

 

トポロジカルデータ解析

資料はこちら

{TDA}パッケージを用いた画像の特徴抽出したり、パーシステント図から分類や、変化点解析を行うなど。聞き手の理解が足りなくて、ついていけませんでしたが、可能性を感じます。

 

RでQR!

資料はこちら

中国ではQRコードで支払いが出来るくらい浸透しているので、QRコードに注目しようというお話で、{qrencoder}パッケージの紹介でした。

 

まとめ

tidyverseによる基礎の充実と、便利なパッケージの安定的な供給。それに最新の分析手法の適宜実装。

初めてRを触ったのは10年以上前なのですが、その頃は不便だったことがほとんど解消されています。

これから統計を、データサイエンスを始める人にとってR言語という選択肢は必ず有力な選択肢の一つになる。そのことを改めて確認した一日でした。

 

AWS利用料$100ドル無料

あなたにおすすめの記事