カラパレメンバーの自己紹介、ワードクラウドで見てみた
はじめに
この記事は Colorful Palette アドベントカレンダー 12/11の記事です。
こんにちは、サーバサイドエンジニアのきたです!
いきなりですが・・・・
弊社はいわゆるオタクがとても多いです。
というのも、Colorful Palette(以下、カラパレと表記します。)が大切にしている考え方の1つに「ユーザーが欲していることを感覚的に理解するために、自分たち自らがオタクであり続ける」があるからです。
詳しくは採用サイトへ!
https://colorfulpalette.co.jp/recruit/
しかし、オタクと一口にいってもいろんなオタクががいます。オタクも多様性の時代ですね。
それをこの会社に来てより一層思うようになりました。
それには、弊社の「自己紹介スライド」が影響しています。
カラパレにジョインするとまず初めに、職種、雇用形態に関わらず自己紹介のスライドをテンプレートにのっとって作っていきます。
項目は下記の5つです。
■名前
■自分の写真
■自己紹介(職歴や学生時代にやっていたことなど)
■好きなもの(コンテンツ・食べ物・趣味など)
■人生を変えた4つの作品
このスライド、決まったフォーマットがあるにも関わらず、個性がよく出てて興味深いんです!
そこで!ようやく今回のテーマに行き着きます。
ドン!!!
「カラパレメンバーの自己紹介、ワードクラウドで見てみた」
いったい何番煎じなの・・・・?という内容なので詳細のソースコードは省いてぐんぐん行きます!
やったこと
Googleスライドからテキストを抽出します。
ここはGASを使ってザバっとスプレッドシートに持ってきます。
一部ノイズとなりそうな見出し部分などはNGでワードとして除外します。
スプレッドシートをテキストファイルとしてローカルマシンに保存します
作成したテキストはPython&MeCabをつかって分かち書きになおしていきます。
英語と違って、日本語は単語と単語の間がくっついています。正常にデータを取るためには一度Mecabで分かち書きに変更する必要があります。
その際、より「最新の日本語」を使って解釈するためにmecab-ipadic-NEologdというMeCab用の辞書を使います。
分かち書きテキストをWordCloudに渡して画像ファイルとして出力します。
この際、ワードクラウド化したくない単語群を定義しておきます。(部署名、会社名、などなど・・・)
そしてできた画像がこちらです!
わかったこと
ゲーム大好き!!!ドン!!!!
アニメも漫画ももちろん好き
映画、音楽も好き
制作しがち
作品たしなみがち
ポケモンはつよい
犬派<猫派
結果、「カラパレの多様なオタク性を示すぜ〜〜」と思って取り組んだのですが、なんだか当たり障りない結果になってしまった気がします・・・!
よく考えるとワードクラウドは「全体の傾向」を見るためのもので、当たり障りなくなるのは当然だったかもしれません・・・!
おわりに
今回始めてテキストマイニングをしてみたのですが、言語処理の奥深さが身にしみる結果となりました・・・・!
ただ、改めてこういう形でカラパレメンバーの自己紹介を紐解くのはなかなか楽しめました!
もっと言語処理の精度を高くする方法はないか見てみたいと思います。
ありがとうございました!
参考
mecab-ipadic-NEologd (https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md)
MeCab( https://taku910.github.io/mecab/ )