うまい飯食いたい

うまい飯食えるようにガンバリマス

ツイート履歴からワードクラウドを作る

凄く今更感があるけど、自分のツイートデータでワードクラウドを作った

 

ダウンロードの仕方&入手できるデータについては、

以下を参考されたし

Twitterの新機能「全ツイート履歴をダウンロード」を使ってみた - Logic Delight

 

ツイートは、csvjsonの2形式でアクセス可能だが、それぞれ面倒事がある

csv形式は、1ファイルに全データが収められているが、

カンマが混じってる場合の処理に注意する必要がある

json形式は、利用しやすいが月ごとにファイルが分かれており、

ファイルの文頭に余分な文字列が入っているので、読み込み時に面倒

 

やったこととしては、

だけなので、省略

以下できたもの

 

f:id:calderarie:20150403185303p:plain

 

とりあえず、「ワキガ」は「Wake Up Girls!」を指しているので、

僕自身の腋とは関係がないとだけ言っておきたい

 

この記事を書いてる途中で思ったけど、

IDやurlの除去してないですね・・・

 

後、形態素の切り分けが非常に難しい

今はMeCabで解析してるけど、kuromojiとか使ったほうがいいのかしら

(普段英語テキストを使うことが多いので、その辺疎い)

 

色々考えた結果、yahooの キーフレーズ抽出API を使えばいいんじゃね?となった

ということで、多分次はキーフレーズ抽出をしてみたいと思う