ツイート履歴からワードクラウドを作る
凄く今更感があるけど、自分のツイートデータでワードクラウドを作った
ダウンロードの仕方&入手できるデータについては、
以下を参考されたし
Twitterの新機能「全ツイート履歴をダウンロード」を使ってみた - Logic Delight
ツイートは、csvとjsonの2形式でアクセス可能だが、それぞれ面倒事がある
csv形式は、1ファイルに全データが収められているが、
カンマが混じってる場合の処理に注意する必要がある
json形式は、利用しやすいが月ごとにファイルが分かれており、
ファイルの文頭に余分な文字列が入っているので、読み込み時に面倒
やったこととしては、
だけなので、省略
以下できたもの
とりあえず、「ワキガ」は「Wake Up Girls!」を指しているので、
僕自身の腋とは関係がないとだけ言っておきたい
この記事を書いてる途中で思ったけど、
IDやurlの除去してないですね・・・
後、形態素の切り分けが非常に難しい
今はMeCabで解析してるけど、kuromojiとか使ったほうがいいのかしら
(普段英語テキストを使うことが多いので、その辺疎い)
色々考えた結果、yahooの キーフレーズ抽出API を使えばいいんじゃね?となった
ということで、多分次はキーフレーズ抽出をしてみたいと思う