スラッシュドット・ジャパン: 「東日本大震災ビッグデータワークショップ」に寄せられたデータの桁数 ~ 文字データだと量は少ないなぁ!

スラッシュドット・ジャパン: 「東日本大震災ビッグデータワークショップ」に寄せられたデータの桁数.

記事によると、ワークショップに

「東日本大震災発生から1週間の間に実際に発生したデータ」が提供されたそうだ。
(中略)
■ゼンリンデータコム:GPS付き携帯電話などで集計した、地域ごとの人口や混雑統計データ。3月8日から17日まで(1.8ギガバイト)
■ツイッタージャパン:震災後1週間分の全ての日本語ツイート(32ギガバイト)
■ウェザーニューズ:3月11日から4月29日までに一般から送られた被害やライフライン情報など(10メガバイト)
(中略)
ゼンリンが辛うじてギガの桁のデータを扱っているが、他はメガ単位で終わっているということか。ビッグデータといっても、日本の商業利用や応用技術の進展は、まさしく桁違いに終わるのだろうか。

ということで、ちっとも「ビッグ」データでないじゃないか、という話。  文字データを拾うと、少なくなるかもね。 日々何万ツイートと言ったところで、1ツイートはせいぜい140文字だしね。 蓄積されてこそ「ビッグ」なのだろうか。 ということは、ストリームプロセシングなんて、要るのか?

日々

Posted by yamanouc