大量のテキストデータがきたー

プログラミングの仕事をやっていると、大量のテキストデータを処理する必要があるかもしれない。
(ソースコードもテキストデータと言える)

例えば10万行ぐらいあるデータの塊の中から、一部を抽出して残りを捨てたい、といったような作業がある。
(ちなみに、1つのファイル100万行というのは個人的に見たことがありません)


では、どうしようか、と考える。
すぐに思いつくのは、

1.手書きで全部入力する(コピペ含む)
2.エディタのマクロ処理を使う
3.perlやrubyなどのスクリプト言語で処理する
4.人に投げる

こんなところでしょうか。
4は半分冗談つもりで書いたのですが、実際にはありえる話です。

なぜなら、特に規則性がほとんどないデータだと誰が作業しても同じぐらいの時間がかかり、それなら暇をしている人や仕事のできない人に回るのです。

実際自分などに回ってきて、心の中でわめくことも多いのですが、性格的にミスが多いし、何より退屈で面白くないのでできれば避けたいところです。

また、4でこのような仕事を投げられる人は、1の方法を使ってやり遂げることが多いのではないでしょうか。

好きなら良いのですが、こういう仕事をしている間はスキルアップは望めなく、毎回似た仕事が回ってくる可能性があります。
循環ゾーンに入ってしまうわけです。


そこで、お勧めは2や3の方法を使うことです。

最初は苦労するし、時間がかかるかもしれない。
1の方法が持つ、時間をかければ確実に進めるという甘い誘惑もあるでしょう。

そこは我慢です。

一度作って試してみると分ると思うのですが、マクロやプログラムなどで大量のデータがコンピュータに処理されていく様子を眺めるのはなかなかに気持が良い体験です。


ただし、必ずこのような自動処理が有効とは限りません。
規則性の無い大量のデータがめぐってきた場合は、嘆くしかありません。


なんてったって、仕事ですからね。


てんと