大量のデータを処理するときに思ったこと

<仕事内容>
1650件のエクセル上にあるお店のデータをshop_id、mondayからsundayと国立記念日、open_hourとopen_minute同様にcloseも合わせてそしてlunch_timeがやっているかをtrueとfalseを使ってデータを貼っていく。一つのレコードで完結する場合(毎日一定の時間でやっていて休日やランチタイムの有無だけ)は1つのレコードで終わるが、例えば月曜から水曜は何時から何時までやっていて他の曜日は違う時間帯にやっているなんていう場合はその分岐点の数に合わせてレコードを複数作成する必要がある。以下参照。


<効率のよいやり方>
データの特徴を読んでそれを正規表現で条件文として書き記してあげる。その条件に一致したレコードを全て洗い出して全てエクセルに記入していく。正規表現がより正確なほど自分が欲しいデータがとれ効率的だが、条件文が曖昧だとデータに漏れが出てしまう可能性がある。←俺がこれに陥ってめっちゃ苦労してた。

<反省と課題>
ある程度正規表現が出来るマスターの人は一つのもれなくレコードを捕まえてきて共通するものと例外を綺麗に分けて、共通するものはsublimetextの力を借りて一気にペーストだけすれば仕事が早く回る。例外は人力でやるにしても数がたかがしれているからね。ただ俺みたいな正規表現習いたてのペーペーがプロみたいに正規表現だけに頼って曖昧な条件文でデータを絞っていくとどうしても漏れが出てしまう。つまりプロみたいに正規表現をかけて絞ったデータに更に正規表現をかけて…と繰り返すといづれ「あれっデータこれで全部だっけ?」と不安になって結局人力で確かめるハメになる。ちなみに俺はそうなった。。なので初心者の方々は元のデータに対して一回正規表現をかけて絞ってきたレコードを全て記入し、記入し終わったレコードを全て消してから新しい正規表現をかけてまたレコードを絞ってという繰り返しをしたほうがかえって効率的だったりする。