データベースから一覧表形式でデータを取り出すときに、カンマ区切りテキスト(csv)形式を使うことが多い。csvはテキストデータだからパソコンでもタブレットでもスマホでもとりあえずテキストファイルが開ける環境さえあれば中を見ることができるし、csvを適切に読み込んで一覧表形式で扱えるソフトも非常に多いから、一覧表形式のデータをやり取りするのに最も汎用性が高い形式のひとつとして古くから使われ続けている。
一覧表形式のデータといえばパソコンではEXCELが事実上の標準ソフト。Windowsパソコンだとcsvファイルをダブルクリックすればほぼ間違いなくEXCELが起動する。
ところがEXCELはありがた迷惑なお節介機能が満載で、データ作成者の意図をまったく無視した勝手な解釈でcsvファイルを開く。
csv・・・・カンマ・セパレーテッド・バリューズ(カンマで区切った値たち)の頭文字でcsv。次のような文字データです。
“姓”,”名”,”国”,”年齢”
“久光”,”一誠”,”日本”,”44″
“田中”,”一郎”,”日本”,”39″
“鈴木”,”太郎”,”日本”,”50″
“バラカン”,”ピーター”,”イギリス”,”61″
“ジョン”,”万次郎”,”日本”,”187″
列をカンマで区切って、行を改行で表わすテキストファイル(テキストファイルだけど拡張子は.txtじゃなくて.csv)。テキストファイルだからメモ帳でもワードパットでも開いてデータを確認できる。EXCELで開けばカンマや改行でセルに分けられた一覧表になるし、EXCEL以外の類似したソフトでも一覧表形式で開くことができる。
システム開発でデータのダウンロード機能が求められると汎用形式であるcsv形式でダウンロードできるように設計することが多いんだが、いろんな場面で『EXCELで開けない!』『EXCELで開いたら変なデータになってる!』という抗議を受けることになる。
例えば3つの数字をハイフンでつないで作られるコードがあったとする。私に身近な例だと化学物質識別コードの「CAS No.」
“物質名”,”CAS登録番号”
“炭酸エチレン”,”96-49-1″
“エチルPABA”,”94-09-7″
“アジピン酸”,”124-04-9″
“カプリリルグリコール”,”1117-86-8″
これメモ帳にコピペして「test.csv」とか適当にファイル名付けてダブルクリックしてEXCELで開くとこうなる↓
ヲイヲイ、勝手に日付にしてんじゃねえよ。EXCELはcsvデータの中に日付っぽい表現があるとそのセルは日付にしてしまう(えーっ!)。こいつを上書き保存を実行して、再度メモ帳かワードパットでデータを確認すると
物質名,CAS登録番号
炭酸エチレン,96-49-1
エチルPABA,1994/9/7
アジピン酸,124-04-9
カプリリルグリコール,1117-86-8
このように元データの 94-09-7 をキッチリ 1994/9/7 に書き換えてしまっている。勘弁してくれよ。
EXCELは数字だけを並べた文字データを数値に変えてしまうクセもある。例えば
“名前”,”市外局番”,”市内局番”
“久光”,”046″,”869″
“田中”,”03″,”123″
“鈴木”,”06″,”345″
このcsvファイルを EXCEL で開くとこうなる↓
ヲイヲイ、勝手に数値にしてんじゃねえよ。もちろん上書き保存すると元データからも先頭の0がなくなる。
他にも文字数が多い数字の羅列を勝手に指数表示に書き替えてしまう問題もあるんだぜ。例えば13桁のJANコードを書いた csv ファイル
“商品名”,”JANコード”
“リンゴ”,”4569951116179″
“バナナ”,”1234567890123″
をEXCELで開くとこうなる↓
もちろん上書き保存すると
商品名,JANコード
リンゴ,4.56995E+12
バナナ,1.23457E+12
こんなことになってしまう。他にも EXCEL のお節介機能のせいでデータが正しく表示されない&データが破壊される問題がいろいろある。
ダウンロードしたデータをメモ帳なりワードパットで開いてみればわかるが、システム側は正しく”94-09-7″とか”046″とか”4569951116179″って出力している。それを EXCEL が勝手に”1994/9/7″とか”46″とか”4.56995E+12″に書き替えちゃうわけで、明らかに EXCEL 側に問題があるんだが多くの人はそんなこと知らないので「ちゃんとしたcsvファイルを作ってください!」とcsvファイルを作ったオレが怒られる。こっちはちゃんとしたデータを出力しているのに・・・涙、涙。事情を説明して理解してくれたところで EXCEL を使うしかない会社がほとんどだから何の解決にもならんのだけどね。こんなクソ仕様のソフトなんか世の中から消え去ってくれと多くのエンジニアが思っているに違いない。そしてなんでこんなソフトが何十年もの間、世界標準でいられるのか。これは技術の優劣だけでビジネスの勝敗が決まるわけではないという好例。あ、オレ今なんかカッコいいこと言ったよ。ね、ね、言ったよね。
こちら側は正当な csv ファイルを出力しているのだから『ファイルの拡張子を .txt に変えて EXCEL の[開く]メニューを使ってそのテキストファイルを開いてください。するとテキスト ファイル ウィーザード機能が出てくるのでこれを使って列ごとの書式を[文字列]に指定して開いてください。』という EXCEL お節介機能の回避方法とか『お節介機能がない無料の表計算ソフトがあるのでそれを使ってください。』とか解決策を提示してもまず聞き入れてくれる利用者はない。
まあ、それもいたしかたなし。企業に勤めてるといってもパソコンを使う能力は社員によってピンキリだから基本的にはダブルクリック以上のパソコンスキルがない人を基準に考えないと。ほとんどの状況で「ダブルクリックすればファイルが開いてちゃんと表示される。そうならないのはシステムを作ったオマエが悪い。」という結論以外はでてこない(涙)。
さんざん泣き言をたれたけど、そんなことは遥か昔から多くのプログラマーを悩ませてきた連綿と続く問題なので EXCEL の勝手なお節介機能に対処する方法は、すでに諸先輩プログラマーの方々がいろいろと編み出してくれている(アリガトー、アリガトー)。
対処法その1【データの先頭に「’」(アポストロフィー)を入れる】
変な文字を先頭に入れておくことでデータが勝手に日付になったり、数値になったり、指数表示になったりすることを抑止する方法。アポストロフィが目立たなくていいけど、「変な文字が先頭についてるんで消してください・・・・」と怒られる。
対処法その2【データの先頭に特殊な空白文字(タブ)を入れる】
アポストロフィーじゃなくても変な文字ならなんとかなることが多い。データの先頭にタブ文字を入れておくのもその一つ。これだと見た目のうえでは問題ない表示ができる。しかし別のソフトにデータをコピペすると先頭に妙な空白がついてしかも両端にダブルクオート(”)が付いてくるので「コピペすると変になるバグを直してください」と怒られる。見た目が問題ないのにコピペしたら突如変になるというのはパソコン技能が少ない人には驚異的なバグに映る。下手するとオレがEXCELを壊したんじゃないかと疑われかねない。
対処法その3【数式にしてしまう】
この方法を知った時は思わず鼻汁出そうになった。データを「”=””94-09-7″””」とか「”=””03″””」とか書いておく。パッと見なんのことかわかりにくいんだけど、まず両端のダブルクオート(”)はcsvでデータを囲うためのもの。内側の =””03″” がデータ本体になる。””とダブルクオートが2連続になっているのはダブルクオートで囲っているデータの中でダブルクオートを使いたい場合、データの両端のダブルクオートと区別するために “” と2連続させる(エスケープさせる)というルールに基づいている。つまり””は”だから要するにcsvで「”=””03″””」と書いたデータはEXCELには「=”03″」として認識される。そして=で始まるデータはEXCELは勝手に数式であると判断する。=”ほげほげ”という数式は「ほげほげという文字である」という数式だから =”03″ なら計算結果として画面上には 03 という文字が表示されるわけだ。この方法だと数式バーの部分には数式が表示されるけど、セルには計算結果が表示されている。セルをコピーしてメモ帳とかに貼付けたときも計算結果が貼り付けされるので、コピペしたら変なことにという心配もない。
おおっ!
万事OKのようだが、この方法は EXCEL が = で始まるデータを勝手に数式であると解釈することを逆手にとっている。ということは EXCEL 以外の正しく csv データを扱えるソフトでこの csv ファイルを開くと何じゃこりゃ?な状態になる。もちろんメモ帳やワードパットで開いたときも何が書いてあるのかよくわからない数式のような何かがゴチャゴチャっと書いてある変なファイルにしかみえない。EXCEL 以外のソフトで開くことは絶対にないという前提じゃないと成り立たないこんな変なファイルはもはや csv ファイルではないんじゃないかという根本的な疑問は残る。ユーザとしては EXCELでちゃんと「表示される」ことが最優先なんだからこれで問題ないわけだけどね。
ああ、EXCELってどうしてこうもクソな仕様なんだろう。