PHPでPDFファイルのプロパティを取得する(1)

TCPDFというPDF生成ライブラリが便利。比較的簡単にPDFファイルが作れる。ところでサーバに生成したPDFファイルを貯め込んである場合、その一覧表をつくる方法を考えた。最初に思いついたのが、TCPDFでPDFを生成するたびにMySQLに情報をいれて、これを使って一覧表のページをつくること。でも何かのはずみでディレクトリ内のファイルを削除したりリネームしたりしてしまうことがあるかもしれない。そうなると実態とMySQL内の情報がめちゃくちゃになってしまう。一番簡単なのはファイル名を使って一覧表を作ってしまうことだというのはわかる。でもファイル名だと中身がわかりにくい。さてどうしようか。

PDFファイルには「タイトル」「サブタイトル」「著者」「作成日」「更新日」「キーワード」といった情報を記録しておくことができる。

PDFファイルにはタイトルや著者などの情報を記録できる
PDFファイルにはタイトルや著者などの情報を記録できる

TCPDFにもPDFを生成するときにもこれらの情報を付加する関数がある。ということはここにいろいろ書いておいて、phpでこれを読み込んで一覧表をつくることができればディレクトリに実在するPDFファイルを対象にしつつわかりやすい一覧表が簡単につくれる、ハズ。

ハズ、なんだけど、どうすりゃいいんだ? ネットでいろいろ検索するとPDF生成ライブラリとして有名なPDFlibのオプション機能としてPDFプロパティの取得ができる機能があることがわかった。オプション単体でも存在しているんだけど、どっちにしても有料。うーんお金とれる話なら使ってもいいけど、趣味だからなあ。高すぎる。

で、phpユーザーのメーリングリストで質問したら、ZendFrameworkのZEND_Pdfという機能でOKとの回答。そうなのか。フ、フレームワークか。フレームワークって、知識としては知ってるけど未経験。CakePHPあたりの勉強してみようかなぁなんて思ってたくらいだからなあ。できるってことはわかったけど、使えるようになるまでにえらい時間かかりそう。でもいずれフレームワークも使えるようになったときのために覚えておこう。

メーリングリストでもうひとつ興味深い回答が。PDFファイルに記録されている情報なんだから直接取り出しちゃえば?という至極単純な回答。そりゃそうだ。あははは。

とりあえずバイナリエディタ「0xED」を使ってサイズの小さなPDFファイルを開いてみる。だらだらだら〜っと眺めていると、あった、あった。「/Title」っていう部分、ほかにも /Author、/Subject、/Keyword、/Creatorなどなど。それぞれ直後にある( )内がプロパティ値になっているらしい。( )内をいろんなエンコーディングで試してみたらUTF-16でバッチリ変換できる。

PDF形式のファイルをバイナリエディタでひらくと
PDF形式のファイルをバイナリエディタでひらくと

ここまでわかったらあと一歩。phpでPDFファイルをバイナリで開いて、「/Title (」ってのを探して、終わりの「)」を見つける。その間にあるバイナリデータはUTF-16なんだからこれをUTF-8に変換すればブラウザで表示できる。