E2328 - 米国国立農学図書館によるデータレスキュープロジェクト

カレントアウェアネス-E

No.403 2020.11.26

 

 E2328

米国国立農学図書館によるデータレスキュープロジェクト

岡山大学附属図書館・大園隼彦(おおぞのはやひこ)

 

   2020年8月,米国国立農学図書館(NAL)と米国のメリーランド大学情報学部との協働で実施したデータレスキュープロジェクトの報告書“Final Report and Recommendations of the Data Rescue Project at the National Agricultural Library”が同大学の機関リポジトリで公開された。同プロジェクトは,退職する研究者や閉鎖される研究室のデータや書類を迅速に評価する試験的プロセスの開発を目的としたものであり,データレスキュー実践のガイドである“Data Rescue Processing Guide: A Practical Guide to Processing Preservation-Ready Data From Research Data Collection”を作成している。報告書ではガイドの作成プロセスや実際のデータレスキューの評価,今後の展望について報告している。以下では,どのような視点でガイドを作成し,ガイドを用いてどのような処理を行ったのかに着目して報告内容を紹介する。

   ガイドの作成にあたっては,データレスキューやキュレーション,データ評価等に関する様々な文献を調査し, OAIS(CA1489参照)のフレームワークと,米国のコーネル大学の “Digital Processing Framework”をベースとしている。データレスキューはOAISの情報パッケージ(提出用情報パッケージ(SIP),保存用情報パッケージ(AIP),配布用情報パッケージ(DIP))とすることで行われ,ガイドはそれらを作成するタスクを分析し一覧化した内容となっている。各パッケージはコンテンツ本体とメタデータがセットになっており,SIP,AIP,DIPはそれぞれ受入,保存,公開に対応している。OAISに準拠したシステムではパッケージの可逆性が保証され,データや処理内容をパッケージ間で追跡することができる。

   ガイドは,受入,保存,公開において,SIP,AIP,DIPを作成するための23のタスクを示している。各タスクは「基本(baseline)」,「中程度(moderate)」,「徹底的(intensive)」の3つの処理レベルを設けている。「基本」レベルは処理を行う際の最低限度のタスクで,「中程度」から「徹底的」へとレベルが上がるにつれて,処理するデータの機密性が高まり,処理に要する時間やリソースが増加し,難易度が上昇する。例えばAIPを作成する際の「説明記述のレベルを決定する」の各項目は「基本」レベルに該当し,「削除された/一時的なシステムファイルを特定する」の各項目は「中程度」レベルに該当する。タスクに関する詳細はガイドを参照されたい。

   プロジェクトではこのガイドに従い,アナログデータレスキューとデジタルデータレスキューの評価を行っている。アナログデータレスキューでは,NALの特別コレクションを分析している。処理に際して,コレクションの想定する利用者コミュニティ,推奨されるデータタイプ等に焦点が当てられている。なぜなら,コミュニティごとに再利用の価値が異なり,それは公開するフォーマットにも影響を及ぼすからである。植物学者Frederick V. Covilleの手書きノートのコレクションの分析では,デジタル化において,資料のまとめ方に一貫性がない,表データの列ラベルが欠落している等の問題点があり,「利用者コミュニティが保存した情報を独立して理解できる」というOAISの要件の一つを満たすために,精査した上で情報を補足している。なお,前者の処理にあたっては,コレクションのデータを理解するために専門家インタビューも実施しており,インタビューの要約,資料の処理に関する推奨事項,デジタル化の際の転記ガイドが報告書の巻末資料として提供されている。

   デジタルデータレスキューでは,米国農務省(USDA)に以前所属していた研究者のデジタルデータを対象としている。概略を示すと,1.ファイルを受け入れ圧縮,2.作業フォルダでファイル分析(フォーマットの確認と一般的なフォーマットへの変換,データの列ラベルの特定,データセットの構成を整えて統合等),3.OAISの情報パッケージを作成,となる。ファイルフォーマットの変換については時間と労力が必要で,最終的に237ファイルを一般的なフォーマットに変換できたが,不明なフォーマットのファイルが2つ残り,その特定が将来的な課題となっている。情報パッケージの作成については,米国議会図書館(LC)が設計したデジタルアーカイブのファイル構造と階層の標準であるBagItに対応したソフトウェアの利用を推奨している。

   レスキューしたファイルは最終的にはUSDAのデータリポジトリで公開することを目指している。今後の課題として,リポジトリに登録する前に実施する,データクリーニングとキュレーションのレベルに関するポリシーや基準の作成が挙げられている。プロジェクトで実施したデジタルデータレスキューでは,再利用を優先した結果,キュレーションについては時間的な制約もあり,完全には実施できていない。

   さて,筆者が参加しているオープンアクセスリポジトリ推進協会(JPCOAR)は2019年度,データベースレスキュープロジェクトを実施し,2020年度はそのマニュアル化を計画している。JPCOARのプロジェクトでは既に公開しているが存続の危機にあるデータベースを機関リポジトリに移行することに主眼を置いているので,NALのデータレスキュープロジェクトとは若干,目的が異なる。ただ,国内でも同様のガイドの作成が必要であり,JPCOARが中心となって作成する必要があるだろうと感じている。

Ref:
Clarke, Cooper T.; Shiue, Hilary Szu Yin. Final Report and Recommendations of the Data Rescue Project at the National Agricultural Library. University of Maryland, 2020, 44p.
https://doi.org/10.13016/kpt7-cqgr
Clarke, Cooper T.; Shiue, Hilary Szu Yin. Data Rescue Processing Guide: A Practical Guide to Processing Preservation-Ready Data from Research Data Collections. University of Maryland, 2020, 21p.
https://doi.org/10.13016/dif5-arr2
Faulder, Erin. et al. “Digital Processing Framework”. Digital Scholarship@UNLV, 2018.
https://digitalscholarship.unlv.edu/lib_articles/659
Ag Data Commons. USDA.
https://data.nal.usda.gov/
“fair-research/bdbag”. GitHub.
https://github.com/fair-research/bdbag
JPCOAR 研究データ作業部会 データベースレスキュープロジェクト. データベースレスキュープロジェクト : 2019年度の活動とレスキュー事例. JPCOAR 研究データ作業部会, 2020, 12p.
http://id.nii.ac.jp/1458/00000204/
栗山正光. デジタル情報保存のためのメタデータに関する動向. カレントアウェアネス. 2003, (275), CA1489.
https://current.ndl.go.jp/ca1489