第 3 回(2005.05.02) -- web 検索 および web page の作成と発信 I

web を用いた資料の検索

ネットワークを通じて情報を検索し, 大学での学習,研究や学生生活に役立てるための手段,知識について学ぶ.

現在, コンピューネタットワーク上に存在する情報は膨大であり, その全体をとらえることは既に人類にとって不可能なこととなっているほどである.
その情報の膨大さに加え,コンピュータ自身の高速性とネットワークの透過性, 情報の入手費用の安価性, 電子的情報の再利用の容易さを鑑みると, これらの情報を利用する能力はこれからの学生にとっては必須能力であると言えよう.
しかし逆に情報が「豊富すぎる」ことから, ネットワーク上の情報を適切に利用するにはそれなりの知識と能力が必要とされる. こうした傾向はこれからしばらくは強まると思われるため, 情報を検索して取捨選択する能力を大学生活の初期からなるべく鍛練するのがよい.
本講義ではネットワーク検索に必要な簡単な知識や手段を示すとともに, 最低限必要と思われる注意点についても言及する.

ネットワーク検索と他の資料検索との違い

ネットワーク検索と他の手段での資料検索との違いは以下のようなものである. ちなみに他の手段とはコンピュータネットワークが無い時代から存在するもので, 成書からの検索,図書館での検索や人間同士の対話等である.

ネットワーク検索は基本的に非常に速い.
検索対象から検索自体,表示等にいたるまで全てコンピュータを通じて電子的に行なわれるため その速度は基本的に速い.

ネットワーク検索は検索対象が基本的に非常に広い.
検索対象のデータが電子的に格納されていることから, 他のデータ格納方法よりも物理的にも費用的にも非常に少ないコストで格納できる. このため,低コストで膨大なデータが検索対象として扱われるケースが多い.

ネットワーク検索は無料, もしくは非常に安価な場合が多い.
データの格納方法にしろ検索自身にしろ, これまでよりも格段に低コストで実現できることから ユーザに高いコスト負担を強いる事なくデータ検索システムを構築できる. さらに, データ表示に web browser が用いられることが大半であることから, 検索データ表示とともに商用データ(広告など)を表示するシステム等を通じて コストを回収することもできるため,低負担で利用できる.
日本の行政機関の検索システムに良くみられるが, むやみに高コスト負担をユーザに強いるシステムもある. アメリカの行政機関や研究機関, 軍事機関までがそのデータの多くを web で無料で公開していることと比較すると わが国の行政が10年以上遅れていることがよく理解できるだろう(^-^).

地理的条件を受けにくい.
既存のデータ検索では, 受益者がデータ検索のために物理的に移動する必要が多く, そのコストは地理的条件を強く反映するものであった. しかしネットワーク検索は, ネットワークさえ使える状況ならば地理的条件を無視しうる為,こうした制約を受けにくいことになる.
# 日本ではネットワークを利用するための地理的条件がまだ存在するので, この点は問題であるが.

ネットワーク検索では(明示的/暗黙の)検閲等を受けていない「真に自由な情報」 を得られる可能性が高い
web 情報を検索するようなシステムからは, 情報公開の方法の匿名性の高さや情報のあまりの膨大さから あらゆる力から逃れた自由な情報が入手できる可能性が高い.
大げさに言えば, 幅広い層の人間が自由な情報を入手できるというのは人類史上始まって以来初めてのことであり, 情報伝達という意味において実は革命的な出来事であるとも言える.
ただし,真に自由な情報は時にデタラメな情報と区別がつきにくいため, 検索者は情報の真贋を見極める能力が必要とされる.

ネットワーク検索では得られる情報の質が一定でないことが多い.
既存のデータベースを電子的に検索できるようにした, というシステムの場合はそうでもないが, web 情報を検索するようなシステムでは情報そのものの質が非常にばらついていることが多い.
これは検索者に情報の質を見極める能力が高い次元で要求されるということである. これはデメリットでもあるが, 「検閲されていない自由な情報を入手できる」メリットと裏表の関係にあるものなので あえて享受すべきものである.

ネットワーク検索は使いこなすのがやや難しい.
上に記したように,ネットワーク検索は得られる情報が膨大な上にその質が一定でない. さらに検索自身も電子的に行なうために, 検索は理論的に行なわないといけない. こうしたことから, ネットワーク検索は使いこなすのはそれなりに難しいことになる.
しかし, 得られるものは大きいのであるから, 躊躇無く利用し, 慣れていけばよい.

ネットワーク検索の仕組み

■ ネットワーク検索の仕組み概念図 ■
Connection image for web-searching 現在ではネットワークを介した検索はその多くが http (Hyper Text Transfer Protocol) を用いて行なわれる.
よってユーザは使い慣れた Web Browser を通じて検索ができ, その利便性を高めている. また,http を用いることによって検索を行なうシステムとユーザとが分離され, 様々な利点を産み出している.
さらに, Web Server とデータベース Server も通常は分離され, 安定性や安全性,高速性等のメリットが得られるようになっている.

ネットワーク検索で必要ないくつかの単語

ネットワーク上で情報を検索し,その情報にアクセスするために必要な最低限の知識について触れておこう.

HyperText
テキスト同士が(その情報の意味から)接続できるようなシステムを内包したテキスト(^-^;).
… と書くと何が何だか分からないが(^-^).
要するに,テキスト本文と「注釈」を同等なテキストとして扱う仕組みを備えたテキストとでもいうか.
情報が連鎖的に接続されるため,このシステムを用いれば膨大な文献が一つに繋がることも夢ではない. 実際にこれが実現された一つの形として www がある.

HTTP (HyperText Transfer Protocol)
HyperText を転送するための(汎用)プロトコル([RFC 2616]).
… と書くとこれも何が何だか分からないが(^-^).
要するに,HyperText の形で書かれている情報を「これくれ」「はいよ」とやり取りするための電子的な規格である. web 上の情報は主としてこの規格に沿ってやりとりされる(もちろん他の通信規格もある).

HTTP の現在のバージョンは ver. 1.1 であるが,これを拡張しようとする規格がいくつかある. とりあえず, coffee: URI スキームをもつ HTCPCP (HyperText コーヒーポット制御 Protocol : [RFC2324] , [RFC2324 日本語訳]) などを見ておくのがよい(^-^).

URI (Uniform Resource Identifier)
情報資源の名前/所在地を統一的に表示する方法([RFC2396]).
要するに,情報のありか.

スキーム:所在地名称等

という形で(情報)資源の在処や名前を示す.
スキーム(アクセス手段とでもいうか)については, 良く知られているものの多くは 公式に登録されている.
例えば http スキーム(web への主流のアクセス方法)の場合は URI は次のようになる([RFC 2616]).

"http:" "//" host [":" port ] [ abs_path [ "?" query ]]

最初の http: は http という手段で接続することを示す. 次の // と host [:port] 部分は資源を所有するサーバを指定するもの.
# port とはネットワーク接続をする時にある沢山ある受け付け窓口のようなもの.
# 沢山あるので,使うときは本来「窓口番号」を指定しないといけないが, http_URI では port が省略されたら 80 となると決められている.
abs_path 以降でその資源がサーバ内部のどこにあるかを表す.

URL (Uniform Resource Locator)
URI のうち, 一般的なスキームである http, ftp, mailto などを用いたものを指す 「informal」名称.

URI と URL の関係の詳細については web 関連技術の標準化団体である w3c の記述である http://www.w3.org/TR/2001/NOTE-uri-clarification-20010921/ の "1.2 Contemporary View" を参照すること.

ちなみに…
URI よりも URL を使うべきだとか, URL が正式で URI は間違いだとかいう 「間違った記述」 が日本人の文書によく見受けられるのでそういった間違いを信じないよう,注意すること. 規格は規格である.

ネットワーク検索の分類

ネットワーク検索といっても,その目的や仕組みにより様々な特徴があり, それをある程度把握した上で利用しないと十分な効果が得られないことがある.
そこで,ここでネットワーク検索を簡単に分類しておく.

■ ネットワーク検索の分類 ■
検索対象 システム 概要
(電子化された)
既存データベース
これまでの資料検索システムをそのまま電子化したと見られるもの. 公的機関や商用サイト, マスコミ系サイトに多い.
検索の高速性や地理的条件の克服等のメリットは得られるが, データベースがやや限定的であることやユーザ負担がやや高めになるというデメリット傾向がある.
その代わり情報の質が一定であり,内容が保証されていることも多いので, 確実な情報を入手するには良いだろう.
阪大蔵書検索(OPAC)
全国図書館目録検索
ReaD 研究開発支援総合ディレクトリ
学術情報コンテンツ・ポータル
Science Direct(文献検索:商用)
アメリカ数学会文献検索システム
新聞記事横断検索(有料)
など.
Web 情報 ロボット検索型 Web 情報をロボットエージェントとよばれるソフトウェアで web から広く無作為に検索収集し, 機械的にデータベース化して検索できるようにしたシステム. データベースは機械的に構築されるため,検索は単語(を組み合わせた文字列)検索で行なうのが基本である.
情報の圧倒的な膨大さと検索の高速性,情報の幅の広さ, 事実上無料で使えること等がメリットである.
ユーザが無料で使えるビジネスサイトが主流. 現在のネットワーク検索システムの主流.
最近はディレクトリ型と融合しつつあるところも多い.
Google
Infoseek
goo

あたりが有名か. 他にも数多く存在する. これらのサイトも最近はディレクトリ型の側面も強めつつある.
分類型(ディレクトリ型) 対象が Web 情報であることはロボット検索型と同じだが, データベースを「意味で分類」してある点が異なる. 情報を分類するため, データベースの構築は主として人力で行なわれている.
情報が少なくなること, 新しい情報への追随性が低くなること, 情報の(暗黙の)検閲が行なわれることなどがデメリットとして挙げられるが, ユーザにとって「分かりやすい」という大きなメリットがある.
ユーザが無料で使えるビジネスサイトが主流. ネットワーク検索に慣れていない者はこのタイプから触れ始めるとよいだろう.
最近はロボット型と融合しつつあるところも多い.
Yahoo!
が有名かつ圧倒的な存在感を誇る. 他にも数多く存在する.



ネットワーク検索の具体的な方法

ネットワーク検索は,Mozilla のような Web Browser を起動し, 上の分類の項で示したようなサイトへアクセスすればよい.
この際,検索はおおよそ次のような手順で行なうのがよい.

  1. 情報の検索を行なうサイト自体を検索を通じて決定する(省略可).
    例えば, 自宅近くの郵便局が何時まで開いているかを調べたいとしよう. こういうときは「郵便局のデータを検索できるサイト」があれば良いが, そういうサイトの URL を知らないのが通常である. そこでこういうサイトをまず探すのである.
    この検索は,

    探す情報が「かなりメジャー」→ ディレクトリ型 Web 情報検索サイト(Yahoo等)
    そうでない → ロボット検索型 Web 情報検索サイト(google 等)

    で行なうのがよいだろう.

  2. 情報の検索サイトの使い方を調べる.
    検索サイトには使いこなせば非常に便利なオプションが存在することが多い. オプションの使い方を調べるのは一見手間が増えるように思うかもしれないが, 最終的には検索の手間と時間を省くことになるので, 使う前に調べるのがよい.

    例えば google では使い始める前に一度 google ヘルプ に目を通し,かつ, google 表示設定 を適切に変更しておくと後々の効率が全然違うはずである.

    実習   実際に google の表示設定を行え.

  3. 情報の検索を行なう.
    最初はなるべく緩やかな条件から検索を始め, それから徐々に条件を絞っていくのが良い. この際,先の「使い方を調べる」時に得た知識を用いて検索オプション(and や or 等) を積極的に使っていくのがよい.
    また, 探す情報にもよるが, 得られた結果が少なすぎるときは大事な情報源が漏れている可能性が高いため, 条件をより緩くするか,検索サイトを変更することを検討すべきである.

  4. 得られた情報をチェックする.
    システムにもよるが,得られた情報が確実に正しいという保証はない. よって, 得られた情報の正しさをある程度検証する必要がある.
    よく使われる方法は,複数の情報源から情報を得てそれらを比較するというものである.
    他にも情報を確認する方法があるならばそれを積極的に用いるのが望ましい.

実習

  1. 阪大OPAC, Google, Yahoo! に各々アクセスしてみる.

  2. Linux に関する日本語の本が阪大のどこにどれくらいあるのか, 調べてみよ.

  3. 物理学者 シュレディンガー(Schrödinger) についてその人生,業績,後世への影響等を調べよ.

  4. 英語やその他の外国語の web を日本語に翻訳してくれる web サイトを調べよ.

  5. 自宅近くの郵便局の営業時間をネットワークで調べよ.

  6. (上級者向け) 余裕があり,かつ,コンピュータに慣れているという者は, 文字端末エミュレータ(GNOME端末 や kterm など)の中で使える Web Browser について調べ,試してみよ.
    要するに Mozilla のようなグラフィカルな Web Browser ではなく, 文字だけで構成される Web Browser である.

注意

web page の作成と発信 I

WWW(World Wide Web)を閲覧者として利用するだけでなく, 自らも WWW 上で情報を発信する方法を学び, 実際に発信してみることで WWW をより深く理解するとともに, 学習,研究へ応用する能力を身につけよう.
今回の授業では,web の仕組みを中心に学び,作成については簡単な実習のみとする.

web の仕組み

■ World Wide Web の仕組み ■
Web Structure web の仕組みの概念を図に表すと左のようになる.

ネットワーク上に無数の Web Server があり,さらにその Server 上に Web Page が置かれているという状態で web の情報は置かれている.

web page の多くは (X)HTML という言語で書かれた HyperText であり, 情報の参照先を別の HyperText である web page として「リンク」している.

web の閲覧者は,手元の Web Browser を通じて,HTTP で Web Server と情報をやり取りする. リンクされた別の web page へは,その URI を見て接続先を変えるということになる.

web 発信の手続きの概要

web で情報を発信するには,ユーザとしては一般的に次のような手順を経れば良い.

  1. サーバ自体の用意 … web server とよばれるマシンを用意する.
    阪大教育用計算機システムでは既に用意されているので,ユーザとしては特に何もしなくてよい.

  2. web page 用ファイルの作成 … (X)HTML で web の内容を記述したファイルを作成するのが現時点では主流である.
    (X)HTML やこの方法についてはこの授業ではごく簡単に後述する. より詳しくは次回の授業で説明する.

  3. サーバ上にファイルを置く … これはサーバの構成等によって方法が異なる. 通常は遠隔からファイルを転送するか,システムに直接ログインしてファイルを操作するかのどちらかになるだろう.
    また,ファイルのパーミッション(特に読み出し許可属性)についてもきちんと設定する必要がある.

    阪大教育用計算機システムの場合は, ecs.cmc.osaka-u.ac.jp 個人ウェブページの公開方法 に書いてある. よく読めばわかるように,詳しいことが分からない初心者でも簡単に作業できるようになっているので問題ないはずである.

    ちなみに… 何をやっているか理解したいという者のために解説をしてみよう. 阪大教育用計算機システムでの 個人用 web の公開手続き とは結局以下のようにまとめられる.

    1. ホームディレクトリに public_html というディレクトリを作る(一度だけやればよい).

    2. ホームディレクトリの属性に +x を与えておく(一度だけやればよい).
      具体的には,kterm を起動して,

      cd ~
      chmod +x .


      とする.

    3. 作ったディレクトリ public_html の下に公開したいファイルを置く. デフォルト HTML ファイルは index.html というファイル名にしておく.

    4. public_html 以下のファイルとディレクトリの属性に +rX を与えておく.
      具体的には,GNOME端末や kterm を起動して,

      cd ~
      chmod -R +rX public_html


      とする.

    5. 公開するファイルやディレクトリが増えた場合は,上の手続きの iii, iv を再び行なう.


  4. web browser でアクセスして閲覧できることを確認する … 阪大教育用計算機システムでは,上の手続きをしておけば

    http://webserver/~ログイン名/

    という URI でアクセスできるので,その URI を使って閲覧してみる.

    ただし… 残念なことに,阪大教育用計算機システム上の web page は阪大教育用計算機システムからしか見えない. 自宅などからは閲覧できない.


実習

実際に次の手順にしたがって簡単な web を用意 & 公開してみよう.

  1. gEdit などのエディタを利用して, index.html というファイルを作成して, 次のような内容を書き込む.

    HTML ファイルの内容例
    <?xml version="1.0" encoding="EUC-JP"?>
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">
    <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ja">
    <head>
      <title xml:lang="ja"> (タイトルを書く) </title>
      </head>

    <body>

    <h1>
      (第一章の題名を書く)
      </h1>

    <p>
      (本文を書く)
      <br />
      友人の<a href="http://webserver/~(友人のログイン名を書く)/">(友人の名前を書く)</a>です.
      <br />
      好きなものは
      </p>
    <ul>
      <li>
        (好きなものを一つ書く)
        </li>
      <li>
        (好きなものをもう一つ書く)
        </li>
      </ul>
    <p>
      です.
      </p>

      </body>
      </html>


  2. 上の「個人用 web の公開手続き for 阪大教育用計算機システム」に従って, 今作成した index.html ファイルを公開する.
    Mozilla で接続してみられることを確認する.

  3. index.html ファイルの,(タイトルを書く) という部分を変更してみる(カッコは消すこと).
    Mozilla で接続して見てみて,どこが変わったか確認する.

  4. index.html ファイルの,(第一章の題名を書く) という部分を変更してみる(カッコは消すこと).
    Mozilla で接続して見てみて,どこが変わったか確認する.

  5. index.html ファイルの,(本文を書く) という部分を変更してみる(カッコは消すこと).
    Mozilla で接続して見てみて,どこが変わったか確認する.

  6. index.html ファイルの,(友人の…を書く) という部分を変更してみる(カッコは消すこと).
    Mozilla で接続して見てみて,どこが変わったか確認する.

  7. index.html ファイルの,(好きなものを…書く) という部分を変更してみる(カッコは消すこと).
    Mozilla で接続して見てみて,どこが変わったか確認する.

web 発信の注意点

web 発信も結局は「対 人間」の部分が本質であるため, メールの扱いの際の注意点と本質的には良く似ている. そういった点も含め, 気をつけるべき点について列挙しておく.

最終更新日 … $Date: 2005-05-04 02:37:28+09 $
Valid CSS! Valid XHTML 1.1!