パフォーマンス
構文 WebGet -[sumonly | alldata] [{-url <urlname> [-walk <depth> <span>] [-proxy <urlname>] } | { [-file <filename>] | <# entries to fetch> [-concurrent | -sequential ] } ] -[holdtime <ct> <st>]
-walk スイッチでは、以前に通過したリンクは通過しません (つまり、ホームへ戻るためのリンクは選択されません)。これにより、終わりのない再帰ループは避けられます。-walk コマンドでは、他の HTTP サーバーにつながるリンクが検索されることもありません (つまり、www.ibm.com につながる www.lotus.com 上のリンクは選択されません)。そのため、HTTP サーバーの検索が無期限に続く状態が回避できます。-proxy スイッチは、指定した URL が外部サイトにある場合、つまり、指定したプロキシサーバーを介さないとその URL にアクセスできない場合に使用します。
-holdtime スイッチは、HTTP トランザクションが完了する前の WebGet の待機時間を指定します。HTTP トランザクションを完了するために必要な一連のイベントは、HTTP サーバーとの接続の確立、HTTP サーバーへのコマンドの送信、HTTP サーバーからのデータの受信です。
<ct> パラメータは、HTTP サーバーにコマンドを発行した後に待つ時間をミリ秒で示します。このパラメータにより、要求に応えるためにディスパッチされた HTTP サーバーのスレッドまたはプロセスがアイドル状態に保たれます。<ct> は、HTTP サーバーの接続時間タイムアウトパラメータ (通常 2 分) より短く設定します。<st> パラメータは、HTTP サーバーにコマンドを送信した後に待つ時間を指定します。このパラメータにより、要求に応える側の HTTP サーバーのスレッドまたはプロセスが、データ送信の準備ができている場合でもアイドル状態に保たれます。
例 2 コマンド [-url www.lotus.com -walk 1 2] は、Web ブラウザでは、「Web ページ www.lotus.com から開始して、そのページで 1 つのリンクを選択してクリックする」と解釈されます。このリンクをクリックし、新しく表示されるページごとに同じ規則を繰り返し適用します。クリックした最初のリンクが www.lotus.com/notes.htm である場合、この規則ではそのページの 1 つのリンクを検索して取得するように WebGet に要求します。span パラメータは、反復プロセスの停止地点を示します。
また -walk 0 0 は、WebGet が <urlname> によって示されるページの要求のみを実行し、それ以上要求しないことを意味します。これは、-walk スイッチを省略した場合と同じことです。
-walk 10000 10000 (または、これよりも大きな値) などは、Web ロボットと同様に、そのページのすべてのリンクを取得することを意味します。
関連項目