資格部

資格・検定の試験情報、対策方法、問題解説などをご紹介

SM 令和5年度春期 午後Ⅰ 問1

   

AIを使ったシステム監視の改善に関する次の記述を読んで,設問に答えよ。

 W社は,中堅の自動車部品製造会社である。W社は,土曜日,日曜日及び年末年始を休業日としており,休業日以外の日を勤務日としている。W社の従業員は,勤務日の9時から18時まで勤務している。W社の生産部は,生産活動に関わる計画及び管理を行っている。W社の情報システム部は,生産システムなどのアプリケーションシステムの開発と運用を行っている。
 生産システムは,24時間365日稼働しており,生産部の従業員が利用している。生産部の従業員は,生産システムを使って,表1に示す生産支援業務を行っている。

表1 生産支援業務の内容

〔システム監視の概要〕
 情報システム部の監視チームは,監視システムを使って,複数の業務サーバの監視を行っている。監視システムの主な機能を表2に示す。

表2 監視システムの主な機能

 生産システムの業務サーバの監視では,対象サーバに対するリソース監視機能のしきい値を,80%と設定している。生産支援業務を行う時間帯は,生産支援業務を行っていない時間帯に比べて,CPUの負荷が高いことが判明した。生産支援業務を行っていて,生産システムの利用が一時的に増加すると,CPU使用率がしきい値を超過する事象(以下,しきい値超えという)が発生していることが分かった。2022年4月第3週に発生した,しきい値超えの発生件数を表3に示す。

表3 2022年4月第3週に発生したしきい値超えの発生件数

 しきい値超えが発生した場合は,イベント記録簿に,発生時刻,対象サーバ及びメッセージ内容(以下,これらをイベント情報という)を記録する作業が必要であり,運用業務工数の多さが,監視チームの負担となっていた。しきい値超えが発生して次の平均値算出時刻である10分後に再びしきい値超えが発生した場合,監視チームはインシデントと判断し,インシデント対応プロセスを開始する。インシデント対応に時間を要する場合は,CPU使用率が90%以上となって,生産システムの利用者に業務影響を及ぼすインシデント(以下,業務影響有インシデントという)になる前に,利用者に連絡し,業務量を一時的に抑制してもらう。表3の場合,合計で10件のインシデントが発生していた。インシデントに当たらない場合は,利用者への連絡などは行わずに対応完了としている。

システム監視の改善]
 情報システム部のITサービスマネージャY氏は,監視チームの負担について改善方法を考えた。しきい値を現在の80%から90%に変更する案を検討したが,インシデントが発生した際の業務への影響を最小限にするための対応を考慮すると(ア)現実的な改善策とはならなかった。Y氏は,改善策として,“監視システムの制約から,サーバごとに,CPU使用率を全ての時間帯で,同じしきい値で監視している点を改善する必要がある。”と考えた。そこで,他社の事例を参考に,“AIを用いて,過去のCPU使用率の傾向を学習し,曜日や時間帯に合わせた最適なしきい値で監視する機能(以下,動的しきい値監視という)”を有するアプリケーションソフトウェアを導入し,検証することにした。Y氏は,機能や価格を調査した結果,R社の動的しきい値監視ソフトウェア(以下,Rソフトという)を選定した。Rソフトでは,曜日別,かつ,10分間隔など設定した間隔(以下,測定時間帯という)別にしきい値を設定することができる。Y氏は,Rソフト導入後に監視システムのリソース監視機能の使用を停止し,監視システムのメッセージ監視機能とRソフトとで分担してシステム監視を行うこととした。
 Rソフトの主な機能を表4に示す。

表4 Rソフトの主な機能

 Y氏は,次の理由から表4の項番1,及び項番2の機能を使うことにした。

・項番1:曜日や時間帯ごとに,生産システムの利用特性を踏まえたしきい値が設定される。

・項番2:監視システムのリソース監視機能に該当する機能がある。

 

 しきい値の設定例を,過去4週間分のCPU使用率の平均値とともに表5に示す。

表5 Rソフトが設定するしきい値の例

Rソフトの検証
 Rソフトを用いたシステム監視を2022年12月1日から開始し,検証期間は4か月とした。
 監視を開始して約1か月が経過した1月上旬のある日に,しきい値の超過が多く発生することがあった。調査の結果,AIに学習させる際に,(イ)除外日の設定を考慮する必要があることが分かり,表4の項番3の機能を適用して除外日を設定した。
 Y氏は,Rソフトの導入によって,イベント情報,及び設定されたしきい値が記録され,出力できることから,監視チームが行う(ウ)イベント情報を記録する作業の負担を減らすことが可能であると判断した。

インシデント発生の未然防止への活用
 Y氏は,Rソフト導入前の監視チームの運用業務工数について,調査を進めた。調査の過程で,過去に業務影響有インシデントが数回発生していたことが分かった。監視システムのリソース監視データを参照したところ,当該インシデントが発生しなかった日と同じ曜日,同じ時間帯のCPU使用率は50%程度であったが,当該インシデントの発生日は,CPU使用率70%の状態が1時間継続し,その後CPU使用率は80%超に上昇して監視システムがしきい値超えを検知した。CPU使用率は上昇を続け,監視チームは最初のしきい値超えの検知から10分後にインシデント対応プロセスを開始していた。
 Y氏は,このような事象に対しては,Rソフトを導入することで,(エ)業務影響有インシデント発生の兆候を早期に発見できると考えた。この場合は,業務量を一時的に抑制してもらうなど利用者の協力を得ることで,業務影響有インシデント発生の未然防止も行うことができると考えた。

設問1 〔システム監視の改善〕について答えよ。

 

(1)本文中の下線(ア)について,現実的な改善策とはならなかった理由を,25字以内で答えよ。

 

解答・解説
解答例

 インシデント対応を行うための時間が減少するから

解説

 ー

 

(2)表4中の項番1について,監視画面に“指定する基準値”を超えた旨の警告のメッセージが出力された場合,監視チームが確認すべき内容を,20字以内で答えよ。

 

解答・解説
解答例

 R ソフトが設定したしきい値の妥当性

解説

 ー

 

(3)表5中の  a  に入れる適切な数値を答えよ。

 

解答・解説
解答例

 71

解説

 ー

 

設問2 〔Rソフトの検証〕について答えよ。

 

(1)本文中の下線(イ)について,除外日の設定を考慮する必要がある理由を,50字以内で答えよ。

 

解答・解説
解答例

 勤務日の CPU 使用率より低い休業日の CPU 使用率を学習すると,設定されるし きい値が下がるから

解説

 ー

 

(2)本文中の下線(ウ)について,作業の負担を減らすことが可能であると判断した理由を,40字以内で答えよ。

 

解答・解説
解答例

 イベント情報の記録が自動化され,イベント記録簿として出力できるから

解説

 ー

 

設問3 〔インシデント発生の未然防止への活用〕について,本文中の下線(エ)で,業務影響有インシデント発生の兆候を早期に発見できると考えた理由を,CPU使用率の推移の観点から,40字以内で具体的に答えよ。

 

解答・解説
解答例

 ・CPU 使用率が同じ曜日,同じ時間帯と違う傾向にあることを検知できるから
 ・CPU 使用率 70%以上が 1 時間継続する状態を,監視チームが発見できるから

解説

 ー

 

IPA公開情報

出題趣旨

 システム監視において,業務の効率化や品質の向上のためには,自動化ツールを効果的に利用することが重要である。
 本問では,自動化ツールとして“AI を使ったシステム監視”を対象とし,過去の監視データから最適なしきい値を求めてシステムを監視する取組を題材として,自動化ツールの特性を踏まえたシステム監視を適用し,改善する能力,及び改善した結果を分析,評価できる能力を問う。

採点講評

 問 1 では,AI を用いた動的しきい値監視ソフトウェアを使ったシステム監視を題材に,システム監視の改善について出題した。全体として正答率は平均的であった。
 設問 1(1)は,正答率がやや低かった。業務影響有インシデントが発生することだけを記述した誤答が多かった。インシデントが発生した際の業務への影響を最小限にするための対応に着目して解答してほしい。設問 1(2)は,正答率が平均的であった。発生時刻,対象サーバなどしきい値超えが発生した際の確認と誤って解答した受験者も多かった。警告のメッセージが出力されるのはどのような場合なのかに着目して正答を導き出してほしい。
 設問 3 は,正答率が平均的であった。前日の 13 時に業務影響有インシデントの発生を予測できる旨を記述した誤答が多かった。過去に発生した業務影響有インシデントの CPU 使用率の推移に着目して解答してほしい。

前問 ナビ 次問