SUUMOから情報を抽出する⑦ ~名前付きタグの設定・パターンを置き換えの応用~

SUUMOからの抽出

前回までの記事で、webから情報を取得するときに必須の「名前付きタグ」や「パターンを置き換え」をやってきました。

今回も、この2つの機能も使いながら残りの項目を抽出していきます!

この2つの機能を解説した記事のURLを記載しますので、忘れてしまった場合には改めてこちらを確認してみてください!

SUUMOから情報を抽出する⑥ ~パターンを置き換え~
前回の記事では、名前付きタグを設定することで項目を特定して抽出をすることを実践してみました。今回も名前付きタグの設定をやっていきますので、ぜひ前回のブログも確認しながら取り組んでみてください!販売価格の名前付きタグの設定するさて、前回は住所

物件名を抽出する

これまでは「名前付きタグ」や「パターンを置き換え」をお伝えしたかったので、住所と販売価格を抽出してきましたが、ここからは分かりやすくタイプで変数を作った順番に抽出をしてみます。

なので、まずは物件名から抽出をしていきます!

これまでやってきたように、物件名の項目が書かれている箇所に名前付きタグを設定します。

選択した「物件名」の箇所で右クリック→「その他」でホバー→「名前付きタグとして設定」をクリックします。

それから名前付きタグの設定を変更していきます。

下のキャプチャのように、ファインダーのタグパターンの箇所に「.*物件名.*」と入力したり、検索範囲の条件で「名前付きタグ”販売価格”の前」を削除します。

また、アクションでタグ名を物件名として分かりやすくしておきましょう。

※こちらの内容で分からないところがある方は、「SUUMOから情報を抽出する⑤ ~名前付きタグ~」の記事を再確認してみてください

続いてこの名前付きタグを使って、物件名を抽出します!

下のキャプチャのように、物件名の箇所を選択した上で抽出をするのですが、案外大切なのはキャプチャの青枠のようにエンドステップ(×のステップ)を選択してから抽出をすることです。

そうすることで、ちゃんと設定をした名前付きタグの後に抽出のステップを作ることが出来ます。

また、ここで作成した抽出のステップのファインダーの中で、「名前付きタグ”販売価格”の前」という条件は不確実なので「ー」をクリックして削除をしておきましょう。

これで物件名を無事に抽出することが出来ました!

エラー処理の設定

物件名を抽出できましたが、ここで少しループを進めてみましょう。

すると、4件目には物件名の表示が無くなってしまいます。

今の状態のままデバッグをしてしまうと、物件名を見つけられずにエラーで止まってしまいます。

そのため、エラー処理では「無視して続行」を選択します。

また必ずしも物件名だけでなく、他の項目も、もしかすると突然無くなってしまったりすることがあるかもしれませんので、念のため上のキャプチャの青枠のように、これまで設定してきた名前付きタグの設定のステップと抽出のステップ全てに「無視して続行」のエラー処理をしておきます。

ここで「無視して続行」を指定したステップをよく見てみると、左上の所に「➡」このようなマークがついています。

このマークは、エラー処理で無視して続行を選んでいることを表しています。

これからエラー処理をしていく中で自然と覚えていくかと思いますが、この左上のマークを意識しておくと、後からロボットを見返したときにも状況が把握しやすくなりますので、エラー処理の設定をした際にはぜひ確認をしてみましょう!

これで物件名の抽出が完了しました!

最寄り駅を抽出する

さて次は最寄り駅の抽出です。

この最寄り駅ですが、SUUMOのページでは「沿線・駅」という項目で表示されていますので、この「沿線・駅」を指定してあげて、名前付きタグを設定します。

選択した部分を右クリック→「その他」でホバー→「名前付きタグとして設定」をクリックします。

上の物件名で変更したように名前付きタグの設定を変更してみてください!

名前付きタグを設定出来たら抽出ですが、今回の場合、「東武野田線『南桜井』徒歩20分」をそのまま抽出します。

選択した部分を右クリック→「抽出」でホバー→「テキスト」でホバー→「最寄り駅」の変数をクリックします。

このようにして抽出した文字をパターンを置き換えの機能を使って、最寄り駅だけ残るように設定していきます!

まず最寄り駅はカッコ(「」)に囲まれていますので、「『」の文字と「』」の文字と分けてパターンを置き換えを使っていきます。
※本来は「ですが、分かりやすくするために『を使用しています

下のキャプチャの青枠のように、最寄り駅を抽出したステップを選択して、赤枠で囲ってあるコンバータの「+」をクリック→「テキストフォーマット」をホバー→「パターンを置き換え」をクリックします。

今回は南桜井という駅だけを抽出したいので、まずは「』徒歩20分」の部分を削除していきます。

下のキャプチャの赤枠のようにパターンの箇所に「』.*」を入力して、青枠のようにテスト出力を確認してみて、ちゃんと「』」以下が削除されていることが確認できたらOKをクリックします。

更に絞り込んでいきたいので、また「+」をクリックして「パターンを置き換え」を追加します。

今度はパターンの箇所に「.*『」を入力すると、テスト出力のところにちゃんと「南桜井」というように最寄り駅の名前が絞り込めていることを確認できたらOKをクリックします。

このように2つの「パターンを置き換え」を組み合わせることで、最寄り駅だけを抽出することが出来ました!

感動する瞬間!

RPAでロボットを開発していくときに感動する瞬間は色々あるのですが、ここまで設定してきたパターンを置き換えが上手くいったときというのも、少なくとも僕はとても感動する瞬間です!

パターンを置き換えが上手くいったかどうかを確認するには、ループを動かしてみるのが分かりやすいです。

下のキャプチャのように、ループの赤枠の「▶」をクリックして、青枠の最寄り駅の変数にちゃんと最寄り駅の部分だけが抜き出されていることを確認してみましょう!

どれだけループを進めても最寄り駅だけがちゃんと抽出されている瞬間は、僕が感動する瞬間の1つです!

もし上手くいっていない場合には、改めてこちらの記事を読み返して確認をしてみてください!

次回予告

今回のように、これまでにやってきた機能・ステップを使いながら残りの変数の抽出をしていきます!

ぜひ名前付きタグの設定やパターンを置き換えなどを何度も使いながら、使い方を覚えていただきたいです!

お楽しみに!!

タイトルとURLをコピーしました