SUUMOから情報を抽出する⑥ ~パターンを置き換え~

SUUMOからの抽出

前回の記事では、名前付きタグを設定することで項目を特定して抽出をすることを実践してみました。

今回も名前付きタグの設定をやっていきますので、ぜひ前回のブログも確認しながら取り組んでみてください!

販売価格の名前付きタグの設定する

さて、前回は住所を抽出しましたが、今回は販売価格を抽出してみます。

前回同様、ページの構造が変わると表示位置が変わってしまう可能性がありますので、もし表示位置が変わってしまってもちゃんと抽出をしてこれるように、名前付きタグの設定をしてから販売価格を抽出します。

まずは名前付きタグを設定するので、「販売価格」を選択して名前付きタグを設定します。

右クリック→「その他」でホバー→「名前付きタグとして設定」をクリックします。

それからタグ名を「販売価格」に変更をして、ファインダーの設定も、前回の記事の所在地の部分を販売価格に変更していただければ大丈夫です。
※上記のURLから前回の記事を確認してみてください

ただし、1点前回とは異なる部分がありますので、その点だけ詳細をお伝えします!

販売価格の名前付きタグを設定とき、すでに住所の名前付きタグを設定してしまっているので、下のキャプチャの赤枠のように、自動で「名前付きタグ”住所”の前」という条件が入ってしまっています。

しかし、必ずしも名前付きタグ”住所”の前かどうかは分かりません。

そのため、この条件を削除したいので、この条件を選択した状態で「ー」をクリックすると、こちらの条件が消えます。

販売価格を抽出する

ここまでで名前付きタグの設定が出来ましたので、販売価格を抽出していきます。

下のキャプチャの赤枠のように、販売価格の箇所を選択→右クリック→「抽出」でホバー→「テキスト」でホバー→「販売価格」の変数でクリックします。

ここで出来たステップのファインダーを設定します。

下のキャプチャの青枠のように、販売価格を抽出を抽出したステップをクリックし、「ファインダー」をクリックします。

こちらのキャプチャで赤枠をつけていますが、「名前付きタグ”住所”の前」となっていますが、必ずしもこの条件の通りかどうかは分かりませんので、こちらの条件は「ー」をクリックして削除をしてしまいましょう。

ここで抽出できた販売価格は「1030万円~1180万円」となっていますが、このように「~」がついている場合には、安い方の金額を取得するように設定をしてみます!

このように特定の文字・箇所を絞るのに使う機能が、「パターンを置き換え」という機能です!

今回の記事のサブタイトルしてますが、今回の記事以外でも使っていきますので、ぜひ今回の記事の内容を実践して覚えてみてください!

パターンを置き換えを使ってみる

下のキャプチャの青枠のように、販売価格を抽出しているステップを選択して、アクションの部分をスクロールするとコンバータという枠が出てきます。

こちらに「パターンを置き換え」という機能を追加していきます。

「+」をクリック→「テキストフォーマット」でホバー→「パターンを置き換え」をクリックします。

するとこのようなパターンを置き換えのウィンドウが立ち上がります。

改めて詳しい説明はしますが、今回は簡単で使いやすいテクニックをお伝えします!

下のキャプチャの赤枠のように、今回はパターンの入力枠に「~.*」と入力をします。

すると元々「1030万円~1180万円」という表記だったのですが、青枠のテスト出力部分では「1030万円」と安い方の金額だけが残って表示されます。

パターンの意味

このパターンですが、e-ラーニング②の「パターンの使い方」で学ぶことが出来ますので、興味がある方はぜひ確認してみてください。

https://community.bizrobo.com/e-learning/learning-path/KJPpi6wZY1O4srmFU5cS/course/QNNMxqUIBlKZNi5FWbYG/content/nrfyozaqD5Hp3XioVn2T

まず今回使った「.」と「*」について簡単にまとめていきます!

「.」:数字やアルファベット、漢字なども含めたすべての文字を表します。

「*」:1文字でも何文字でも、というように文字の数を表します。

つまり、「~.*」の意味を簡単にまとめると、「『~』以降の全ての、どのような文字でも削除する」という意味です。
※正確な意味合いは少し異なりますが、このように考えて使ってみてください!

今回は安い方を残したかったので、上のように入力をしましたが、例えば高い方を残したい場合には、下のキャプチャのように「.*~」と入力すると「1180万円」の方が残ります。
※もし皆さんも試してみたら、元のように安い方が残るように「~.*」に戻しておいてください

今回は「~」という共通の文字があるので、この「~」を基準にして削除したい部分を指定しています。

削除したい部分が複数ある場合には、今回の「パターンを置き換え」の機能を何度も設定してあげるだけで絞りたい箇所を指定してあげることが出来ます。

「パターンを置き換え」に関しては改めて詳細をお伝えしますが、このように特定の文字を基準にして必要な方だけ取り出すというのは、簡単で実践的なのでぜひ活用してみてください!

このように更に機能を追加する場合には、また「+」をクリックして「パターンを置き換え」や他の機能を選択することで追加していくことが出来ます。

次回予告

ここまでで名前付きタグやパターンを置き換えをやってきましたので、これを活用をしながら他の項目も抽出をしていきます!

お楽しみに!!

タイトルとURLをコピーしました