SUUMOから情報を抽出する⑧ ~全項目の抽出完了~

SUUMOからの抽出

前回までの記事でほとんどの情報を抽出しましたので、今回は全ての情報を抽出してしまいます!

今回の記事の内容もぜひ実践をしていただいて、抽出のテクニックを身につけてしまいましょう!

徒歩何分なのか、の抽出

この「徒歩何分か」については、前回の記事で名前付きタグを設定した「沿線・駅」の項目の中に情報が入っています。

そのため、改めて名前付きタグを設定する必要はありません。

最寄り駅の抽出のときに選択をした「東武野田線『南桜井』徒歩20分」の部分を今回も選択します。

そして選択した部分を右クリック→「抽出」でホバー→「テキスト」でホバー→「徒歩何分か」の変数をクリックします。

抽出のステップが出来たら、そのステップを選択してまずファインダーを確認してみましょう。

確認したところ、特に問題はなさそうです。

次は、万が一、徒歩の記載が無かった場合にエラーでロボットが止まらないように、エラー処理のタブから「無視して続行」に変更をしておきます。

さて、すでに何度も使ってきましたが、ここでも「パターンを置き換え」を使って、テキストの絞り込みをしていきます!

アクションのタブから、コンバータの「+」をクリック→「テキストフォーマット」をホバー→「パターンを置き換え」をクリックします。

そして、今回は『」』から前を削除することで徒歩以降だけが抽出できますので、パターンのところに『.*」』と入力をします。

すると、テスト出力のところに今回のように「徒歩20分」というように表示されていれば大丈夫です!

土地面積の抽出

次は土地面積の抽出です。

まずは「土地面積」の箇所で名前付きタグを設定します。

詳細は以前のページをご確認いただきたいですが、重要な箇所だけキャプチャも交えながらまとめていきます!

ファインダーのタグパターンのところに「.*土地面積.*」と入力をして、青枠の虫メガネもクリックして、ファインダーがちゃんと設定できているかも確認しておきましょう。

また、忘れずにエラー処理で、「無視して続行」を選択しておきます。

名前付きタグの設定が完了したら、下のキャプチャのように、まずは土地面積の情報をまるまる抽出してしまいます。

まるまる抽出をしましたが、この中から狭い方の坪数に絞り込みます。

今回の場合ですと、「45.00坪」だけを抽出していきます。

つまり、「(」より前と「~」より後を削除することで「45.00坪」の部分を絞り込みます!

なので、抽出したステップのコンバータで「パターンを置き換え」をしていきます。

まずは下のキャプチャのように、パターンに「).*」と入力をすることで、「)」より後を削除していきます。

また「パターンを置き換え」の機能を使って更に絞り込んでいきます!

こちらも下のキャプチャのように、「.*(」と入力することで「(」よりも前を削除して、青枠のように坪数だけを絞り込むことが出来ました。

ここから先は販売価格を抽出するときにもやりましたが、これまでの同じように更に「パターンを置き換え」を追加します。

今回は下のキャプチャのように、「~.*」を入力して、取得しようとしていた「45.00坪」だけを取得できました!

今回の土地面積の抽出は、実は「(」や「~」が2つあったので少し「パターンを置き換え」の指示の仕方が難しいのですが、「.*」だけを使って削除する方法だけを使って絞り込んでみました。

このように「.*」だけを使っても、回数を重ねていけば特定したい箇所を絞り込める可能性が高いので、ぜひ積極的に使ってみてください!

坪単価の取得

さて、ようやく最後の項目の坪単価になりました!

坪単価の抽出についても、同じように名前付きタグの設定からやっていきます。

「坪単価」の表記の箇所に対して名前付きタグを設定します。

名前付きタグの設定が出来たら、坪単価を抽出します。

他の物件もざっと見ましたが、坪単価に関しては「~」などは無さそうなので、特に「パターンを置き換え」などのようなコンバータは使わずにそのままで大丈夫かと思います。

この坪単価に関しても名前付きタグのステップと抽出のステップそれぞれに、エラー処理として「無視して続行」を選択しておきます。

これで全ての項目の抽出が完了しました!

次回予告

これで全ての抽出が出来ましたので、抽出した数値を条件に沿ったものだけ抽出できるように条件の設定を行います。

またExcelへの入力も開発していきます!

お楽しみに!!

タイトルとURLをコピーしました