TransWikia.com

正規表現を使って、nofollowを取得したいです。

スタック・オーバーフロー Asked by user26071 on November 22, 2021

様々なURLからbeutifulsoupを利用しHTMLソース上から、example.comの発リンクに対してrel=nofollowがついているものだけを抽出したいです。

VBAしか利用したことがなく、こんな感じかなと思いますがご指摘いただければ幸いです。

df = re.findall("http.*?" & example.com & ".*?rel=(.*?)>", soup)

One Answer

今ある情報からだけで判断すると以下のような感じかな?と思います。
a tag中のhrefに設定されてるURLから該当するものをhitさせる正規表現です。

(?<=href=['"])https?://example.com/.*rel=nofollow.*(?=['"])

Answered by 豚吐露 on November 22, 2021

Add your own answers!

Ask a Question

Get help from others!

© 2024 TransWikia.com. All rights reserved. Sites we Love: PCI Database, UKBizDB, Menu Kuliner, Sharing RPP