要从文本中正确获取不会引发InvalidSchema错误的URL,可以按照以下步骤进行:
(?i)\b((?:https?://|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s
!()[]{};:'".,<>?«»“”‘’]))`requests
库中的head()
方法发送HEAD请求,检查URL是否返回200状态码。示例代码:import requests
def is_valid_url(url):
try:
response = requests.head(url)
return response.status_code == 200
except requests.exceptions.RequestException:
return False
urlparse
模块进行解析,并检查scheme
属性是否为http
。示例代码:from urllib.parse import urlparse
def is_valid_http_url(url):
parsed_url = urlparse(url)
return parsed_url.scheme == 'http'
urlparse
模块解析URL,并检查netloc
属性是否与目标域名匹配。示例代码:from urllib.parse import urlparse
def is_valid_domain_url(url, target_domain):
parsed_url = urlparse(url)
return parsed_url.netloc == target_domain
综上所述,通过以上步骤可以从文本中正确获取不会引发InvalidSchema错误的URL。请注意,以上代码示例中未提及具体的腾讯云产品,如有需要可以根据实际情况选择适合的产品。
领取专属 10元无门槛券
手把手带您无忧上云