我有一个我想要向域格式标准化的数百个URL - > domain.com,domain.ie,domain.de,domain.es等。但是我正在努力涵盖在“/”之后有文本的场景象征。

我假设我需要添加另一个IF条件并找到我的URL字符串中的第一个斜杠(/)在哪里,然后拆分与类似u.rsplit('/', 1)[-1]类似的东西?

到目前为止MyCode:

from w3lib.url import url_query_cleaner
from url_normalize import url_normalize

urls = ['foo.com','www.foo.com/','foo.com/us','foo.com/ca/example-test/']


def canonical_url(u):
    u = url_normalize(u)
    u = url_query_cleaner(u,parameterlist = ['utm_source','utm_medium','utm_campaign','utm_term','utm_content'],remove=True)
    if u.startswith("http://"):
        u = u[7:]
    if u.startswith("https://"):
        u = u[8:]
    if u.startswith("www."):
        u = u[4:]
    if u.endswith("/"):
        u = u[:-1]
    return u

list(map(canonical_url,urls))

目前这是一个回报:

['foo.com', 'foo.com', 'foo.com/us', 'foo.com/ca/example-test']

预期结果:

['foo.com', 'foo.com', 'foo.com', 'foo.com']

有人可以帮我吗?先感谢您

分析解答

您可以在Python中使用Urllib模块

from urllib3.util import parse_url

urls = ['foo.com','www.foo.com/','foo.com/us','foo.com/ca/example-test/']
for url in urls:
   parsed_url = parse_url(url)
   host = parsed_url.host if not parsed_url.host.startswith('www.') else parsed_url.host.lstrip('www.')

输出将正如您所预期的那样。