forked from wunnox/python_grundlagen
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathU9.1_ReadSubRL.py
executable file
·54 lines (49 loc) · 1.38 KB
/
U9.1_ReadSubRL.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
#!/usr/local/bin/python3
##############################################
#
# Name: U9.1_ReadSubRL.py
#
# Author: Peter Christen
#
# Version: 1.0
#
# Date: 10.02.2018
#
# Purpose: Liest Daten auf Webseite und
# liest zusätzliche Seiten ein
#
##############################################
import urllib.request
import re
# Variabeln
www_liste = []
# Hauptseite einlesen
for p in range(1, 15):
# URL einlesen
webseite = "http://www.verband-musikschulen.ch/de/20_musikschule-suchen/10_liste.htm?page=" + \
str(p)
u = urllib.request.urlopen(webseite)
li = u.readlines()
u.close()
for element in li:
if 'detailid' in element[:-1].decode():
ids = re.findall('detailid=[0-9]+', element[:-1].decode())
for i in ids:
www_liste.append(
"http://www.verband-musikschulen.ch/de/20_musikschule-suchen/10_liste.htm" +
"?" +
i)
# Untersteiten einlesen
for wwwl in www_liste:
u = urllib.request.urlopen(wwwl)
li = u.readlines()
u.close()
s = set()
for element in li:
if 'www' in element[:-
1].decode() and 'musikzeitung.ch' not in element[:-1].decode():
www = (re.findall('www\..+?\.ch', element[:-1].decode()))
for w in www:
s.add(w)
if s:
print(wwwl, " : ", s)