-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathextractionTablePage.py
More file actions
97 lines (62 loc) · 3.09 KB
/
extractionTablePage.py
File metadata and controls
97 lines (62 loc) · 3.09 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
import urllib.request
import io
import PyPDF2
class ExtractionTablePage:
def __init__(self, url, pag, state, course):
# Intância as variaveis que armazenarão as notas dos aprovados e os da lista de espera
self.approved = []
self.waiting_list = []
# Intância uma linha de corte para o curso que se deseja analisar
self.course = f"{course.strip().upper()} - {state.strip().upper()}"
self.state = state
# Carrega o PDF online
self.response = urllib.request.urlopen(url)
self.pdf_contents = self.response.read()
# Cria um objeto de leitura do PDF
self.pdf_reader = PyPDF2.PdfReader(io.BytesIO(self.pdf_contents))
# Extraí a tabela de uma página específica e deixa apenas as informações do curso desejado
self.page = self.pdf_reader.pages[pag]
self.table_text = self.page.extract_text().split('\n')
self.separate_table_by_desired_course()
# Cria uma lista que tem contida apenas as notas e se foi ou não aprovado
self.grades = []
self.separate_data()
def separate_data(self):
# Separa os aprovados dos que estão na lista de espera
for i in self.table_text:
if i.split()[-1] == "vaga":
self.grades.append([i.split()[-3], 1])
else:
self.grades.append(i.split()[-1])
# percorre as notas e separa em aprovados e reporvados
for i in self.grades:
try:
if (i[-8:] == "APROVADO"):
self.approved.append(float(i[:6]))
except IndexError:
pass
try:
if (i[0][-15:] == "Desclassificado"):
self.waiting_list.append(float(i[0][:6].strip()))
except IndexError:
continue
def separate_table_by_desired_course(self, first=0):
if (first == 0):
# Percorre a tabela e procura o curso
for i, j in enumerate(self.table_text):
# Abrange dois casos: Primeiro, a tabela possui mais curso depois do escolhido; segundo quando ela é a ultima
if (self.state.strip().upper() in j) and (i > self.table_text.index(self.course)):
self.table_text = self.table_text[self.table_text.index(self.course):i]
break
else:
self.table_text = self.table_text[self.table_text.index(self.course):]
else:
for i, j in enumerate(self.table_text):
if (self.state.strip().upper() in j):
self.table_text = self.table_text[:i]
break
else:
self.table_text = self.table_text
# Exemplo que será futuramente apagado
if __name__ == "__main__":
df = ExtractionTablePage("https://prograd.ufc.br/wp-content/uploads/2022/11/edital-22-2022-transferencia-de-outras-ies-aprovados-e-desclassificados-por-vaga-2023-1.pdf", 1, "fortaleza", "ciência da computação")