-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathSepararPalavrasPDF.py
62 lines (53 loc) · 2.31 KB
/
SepararPalavrasPDF.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
import pandas as pd
from numpy import savetxt
# pyinstaller --onefile --console .\aulaProjetoSplit.py
print('\n\033[1;33mSoftware para separar arquivos de texto em arquivos separados por palavras.\033[m')
print('\033[1;33mCriar um arquivo com nome texto.txt extraido do site e depois copiar o caminho e colar no input.\033[m')
print('\n\033[1;32mSoftware by Anderson Marinho \033[m')
print('\033[1;32mVersão 1.0 \033[m')
print('\n')
# arq = open('texto.txt', 'r', encoding="utf-8" )
# abrir = input('\033[1;31mDigite caminho do arquivo: \033[m')
arq = open('Aula_294_Texto', 'r', encoding="utf-8" )
string = arq.read()
lista0 = string.split(' ') # split em palavras
# lista0 = set(string.split(' ')) # split em palavras
lista1 = (dict.fromkeys(string.split(' '))) # split em palavras
# print(lista1)
palavras = []
for valor in lista1:
valor = valor.replace(',','')
valor = valor.replace('.','')
valor = valor.replace(':','')
valor = valor.replace(';','')
valor = valor.replace('—','')
valor = valor.replace(' ','')
valor = valor.replace('?','')
valor = valor.replace('!','')
valor = valor.replace('“','')
valor = valor.replace('–','')
valor = valor.replace('“‘','')
valor = valor.replace('“‘','')
valor = valor.replace('”','')
valor = valor.replace(')','')
valor = valor.replace('(','')
valor = valor.replace('‘','')
# print(list(valor.strip().upper()))
# print((valor.strip().upper()))
valor = valor.strip().upper()
palavras.append(valor)
print(palavras)
# salvar = input(r'Digite Caminho para Salvar: ')
savetxt('palavras.csv', palavras, delimiter=';', fmt='%s')
input('\n\033[1;31mPressione <ENTER> para continuar após renomear coluna.\033[m')
abrirCSV = ('palavras.csv')
baseDados = pd.read_csv(abrirCSV, sep=';', low_memory=False, encoding='latin-1')
baseDados = baseDados.sort_values('COLUNA', ascending=True)
baseDados = baseDados.drop_duplicates(subset='COLUNA', keep='first')
baseDados = baseDados.reset_index(drop=True, inplace=False)
# baseDados.to_csv(input('Digite o nome do arquivo: ') +'.csv', sep=';', index=False, encoding='latin-1')
baseDados.count()
baseDados.to_csv(abrirCSV, sep=';', index=False, encoding='latin-1')
print(baseDados)
input('\n\033[1;31mPressione <ENTER> para sair.\033[m')
print('\033[1;31mFim do programa.\033[m')