11<?xml version =" 1.0" encoding =" utf-8" ?>
2- <!-- EN-Revision: 20e912791754a34fcdef58be5dfc40b87062b487 Maintainer: leonardolara Status: ready --><!-- CREDITS: leonardolara -->
3-
4- <chapter xml : id = " svm.examples " xmlns =" http://docbook.org/ns/docbook" xmlns : xlink =" http://www.w3.org/1999/xlink" >
2+ <!-- EN-Revision: 1ca2d4af9471f44743281e6949cb53b8afcaefb8 Maintainer: leonardolara Status: ready -->
3+ <!-- CREDITS: leonardolara -->
4+ <chapter xmlns =" http://docbook.org/ns/docbook" xmlns : xlink =" http://www.w3.org/1999/xlink" xml : id = " svm.examples " >
55 &reftitle.examples;
66
7- <para >
7+ <simpara >
88 O processo básico consiste em definir parâmetros, fornecer dados de treinamento para gerar um
99 modelo e, em seguida, fazer previsões com base no modelo. Há um conjunto padrão
1010 de parâmetros que devem gerar resultados com praticamente qualquer entrada, então começaremos
1111 analisando os dados.
12- </para >
13- <para >
12+ </simpara >
13+ <simpara >
1414 Os dados são fornecidos em um arquivo, um fluxo ou como um array. Se fornecidos em
1515 um arquivo ou fluxo, devem conter uma linha por exemplo de treinamento, que deve
1616 ser formatado como uma classe inteira (geralmente 1 e -1) seguido por uma série de
1717 pares característica/valor, em ordem crescente de característica. As características são números inteiros,
1818 os valores são floats, geralmente em escala de 0 a 1. Por exemplo:
19- </para >
20- <para >
19+ </simpara >
20+ <simpara >
2121 -1 1:0.43 3:0.12 9284:0.2
22- </para >
23- <para >
22+ </simpara >
23+ <simpara >
2424 Em um problema de classificação de documentos, digamos, um verificador de spam, cada linha representaria
2525 um documento. Haveria duas classes: -1 para spam e 1 para "ham".
2626 Cada característica representaria uma palavra, e o valor representaria a
2727 importância dessa palavra para o documento (talvez a contagem de frequência, com
2828 o total dimensionado para o comprimento da unidade). Características que fossem 0 (por exemplo, a palavra não
2929 aparecia no documento) simplesmente não seriam incluídas.
30- </para >
31- <para >
30+ </simpara >
31+ <simpara >
3232 No modo array, os dados devem ser passados como um array de arrays. Cada subarray
33- deve ter a classe como primeiro elemento, e então conjuntos de chaves => valores para os
33+ deve ter a classe como primeiro elemento, e então conjuntos de chaves => valores para os
3434 pares de valores de características.
35- </para >
36- <para >
35+ </simpara >
36+ <simpara >
3737 Esses dados são passados para a função de treinamento da classe SVM, que retornará um
3838 modelo SVM bem-sucedido.
39- </para >
40- <para >
39+ </simpara >
40+ <simpara >
4141 Uma vez gerado, um modelo pode ser usado para fazer previsões sobre
4242 dados nunca antes vistos. Isso pode ser passado como um array para a função de previsão
4343 do modelo, no mesmo formato de antes, mas sem o rótulo.
4444 A resposta será a classe.
45- </para >
46- <para >
45+ </simpara >
46+ <simpara >
4747 Os modelos podem ser salvos e restaurados conforme necessário, usando as funções
4848 de salvar e carregar, que recebem um local de arquivo.
49- </para >
49+ </simpara >
5050 <para >
5151 <example >
5252 <title >Treinamento com array</title >
@@ -88,7 +88,6 @@ $model = $svm->train("traindata.txt");
8888 </example >
8989 </para >
9090</chapter >
91-
9291<!-- Keep this comment at the end of the file
9392Local variables:
9493mode: sgml
@@ -109,4 +108,3 @@ vim600: syn=xml fen fdm=syntax fdl=2 si
109108vim: et tw=78 syn=sgml
110109vi: ts=1 sw=1
111110-->
112-
0 commit comments