Machine Learning

Notas sobre Machine Learning de Stanford

Definiciones de Machine Learning

Arthur Samuel (1959): Campo de estudio que da a las computadoras la habilidad de aprender sin ser explicitamente programada.

Tom Mitchel (1998): Se dice que un programa de computadora aprende de una experiencia E respecto a alguna tarea T y alguna medida de rendimiento P, si el rendimiento de sobre T medido por P mejora con la experiencia E.

Tipos de aprendizaje máquina

  • Aprendizaje supervisado
  • Aprendizaje no supervisado
  • Reforzamiento del aprendizaje
  • Sistemas de recomendación

Aprendizaje supervisado

  • Necesitan de un conjunto correcto de respuestas
  • Problemas de regresión: Predecir un resultado de valor continuo
  • Problemas de clasificación: Predecir un resultado de valor discreto.

Aprendizaje no supervisado

  • Algoritmos de agrupamiento (Clustering)
  • Algoritmo de separación de voces
  • Lenguage de prototipado rápido.

Regresión lineal

Notación:

  • m = número de ejemplos para el entrenamiento
  • y’s = variables de entrada / características
  • y’s = variables de salida / variable objetivo
  • (x,y) = un ejemplo de entrenamiento
  • (x^{i}, y^{i}) - i^{th} elemento

Training set -> Learning algorithm -> h (hypothesis)

  • h: x -> y
  • How do we represent h? h_{\Theta}(x) = \Theta_{0} + \Theta_{1x}
  • A veces h_{\Theta}(x) = h(x)
  • minimizar \Theta_{0} \Theta_{1} | \sum\limits_{i=1}^{m}(h_{\Theta^{(i)}} - y^{(i)})^{2}

Regresión lineal con múltiples variables

Notación

  • n = número de características
  • x^{(i)} = entrada de características del i^{esimo} ejemplo de entrenamiento
  • x_{j}^{(i)} = valor de la característica j en el i^{esimo} ejemplo de entrenamiento

Hipótesis generalizada

  • Anteriormente: h_{\theta} (x) = \theta_{1} + \theta_{1x}
  • Ahora: h_{\theta} = \theta_{0} + \theta_{1x_{1}} + \theta_{2x_{2}} + \ldots + \theta_{nx_{n}}
  • Por conveniencia de notación, definimos x_{0} = 1
  • Función de costo J(\theta_{0}, \theta_{1}, \ldots, \theta_{n}) = \frac{1}{2m}\sum\limits_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})^{2}

Gradiente descendiente multivariable

  • Gradiente descendiente (Actualización simultánea \forall j = 0, \ldots, n)

Escalamiento de características.

  • Asegurar que las características están en una escala similar.
  • Posible solución, ortonormalizar los valores de x_{j}
  • Normalización por media: x_{i} = \frac{x_{i} - M_{i}}{s_{i}}, donde M_{i} es el valor promedio para x_{i} en el conjunto de datos, y s_{i} puede ser la diferencia entre max y el min de los valores de tu rango de datos o la desviación estándar de tu conjunto de datos.

Ecuación normal

  • \theta = (X^{T}X)^{-1}X^{T}y
  • En octave \theta = pinv(X’ * X) * X’ * y
  • Gradiente descent vs Normal equation
Gradient descent Normal equation
Needs to choose α No need to choose α
Needs many iterations Don’t need to iterate
Trabaja bien cuando el número de características es grande Lento si el número de características es grande
  • Needs to choose α | No need to choose α
  • Needs many iterations | Don’t need to iterate
  • Trabaja bien cuando el número de car

Tikz test

Here’s a tree, exported to both html and pdf.

Otros

node label shape fillcolor
S_start start ellipse green
S_fill fill form    
S_send send form    
S_complete form complete? diamond yellow
S_do do task   red
S_end end ellipse  
from to label
S_start S_fill  
S_fill S_send  
S_send S_complete  
S_complete S_fill N
S_complete S_do Y
S_do S_end  

example-diagram.png

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s