<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:georss="http://www.georss.org/georss" xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#" xmlns:media="http://search.yahoo.com/mrss/"
		>
<channel>
	<title>Comentarios para El Weblog de Ivan Ricondo (Ubanov)</title>
	<atom:link href="http://ubanov.wordpress.com/comments/feed/" rel="self" type="application/rss+xml" />
	<link>http://ubanov.wordpress.com</link>
	<description>Weblog sobre Informática, Linux, Robots y otras curiosidades que se me ocurran</description>
	<lastBuildDate>Tue, 15 Dec 2009 01:18:15 +0000</lastBuildDate>
	<generator>http://wordpress.com/</generator>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
		<item>
		<title>Comentario de ubanov en Reconocimiento de voz en castellano para Linux</title>
		<link>http://ubanov.wordpress.com/2008/11/28/reconocimiento-de-voz-en-castellano/#comment-153</link>
		<dc:creator>ubanov</dc:creator>
		<pubDate>Tue, 15 Dec 2009 01:18:15 +0000</pubDate>
		<guid isPermaLink="false">http://ubanov.wordpress.com/?p=233#comment-153</guid>
		<description>no es molestia.... sino con no contestar vale :-P

De forma simplificada al HTK tu le pasas tres cosas: los ficheros WAV, una trascripción de lo que se dice en el WAV y un diccionario de cada palabra por qué triphones está formado. Si miras los ficheros en concreto verás que hay &quot;algunos&quot; ficheros más.

El busca los diferentes sonidos en orden, y con la aparición repetida del mismo sonido se asegura que el phonema es el correcto.

Voy a intentar explicarlo de forma muy simplificada lo que sería un triphone, para que entiendas mejor el proceso.

Un fonema es un sonido diferente, por ejemplo la palabra cinco, tiene 5 fonemas (5 sonidos), la pronunciación de la c, la de la i, la de la n, el de la c de co (que es un fonema diferente al de la c de ci, este sería más bien una ko) y el de la o

Un triphone es la unión de tres sonidos seguidos, es decir, la palabra &quot;cinco&quot; tendría los siguientes triphones:

silencio - c - i
c - i - n
i - n -k
n - k - o
k -o - silencio

En los trifones se mira no solo el sonido que hace un fonema, sino cómo varia ese sonido dependiendo de qué tenga delante o detrás. Al final los sistemas basados en reconocimiento de triphones funcionan mucho mejor que los basados en fonemas simples, por los que son los que se utilizan hoy en día.

Imaginate que quieres decir &quot;voy para allá&quot;, si lo dices pensando y vocalizando dirás todos los sonidos tal cual, pero si hablas normal y un poco rápido, el &quot;para&quot; seguramente suene casi a un &quot;paa&quot;, con una r que casi no se olle. Un triphone tiene en cuenta eso...

Ahora imaginate cuantas combinaciones de triphones hay (en alguno de los ficheros dejé una estadística de cuales eran los más utilizados, pero no recuerdo donde).

Qué se necesita entonces para tener un sistema de reconocimiento decente.... horas y horas de audio con su transcripción. Yo en su día me puse en contacto con una biblioteca que había preparado audiolibros para sordos, y les pedí que me los dejaran para esto, pero no se molestaron ni en contestar... enfín.

Se pueden definir en lugar de triphones, pentaphones... (5 sonidos) pero como es tan complejo el training de forma práctica no se usan (a día de hoy)...

Espero haberte ayudado.</description>
		<content:encoded><![CDATA[<p>no es molestia&#8230;. sino con no contestar vale <img src='http://s.wordpress.com/wp-includes/images/smilies/icon_razz.gif' alt=':-P' class='wp-smiley' /> </p>
<p>De forma simplificada al HTK tu le pasas tres cosas: los ficheros WAV, una trascripción de lo que se dice en el WAV y un diccionario de cada palabra por qué triphones está formado. Si miras los ficheros en concreto verás que hay &#8220;algunos&#8221; ficheros más.</p>
<p>El busca los diferentes sonidos en orden, y con la aparición repetida del mismo sonido se asegura que el phonema es el correcto.</p>
<p>Voy a intentar explicarlo de forma muy simplificada lo que sería un triphone, para que entiendas mejor el proceso.</p>
<p>Un fonema es un sonido diferente, por ejemplo la palabra cinco, tiene 5 fonemas (5 sonidos), la pronunciación de la c, la de la i, la de la n, el de la c de co (que es un fonema diferente al de la c de ci, este sería más bien una ko) y el de la o</p>
<p>Un triphone es la unión de tres sonidos seguidos, es decir, la palabra &#8220;cinco&#8221; tendría los siguientes triphones:</p>
<p>silencio &#8211; c &#8211; i<br />
c &#8211; i &#8211; n<br />
i &#8211; n -k<br />
n &#8211; k &#8211; o<br />
k -o &#8211; silencio</p>
<p>En los trifones se mira no solo el sonido que hace un fonema, sino cómo varia ese sonido dependiendo de qué tenga delante o detrás. Al final los sistemas basados en reconocimiento de triphones funcionan mucho mejor que los basados en fonemas simples, por los que son los que se utilizan hoy en día.</p>
<p>Imaginate que quieres decir &#8220;voy para allá&#8221;, si lo dices pensando y vocalizando dirás todos los sonidos tal cual, pero si hablas normal y un poco rápido, el &#8220;para&#8221; seguramente suene casi a un &#8220;paa&#8221;, con una r que casi no se olle. Un triphone tiene en cuenta eso&#8230;</p>
<p>Ahora imaginate cuantas combinaciones de triphones hay (en alguno de los ficheros dejé una estadística de cuales eran los más utilizados, pero no recuerdo donde).</p>
<p>Qué se necesita entonces para tener un sistema de reconocimiento decente&#8230;. horas y horas de audio con su transcripción. Yo en su día me puse en contacto con una biblioteca que había preparado audiolibros para sordos, y les pedí que me los dejaran para esto, pero no se molestaron ni en contestar&#8230; enfín.</p>
<p>Se pueden definir en lugar de triphones, pentaphones&#8230; (5 sonidos) pero como es tan complejo el training de forma práctica no se usan (a día de hoy)&#8230;</p>
<p>Espero haberte ayudado.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Comentario de cmelendo en Reconocimiento de voz en castellano para Linux</title>
		<link>http://ubanov.wordpress.com/2008/11/28/reconocimiento-de-voz-en-castellano/#comment-152</link>
		<dc:creator>cmelendo</dc:creator>
		<pubDate>Mon, 14 Dec 2009 13:48:39 +0000</pubDate>
		<guid isPermaLink="false">http://ubanov.wordpress.com/?p=233#comment-152</guid>
		<description>Una última pregunta: como relaciona HTK los wav dados y el texto con los fonemas utilizados para asignarles la info estadistica?. Cuando se utilizan los triphones?

Gracias (y no te molesto mas).</description>
		<content:encoded><![CDATA[<p>Una última pregunta: como relaciona HTK los wav dados y el texto con los fonemas utilizados para asignarles la info estadistica?. Cuando se utilizan los triphones?</p>
<p>Gracias (y no te molesto mas).</p>
]]></content:encoded>
	</item>
	<item>
		<title>Comentario de ubanov en Reconocimiento de voz en castellano para Linux</title>
		<link>http://ubanov.wordpress.com/2008/11/28/reconocimiento-de-voz-en-castellano/#comment-151</link>
		<dc:creator>ubanov</dc:creator>
		<pubDate>Mon, 14 Dec 2009 12:41:52 +0000</pubDate>
		<guid isPermaLink="false">http://ubanov.wordpress.com/?p=233#comment-151</guid>
		<description>Me temo que no hay nada sencillo donde mirar, lo único que te queda es preguntar por los foros...

Con los Wavs se genera información estadística de qué es cada sonido.

Yo seleccioné los phones y triphones haciendo estadísticas de qué triphones se usaban más (cogí un diccionario que baje de algún lugar y comprobé qué triphones aparecen más en las palabras españolas, sin contar cuanto se usa cada palabra).

Al final mi conclusión es que hay tantos triphones que no vas a acertar con todos (sería necesario coger lecturas de unos cuantos libros para acertar con los más habituales de verdad), con lo que cada vez que quería reconocer una nueva palabra tenía que incluirla.... En base a eso si quieres que tu robot te reconozca 4 comandos, introduce en el training esos 4 comandos y ya está.</description>
		<content:encoded><![CDATA[<p>Me temo que no hay nada sencillo donde mirar, lo único que te queda es preguntar por los foros&#8230;</p>
<p>Con los Wavs se genera información estadística de qué es cada sonido.</p>
<p>Yo seleccioné los phones y triphones haciendo estadísticas de qué triphones se usaban más (cogí un diccionario que baje de algún lugar y comprobé qué triphones aparecen más en las palabras españolas, sin contar cuanto se usa cada palabra).</p>
<p>Al final mi conclusión es que hay tantos triphones que no vas a acertar con todos (sería necesario coger lecturas de unos cuantos libros para acertar con los más habituales de verdad), con lo que cada vez que quería reconocer una nueva palabra tenía que incluirla&#8230;. En base a eso si quieres que tu robot te reconozca 4 comandos, introduce en el training esos 4 comandos y ya está.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Comentario de cmelendo en Reconocimiento de voz en castellano para Linux</title>
		<link>http://ubanov.wordpress.com/2008/11/28/reconocimiento-de-voz-en-castellano/#comment-150</link>
		<dc:creator>cmelendo</dc:creator>
		<pubDate>Mon, 14 Dec 2009 12:31:06 +0000</pubDate>
		<guid isPermaLink="false">http://ubanov.wordpress.com/?p=233#comment-150</guid>
		<description>Hola Ubanov, enhorabuena por tu trabajo (me he bajado los ficheros de training, etc). Me gustaría utilizar HTK + Julius para el reconocimiento de voz en un robot pero antes me gustaría llegar a entender la teoría de funcionamiento de estos programas.
Veo que has profundizado mucho (has hecho scripts, texto de entrenamiento, etc). ¿Donde se puede bajar doc. sobre estos programas? ¿hay documentación en castellano?, ¿y la información de que phones, triphones, lexicon... utilizar? ¿que información genera el HTK, supongo que hace FFT de los wav y luego estadistica? ¿Como has seleccionado el texto de training?
Muchas gracias.</description>
		<content:encoded><![CDATA[<p>Hola Ubanov, enhorabuena por tu trabajo (me he bajado los ficheros de training, etc). Me gustaría utilizar HTK + Julius para el reconocimiento de voz en un robot pero antes me gustaría llegar a entender la teoría de funcionamiento de estos programas.<br />
Veo que has profundizado mucho (has hecho scripts, texto de entrenamiento, etc). ¿Donde se puede bajar doc. sobre estos programas? ¿hay documentación en castellano?, ¿y la información de que phones, triphones, lexicon&#8230; utilizar? ¿que información genera el HTK, supongo que hace FFT de los wav y luego estadistica? ¿Como has seleccionado el texto de training?<br />
Muchas gracias.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Comentario de Compartir ficheros por Internet (por WebDAV) &#171; El Weblog de Ivan Ricondo (Ubanov) en Cómo crear certificados digitales (ser un CA)</title>
		<link>http://ubanov.wordpress.com/2009/12/02/como-crear-certificados-digitales-ser-un-ca/#comment-149</link>
		<dc:creator>Compartir ficheros por Internet (por WebDAV) &#171; El Weblog de Ivan Ricondo (Ubanov)</dc:creator>
		<pubDate>Tue, 08 Dec 2009 23:30:55 +0000</pubDate>
		<guid isPermaLink="false">http://ubanov.wordpress.com/?p=449#comment-149</guid>
		<description>[...] crearte un certificado puedes usar la forma complicada (y elegante) que propongo en este artículo http://ubanov.wordpress.com/2009/12/02/como-crear-certificados-digitales-ser-un-ca/, o buscar por Internet otras [...]</description>
		<content:encoded><![CDATA[<p>[...] crearte un certificado puedes usar la forma complicada (y elegante) que propongo en este artículo <a href="http://ubanov.wordpress.com/2009/12/02/como-crear-certificados-digitales-ser-un-ca/" rel="nofollow">http://ubanov.wordpress.com/2009/12/02/como-crear-certificados-digitales-ser-un-ca/</a>, o buscar por Internet otras [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>Comentario de Mario Medina en Reconocimiento de voz en castellano para Linux</title>
		<link>http://ubanov.wordpress.com/2008/11/28/reconocimiento-de-voz-en-castellano/#comment-148</link>
		<dc:creator>Mario Medina</dc:creator>
		<pubDate>Mon, 07 Dec 2009 19:36:07 +0000</pubDate>
		<guid isPermaLink="false">http://ubanov.wordpress.com/?p=233#comment-148</guid>
		<description>Hola! estoy desarrollando una interfaz para poder grabar muchas mas frases de manera sencilla, en español de España (donde la Z se utiliza con un TH) y español de México (la Z es una S), recolectando frases de diversos documentos y temas, buscando tener por lo menos 10 veces todas las palabras del diccionario, con el objetivo de que este sistema permita ya dictado.

Esta iniciando todavia, pero en unos dias va a estar la interfaz visual para grabar en línea y creo que habra un paquete diario o semanal donde estarán las voces de todas las personas que graben :)</description>
		<content:encoded><![CDATA[<p>Hola! estoy desarrollando una interfaz para poder grabar muchas mas frases de manera sencilla, en español de España (donde la Z se utiliza con un TH) y español de México (la Z es una S), recolectando frases de diversos documentos y temas, buscando tener por lo menos 10 veces todas las palabras del diccionario, con el objetivo de que este sistema permita ya dictado.</p>
<p>Esta iniciando todavia, pero en unos dias va a estar la interfaz visual para grabar en línea y creo que habra un paquete diario o semanal donde estarán las voces de todas las personas que graben <img src='http://s.wordpress.com/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
]]></content:encoded>
	</item>
	<item>
		<title>Comentario de Comparativa soluciones virtualización para Linux &#171; El Weblog de Ivan Ricondo (Ubanov) en Virtualización con Xen en Debian 5 (Lenny)</title>
		<link>http://ubanov.wordpress.com/2009/04/13/virtualizacion-con-xen-en-debian-5-lenny/#comment-146</link>
		<dc:creator>Comparativa soluciones virtualización para Linux &#171; El Weblog de Ivan Ricondo (Ubanov)</dc:creator>
		<pubDate>Sun, 06 Dec 2009 23:56:04 +0000</pubDate>
		<guid isPermaLink="false">http://ubanov.wordpress.com/?p=314#comment-146</guid>
		<description>[...] Tengo una entrada en la que describo cómo instalar xen en un debian 5, pulsar aquí. [...]</description>
		<content:encoded><![CDATA[<p>[...] Tengo una entrada en la que describo cómo instalar xen en un debian 5, pulsar aquí. [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>Comentario de Mario Medina en Reconocimiento de voz en castellano para Linux</title>
		<link>http://ubanov.wordpress.com/2008/11/28/reconocimiento-de-voz-en-castellano/#comment-145</link>
		<dc:creator>Mario Medina</dc:creator>
		<pubDate>Sat, 05 Dec 2009 19:16:58 +0000</pubDate>
		<guid isPermaLink="false">http://ubanov.wordpress.com/?p=233#comment-145</guid>
		<description>Hola! soy yo de nuevo. Ya hice mi grabacion pero de verdad que le falta mucho speech para que reconozca tanto como quiero... sin embargo me gustaria saber como podria ponerla disponible, incluyendo las frases nuevas que voy a agregar :)</description>
		<content:encoded><![CDATA[<p>Hola! soy yo de nuevo. Ya hice mi grabacion pero de verdad que le falta mucho speech para que reconozca tanto como quiero&#8230; sin embargo me gustaria saber como podria ponerla disponible, incluyendo las frases nuevas que voy a agregar <img src='http://s.wordpress.com/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
]]></content:encoded>
	</item>
	<item>
		<title>Comentario de Mario Medina en Reconocimiento de voz en castellano para Linux</title>
		<link>http://ubanov.wordpress.com/2008/11/28/reconocimiento-de-voz-en-castellano/#comment-144</link>
		<dc:creator>Mario Medina</dc:creator>
		<pubDate>Fri, 04 Dec 2009 15:24:41 +0000</pubDate>
		<guid isPermaLink="false">http://ubanov.wordpress.com/?p=233#comment-144</guid>
		<description>hola! gracias por este magnifico tutorial. Estoy descargando las voces que mencionas, y ya he donado como 6 grabaciones mias y unas cuantas de mi esposa a voxforge, y pienso seguir haciendolo hasta juntar unos 20-30 minutos de grabacion, que segun se es suficiente por donante.

La duda que tengo, es como obtengo las grabaciones de todas las personas que han donado para que julius reconozca mas facilmente la voz de cualquier persona? descargo los .zip del ftp de voxforge y luego ejecuto algun comando que genera las estadisticas? o hay algun paquete ya hecho que contenga lo necesario ya listo?

Gracias de nuevo</description>
		<content:encoded><![CDATA[<p>hola! gracias por este magnifico tutorial. Estoy descargando las voces que mencionas, y ya he donado como 6 grabaciones mias y unas cuantas de mi esposa a voxforge, y pienso seguir haciendolo hasta juntar unos 20-30 minutos de grabacion, que segun se es suficiente por donante.</p>
<p>La duda que tengo, es como obtengo las grabaciones de todas las personas que han donado para que julius reconozca mas facilmente la voz de cualquier persona? descargo los .zip del ftp de voxforge y luego ejecuto algun comando que genera las estadisticas? o hay algun paquete ya hecho que contenga lo necesario ya listo?</p>
<p>Gracias de nuevo</p>
]]></content:encoded>
	</item>
	<item>
		<title>Comentario de Nestor en Comparativa teléfonos (iPhone, Android y Windows Mobile) &#8211; Versión 2</title>
		<link>http://ubanov.wordpress.com/2009/10/29/comparativa-telefonos-iphone-android-y-windows-mobile-version-2/#comment-143</link>
		<dc:creator>Nestor</dc:creator>
		<pubDate>Thu, 03 Dec 2009 15:52:02 +0000</pubDate>
		<guid isPermaLink="false">http://ubanov.wordpress.com/?p=407#comment-143</guid>
		<description>Saben, yo estoy por comprarme un iPhone, nunca he tenido uno, pero recientemente adquiri un ipod touch de tercera generacion y quede encantado, antes del ipod pensaba en comprarme un SE Aino, pero si el iphone es como un ipod touch con telefono y camara, definitivamente me lo compro, eso de las aplicaciones de terceros ya sean gratuitas o de paga permite que uno le saque mucho jugo a este aparatito.</description>
		<content:encoded><![CDATA[<p>Saben, yo estoy por comprarme un iPhone, nunca he tenido uno, pero recientemente adquiri un ipod touch de tercera generacion y quede encantado, antes del ipod pensaba en comprarme un SE Aino, pero si el iphone es como un ipod touch con telefono y camara, definitivamente me lo compro, eso de las aplicaciones de terceros ya sean gratuitas o de paga permite que uno le saque mucho jugo a este aparatito.</p>
]]></content:encoded>
	</item>
</channel>
</rss>
