Detalles Técnicos

Tipos de ambigüedad

En cualquier idioma, hay dos tipos de ambigüedades:

  • Ambigüedad General: el tipo de ambigüedad que realmente puede tener dos o más significados o interpretaciones es comparativamente infrecuente. En estos casos Discovery debe preguntar al usuario, ya que no podemos esperar que las computadoras resuelvan tales ambigüedades mejor de lo que lo haría un ser humano.
  • Ambigüedad Computadora: extremadamente común, es el tipo de ambigüedad que es muy clara para los seres humanos, pero que haría que una computadora—a pesar de todo su poder de procesamiento—detectara dos o más posibles significados o interpretaciones, algunas de las cuales pudieran rayar en lo ridículo.

Esto se debe exclusivamente a que la computadora carece totalmente de conciencia humana, no sólo en cuanto a lo que los conceptos en las palabras de una oración representan, sino también en cuanto al contexto en el cual se expresa un enunciado en un intercambio verbal. Se puede utilizar muchas estrategias para superar esta deficiencia, tales como restricciones sintácticas, la frecuencia en el contexto, restricciones de selección (restricciones semánticas), reglas de "actualidad", estructura paralela, conocimiento mundial, coherencia textual e intención del orador.

Para las ambigüedades que requerirían del usuario, Discovery simplemente limitaría todas las interpretaciones posibles a unas pocas aplicables a partir de las cuales el usuario pudiera elegir. Sin embargo, se ha encontrado en la práctica que mientras más se ha refinado la programación, más se han superado las deficiencias de Discovery para imitar las habilidades humanas.

Estos dos tipos de ambigüedad caen bajo otro conjunto de categorías, las cuales se complementan con ejemplos, algunas de los cuales han sido resueltos:

• Léxica, en la que más de un significado se puede aplicar a una o más palabras

La pila está llena (un recipiente de agua o un pequeño generador químico de electricidad) (general)

Tengo una hija buena.

Aunque bueno puede significar útil o funcional (es un buen martillo), ejemplar (es una buena estudiante), agradable (la sopa está buena), que tiene honradez (es una buena persona), o que tiene un buen tipo (su novio está muy bueno), Discovery puede minimizar las definiciones aplicables con base en las combinaciones válidas de categorías léxicas de buena. Es decir, puede limitarse a las categorías léxicas de sustantivos que puedan ser modificados por el adjetivo buena.

• Sintáctica, en la que el análisis sintáctico de los enunciados puede producir más de un diagrama de árbol, es decir, puede ser diagramada en más de una forma.

º Por conjunto de frases, en la que la sucesión de frases preposicionales puede modificar a más de un sustantivo, ya sea que este sea precedido de forma inmediata o no.

María comió una ensalada con espinacas de California en el almuerzo del martes. (computadora)

Discovery encuentra una combinación de categorías léxicas que se ajusta a aquellas asignadas a verbos, sintagmas nominales que funcionan como objeto, y frases preposicionales. Con base en esta combinación, en contexto, una o más definiciones son aplicables para cada palabra a la cual se le asigna una categoría léxica:

comer: verbo.consumo
ensalada: sustantivo.comida
con espinacas: preposición.acompañamiento + sustantivo.comida
de California: preposición.fuente + sustantivo.ubicación
en el almuerzo: preposición.relaciónTemporal + sustantivo.comida
del martes: preposición.relaciónTemporal + sustantivo.tiempo

La combinación también especifica dentro de una frase preposicional cuáles sintagmas nominales que funcionan como objeto son modificados por otros:

comer [ ensalada { ( con espinacas ) ( de California ) } { ( en el almuerzo ( del martes ) ) } ]

Otra interpretación válida podría ser que la ensalada podría ser de California, pero al menos todas las combinaciones posibles o diagramas de árbol de análisis sintáctico se limitarían sólo a estos dos resultados válidos.

º Conjunción, en la cual un sustantivo puede estar unido por una conjunción a más de un sustantivo, ya sea de forma inmediata o remota

María comió una ensalada con espinacas de California en el almuerzo del martes y (del) miércoles. (computadora)

Resuelta con la misma estrategia anterior, pero en la cual las categorías léxicas idénticas, además, son encontradas por dos sustantivos o frases preposicionales consecutivas:

del martes: preposición.relaciónTemporal + sustantivo.tiempo
del miércoles: (preposición.relaciónTemporal + sustantivo.tiempo

º Estructura Grupal de Sustantivos, en la que una sucesión de sustantivos puede modificar a más de un sustantivo, ya sea por precesión inmediata o remota.

Esta ambigüedad existe en inglés, pero no parece existir en español.

• Semántica, en la cual no queda clara dentro de un enunciado la clase a la que pertenece un sustantivo, o la relación entre dos o más sustantivos presentes en una acción o estado.

Lucy es dueña de un loro (cuantificado existencialmente) que es más grande que un gato (ya sea universalmente cuantificado o "gatos típicos"). (computadora)

Resuelta mediante la imposición de restricciones de clase de artículos a los sustantivos evaluados dentro de las reglas particulares de definición.

• Anafórica, en el que un pronombre puede sustituir a más de un sustantivo.

Margarita invitó a Susana a una visita, y ella (Margarita) le (Susana) un buen almuerzo. (computadora)

Margarita invitó a Susana a una visita, pero ella (Susana) le (Margarita) que ella (Susana/Margarita) tenía que ir a trabajar. (computadora)

En el tren a Boston, Jorge habló con otro pasajero. El hombre (otro pasajero) resultó ser un jugador profesional de hockey. (computadora)

Guillermo dijo a Alma que había decidido pasar un año en Italia para estudiar arte. (computadora)
Eso (el arte) sería la obra de su vida (computadora)
Después de terminarlo (pasar un año en Italia), iba a volver y se casaría con ella. (computadora)
Eso (la decisión) fue el resultado de pensar la noche anterior. (computadora)
Eso (decirle a Alma) causó una pelea de cuatro horas. (computadora)

Aún pendiente de resolver en un evento posterior.

WordNet

WordNet es una base de datos léxica—o sistema de referencia de palabras—creado en el Laboratorio de Ciencias Cognitivas de la Universidad de Princeton, inicialmente bajo la dirección del profesor de psicología George Armitage Miller, a partir de 1985, y más recientemente por Christiane Felibaum. Incorpora elementos tanto de un diccionario de sinónimos como de un diccionario regular. Sin embargo, hay diferencias importantes en comparación con los sistemas de referencia léxica comunes.

En WordNet, las palabras se agrupan en conjuntos de sinónimos, los cuales identifican los conceptos individuales. De esta manera, la palabra pila es parte del conjunto de sinónimos { pila, montón } y { pila, batería, batería eléctrica }. Dependiendo de la forma en que se utiliza en el contexto de un enunciado, pila identificaría un concepto u otro.

En un nivel superior, WordNet asocia diferentes conceptos con una serie de asociaciones léxicas, como se muestra a continuación, tales como antónimos. Hay una veintena de categorías morfosintácticas aplicables.

Modelada de acuerdo con las teorías de la memoria semántica humana desarrolladas a finales de 1960, WordNet es un modelo de cómo los seres humanos ordenan mentalmente los conceptos de una manera económica y jerarquizada—en efecto, un mapa expandible de la totalidad de los conceptos disponibles a la mente humana. Para su aplicación de gestión del conocimiento, WordNet permitirá a Discovery gestionar la información en un ámbito más amplio que con un diccionario, porque sus relaciones le permitirán localizar y evaluar con precisión la relevancia de los datos de enunciados como una respuesta a las preguntas del usuario. Considere los siguientes ejemplos:

  • el usuario puede introducir una afirmación o una pregunta para la cual ya existe información en la memoria, pero utiliza diferentes palabras para expresarlo:
Usuario: Tomás sustituye la pila en la radio.
Sistema: Ya sé que Tomás sustituye la batería en la radio.

Aquí Discovery, al buscar información en la memoria, simplemente transpone pila con su sinónimo batería, y por lo tanto evita la entrada de información redundante.
  • el usuario puede introducir una afirmación o pregunta que, en términos de léxico, contradice la información existente en la memoria:
Usuario: ¿Hilda es fea?
Sistema: No, Hilda es hermosa.

Aquí, Discovery transpone fea con el antónimo hermosa durante la búsqueda de datos y reconoce la contradicción.

De esta manera, para efectos de la gestión del conocimiento, WordNet también le proporciona a Discovery el conocimiento "por defecto" de conceptos que ahorrarían a los usuarios el esfuerzo innecesario de ingresar hechos evidentes, tales como un caballo es un animal. Como se muestra en los siguientes diagramas, múltiples asociaciones también implican otras:

VerbNet

VerbNet es otro sistema de referencia de palabras creado en el Departamento de Ciencias de la Computación de la Universidad de Colorado en Boulder, bajo la dirección de la profesora de lingüística Martha Palmer.

VerbNet ordena 8419 definiciones de 6818 verbos en inglés en 270 clases diferentes que comparten estructuras de enunciados comunes. Su diseño se basa principalmente en las clases de Levin, una clasificación del significado de los verbos, y las Gramática de Adjunción de Árboles, iniciada por el Instituto de Investigación en Ciencia Cognitiva de la Universidad de Pennsylvania.

Para cada estructura de la frase, VerbNet ofrece

  • una sintaxis—la estructura misma, incluyendo una descripción de cada tipo de palabra que utiliza, y
  • la semántica—una expresión de uno o más predicados lógicos. Esta expresión describe el acontecimiento o idea que se supone que la estructura comunica, dado el subconjunto limitado de verbos que puede utilizar.

Las clases verbales de Levin, sobre el cual se basa VerbNet, sirve para establecer las reglas por las cuales Discovery determina los roles que las palabras—principalmente sustantivos, verbos y preposiciones—desempeñan en el evento o afirmación expresado en el enunciado. VerbNet lo hace a dos niveles: primero, a nivel de patrones básicos de categorías morfosintácticas, y, segundo, a nivel de una sintaxis extendida mucho más específica, que determina qué sustantivo aplicar de acuerdo con el sentido del verbo. Por ejemplo,

Estas relaciones proporcionan los medios con los cuales Discovery es capaz de crear una estructura de árbol a partir del diagrama gramatical de un enunciado, y de este modo establece tanto la manera en que cada palabra se relaciona con las demás, como las definiciones aplicables a cada palabra en el contexto del enunciado (un proceso llamado desambiguación del sentido de la palabra).

El uso de WordNet y VerbNet en el análisis de enunciados de Discovery

El proceso de análisis de enunciados es intrincado y complejo, sin embargo, su diseño se ha simplificado de tal manera que el sistema procesa consistentemente los enunciados de prueba en menos de un segundo. El proceso es el siguiente:

1. aísla fragmentos entre palabras llamados identificadores.

En su libro La Estructura del Inglés, el lingüista Charles Fries Carpenter aborda el tema de cómo los hablantes de una idioma reconocen el significado estructural. Él argumentó que el significado estructural está "señalado mediante dispositivos específicos y definidos...que indican los significados estructurales que constituyen la gramática de un idioma."
Fries se refirió a estas palabras como palabras de función—palabras que no pertenecen a las cuatro principales categorías morfosintácticas (sustantivo, verbo, adjetivo y adverbio). Esto deja una lista limitada de palabras comúnmente utilizadas, incluyendo preposiciones, conjunciones, artículos, interjecciones, cuyos significados son generalmente no son ambiguos. Durante el proceso de desarrollo de software, nos referimos a estas palabras como "identificadores". Discovery adopta la estrategia de dividir primero los enunciados en fragmentos consistentes en sustantivos, verbos, adjetivos y adverbios, para evaluar más fácilmente el significado estructural.
Esto hace que el análisis de enunciados sea mucho más rápido y eficiente, dado que elimina ciertos fragmentos de categorías morfosintácticas—que de otro modo invariablemente producirían permutaciones no gramaticales de las categorías morfosintácticas en el enunciado completo—incluso antes de estos que sean examinados. Los fragmentos restantes se recombinan en una lista más limitada de permutaciones para ser examinadas.

2. Examina cada una de estas permutaciones en la primera mitad de las diez etapas de las reglas gramaticales, llamadas "reglas de tipo", para determinar cuáles permutaciones en una cláusula consisten en un sujeto y predicado—la base de las frases gramaticalmente correctas.

3. Una vez que se encuentra un conjunto de reglas de tipo que resulta e identifica una cláusula dentro de un enunciado, dicho conjunto determina cuáles reglas estructurales—encontradas en la segunda mitad de las diez etapas de las reglas gramaticales llamadas "reglas de definición"— son aplicables.

Esto se hace con base en las sintaxis extendidas asociadas a los sentidos de los verbos evaluados en una regla (establecidos por VerbNet a las definiciones de verbos que se encuentran en WordNet) también asociada con una de estas reglas de definición.

4. Cuando se encuentra una coincidencia con una regla de definición en una etapa particular, la formación de objetos asociada con la regla se aplica a una parte de la estructura general de la frase.

5. Desambigua parcialmente los verbos y los sustantivos evaluados en la regla de definición de acuerdo con los roles temáticos establecidos por las sintaxis extendidas en VerbNet a las categorías léxicas de las palabras y antepasados hiperónimos establecidos en WordNet.

6. Una vez que la estructura del enunciado es totalmente establecida, desambigua no sólo los nombres y verbos en el enunciado, sino también cualquier adjetivo y adverbio.

Esto se hace mediante la búsqueda de todas las combinaciones válidas de categorías léxicas asignadas a las palabras que gobiernan qué clases de palabras modifican a otras. Las combinaciones válidas limitan aún más la aplicabilidad de las definiciones de una palabra con base en las categorías léxicas con las cuales están asociadas.