|
Grupo de Estructuras de Datos y Lingüística Computacional |
|
| Libros publicados por el GEDLC |
| Artículos publicados por el GEDLC |
Relevancia de las medidas de asociación evaluadas a partir de un corpus no
específico aplicadas a términos económicos.
Santana-Suárez, O.; Pérez-Aguiar, J.; Sánchez-Berriel, I.; Gutiérrez-Rodríguez, V.
X Congreso de la Asociación Europea de Lenguas para Fines Específicos (AELFE).
2011.
La recopilación automática de los términos utilizados en un determinado campo debe incorporar estrategias que permitan detectar
las colocaciones en la especialidad que se trabaje. Las técnicas de extracción automática valoran de forma cuantitativa si el uso de una determinada
combinación se debe a la casualidad como indicador de estar ante una combinación libre, o por el contrario refleja indicios de ser una colocación.
Por lo general, éstas se basan en la frecuencia con que se usan en algún corpus textual específico del tema que se trate. Sin embargo, en la actualidad
se considera la enorme cantidad de documentos textuales disponibles en la Web como una gran muestra en formato electrónico, de fácil acceso pero de
lengua general. En este trabajo se analizan los datos extraídos de una colección de 11000 textos que reúne una amplia muestra del español con un número
total de palabras que está en torno a los 300 000 000, registrándose en una base de datos sus lemas, junto con las frecuencias de uso individual y
conjunta de las combinaciones a una distancia de a lo sumo 5 palabras. El objetivo es determinar la viabilidad del uso de corpus textuales extensos,
sin información lingüística, como sucede con los que se pueden compilar a través de Internet como fuente de información para la recopilación de
colocaciones terminológicas. Con este propósito se evalúan y analizan las frecuencias relativas, la información mutua, el z-score y el t-score que se
obtienen a partir de una colección de términos económicos, con el fin de determinar si el uso de corpus no acotados es viable en la compilación
automática de colocaciones terminológicas.
Automatización de los procesos de lexicalización del
español.
Santana-Suárez, O.; Pérez-Aguiar, J.; Gutiérrez-Rodríguez, V.; Sánchez-Berriel, I.
X Congreso de la Asociación Europea de Lenguas para Fines Específicos (AELFE).
2011.
La composición es, sin duda, uno de los procesos formativos más significativos con los que cuenta la lengua para incrementar su léxico.
Los avances tecnológicos, científicos o el auge en el uso de nuevos medios de comunicación social, son algunos ejemplos que actúan de catalizadores en estos
procesos de cambios. Consiste en hacer de dos o más palabras, llamados elementos componentes, una palabra nueva cuyo significado resulta de las palabras
unidas: el valor y significado de la nueva palabra suele ser distinto y más extenso, figuradamente muchas veces, que la suma de los significados de los
elementos componentes. En el presente trabajo se muestra el desarrollo de una herramienta lingüística que permite reconocer y generar palabras compuestas,
parasintéticas por composición o neologismos compositivos, entre otros procesos de lexicalización, atendiendo a criterios morfológicos, sintácticos y
semánticos contemplados en reglas de formación y fonéticas, en las excepciones e irregularidades detectadas en el procesamiento automático de la
composición en español.
Extracción automática de colocaciones terminológicas
en un corpus extenso de lengua general.
Santana-Suárez, O.; Pérez-Aguiar, J.; Sánchez-Berriel,
I.; Gutiérrez-Rodríguez, V.
Procesamiento de Lenguaje Natural, Revista Nº 47. Ed. SEPLN. ISSN: 1135-5948.
Septiembre, 2011.
145/152.
Los sistemas automáticos de extracción de términos constituyen una herramienta fundamental cuando se afronta la
tarea de compilación del léxico restringido a un campo de especialidad. Los análisis textuales llevados a cabo por este tipo de software
deben incorporar estrategias que permitan detectar las colocaciones en la especialidad que se trabaje. En este trabajo se estudia la viabilidad
del uso de corpus textuales extensos, sin información lingüística, como sucede con los que se pueden compilar a través de Internet, como fuente
de información para la recopilación de colocaciones terminológicas. Con este propósito se analiza el comportamiento de distintos indicadores
basados en las frecuencias registradas para una colección de términos económicos en un corpus del español de 300 000 000 palabras.
Descargar PDF(1412Kb)
[-]
Functional Disambiguation Using the Syntactic
Structures Algorithm for each Functional Interpretation for Spanish Language.
Santana-Suárez, O.; Pérez-Aguiar, J.; Santana-Pérez, I.;
Quesada-López, R.
Lecture Notes in Computer Science. Theoretical Computer
Science and General Issues. Springer. Vol. 5717 2009 (DOI
10.1007/978-3-642-04772-5). ISSN: 0302-9743 (Print) 1611-3349 (Online). ISBN:
978-3-642-04771-8
Septiembre, 2009.
226/230.
This article presents a disambiguation method that diminishes
the functional combinations of the words of a sentence taking into account the
context in which they appear. This process uses an algorithm which does the
syntactic analysis of every sentence interpretation. In order to control this
analysis, a grammar with restrictions has been developed to model the valid
syntactic structures of the Spanish language. The main target of our algorithm
is the separation between the disambiguation method and the grammar which
governs it.
Acceder al artículo
[-]
Generación de grupos semánticos para la codificación
automática de respuestas abiertas.
Santana-Suárez, O.; Pérez-Aguiar, J.; Sánchez-Berriel, I.;
Gutiérrez-Rodríguez, V.; Díaz-Martín, S.
Actas de la Conferencia IADIS Ibero-Americana. WWW/INTERNET
2009. Alcalá de Henares, Madrid
Octubre, 2009.
431/434.
Actualmente la explotación del contenido semántico de datos se
ha convertido en un aspecto de especial relevancia en diversos campos y
aplicaciones de las Tecnologías de la Información. A la hora de abordar este
problema resulta obligado incorporar los conceptos implicados en la información
que se procesa, lo que lleva a la definición y explotación de diccionarios,
tesauros u ontologías que permitan introducir en el sistema los significados
como información estratégica. En este trabajo se aborda el diseño de una
herramienta capaz de extraer automáticamente conceptos implícitos en una
variable de tipo texto. En todo momento el diseño ha sido abordado con un
enfoque generalista que permite su uso no sólo en la codificación automática de
cualquier variable de respuesta abierta, sino también en cualquier problema en
que se requiera generar agrupaciones de palabras según su semántica, tales como
la extracción automática de metadatos, la recuperación de información, la
generación automática de resúmenes de documentos, etc. La implementación de la
solución se basa principalmente en el uso combinado de tecnologías de la
Lingüística Computacional y de la Minería de Textos para la construcción de
grupos de términos con un nexo semántico relevante para el problema bajo estudio.
Descargar PDF(426Kb)
[-]
Functional Disambiguation based on the Syntactic
Structures Algorithm for Spanish Language.
Santana-Suárez, O.; Pérez-Aguiar, J.; Santana-Pérez, I.;
Quesada-López, R.
12th International Conference on Computer Aided Systems
Theory. EUROCAST 2009. Las Palmas de Gran Canaria
Febrero, 2009.
75/76.
This article presents a disambiguation method that diminishes
the functional combinations of the words of a sentence taking into account the
context in which they appear. This process uses an algorithm which does the
syntactic analysis of every sentence interpretation. In order to control this
analysis, a grammar with restrictions has been developed to model the valid
syntactic structures of the Spanish language. The main target of our algorithm
is the separation between the disambiguation method and the grammar which
governs it.
Descargar PDF(108Kb)
[-]
Development of Support Services for Linguistic
Research over the Internet TIN2004-03988.
Santana, O.; Pérez, J.; Carreras, F.; Hernández, Z.;
Rodríguez, J.C.; Díaz, M.; Duque, J.; Rodríguez, G.
Jornadas de Seguimiento de Proyectos en Tecnologías
Informáticas. Madrid
Febrero, 2007.
167/174.
The objective of this project is to place a set of remote
services and clients at the disposal of the international community over the
Internet in order to computationally solve linguistic phenomena of the Spanish
language. The implemented services are as follows: a remote service of
morphological analysis, a remote service of information on morpholexical
relationships and a remote service of functional disambiguation. These services
allow access to any authorized remote application by means of the inclusion of
the corresponding definition document. Additionally, a client of morphosyntactic
analysis of texts and a morpholexical client of information recovery have been
developed. Both clients are end-use tools that put at stake the potentiality of
services.
Descargar PDF(238Kb)
[-]
Integration of an XML electronic dictionary with linguistic tools for
natural language processing.
Santana, O.; Carreras, F.; Hernández, Z.; González, A.
Information Processing and Management. Elsevier Ltd. Vol. 43,
No. 4 (doi:10.1016/j.ipm.2006.08.005). ISSN
0306-4573
Julio, 2007.
946/957.
This study proposes the codification of lexical information in
electronic dictionaries, in accordance with a generic and extendable XML
scheme model, and its conjunction with linguistic tools for the
processing of natural language. Our approach is different from other
similar studies in that we propose XML coding of those items from a
dictionary of meanings that are less related to the lexical units.
Linguistic information, such as morphology, syllables, phonology, etc.,
will be included by means of specific linguistic tools. The use of XML
as a container for the information allows the use of other XML tools for
carrying out searches or for enabling presentation of the information in
different resources. This model is particularly important as it combines
two parallel paradigms—extendable labelling of documents and
computational linguistics—and it is also applicable to other languages.
We have included a comparison with the labelling proposal of printed
dictionaries carried out by the Text Encoding Initiative (TEI). The
proposed design has been validated with a dictionary of more than 145000
accepted meanings.
Acceder al artículo
[-]
Functional Disambiguation Based on Syntactic
Structures.
Santana, O.; Pérez, J.; Losada, L.; Carreras, F.
Literary and Linguistic Computing, Vol. 21, No. 2.
2006.
187/197.
This article presents a disambiguation method which
diminishes the functional combinations of the words of a sentence taking into
account the context in which they appear. The process is built in two phases:
the first phase is based on the local syntactic structures of the Spanish
language and reaches an average yield of 87%. The second one is supported by
syntactic tree representation and pushes the results up to an approximate high
end of 96%. This process constitutes the starting point towards an automated
syntactic analysis.
Acceder al artículo
[-]
El Reconocimiento Automático de la Composición en
Español.
Santana, O.; Carreras, F.; Pérez, J.; Gutiérrez, V.
Digital Humanities 2006.
Conference Abstracts of the First Internacional
Conference of the Alliance of Digital Humanities Organisations (ADHO). ISBN: 2-9526916-0-6.
Julio, 2006.
190/193.
It deals with computerizing one of the processes of words
formation in Spanish: the composition. They will solely be studied those cases
in which the compound word has been consolidated like the graphical union of the
elements that compose it, in regular or irregular way. The formation rules and
the application criteria in each case are deduced, consequently, they allow the
automated identification of the compound words. The different compounds are
extracted from several lexical sources and the applied mechanisms of recognition
will be studied, likewise the grammatical categories of original words and the
resultant compound. The found recognition criteria are classified and the
detected exceptions and irregularities are considered.
Descargar PDF (42Kb),
Acceder HTML
[-]
Parasynthetic
Morpholexical Relationships of the Spanish: Lexical Search beyond the Lexicographical Regularity.
Santana, O.; Carreras, F.; Pérez, J.; Rodríguez, J.
Proceedings of the IADIS International Conference. Applied
Computing. 2006. ISBN: 972-8924-09-7.
Febrero, 2006.
627/631.
This work talks about parasynthesis of the Spanish language.
This formative process of Spanish words is useful for the establishment of
morpholexical relationships. From a lexicon of over 4 million different words,
around 6 million parasynthetic morpholexical relationships are established. All
the irregularities and exceptions found in referenced lexicon have been
considered, which are many in a highly inflected language. These relationships
turn out to be useful because they allow, between other possibilities, doing
semantic searches, offering alternative sentences in the correction of style or
summarization and finding semantically synonymous sentences. The principal main
function of this application is that it allows lexical searches beyond the
lexicographical regularity.
Descargar PDF (139Kb),
Acceder HTML
NAWeb: un
navigateur et analyseur morphologique des pages web pour l'espagnol.
Santana, O.; Hernández, Z.; Rodríguez, G.
Cahiers de lexicologie. Revue internationale de lexicologie
et de lexicographie, Nº 87- 2005-2. ISSN:
0007-9871.
29/43.
NAWeb is a computer application developed in the frame of
a larger project designed to tap the flow of linguistics information of
Internet documents. It is a tool which is oriented to morphosyntactic
analysis of web pages. Its simple inteface facilitates the acquisition of
knowledge about the text analyzed in an interactive way.
Descargar PDF (185Kb),
Acceder HTML
[-]
Una Aplicación para el Procesamiento de la Prefijación en Español.
Santana, O.; Carreras, F.; Pérez, J.; Rodríguez, G.
4ta. Conferencia Iberoamericana en Sistemas, Cibernética e
Informática. CISCI 2005. Memorias, Volumen II. ISBN: 980-6560-38-8.
Julio, 2005.
322/327.
En este trabajo se presenta una aplicación que gestiona
los prefijos usados en español para la formación de palabras deducidas a partir
de un corpus de 148 798 formas canónicas. Se desarrolla un sistema capaz de
resolver y responder a cualquier aspecto morfológico de una palabra del español
que abarca todo lo relacionado con la morfología derivativa y otros aspectos
cercanos. Permite el reconocimiento, la generación y la manipulación del proceso
formativo prefijal que ha sufrido cualquier forma canónica del corpus, categoría
gramatical de la base y de la palabra formada, incluye la recuperación de toda
su información lexicogenética hasta llegar a una primitiva, la gestión y control
de los prefijos en el tratamiento de sus relaciones, así como la regularidad en
su formación.
Descargar PDF (284Kb),
Acceder HTML
[-]
Software Application for
Parasynthesis in Spanish Automatic Processing.
Santana, O.; Carreras, F.; Pérez, J.; Rodríguez, J.C..
The 2005 International Conference
on Machine Learning; Models, Technologies and Applications. MLMTA'05.
Proceedings. ISBN:
1-932415-73-4.
June, 2005.
46/52.
This work is about a computer application for parasynthesis
in Spanish automatic processing, which works with 3800 parasynthetical
morpholexical relationships deduced from a corpus of 148798 canonical forms. The
developed computational tool is capable of solving and answering to any
morpholexical aspect of a Spanish word because of it includes the suffixation
and prefixation processing. The tool encompasses everything related with
derivation, prefixation, parasynthesis and other nearby aspects. It allows the
recognition, the generation and the manipulation of morpholexical relationships
of any word and of its related words, includes the recovery of all its
lexicogenetic information until arriving at a primitive, the management and the
control of the affixes in the treatment of its relationships, as well as the
irregularities and exceptions of lexicon, which are many in a highly inflected
language.
Descargar PDF (121Kb),
Acceder HTML
[-]
Spanish Morphosyntactic Disambiguator.
Santana, O.; Pérez, J.; Losada, L.; Carreras, F.
The 17th Joint International Conference of the Association
for Computers and the Humanities and the
Association for Literary and Linguistic Computing. ACH/ALLC 2005. Conference
Abstracs. ISBN: 1-55058-308-5.
June, 2005.
207/209.
This system is intended to provide a close view of the
Spanish grammar to researchers, enhancing their performance and reliability.
This is a first step that will allow, with the addition of new features, to keep
improving until reaching a goodness of 100%. Any automated processing of a text
entails inevitably the syntactic analysis of its sentences, following the
morphosyntactic disambiguation of the elements that compose it, allowing for
different possible applications: a) to provide precise synonymous for a given
word, b) to analyze its literary style, c) to know its semantics, d) to extract
information or summarize its contents, e) to make trustworthy translations to
other languages, f) to answer to concrete questions on its content, etc.
Descargar PDF (26Kb),
Acceder HTML
[-]
Una Herramienta de Recuperación Morfoléxica Aplicada a Microsoft Word. Abstract.
Santana, O.; Hernández, Z.; Rodríguez, G.; Losada, L.
The 17th Joint International Conference of the Association
for Computers and the Humanities and the
Association for Literary and Linguistic Computing. ACH/ALLC 2005. Conference
Abstracs. ISBN: 1-55058-308-5.
June, 2005.
209/211.
The present work describes a search tool which is
sensitive to the Spanish morphology. The main goal of this work is to advance
integration of linguistic knowledge into information retrieval applications,
emphasizing a simple but powerful interface to the linguistic engines previously
developed by the GEDLC. A textual search tool for MS-Word which considers of
inflectional, derivational and prefixal features of Spanish, among other forming
words mechanisms, has been developed furnishing a great searching power.
Developed tool can be adapted to any application with COM interface and to more
complex environments.
Descargar PDF (98Kb),
Acceder HTML
[-]
Una aplicación
para el procesamiento de la sufijación en español.
Santana, O.; Carreras, F.; Pérez, J.; Rodríguez, G.
IX Simposio Internacional de Comunicación Social, Actas,
Vol. II. ISBN: 959-7174-05-7.
Enero, 2005.
623/629.
El objetivo principal de este trabajo es automatizar una
parte importante de la morfología del español: la sufijación. A través de la
sufijación, unas palabras dan lugar a la formación de otras, y éstas a su vez a
la de otras; al aplicar sucesivamente este proceso de formación se establecen
vínculos familiares entre vocablos. Las familias de palabras que se relacionan
son de gran utilidad en aplicaciones de procesamiento del lenguaje natural:
buscadores automáticos, correctores ortográficos, analizadores de estilo,
generadores automáticos de texto, etc. Es obvio que, para el hablante, y por lo
tanto debe serlo para la informática, acuario, portuario y campanario son
lugares igualmente relacionados con agua, puerto y campana. Es necesario, por
tanto, situarse en otro nivel al del problema intrínseco que conlleva este tipo
de estudios ―la morfología―, para solventar barreras lingüísticas que impedirían
tratar aspectos de interés para el procesamiento del lenguaje natural más allá
de la derivación.
Descargar PDF (128Kb)
[-]
Suffixal and Prefixal Morpholexical Relationships of the Spanish.
Santana, O.; Pérez, J.; Carreras, F.; Rodríguez, G.
Lecture Notes in Artificial Intelligence, 3230. Ed.
Springer-Verlag. ISSN: 0302-9743.
Octubre, 2004.
407/418.
This work is about derivational suffixes, endings and prefixes of the Spanish language,
which are useful for the establishment of about 70 000 suffixal and 11 000 prefixal extended morpholexical
relationships deduced from a corpus of 134 109 canonical forms. A computational tool is developed capable
of solving and answering to any morphological aspect of a Spanish word. The tool encompasses everything
related with derivation, prefixation and other nearby aspects. It allows the recognition, the generation
and the manipulation of morpholexical relationships of any word and of its related words, includes the
recovery of all its lexicogenetical information until arriving at a primitive, the management and the control
of the affixes in the treatment of its relationships, as well as the regularity in the established relationship.
Descargar PDF (128Kb),
Acceder HTML
[-]
Relaciones morfoléxicas prefijales del español.
Santana, O.; Carreras, F.; Pérez, J.; Rodríguez, G.
Boletín de Língüística, Vol. 22. ISSN: 0798-9709.
Julio - Diciembre, 2004.
79/123.
En este trabajo se presenta una taxonomía de los prefijos usados en español útiles
para el establecimiento de relaciones morfoléxicas deducidas a partir del un corpus de 134109 formas canónicas.
Se desarrolla un sistema capaz de resolver y responder a cualquier aspecto morfológico de una palabra del español
que abarca todo lo relacionado con la prefijación y otros aspectos cercanos. Permite el reconocimiento, la generación
y la manipulación de las relaciones morfoléxicas a partir de cualquier palabra, categoría gramatical de la
base y de sus palabras relacionadas, incluye la recuperación de toda su información lexicogenética hasta
llegar a una primitiva, la gestión y control de los prefijos en el tratamiento de sus relaciones, así como la
regularidad en la relación establecida.
Descargar PDF (583Kb)
[-]
Bases para la desambiguación estructural de árboles de representación sintáctica.
Santana, O.; Pérez, J.; Losada, L.; Carreras, F.
Procesamiento de Lenguaje Natural, Revista Nº 32. Ed. SEPLN. ISSN: 1135-5948.
Marzo, 2004.
43/65.
Mediante un conjunto de reglas de desambiguación estructural, en este trabajo se reduce el
número de árboles de representación sintáctica erróneos que se obtienen por aplicación
de las reglas de la gramática del español. Además de ser el punto de partida para un análisis
sintáctico automatizado, este proceso complementa los procesos de desambiguación funcional local al elevar
su bondad desde un 87% hasta un 96%.
Descargar PDF (286Kb)
[-]
Morfología del español:
Reconocimiento y generación automáticos. Desarrollos del Grupo
de Estructuras de Datos y Lingüística Computacional de la Universidad
de Las Palmas de Gran Canaria (GEDLC).
Santana, O.; Pérez, J.; Hernández, Z.;
Carreras, F.; Rodríguez, G.; Losada, L.; Duque, J.
Estudios sobre el español de Canarias. Actas
del I Congreso Internacional sobre el español de Canarias. ISBN: 84-96059-10-3.
2003.
Vol.II (ISBN: 84-96059-09-X) 1115/1135.
Se expone la línea de investigación
del GEDLC orientada a la elaboración de utilidades de ayuda para
el tratamiento de documentos. A partir del procesador morfológico
desarrollado, se han resuelto la generación automática de
respuestas en análisis morfológico, la gestión integrada
de un diccionario de sinónimos y la búsqueda morfológica
de palabras en un texto; también se logró una herramienta
para el manejo de diccionarios ideológicos. Se encuentran en curso
una estación de trabajo lexicológica orientada a Internet,
la ampliación de las relaciones morfosemánticas del procesador
morfológico, un desambiguador morfológico, un analizador sintáctico,
una herramienta de ayuda al análisis de estilo; también se
trabaja en torno a las colocaciones, la composición, los regímenes
preposicionales y la clasificación semántica de los verbos.
Descargar PDF (286Kb)
[-]
The Spanish Morphology in Internet.
Santana, O.; Pérez, J.; Carreras F.; Hernández,
Z.; Rodríguez, G.
Lecture Notes in Computer Science 2722. Web Engineering.
Ed. Springer-Verlag. ISSN: 0302-9743. ISBN: 3-540-40522-4.
Julio, 2003.
507/510.
This Web service tags morpholexically any Spanish
word and it gets the corresponding forms starting from a canonical form
and from the flexion asked for. In the verbs, it deals with the simple and
compound conjugation, the enclitic pronouns, the flexion of the participle
like verbal adjective and the diminutive of the gerund. With the nonverbal
forms, this web service considers: gender and number, heteronomy for change
of sex, superlative degree, adverbiation and the appreciative derivation.
In the tag and in the generation the prefixation is taken into account.
It allows the manipulation of morpholexical relationships. It offers a
global vision of the behavior and productivity of the Spanish words in the
principal processes of formation (sufixation, prefixation, parasinthesis,
suppression, regression, zero-modification, apocopation, metathesis and
others which are unclassifiable and that generate alternative graphical
forms). It includes the principal Spanish lexicographic repertoires. It
considers 151103 canonical forms that produce more than 4900000 flexioned
and derived forms and about 90000 morpholexical relationships are established.
Descargar PDF (97Kb),
Acceder HTML
[-]
Morphoanalysis of Spanish Text:
Two Applications for Web Pages.
Santana, O.; Hernández, Z.; Rodríguez,
G.
Lecture Notes in Computer Science 2722. Web Engineering.
Ed. Springer-Verlag. ISSN: 0302-9743. ISBN: 3-540-40522-4.
Julio, 2003.
511/514.
The applications described here folow up the works
performed in the recent last year by the Data Structures and Computational
Linguistics Group at Las Palmas de Gran Canaria
University. These works had been developed about computational linguistics
and, as one of their results, some tools for morphologic identification and
generation have been released. This work presents the use of those tools as
parts of new applications designed to benefit from the great linguistic information
flow from Internet. Two kinds of application are identified, both according
to the interactive grade of the linguistics studies to be done, and two prototypes
are developed with special attention to their architecture in order to maximize
the efficiency of both. Analysis modes include: neologism detection, word
use (qualitative and quantitative measurements) and some syntax aspect like
lexical collocations or prepositional regimes.
Descargar PDF (24Kb)
[-]
DAWEB: Un descargador y analizador
morfológico de páginas Web.
Santana, O.; Hernández, Z.; Rodríguez, G.
Procesamiento de Lenguaje Natural, Revista Nº
30. Ed. SEPLN. ISSN: 1135-5948.
Marzo, 2003.
75/87.
DAWeb es una aplicación informática desarrollada
como parte de un proyecto consagrado a la realización de herramientas
capaces de facilitar el aprovechamiento para la realización de estudios
lingüísticos del enorme caudal de información que ofrece
Internet. Es una herramienta orientada al análisis morfosintáctico
de grandes volúmenes de información -dominios completos- a
los que se accede por una o varias URL de partida. Está dotada de
una sencilla interfaz que permite establecer las acciones pertinentes sobre
la información accedida. Como resultado de los análisis realizados,
se genera un conjunto estructurado de datos que pueden estudiarse con facilidad.
Descargar PDF (371Kb)
[-]
Relaciones morfoléxicas
sufijales del español.
Santana, O.; Carreras, F.; Pérez, J.; Rodríguez,
G.
Procesamiento de Lenguaje Natural, Revista Nº
30. Ed. SEPLN. ISSN: 1135-5948.
Marzo, 2003.
1/73.
En este trabajo se presenta una taxonomía de
los sufijos derivativos y terminaciones usadas en español útiles
para el establecimiento de relaciones morfoléxicas deducidas a partir
del un corpus de 134109 formas canónicas. Se desarrolla un sistema
capaz de resolver y responder a cualquier aspecto morfológico de una
palabra del español que abarca todo lo relacionado con la morfología
derivativa y otros aspectos cercanos. Permite el reconocimiento, la generación
y la manipulación de las relaciones morfoléxicas a partir de
cualquier palabra, categoría gramatical de la base y de sus palabras
relacionadas, incluye la recuperación de toda su información lexicogenética hasta llegar a una primitiva, la gestión y control
de los afijos en el tratamiento de sus relaciones, así como la regularidad
en la relación establecida.
Descargar PDF (2854Kb)
Automatización del análisis
sintáctico del Español.
Losada, L.; Director: Santana, O.; Codirector: Pérez, J.
Procesamiento de Lenguaje Natural, Revista Nº
30. Ed. SEPLN. ISSN: 1135-5948.
Marzo, 2003.
115/116.
Más información
[-]
Sistema Computacional de Gestión
Morfológica del Español (SCOGEME).
Carreras, F.; Director: Santana, O.; Codirector: Pérez, J.
Procesamiento de Lenguaje Natural, Revista Nº
28. Ed. SEPLN. ISSN: 1135-5948.
Mayo, 2002.
105/106.
Más información
Aproximación a una estación
lexicológica orientada a Internet.
Hernández, Z.; Director: Santana, O.
Procesamiento de Lenguaje Natural, Revista Nº
28. Ed. SEPLN. ISSN: 1135-5948.
Mayo, 2002.
107/108.
Más información
[-]
Hacia la desambiguación
funcional automática en español.
Santana, O.; Pérez, J.; Losada,
L.; Carreras, F.
Procesamiento de Lenguaje Natural, Revista Nº
28. Ed. SEPLN. ISSN: 1135-5948.
Mayo, 2002.
1/22.
Debido a que en español existe una considerable
cantidad de palabras que pueden desempeñar diferentes funciones gramaticales,
el análisis de un texto produciría una desmesurada multiplicidad
de combinaciones posibles en caso de no tener en cuenta la función
de cada voz en el contexto en que aparece. En este trabajo se presenta un
método de desambiguación funcional que reduce el tamaño
de la respuesta gracias al tratamiento que hace de las estructuras sintácticas
locales.
Descargar PDF (154Kb)
[-]
Desarrollos del Grupo de Estructuras
de Datos y Lingüística Computacional de la Universidad de Las
Palmas de Gran Canaria (GEDLC).
Santana, O.; Pérez, J.; Hernández, Z.; Carreras,
F.; Rodríguez, G.; Losada, L.; Duque, J.
SLPLT2. Segundo Taller Internacional de Procesamiento
Computacional del Español y Tecnologías del Lenguaje, Septiembre
2001. Editorial Club Universitario. Universidad de Jaén.
229/233
Se expone la línea de investigación del
GEDLC orientada a la elaboración de utilidades de ayuda para el tratamiento
de documentos. A partir del procesador morfológico desarrollado, se
han resuelto la generación automática de respuestas en análisis
morfológico, la gestión integrada de un diccionario de sinónimos
y la búsqueda morfológica de palabras en un texto; también
se logró una herramienta para el manejo de diccionarios ideológicos.
Se encuentran en curso una estación de trabajo lexicológica
orientada a Internet, la ampliación de las relaciones morfosemánticas
del procesador morfológico, un desambiguador morfológico,
un analizador sintáctico, una herramienta de ayuda al análisis
de estilo; también se trabaja en torno a las colocaciones, la composición,
los regímenes preposicionales y la clasificación semántica
de los verbos.
Descargar PDF (286Kb), PostScript (1228Kb), PostScript comprimido ZIP (409Kb)
[-]
Generación automática
de respuestas en análisis morfológico.
Santana, O.; Pérez, J.; Losada, L.
Estudios de lingüística. Universidad de
Alicante, 14, 2000. Departamento de Filología Española, Lingüística
General y Teoría de la Literatura.
245/257
Se presenta un procedimiento para la generación
automática de textos, dentro de un dominio definido. En el caso
de estudio, el dominio son sentencias resultantes del análisis morfológico
del español. Una de las principales dificultades a la hora de desarrollar
la generación automática de textos se halla en la necesidad
de preparar los datos de entrada. El presente trabajo modela el espacio
de aplicación a partir de un conjunto de resultados simples de análisis
morfológico en lenguaje natural. Se ha eliminado toda redundancia
en los datos de entrada para extraer su información esencial y obtener
la estructura lógica de tal información. La posibilidad de
decir lo mismo de diferentes formas obliga a seleccionar el léxico,
a observar el contexto y a reforzar el control mediante criterios de selección
para asegurar que el texto obtenido sea correcto y resulte formal, objetivo
y escueto. La principal aportación de este trabajo radica en pasar
de la estructura lógica a una frase con la que representar la información
de forma cohesionada, coherente, comprensible y con cierto estilo.
Descargar PDF (128Kb), PostScript (725Kb)
[-]
FLANOM: Flexionador y lematizador
automático de formas nominales.
Santana, O.; Pérez, J.; Carreras, F.; Duque, J.;
Hernández, Z.; Rodríguez, G.
Lingüística Española Actual XXI,
2, 1999. Ed. Arco/Libros, S.L.
253/297
El propósito del presente trabajo consiste en
presentar una aplicación informática útil para: a)
lematizar las diferentes formas nominales (identifica la forma canónica,
su categoría gramatical y la flexión o derivación que
la produce); y b) generar una forma nominal a partir de su forma canónica
y flexión o derivación —en ambos procesos, se consideran las
modificaciones necesarias debidas a la composición por prefijación.
El reconocimiento y la generación de las formas se realizan de manera
bidireccional por medio de una misma estructura de datos —recorrerla en sentidos
contrarios implica que se opere con ella como herramienta lematizadora o
flexionadora. El universo está compuesto por 109194 formas canónicas
e incluye todas las entradas no verbales del Diccionario de la Lengua Española
de la Real Academia Española, del Diccionario General de la Lengua
Española Vox, del Diccionario de Uso del Español de María
Moliner, del Gran Diccionario de la Lengua Española de Larousse
Planeta, del Diccionario de voces de uso actual dirigido por Manuel Alvar
Ezquerra, del Gran Diccionario de Sinónimos y Antónimos de
Espasa-Calpe y del Diccionario Ideológico de la Lengua Española
de Julio Casares.
Descargar PDF (265Kb), PostScript (2.19Mb), PostScript comprimido ZIP (364Kb)
[-]
De un reconocedor y generador morfológico
del español en Internet.
Santana, O.; Pérez, J.; Carreras, F.; Hernández,
Z.; Rodríguez, G.; Duque, J.D.
Publicado Mayo, 1999, Lexicon Planet Ltd
El interés que despierta un procesador morfológico
radica en que el tratamiento automatizado de la morfología del español
constituye la primera piedra sobre la cual construir cualquier procesador
de lenguaje natural, que habrá de considerar, con ulterioridad,
la sintaxis y la semántica; se debe destacar la gran utilidad de
sus aplicaciones en enseñanza de la lengua, manejo de diccionarios,
motores para búsquedas textuales, lematización, desambiguación,
análisis y generación de texto, tratamiento de corpus, etcétera.
(pulse aquí si desea todo el artículo)
[-]
Reconocedor y generador automático
de formas nominales.
Santana, O.; Pérez, J.; Carreras, F.; Duque, J.D.;
Hernández, Z.; Rodríguez, G.
Diccionarios e informática, 1998. Publicaciones
de la Universidad de Jaén.
57/74
El propósito del presente trabajo consiste en
presentar una aplicación informática útil para lematizar
las diferentes formas nominales al identificar su forma canónica,
categoría gramatical y la flexión o derivación que la
produce, y obtiene las formas nominales correspondientes a partir de una
forma canónica y de la flexión o derivación solicitada;
tanto el reconocimiento como la generación operan sobre una misma
estructura de datos —recorrerla en sentidos contrarios implica que la herramientas
funciones en una u otra modalidad. Considera: género y número
en los sustantivos, adjetivos, pronombres y artículos; heteronimia
por cambio de sexo en los sustantivos; grado superlativo en los adjetivos
y adverbios; adverbialización y adverbialización del superlativo
en los adjetivos; derivación apreciativa en los sustantivos, adjetivos
y adverbios; formas canónicas múltiples en todas las categorías
gramaticales; formas invariantes tales como preposiciones, conjunciones,
exclamaciones, palabras de otros idiomas y locuciones o frases. El sistema
incluye composición por prefijación.
Descargar PDF (80Kb), PostScript (812Kb), PostScript comprimido ZIP (94Kb)
[-]
FLAVER: Flexionador y lematizador
automático de formas verbales.
Santana, O.; Pérez, J.; Hernández, Z.; Carreras,
F.; Rodríguez, G.
Lingüística Española Actual XIX,
2, 1997. Ed. Arco/Libros, S.L.
229/282
El propósito del presente trabajo consiste en:
a) lematizar las diferentes formas verbales, identificando su infinitivo,
categoría gramatical y flexión, y b) generar una forma verbal
a partir de su infinitivo y flexión; en ambos procesos se consideran
las modificaciones que son debidas a la presencia de pronombres enclíticos
y de prefijos. El reconocimiento y la generación de las formas verbales
se realizan de manera bidireccional por medio de una misma estructura de
datos -recorrerla en sentidos contrarios implica que se opere con ella como
herramienta lematizadora o flexionadora. Además de la conjugación
verbal -modo, tiempo, número y persona- simple y compuesta, se considera
la flexión del participio como adjetivo verbal -género, número,
grado superlativo y adverbialización- y el diminutivo del gerundio.
Descargar PDF (413Kb), PostScript (3.65Mb), PostScript comprimido ZIP (500Kb), PostScript comprimido .Z (698Kb)
[-]
GEISA: Un diccionario de sinónimos
en formato electrónico.
Santana, O.; Pérez, J.; Carreras, F.; Santos, S.;
Rodríguez, G.; Hernández, Z.
Revista de Lexicografía, Volumen III. Universidade
da Coruña. 1996-1997.
111/134
Se desarrolla una aplicación para la gestión
de un diccionario de sinónimos y antónimos con una interfaz
amigable que: a) admite como entradas las cabeceras del diccionario y cualquiera
de sus formas flexionadas o derivadas, b) permite la navegación
clásica en estos diccionarios, c) ofrece formas de exploración
alternativas por medio de entradas relacionadas morfológicamente
y d) considera la salida con los accidentes gramaticales que afectan a la
entrada.
Descargar PDF (1.07Mb), PostScript (7.63Mb), PostScript comprimido ZIP (987Kb), PostScript comprimido .Z (829Kb)
[-]
Herramienta para el manejo
de diccionarios ideológicos.
Santana, O.; Rodríguez, G.; Hernández,
Z.
Lingüística Española Actual XIX,
1, 1997. Ed. Arco/Libros, S.L.
127/136
La elaboración de documentos es un proceso creativo
que exige del autor una notable capacidad de abstracción y estructuración
para asegurar una calidad aceptable del resultado; tal tarea puede ser eficazmente
asistida mediante diversas herramientas. En este trabajo se propone la construcción
de un manejador informático de diccionarios ideológicos; se
persigue que la recuperación de todo dato implique a aquellos otros
con los que guarde relación funcional o de concepto.
Descargar PDF (675Kb), PostScript (2.70Mb), PostScript comprimido ZIP (209Kb), PostScript comprimido .Z (361Kb)
[-]
Diccionarios en soportes informáticos.
Santana, O.; Hernández, Z.; Pérez, J.;
Rodríguez, G.; Carreras, F..
Cuadernos Cervantes de la Lengua Española, nº
11
Noviembre - Diciembre, 1996
68/77.
Se pretende anticipar de qué manera los diccionarios
experimentarán en los próximos años una transformación
de la mano de los avances tecnológicos en informática, tanto
en lo formal como en lo sustancial. Las dos vías principales a las
que las nuevas tecnologías prestarían las transformaciones
más relevantes a los diccionarios son en el aspecto físico
y en la flexibilidad de consulta. Ambos factores implican un cambio del modelo
de interacción entre los usuarios y los diccionarios; el diálogo
se verá enormemente facilitado por la utilización de interfaces
amigables cuidadosamente desarrolladas; el uso se verá revalorizado
por el mayor alcance de los resultados obtenidos al aprovechar las capacidades
multimedia de los sistemas empleados.
Descargar PDF (104Kb), PostScript (963Kb), PostScript comprimido ZIP (161Kb), PostScript comprimido .Z (218Kb)
[-]
Proyecto GEISA: GEstión
Integrada de Sinónimos y Antónimos.
Santana, O.; Pérez, J.; Santos, S.; Rodríguez,
G.; Hernández, Z.
Procesamiento de Lenguaje Natural, Revista Nº
16. Ed.: SEPLN.
Abril, 1995.
79/81.
Se pretende la realización de una aplicación
de gestión de sinónimos y antónimos en español
que tenga en cuenta los accidentes gramaticales con los siguientes objetivos:
a) Almacenamiento estructurado (minimizando la ocupación y el tiempo
de respuesta) de un diccionario de sinónimos y antónimos.
b) Posibilidad de consultas sobre el diccionario en un entorno amigable (ventanas
y menús desplegables). c) Devolución del sinónimo y/o
antónimo afectado de los mismos accidentes gramaticales que la palabra
original. d) Desarrollo modular que permita su incorporación ulterior
a sistemas de manipulación de textos más complejos.
Descargar PDF (15Kb), PostScript (147Kb), PostScript comprimido ZIP (34Kb), PostScript comprimido .Z (45Kb)
[-]
Proyecto SOTA: Sistema de Organización
de Texto Abierto.
Santana, O.; Hernández, Z.; Rodríguez,
G.; Rodríguez, J. C.; González, J. D.
Procesamiento de Lenguaje Natural, Revista Nº
16. Ed.: SEPLN.|/i>
Abril, 1995.
92/94.
Se pretende desarrollar un sistema para la indización
de documentos textuales débilmente estructurados, o incluso sin
estructura definida, que presente un alto grado de flexibilidad en cuanto
a los formatos de los documentos permitidos, así como en cuanto a
las modalidades de interrogación posibles, sea adaptable a una amplia
gama de configuraciones de recursos informáticos, y transportable
entre los entornos operativos más populares con un mínimo
esfuerzo de programación.
[-]
Reconocedor de conjugación
en formas verbales que trata los pronombres enclíticos.
Santana, O.; Hernández, Z.; Rodríguez,
G.; Pérez, J.; Carreras, F.; Bogliani, S.
Lingüística Española Actual. Ed.:
Arco/Libros, S. L.
1994, Nº 16-1.
125/133.
Desarrolla una aplicación, orientada a datos,
que reconoce las diferentes formas conjugadas de un verbo; además
de identificar el infinitivo, obtiene tiempo, número y persona; detecta
la presencia de pronombres enclíticos y considera las modificaciones
que producen en la forma verbal.
Descargar PDF (39Kb), PostScript (422Kb), PostScript comprimido ZIP (86Kb), PostScript comprimido .Z (112Kb)
[-]
Información Textual:
Línea de Investigación y Proyectos de Desarrollo.
Santana, O.; Díaz, M.; Rodríguez, J.
C.; González, D.; Rodríguez, G.; Hernández, Z.; Ballester,
A.
Español Actual. Ed.: Arco/Libros, S. L.
Nº 59/1993.
31/37.
El Grupo de Investigación en Estructuras de
Datos del Departamento de Informática y Sistemas de la Universidad
de Las Palmas de Gran Canaria ha estado realizando investigación:
básica desde 1986 en su campo y de desarrollo de aplicaciones prácticas
en áreas relacionadas con la recuperación de información
textual, la lingüística computacional y el procesamiento de
lenguaje natural a partir de 1990.
[-]
Agrupaciones de Tiempos Verbales
en un Texto.
Rodríguez, G.; Hernández, Z.; Santana,
O.
Anales de las II Jornadas de Ingeniería de Sistemas
Informáticos y de Computación, Quito (Ecuador).
Abril, 1993.
132/137.
Construye una herramienta capaz de localizar en un
escrito todas las formas conjugadas de un mismo verbo. Constituye una aproximación
al análisis de textos para facilitar la labor de creación
literaria. La solución hace uso de una estructura de datos que organiza
las raíces verbales y las terminaciones correspondientes a las formas
conjugadas.
[-]
Distancia Dependiente de la
Subsecuencia Común Más Larga entre Cadenas de Caracteres.
Díaz, M.; Pérez, J.; Santana, O.
Anales de las II Jornadas de Ingeniería de Sistemas
Informáticos y de Computación, Quito (Ecuador).
Abril, 1993.
117/123.
En este trabajo se demuestra que el valor definido
por Santana y otros -basado en la longitud de la subsecuencia común
más larga entre cadenas de caracteres al objeto de reducir el número
de cadenas que han de someterse al cálculo de la Distancia de Levenshtein-
es una distancia en el espacio de cadenas de caracteres sobre un alfabeto.
Se corrobora experimentalmente que esta distancia mejora las realizaciones
de los esquemas de búsqueda decreciente y creciente sobre el índice
donde se estructuran las componentes de la distancia invariante trasposicional.
Descargar PDF (39Kb), PostScript (372Kb), PostScript comprimido ZIP (73Kb), PostScript comprimido .Z (102Kb)
[-]
Conjugaciones Verbales.
Santana, O.; Hernández, Z. J.; Rodríguez,
G.
Boletín de la Sociedad Española para
el Procesamiento del Lenguaje Natural
(SEPLN).
Febrero, 1993.
Nº 13, 443/450.
Genera un sistema que conjuga cualquier tiempo verbal
a partir de un infinitivo previa determinación de su regularidad
o irregularidad, utilizando para ello el conocimiento de una serie de reglas
que siguen los diferentes modelos de conjugación verbal y la sistematización
de la conjugación regular.
[-]
Frectext: Una Aplicación
de Ayuda a la Elaboración de Documentos.
Santana, O.; Rodríguez del Pino, J. C.; González
Domínguez, J. D.
Boletín de la Sociedad Española para
el Procesamiento del Lenguaje Natural (SEPLN).
Febrero, 1993.
Nº 13, 451/462.
[-]
Recuperación de Información
en Diccionarios.
Ballester Monzón, A.; Díaz Roca, M.;
Santana Pérez, F.; Santana, O.
Boletín de la Sociedad Española para
el Procesamiento del Lenguaje Natural (SEPLN).
Febrero, 1993.
Nº 13, 423/430.
Este trabajo se centra en el problema de la localización
de palabras en texto libre. Un tratamiento previo del texto permite generar
un índice que hace viable los accesos posteriores al ejemplar; se
utiliza como índice la estructura Santana Díaz, construida
a partir del conjunto de las palabras diferentes no vacías que se
obtienen del documento. Los tipos de búsqueda estudiados son: exacta,
más similares, máscaras, truncamientos, por cercanía,
con antecedencia, en párrafos, en sentencias, de frases y
búsquedas complejas con operadores booleanos
sobre cualesquiera de las anteriores. Se desarrolla un analizador sintáctico
de las peticiones que determina su correctitud sintáctica y diferencia
las componentes con sus conectores lógicos.
La Estructura de Burkhard-Keller
en la Búsqueda de las Cadenas Más Similares a un Conjunto sobre
el que existe Definida una Distribución de Probabilidad.
Santana, O.; Pérez, J.; Hernández, Z.;
Rodríguez, A.
Anales de las Primeras Jornadas de Ingeniería
de Sistemas y de Computación, Quito (Ecuador).
Noviembre, 1990.
Vol. I, 153/160.
En este trabajo se plantea el problema de la búsqueda
de las cadenas más similares a un conjunto de cadenas sobre el que
existe una distribución de probabilidad que expresa la fiabilidad
con la que cada una de las cadenas representa a la cadena en cuestión.
El concepto de similitud es en el sentido de Levenshtein.
Descargar PDF (53Kb), PostScript (486Kb), PostScript comprimido ZIP (95Kb), PostScript comprimido .Z (126Kb)
Increasing Radius Search Schemes
for the Most Similar Strings on the Burkhard-Keller Tree.
Santana, O.; Pérez, J.; Rodríguez, J.C.
Cybernetics and Systems: An International Journal.
1990.
21: 167/180.
In this work search schemes are proposed for the most
similar strings to a given one, on the sense of the Levenshtein directional
distance, working on a Burkhard_Keller structure, organized by the transposition_invariant
distance, using a increasing search radius as opposed to the decreasing
search radius schemes. Some organization approaches are studied to find the
best way to improve search performance. The test results are analyzed, comparing
these approaches and the different search schemes.
Descargar PDF (56Kb), PostScript (535Kb), PostScript comprimido ZIP (102Kb), PostScript comprimido .Z (139Kb)
Búsqueda de las Cadenas
Más Similares: Esquema Decreciente con Radio de Búsqueda Ascendente,
Esquema Creciente.
Díaz, M.; Santana, O.; Rodríguez, J.C.
Actas de la XVI Conferencia Latinoamericana de Informática,
Asunción (Paraguay).
Septiembre, 1990.
Vol.I, 90/97.
En trabajos anteriores se ha descrito la estructura
DITE y el esquema de búsqueda DITE+DD decreciente para la recuperación
de las cadenas más similares a una dada, en el sentido de Levenshtein.
En este, se proponen los esquemas de búsqueda: decreciente con radio
ascendente y creciente; llevándose a cabo un estudio experimental
a fin de comparar las realizaciones de estos esquemas.
Búsqueda de las Cadenas
Más Similares: Incidencia de la Subsecuencia Común Más
Larga en los Esquemas Decreciente y Creciente.
Santana, O.; Rodríguez, J.C.; Díaz, M.
Actas de la XVI Conferencia Latinoamericana de Informática,
Asunción (Paraguay).
Septiembre, 1990.
Vol.I, 98/104.
Las componentes de la distancia invariante trasposicional,
DIT, ya han aparecido estructuradas, DITE, en trabajos anteriores así
como los esquemas de búsqueda DITE+DD decreciente y creciente de
las cadenas más similares. A fin de reducir el número de cadenas
exploradas en el sentido de Levenshtein, DD, muy costosas, en este trabajo
se demuestra DIT Ul DD, donde el nuevo umbral Ul , función de la secuencia
común más larga entre cadenas, recoge propiedades ignoradas
por DIT; ambos costos computacionales son inferiores. También se
introduce un refinamiento en la poda del índice que acorta su recorrido.
Sharing the Components of Transposition-Invariant
Distance, DIT, on DIT-Organized Burkhard-Keller Structure in Searches for
Best Matching Strings.
Santana, O.; Pérez, J.; Hernández, Z.;
Rodríguez, H.G.
IEEE Proceedings of the International Workshop on Tools
for Artificial Intelligence "Architectures, Languages & Algorithms",
Fairfax, Virginia (USA).
Octubre, 1989.
435/441.
In this work various construction character/frequency
information sharing structure approaches are proposed in order to optimize
transposition_invariant distance evaluation, that distance is used to construct
a Burkhard-keller tree where is organized a dictionary of strings token
over a characters alphabet to achieve searchings of strings best matching
one on Levenshtein sense.
Descargar PDF (46Kb), PostScript (510Kb), PostScript comprimido ZIP (98Kb), PostScript comprimido .Z (130Kb)
The Infinite Distance in the
Determination of the Nearest Euclidean M-Neighbours in the K-D-B Tree.
Santana, O.; Rodríguez, G.; Díaz, M.;
Plácido, A.
IEEE Proceedings of the International Workshop on Tools
for Artificial Intelligence "Architectures, Languages & Algorithms",
Fairfax, Virginia, (USA).
Octubre, 1989.
146/152.
In this article the search scheme of the nearest m_neighbours
in the K-D-B tree structure is proposed. In that scheme two diferent strategies
for the selection of alternative descent branches, that determine the order
in which the criterion of the pruning tree is studied is planned. An experimental
study, with the euclidean an infinite distances, in order to comparing
both strategies, as soon as the influence of the distance change is realized.
By last, three search schemes of the euclidean m_neighbours via the infinite
distance, with the objective of improving the obtained performance with
the euclidean distance are proposed for its following discussion.
La Estructura de Burkhard-Keller
en la Búsqueda de las Cadenas Más Similares a una dada.
Santana, O.; Pérez, J.; López, G.; Rodríguez,
G.
MERCALINE. Revista de Electrónica Informática
y Telecomunicaciones. Las Palmas de Gran Canaria.
Agosto-Septiembre, 1989. 50/59.
En este trabajo se aborda el problema de la búsqueda
de las cadenas más similares, en el sentido de distancia direccional,
DD, de Levenshtein, a una dada. Se incorpora una distancia invariante frente
a trasposiciones, DIT, que tiene un costo computacional inferior a la DD
y que se usa como filtro adaptivo para realizar las búsquedas. Se
estudian, comparativamente, los esquemas de búsqueda DITE+DD y Burkhard-Keller,
construidos con DD y con DIT; en los últimos se llevan a cabo las
búsquedas en una, dos y tres etapas.
Descargar PDF (54Kb), PostScript (1100Kb), PostScript comprimido ZIP (198Kb), PostScript comprimido .Z (247Kb)
Estructuración de las
Componentes de la Distancia Invariante Trasposicional, DIT, con Compartición
de la Zona No-Discriminante en la Búsqueda de las Cadenas Más
Similares.
Santana, O.; Díaz, M.; Duque, J.D.; Rodríguez,
G.
Actas de la XV Conferencia Latinoamericana de Informática,
Santiago de Chile (Chile).
Julio, 1989.
Vol.II, 335/341.
En este trabajo se presentan varios criterios para
la compartición de la información carácter/frecuencia
de la zona no_arbórea de la estructura DITE, a fin de optimizar el
cálculo de la distancia invariante trasposicional, en la realización
del esquema de búsqueda DITE+DD para la recuperación de las
cadenas más similares a una dada en el sentido de Levenshtein.
Referencias Distanciales de
Levenshtein en la Estructura de Burkhard-Keller Organizada según
la Distancia Invariante Transposicional. Parte I.
Santana, O.; Pérez, J.; Espino, M.; Rodríguez,
J.C.
Actas de la XV Conferencia Latinoamericana de Informática,
Santiago de Chile (Chile).
Julio, 1989.
Vol.II, 327/334.
Para la búsqueda de las cadenas más similares
en el sentido de la Distancia Direccional de Levenshtein, DD, en este trabajo
se propone la introducción de referencias DD en la estructura de Burkhard_Keller,
organizada según la Distancia Invariante Trasposicional, DIT, a fin
de poder realizar pruebas de DD_candidatura, basadas en la desigualdad triangular,
con el propósito de disminuir los cálculos de DD y así
mejorar la realización global del esquema BK_DIT+DD creciente.
Descargar PDF (45Kb), PostScript (511Kb), PostScript comprimido ZIP (93Kb), PostScript comprimido .Z (126Kb)
El Árbol Multidimensional
Equilibrado en Altura: Influencia de su Comportamiento Dinámico en
las Recuperaciones Exacta, en Rango y de los Vecinos Más Próximos.
Santana, O.; Díaz, M.; Hernández, Z.;
Del Pino, J.C.
Actas de la XIV Conferencia Latinoamericana de Informática.
Buenos Aires (Argentina).
Septiembre, 1988.
Vol. I, 33/46.
En este trabajo se presenta un estudio empírico
del comportamiento dinámico de la estructura de árbol multidimensional
equilibrado en altura, analizando los parámetros fundamentales que
determinan su respuesta ante inserciones y extracciones continuadas y ante
una fase estacionaria. Asimismo, se estudia su efectividad frente a los
árboles quintarios en atender a las interrogaciones exacta y en rango,
y su comportamiento en la búsqueda de los vecinos más próximos
Reorganizaciones Locales en
el Árbol-K-D-B. Su Eficiencia en Situaciones Dinámicas.
Díaz, M.; Santana, O.; Rodríguez, G.,
Martín M.
Actas de la XIV Conferencia Latinoamericana de Informática.
Buenos Aires (Argentina).
Septiembre, 1988.
Vol. I, 17/32.
En este artículo se introducen diversas reorganizaciones
locales para optimizar la ocupación en la actualización de
la estructura del árbol K-D-B. Se realiza un estudio experimental
en tres fases: creciente, decreciente y estacionaria. En cada fase se compara
la evolución de la estructura con reorganizaciones locales y sin
ellas, poniendose de manifiesto el aporte de las reorganizaciones locales
en la optimización de la ocupación, sin olvidar el incremento
en el número de accesos.
Árboles Quintarios: Estudio
Experimental para las Interrogaciones Exactas, Parciales, en Rango y en Rango
Parcial.
Santana, O.; Mayor, O.; Díaz, M.; Reina, S.
Actas de la XIII Conferencia Latinoamericana de Informática.
Bogotá (Colombia).
Noviembre, 1987.
Vol. II, 1148/1168.
Se presenta un estudio experimental del costo de almacenamiento
y el tiempo de respuesta en un árbol Quintario para un sistema de
recuperación de información basado en las interrogaciones
exacta, parcial, en rango y en rango parcial.
Búsqueda de los M-Vecinos
Más Próximos en el Árbol-BD.
Santana, O.; Díaz, M.; Mayor, O.; González,
J.
Actas de la XIII Conferencia Latinoamericana de Informática.
Bogotá (Colombia).
Noviembre, 1987.
Vol. II, 1106/1121.
En este trabajo se presenta la petición de los
m-vecinos más próximos en el árbol-BD. Se introduce
un tipo de solapamiento en los descensos alternativos denominado solapamiento
exterior (exterior de interior), que mejora el tiempo de respuesta. Además
se muestra experimentalmente como influye en el tiempo la dimensionalidad,
el tamaño de la celda y el número de vecinos más próximos.
Comportamiento del Árbol-BD
en las Fases Creciente, Decreciente y Estacionaria.
Santana, O.; Mayor, O.; Díaz, M.; López,
G.
Actas de la XIII Conferencia Latinoamericana de Informática.
Bogotá (Colombia).
Noviembre, 1987.
Vol. II, 1093/1105.
Este artículo lleva a cabo un estudio experimental
de la estructura denominada árbol-BD. Esta estructura ha sido mejorada
en las extracciones mediante una operación de recombinación
que no permite punteros nulos y optimiza la ocupación. Dicho estudio
aparece dividido en tres fases: creciente, decreciente y estacionaria,
cada una de ellas caracterizada por el tipo de operaciones a realizar. Previamente
se han realizado una serie de pruebas destinadas a comparar las características
de dos posibles redistribuciones locales alternativas, a fin de escoger la
más adecuada.
Esquemas y Estructura para la
Búsqueda de las Palabras Más Similares a una dada.
Santana, O.; Díaz, M.; Mayor, O.; Reyes, J.
Actas de la XIII Conferencia Latinoamericana de Informática.
Bogotá (Colombia).
Noviembre, 1987.
Vol. II, 1169/1189.
El problema que se aborda en este trabajo consiste
en la recuperación desde un diccionario del conjunto de palabras
más similares a una palabra de búsqueda. Se introduce el cálculo
de una distancia que es independiente de la posición que ocupan los
caracteres en las palabras, utilizada como un filtro para el cálculo
de la distancia de Wagner y Fischer a fin de mejorar el rendimiento del esquema
de búsqueda cuando sólo se utiliza como criterio de similitud
esta última distancia.
Análisis Experimental
de los Esquemas de Inserción del Árbol-B.
Santana, O.; Cabrera, J.; Díaz, M.; Mayor, O.
Informática y Automática, A.E.I.A., Madrid.
1986.
1/20.
En este trabajo se realiza un estudio experimental
comparativo de los
esquemas de inserción con y sin rotación
en los árboles B y B*.