Created by Geovanni Rosales Hernandez
almost 7 years ago
|
||
Datos Estructurados:
A diferencia de los datos de tipo simple que sólo pueden
almacenar un valor,
los datos estructurados o estructuras de datos pueden
recolectar varios valores
simultáneamente. Se hace una primera introducción a los
datos estructurados
destacando en primer lugar que se les asigna una
cantidad fija de memoria
durante la ejecución del programa cuando se declara una
variable de un
determinado tipo estructurado. El primer tipo
estructurado es el tipo array que
permite agrupar otros datos más simples de igual tipo
bajo un mismo
identificador. Este tipo de estructuras permiten definir
vectores, matrices,
tablas y estructuras multidimensionales. TurboPascal
incorpora un tipo
especial de array: el tipo string. Se define como una
secuencia de caracteres
cuya longitud puede variar entre 1 y 255. El tipo record
está compuesto de
elementos de diferentes tipos a cada uno de los cuales se
les asocia un
identificador. Finalmente se analiza el tipo estructurado
set equivalente al
concepto de conjunto matemático y otros tipos de datos
no simples.
Datos semiestructurados:
Lo que sea entre estructurado y no estructurado
Variables pobremente tipadas (x=1 es válido y x=”hola”
también es válido)
Un registro no necesariamente tiene que tener todos sus
atributos definidos. Mientras por ejemplo en una base de
datos relacional un campo debe establecerse como NULL
cuando no se tiene, en un ambiente de datos
semiestructurados basta con omitir dicho atributo.
Un atributo de un registro puede ser otro registro
No existe necesariamente una diferencia entre un
identificador de un campo y el valor mismo de este.
Ejemplos: documentos SGML y XML
A pesar de poder representarse de dintintas maneras,
actualmente la mejor manera de hacerlo es a través del
lenguaje XML, por eso en las secciones siguientes se
aborda la definición, representación, almacenamiento e
interrogación de estos documentos.
DATOS NO ESTRUCTURADOS :
Aunque parezca increíble, la base de datos con
información estructurada de una empresa, ni siquiera
contiene la mitad de la información que hay disponible en
la empresa lista para ser usada. El 80 % de la información
relevante para un negocio se origina en forma no
estructurada, principalmente en formato texto.
Los datos no estructurados, generalmente son datos
binarios que no tienen estructura interna identificable. Es
un conglomerado masivo y desorganizado de varios
objetos que no tienen valor hasta que se identifican y
almacenan de manera organizada.
Una vez que se organizan, los elementos que conforman
su contenido pueden ser buscados y categorizados (al
menos hasta cierto punto) para obtener información.
Por ejemplo, aunque la mayoría de herramientas de
minería de datos no son capaces de analizar la
información contenida en los mensajes de correo
electrónico (por muy organizados que estén), es posible
que recopilar y clasificar los datos contenidos en ellos nos
pueda mostrar información relevante para nuestra
organización.