que es la ingeniería de datos
actividades principales en la ingeniería de datos
caracteristicas y desafios de la ingenieria de big data
pregunta de examen.
Para la partición de los datos, los patrones de la consulta deben ser tomados en cuenta, de tal forma que los shards no
La ubicación de los datos, o conservar los datos a los que frecuentemente se tiene acceso en un solo shard, ayuda a
que es el sharding
Los shards están distribuidos entre distintos nodos, en donde un nodo es un
Cada shard es almacenado en un nodo aparte y cada nodo solamente es responsable por
Cada shard comparte el mismo ___ , y todos las shards representan colectivamente la
que se hace en el sharding para lograr la escalabilidad horizontal
un beneficio del sharding es que
en que principio se basa el algoritmo map reduce
que enfoques se usan para lograr el principio de divide y veneras de el algoritmo map reduce
de que se trata el paralelismo de tareas
cada subtarea en el paralelismo de tareas se ejecuta en..
el paralelismo de datos consiste en
en el paralelismo de datos los subdatasets se procesan ___
Cada subtarea ejecuta un algoritmo ___
y cada subdataset es procesado usando el ___ algoritmo
cuales son las operaciones de map reduce
las firmas de las funciones map y reduce se limitan a un conjunto de
el conjunto de pares llave y valor es la unica forma de comunicar el mapeo con el __
de que depende la lógica de la función de mapeo
de que depende la lógica de la función reduce
consideraciones para desarrollar un algoritmo map reduce
inconsistencias de escritura que ocurren en replicacion pear to pear pueden ser enfrentadas implementando concurrencia ___ o ___
identifique el requerimiento del motor de procesamiento que permite procesar grandes cantidades de datos en la fuente sin la necesidad de transferir datos del almacenamiento al recurso de computacion.
QUE MECANISMO NO SQL AGRUPA COLUMNAS RELACIONADAS EN UNA FILA
LA LOGICA DE LA FUNCION REDUCE ES DEPENDIENTE DE LA FUNCION __
El framework de map reduce se basa en el principio de
El ____ y el ____ son los dos enfoques usados generalmente para el principio de dividir un problema dificil en tantas partes sea necesario
El ____ se refiere a la paralelizacion del procesamiento de datos al dividir una tarea en subtareas y ejecutar cada subtarea en un procesador por separado, generalmente en un nodo separado dentro del cluster
el ___ se refiere a la paralelizacion de procesamiento de datos al dividir un dataset en varios subdatasets y procesar estos en paralelo
el framework de map reduce aborda la necesidad de una ejecución repetida de la misma tarea en datos distribuidos al usar el enfoque
En map reduce la lógica en la función reduce depende del resultado de la función
el framework de map reduce requiere que el dataset sea ___ a traves del cluster para que multiples funciones ___________ puedan procesar los subdatasets en paralelo
con el algoritmo map reduce, la lógica en la función de mapeo no debe depender del dataset completo, pues solo se dispone de los datos dentro de una ___
Map reduce es una implementacion muy utilizada por el mecanismo de motor de ____
Map reduce es un motor de procesamiento enfocado en el modo por ___ que se usa para procesar grandes cantidades de datos por medio del procesamiento en ___ implementado en clusters de ____
Map reduce requiere que los datos de entrada hagan parte de un modelo de datos en particular?
Que sucede cuando se aplica el paradigma de procesamiento distribuido tradicional a grandes cantidades de datos
Con map reduce es el algoritmo de procesamiento el que se transfiere hacia ___
El algoritmo es ejecutado en paralelo en los nodos de almacenamiento de datos eliminando la necesidad de transferir ____
Cuales son las tareas de mapeo
Cuales son las tareas de reduce
Que hace la primera parte de la tarea del algoritmo map reduce: mapear?
Al dividir el dataset cada parte se analiza como un par ___ ___
la llave generalmente es la ___ ordinal del registro
segunda parte de la funcion mapear
la funcion de mapeo funciona como logica definida por el usuario?
la tercera parte de la función mapear es
en el mapeo la llave y valor de salida no puede ser la misma que la llave de entrada ni un valor de subcadena del valor de entrada ni otro objeto serializable?
generalmente las tareas de mapeo y reduce se ejecutan en ____ nodos
que función se usa para agregar los datos resultado del mapeo antes de que sean procesados por el reductor?
en la etapa de combinacion existen llaves duplicadas?
por que el motor de map reduce puede no usar la etapa de combinacion?
un combinador debe ser especificado unicamente cuando su uso no afecte el __ __
que se hace en la etapa dividir
en la etapa dividir, el numero de particiones es igual al numero de ____
como solventar que algunos reductores reciban una mayor cantidad de pares que otros?
en que etapa se genera el indice del reductor?
las bases de datos no sql son compatibles con la evolucion __
Únicamente se pueden buscar los valores por medio de las llaves,
Es necesario almacenar datos sin estructurar
DATOS SEMIESTRUCTURADOS, ESQUEMAS PLANOS O ANIDADOS
ESCRITURA/LECTURA ALEATORIA EN TIEMPO REAL
almacenamiento de links entre entidades
como se le llama a la entidad en grafos
como se le llama al link en grafos
operaciones de lectura o escritura de alto rendimiento
dispositivo de almacenamiento que se basa en ACID
Para datos binarios y de estructura sencilla
PATRONES CONSULTA DE INSERCION, SELECCION Y ELIMINACION
PATRONES CONSULTA DE INSERCION, ACTUALIZACION,SELECCION Y ELIMINACION
Jane necesita almacenar una gran cantidad de archivos del circuito cerrado de televisión. Debido a la baja calidad del video, todos los archivos serán procesados, uno después de otro, utilizando una biblioteca de software de mejoramiento de video. ¿Qué tipo de dispositivo de almacenamiento puede utilizar Jane para garantizar la máxima capacidad de procesamiento de lectura y un procesamiento rápido de los archivos de video?
Kerry está diseñando una aplicación de Big Data que debe almacenar grandes cantidades de archivos XML. Cada archivo XML representa una entidad aparte, compuesta por múltiples secciones, cada una con subcampos. Se deben recuperar y actualizar distintas secciones del archivo XML como parte del flujo de trabajo (Workflow) de procesamiento. ¿Qué tipo de dispositivo de almacenamiento NoSQL es el más adecuado para los requisitos de almacenamiento de datos de Kerry?
Roger planea reemplazar la base de datos relacional con una base de datos NoSQL para almacenar los datos de sesión de los usuarios de una popular tienda online. Las sesiones de los usuarios son identificadas por medio de la ID y de una marca de hora, y almacenan los datos específicos de la aplicación, que son exclusivamente anexados. Los datos de sesión de los usuarios son analizados, lo que requiere que los datos de la sesión de cada uno de los usuarios sean agrupados. ¿Qué tipo de dispositivo de almacenamiento NoSQL puede ser utilizado en este caso?
Mike está a cargo del diseño de una base de datos para almacenar activos físicos que se encuentran distribuidos geográficamente por el país. Cada activo tiene un conjunto básico de atributos, como ID, tipo y fecha de fabricación. Asimismo, cada activo está conectado físicamente con varios otros activos. Mike conoció que la base de datos será usada intensamente por los ingenieros con el fin de hallar activos que están conectados con otros, así como para determinar la distancia entre dos activos. ¿Qué tipo de dispositivo de almacenamiento puede usar Mike para satisfacer los requisitos de consulta de los ingenieros?
John está diseñando una aplicación web que almacena distintas piezas de información relacionadas con cada cliente, como la información personal del cliente (incluyendo dirección e información de tarjeta de crédito), el historial de compras del cliente y comentarios publicados en la página web para diferentes productos. John quiere ser capaz de buscar clientes usando sus nombres para poder actualizar los registros de los clientes. Igualmente, él espera que se ejecuten varios tipos de análisis de los clientes. Uno de los análisis que determina los sentimientos de los clientes requiere acceso interactivo a texto en los comentarios, además de buscar los comentarios hechos por cada cliente. ¿Qué tipo de base de datos NoSQL puede utilizar John para facilitar el acceso a cada campo y permitir que los datos de los comentarios sean recuperados rápidamente?
Los _____ son una buena opción cuando se debe acceder a los datos en modo de streaming sin operaciones aleatorias de lectura ni escritura
los ____funcionan mejor con menos archivos, pero de mayor tamaño, a los cuales se accede de forma secuencial
caracteristicas del motor de procesamiento big data
Dar soporte a un entorno de procesamiento distribuido con capacidades de procesamiento paralelo requiere un motor de procesamiento que pueda ofrecer un rendimiento estable mientras el volumen de datos crece.
Implementar un software de código abierto en un hardware básico ayuda a
que caracteristica de procesamiento apoya la capacidad del motor de procesamiento para aprovechar el Cloud Computing.
que caracteristica de procesamiento :
, es necesario que la plataforma de procesamiento subyacente sea compatible tanto con las cargas de trabajo transaccionales como con las de lote.
los datos de big data se presentan de dos formas:
caracteristica de procesamiento:
es necesario utilizar un modelo de procesamiento basado en el principio de dividir un problema difícil en tantas partes como sea necesario, al igual que sucede con el procesamiento de datos paralelos.
que caracteristica del motor de procesamiento fomenta el uso de software de codigo abierto y cloud computing
la replicacion crea multiples copias de un dataset, conocidas como ____ y las almacena en varios nodos
que caracteristica del motor de procesamiento permite el procesamiento de datos tanto por lotes como en tiempo real
que caracteristica de motor de porcesamiento permite que haya funcionalidad cuando se presentan fallas en el sistema
el teorema cap establece que un sistema de archivos distribuido solo puede proporcionar dos de las tres propiedades, que son
___ es el proceso de particionar horizontalmente un gran dataset en un grupo de datasets mas pequenos y manejables llamados ___ distribuidos entre multiples nodos
que caracteristica del motor de procesamiento permite el procesamiento de grandes cantidades de datos en la fuente sin necesidad de transferirlos desde su lugar de almacenamiento hasta un recurso de informatica?
el ___ de map reduce aborada la necesidad de una ejecucion repetida de la misma tarea en datos distribuidos al usar un enfoque de paralelismo de datos
en la replicacion ___, el nodo maestro es el unico punto de contacto para todas las operaciones de escritura, mientras que los datos pueden ser leidos desde cualquier nodo esclavo
que significa BASE
en la replicacion peer to peer no hay nodos maestro ni esclavo y todos los nodos llamados __, operan al mismo nivel
en el contexto de teorema CAP las bases de datos relacionales proporcionan ___ y ____
que caracteristica del motor de procesamiento da soporte a los modelos de datos cambiantes y permite el procesamiento de datos en su forma original sin la necesidad de llevar a cabo ninguna transformacion en el modelo de datos
que modo de porcesamiento en tiempo reral es:
se ubica dentro de la categoría de tiempo real. El ___ generalmente se refiere al procesamiento de consultas en tiempo real. La Inteligencia de negocios (BI) y la analítica operativa generalmente hacen uso del modo en tiempo real.
el procesamiento en big data requiere un entorno ___ qyue sea capaz de procesar datos en ___, lo caul es una caracteristica soportada por la arquitectura en ____
Los clusters permiten el procesamiento de datos ____ y son altamente ___
En la arquitectura en cluster, los datasets de Big Data pueden ser procesados por ___ o ___ usando un motor de
procesamiento por lotes
falso o verdadero ? A fin de que los datos almacenados tengan una estructura, la mayoría de dispositivos de almacenamiento de tipo llave-valor (key-value) ofrecen colecciones o sectores de almacenamiento (buckets; por ejemplo, tablas) dentro de los cuales se pueden organizar las parejas de llave-valor (key-value),