Módulo 7: Ingeniería fundamental de Big Data

que es la ingeniería de datos

actividades principales en la ingeniería de datos

caracteristicas y desafios de la ingenieria de big data

pregunta de examen.
Para la partición de los datos, los patrones de la consulta deben ser tomados en cuenta, de tal forma que los shards no

La ubicación de los datos, o conservar los datos a los que frecuentemente se tiene acceso en un solo shard, ayuda a

que es el sharding

Los shards están distribuidos entre distintos nodos, en donde un nodo es un

Cada shard es almacenado en un nodo aparte y cada nodo solamente es responsable por

Cada shard comparte el mismo ___ , y todos las shards representan colectivamente la

que se hace en el sharding para lograr la escalabilidad horizontal

un beneficio del sharding es que

en que principio se basa el algoritmo map reduce

que enfoques se usan para lograr el principio de divide y veneras de el algoritmo map reduce

de que se trata el paralelismo de tareas

cada subtarea en el paralelismo de tareas se ejecuta en..

el paralelismo de datos consiste en

en el paralelismo de datos los subdatasets se procesan ___

Cada subtarea ejecuta un algoritmo ___
y cada subdataset es procesado usando el ___ algoritmo

cuales son las operaciones de map reduce

las firmas de las funciones map y reduce se limitan a un conjunto de

el conjunto de pares llave y valor es la unica forma de comunicar el mapeo con el __

de que depende la lógica de la función de mapeo

de que depende la lógica de la función reduce

consideraciones para desarrollar un algoritmo map reduce

inconsistencias de escritura que ocurren en replicacion pear to pear pueden ser enfrentadas implementando concurrencia ___ o ___

identifique el requerimiento del motor de procesamiento que permite procesar grandes cantidades de datos en la fuente sin la necesidad de transferir datos del almacenamiento al recurso de computacion.

QUE MECANISMO NO SQL AGRUPA COLUMNAS RELACIONADAS EN UNA FILA

LA LOGICA DE LA FUNCION REDUCE ES DEPENDIENTE DE LA FUNCION __

El framework de map reduce se basa en el principio de

El ____ y el ____ son los dos enfoques usados generalmente para el principio de dividir un problema dificil en tantas partes sea necesario

El ____ se refiere a la paralelizacion del procesamiento de datos al dividir una tarea en subtareas y ejecutar cada subtarea en un procesador por separado, generalmente en un nodo separado dentro del cluster

el ___ se refiere a la paralelizacion de procesamiento de datos al dividir un dataset en varios subdatasets y procesar estos en paralelo

el framework de map reduce aborda la necesidad de una ejecución repetida de la misma tarea en datos distribuidos al usar el enfoque

En map reduce la lógica en la función reduce depende del resultado de la función

el framework de map reduce requiere que el dataset sea ___ a traves del cluster para que multiples funciones ___________ puedan procesar los subdatasets en paralelo

con el algoritmo map reduce, la lógica en la función de mapeo no debe depender del dataset completo, pues solo se dispone de los datos dentro de una ___

Map reduce es una implementacion muy utilizada por el mecanismo de motor de ____

Map reduce es un motor de procesamiento enfocado en el modo por ___ que se usa para procesar grandes cantidades de datos por medio del procesamiento en ___ implementado en clusters de ____

Map reduce requiere que los datos de entrada hagan parte de un modelo de datos en particular?

Que sucede cuando se aplica el paradigma de procesamiento distribuido tradicional a grandes cantidades de datos

Con map reduce es el algoritmo de procesamiento el que se transfiere hacia ___

El algoritmo es ejecutado en paralelo en los nodos de almacenamiento de datos eliminando la necesidad de transferir ____

Cuales son las tareas de mapeo

Cuales son las tareas de reduce

Que hace la primera parte de la tarea del algoritmo map reduce: mapear?

Al dividir el dataset cada parte se analiza como un par ___ ___

la llave generalmente es la ___ ordinal del registro

segunda parte de la funcion mapear

la funcion de mapeo funciona como logica definida por el usuario?

la tercera parte de la función mapear es

en el mapeo la llave y valor de salida no puede ser la misma que la llave de entrada ni un valor de subcadena del valor de entrada ni otro objeto serializable?

generalmente las tareas de mapeo y reduce se ejecutan en ____ nodos

que función se usa para agregar los datos resultado del mapeo antes de que sean procesados por el reductor?

en la etapa de combinacion existen llaves duplicadas?

por que el motor de map reduce puede no usar la etapa de combinacion?

un combinador debe ser especificado unicamente cuando su uso no afecte el __ __

que se hace en la etapa dividir

en la etapa dividir, el numero de particiones es igual al numero de ____

como solventar que algunos reductores reciban una mayor cantidad de pares que otros?

en que etapa se genera el indice del reductor?

las bases de datos no sql son compatibles con la evolucion __

Únicamente se pueden buscar los valores por medio de las llaves,

Es necesario almacenar datos sin estructurar

DATOS SEMIESTRUCTURADOS, ESQUEMAS PLANOS O ANIDADOS

ESCRITURA/LECTURA ALEATORIA EN TIEMPO REAL

almacenamiento de links entre entidades

como se le llama a la entidad en grafos

como se le llama al link en grafos

operaciones de lectura o escritura de alto rendimiento

dispositivo de almacenamiento que se basa en ACID

Para datos binarios y de estructura sencilla

PATRONES CONSULTA DE INSERCION, SELECCION Y ELIMINACION

PATRONES CONSULTA DE INSERCION, ACTUALIZACION,SELECCION Y ELIMINACION

Jane necesita almacenar una gran cantidad de archivos del circuito cerrado de televisión. Debido a la baja calidad del video, todos los archivos serán procesados, uno después de otro, utilizando una biblioteca de software de mejoramiento de video. ¿Qué tipo de dispositivo de almacenamiento puede utilizar Jane para garantizar la máxima capacidad de procesamiento de lectura y un procesamiento rápido de los archivos de video?

Kerry está diseñando una aplicación de Big Data que debe almacenar grandes cantidades de archivos XML. Cada archivo XML representa una entidad aparte, compuesta por múltiples secciones, cada una con subcampos. Se deben recuperar y actualizar distintas secciones del archivo XML como parte del flujo de trabajo (Workflow) de procesamiento. ¿Qué tipo de dispositivo de almacenamiento NoSQL es el más adecuado para los requisitos de almacenamiento de datos de Kerry?

Roger planea reemplazar la base de datos relacional con una base de datos NoSQL para almacenar los datos de sesión de los usuarios de una popular tienda online. Las sesiones de los usuarios son identificadas por medio de la ID y de una marca de hora, y almacenan los datos específicos de la aplicación, que son exclusivamente anexados. Los datos de sesión de los usuarios son analizados, lo que requiere que los datos de la sesión de cada uno de los usuarios sean agrupados. ¿Qué tipo de dispositivo de almacenamiento NoSQL puede ser utilizado en este caso?

Mike está a cargo del diseño de una base de datos para almacenar activos físicos que se encuentran distribuidos geográficamente por el país. Cada activo tiene un conjunto básico de atributos, como ID, tipo y fecha de fabricación. Asimismo, cada activo está conectado físicamente con varios otros activos. Mike conoció que la base de datos será usada intensamente por los ingenieros con el fin de hallar activos que están conectados con otros, así como para determinar la distancia entre dos activos. ¿Qué tipo de dispositivo de almacenamiento puede usar Mike para satisfacer los requisitos de consulta de los ingenieros?

John está diseñando una aplicación web que almacena distintas piezas de información relacionadas con cada cliente, como la información personal del cliente (incluyendo dirección e información de tarjeta de crédito), el historial de compras del cliente y comentarios publicados en la página web para diferentes productos. John quiere ser capaz de buscar clientes usando sus nombres para poder actualizar los registros de los clientes. Igualmente, él espera que se ejecuten varios tipos de análisis de los clientes. Uno de los análisis que determina los sentimientos de los clientes requiere acceso interactivo a texto en los comentarios, además de buscar los comentarios hechos por cada cliente. ¿Qué tipo de base de datos NoSQL puede utilizar John para facilitar el acceso a cada campo y permitir que los datos de los comentarios sean recuperados rápidamente?

Los _____ son una buena opción cuando se debe acceder a los datos en modo de streaming sin operaciones aleatorias de lectura ni escritura

los ____funcionan mejor con menos archivos, pero de mayor tamaño, a los cuales se accede de forma secuencial

caracteristicas del motor de procesamiento big data

Dar soporte a un entorno de procesamiento distribuido con capacidades de procesamiento paralelo requiere un motor de procesamiento que pueda ofrecer un rendimiento estable mientras el volumen de datos crece.

Implementar un software de código abierto en un hardware básico ayuda a

que caracteristica de procesamiento apoya la capacidad del motor de procesamiento para aprovechar el Cloud Computing.

que caracteristica de procesamiento :
, es necesario que la plataforma de procesamiento subyacente sea compatible tanto con las cargas de trabajo transaccionales como con las de lote.

los datos de big data se presentan de dos formas:

caracteristica de procesamiento:
es necesario utilizar un modelo de procesamiento basado en el principio de dividir un problema difícil en tantas partes como sea necesario, al igual que sucede con el procesamiento de datos paralelos.

que caracteristica del motor de procesamiento fomenta el uso de software de codigo abierto y cloud computing

la replicacion crea multiples copias de un dataset, conocidas como ____ y las almacena en varios nodos

que caracteristica del motor de procesamiento permite el procesamiento de datos tanto por lotes como en tiempo real

que caracteristica de motor de porcesamiento permite que haya funcionalidad cuando se presentan fallas en el sistema

el teorema cap establece que un sistema de archivos distribuido solo puede proporcionar dos de las tres propiedades, que son

___ es el proceso de particionar horizontalmente un gran dataset en un grupo de datasets mas pequenos y manejables llamados ___ distribuidos entre multiples nodos

que caracteristica del motor de procesamiento permite el procesamiento de grandes cantidades de datos en la fuente sin necesidad de transferirlos desde su lugar de almacenamiento hasta un recurso de informatica?

el ___ de map reduce aborada la necesidad de una ejecucion repetida de la misma tarea en datos distribuidos al usar un enfoque de paralelismo de datos

en la replicacion ___, el nodo maestro es el unico punto de contacto para todas las operaciones de escritura, mientras que los datos pueden ser leidos desde cualquier nodo esclavo

que significa BASE

en la replicacion peer to peer no hay nodos maestro ni esclavo y todos los nodos llamados __, operan al mismo nivel

en el contexto de teorema CAP las bases de datos relacionales proporcionan ___ y ____

que caracteristica del motor de procesamiento da soporte a los modelos de datos cambiantes y permite el procesamiento de datos en su forma original sin la necesidad de llevar a cabo ninguna transformacion en el modelo de datos

que modo de porcesamiento en tiempo reral es:
se ubica dentro de la categoría de tiempo real. El ___ generalmente se refiere al procesamiento de consultas en tiempo real. La Inteligencia de negocios (BI) y la analítica operativa generalmente hacen uso del modo en tiempo real.

el procesamiento en big data requiere un entorno ___ qyue sea capaz de procesar datos en ___, lo caul es una caracteristica soportada por la arquitectura en ____

Los clusters permiten el procesamiento de datos ____ y son altamente ___

En la arquitectura en cluster, los datasets de Big Data pueden ser procesados por ___ o ___ usando un motor de
procesamiento por lotes

falso o verdadero ? A fin de que los datos almacenados tengan una estructura, la mayoría de dispositivos de almacenamiento de tipo llave-valor (key-value) ofrecen colecciones o sectores de almacenamiento (buckets; por ejemplo, tablas) dentro de los cuales se pueden organizar las parejas de llave-valor (key-value),

	Created by Smac Smac over 6 years ago

Informática Flashcards on Módulo 7: Ingeniería fundamental de Big Data, created by Smac Smac on 06/03/2018.